遍历结构化文件的 2 列

黑麦面包

我正在尝试解析庞大数据集的一部分。我拥有的数据集部分是一个 3GB 的 gzip 文件。该文件的结构使其具有 x 列和数百万行。列用逗号或某种常用运算符分隔,以便我可以读取文件。

我想要做的是基于 2 个范围(即值 a < col1 < 值 b,值 c < col2 < 值 d),检查数据集每一行的两列值。如果两个值都在数据集的范围内,则将整行数据移动到一个新文件(?不确定将它存储在什么文件中),然后返回该新子集。

我缺少的是对如何处理这样的迭代的基本理解。在我使用 pandas read_csv 函数来过滤数据集后,我正在努力处理如何处理该集合。我想我应该使用数据框来访问我正在寻找的数据,但我不确定。

心慌意乱

IIUC,创建一个最小的可重现示例:

from io import StringIO 
data = StringIO("""X, a, 1, 15
Y, a, 12, 44
Z, a, 13, 39
W, a, 11, 47""")
df=pd.read_csv(data,header=None)
df.columns=['A','B','C','D']
print(df)

  A   B   C   D
0  X   a   1  15
1  Y   a  12  44
2  Z   a  13  39
3  W   a  11  47

现在使用series.between()过滤器df.loc[]

cond1 = df['C'].between(10,15) #check if C betwen 10,15
cond2 = df['D'].between(40,50) #check if D between 40 and 50
df_new=df.loc[cond1&cond2] #pull data where both condition matches and place in new_df
print(df_new)

   A   B   C   D
1  Y   a  12  44
3  W   a  11  47

如果对 sql 查询感到满意(仅用于实验):):

import pandasql as ps
ps.sqldf('select * from df where df.C between 10 and 15 and df.D between 40 and 50')

   A   B   C   D
0  Y   a  12  44
1  W   a  11  47

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

从列创建numpy结构化数组

来自分类Dev

结构化参考表的列的结构化归一化?

来自分类Dev

按非结构化文本列分组以透视数据

来自分类Dev

更新Pyspark中地图类型列的结构化值

来自分类Dev

vim从结构化数据中剪切逻辑列

来自分类Dev

SAML2 xml结构化属性值

来自分类Dev

如何*实际上*从numpy结构化数组中删除列(这样它就不会显示在二进制文件中)

来自分类Dev

通过按列操作(位掩码)对列数据进行结构化数组过滤

来自分类Dev

从2列格式化JSON文件

来自分类Dev

Matlab 数据从非结构化 2D 网格到粗结构化 2D 网格的插值

来自分类Dev

从numpy结构化数组中删除列(数组中的元组列表)?

来自分类Dev

numpy:如何将列添加到现有的结构化数组?

来自分类Dev

在特定的列索引处将字段插入结构化数组

来自分类Dev

如何在不复制*的情况下从结构化numpy数组中删除列?

来自分类Dev

Spark结构化流时,DataFrame中的字符串列如何拆分为多个列

来自分类Dev

在特定的列索引处将字段插入结构化数组

来自分类Dev

获取一个numpy结构化数组中的所有列。

来自分类Dev

将非结构化 nvarchar 数据转换为行和列

来自分类Dev

如何返回每个字段/列只有一个值的结构化数组?

来自分类Dev

fb-hydra:如何实现2个嵌套的结构化配置?

来自分类Dev

具有2种不同数据类型的结构化numpy数组

来自分类Dev

熊猫结构化2D数据到XYZ表

来自分类Dev

Symfony2表单-扁平实体的结构化数据

来自分类Dev

结构化Angular2表单-如何包括可验证的条件表单字段

来自分类Dev

结构化流 - 加入来自同一流源的 2 个数据帧

来自分类Dev

读取Java中的结构化文件

来自分类Dev

VTK结构化点文件

来自分类Dev

如何使用结构化引用来标识列并将标识的列中的行值用作条件?

来自分类Dev

excel-使用结构化引用并在多个列之间拖动方程式时,保持列引用固定

Related 相关文章

  1. 1

    从列创建numpy结构化数组

  2. 2

    结构化参考表的列的结构化归一化?

  3. 3

    按非结构化文本列分组以透视数据

  4. 4

    更新Pyspark中地图类型列的结构化值

  5. 5

    vim从结构化数据中剪切逻辑列

  6. 6

    SAML2 xml结构化属性值

  7. 7

    如何*实际上*从numpy结构化数组中删除列(这样它就不会显示在二进制文件中)

  8. 8

    通过按列操作(位掩码)对列数据进行结构化数组过滤

  9. 9

    从2列格式化JSON文件

  10. 10

    Matlab 数据从非结构化 2D 网格到粗结构化 2D 网格的插值

  11. 11

    从numpy结构化数组中删除列(数组中的元组列表)?

  12. 12

    numpy:如何将列添加到现有的结构化数组?

  13. 13

    在特定的列索引处将字段插入结构化数组

  14. 14

    如何在不复制*的情况下从结构化numpy数组中删除列?

  15. 15

    Spark结构化流时,DataFrame中的字符串列如何拆分为多个列

  16. 16

    在特定的列索引处将字段插入结构化数组

  17. 17

    获取一个numpy结构化数组中的所有列。

  18. 18

    将非结构化 nvarchar 数据转换为行和列

  19. 19

    如何返回每个字段/列只有一个值的结构化数组?

  20. 20

    fb-hydra:如何实现2个嵌套的结构化配置?

  21. 21

    具有2种不同数据类型的结构化numpy数组

  22. 22

    熊猫结构化2D数据到XYZ表

  23. 23

    Symfony2表单-扁平实体的结构化数据

  24. 24

    结构化Angular2表单-如何包括可验证的条件表单字段

  25. 25

    结构化流 - 加入来自同一流源的 2 个数据帧

  26. 26

    读取Java中的结构化文件

  27. 27

    VTK结构化点文件

  28. 28

    如何使用结构化引用来标识列并将标识的列中的行值用作条件?

  29. 29

    excel-使用结构化引用并在多个列之间拖动方程式时,保持列引用固定

热门标签

归档