使用熊猫从CSV读取数据时如何忽略具有相同索引的多个条目

debugcn 发表于 Dev

乌塔拉

我有一个看起来像这样的csv文件：

patient_id, age_in_years,   CENSUS_REGION,  URBAN_RURAL_STATUS, YEAR

11511,  7,  Northeast,  Urban,  2011

9882613,    73, South,  Urban,  2011

32190339,   49, West,   Urban,  2011

32190339,   49, West,   Urban,  2011

32190339,   49, West,   Urban,  2011

32190339,   49, West,   Urban,  2011

32190339,   49, West,   Urban,  2011

32190339,   49, West,   Urban,  2011
...

第一列（即Patient_id）是索引，您可以看到同一患者有多个条目。我希望我的代码在使用导入数据时忽略这些多个条目，pandas但是我不确定该怎么做。目前，我正在使用以下代码：

df = pd.read_csv(filename, index_col = 0)
df.drop_duplicates()

在代码的进一步内容中，我有一个表示以下内容的函数：

def URSTATUS_to_numeric(a):
if a == 'Urban':
    return 0
if a == 'Rural':
    return 1
if a == 'NULL':
    return 2

当我调用此函数并使用它打印时df.drop_duplicates()，这是我得到的：

df['URSTATUS_num'] = df['URBAN_RURAL_STATUS'].apply(URSTATUS_to_numeric)

print(df.drop_duplicates(['URSTATUS_num']))

>>> patient_id  URSTATUS_num  
     11511            0  
     129126475        1  
     151269094        NaN

因此，基本上，它会将URSTATUS_num列作为参考删除重复项。但是，我希望代码patient_id在执行drop_duplicates()操作时始终引用。谁能帮忙吗？

亚历山大大帝

我不认为您在阅读它们时可以忽略它们，但是一旦阅读它们，您可以使用轻松删除它们drop_duplicates。

df = pd.read_csv(filename, index_col = 0)
>>> df.drop_duplicates()
   patient_id  age_in_years CENSUS_REGION URBAN_RURAL_STATUS  YEAR
0       11511             7     Northeast              Urban  2011
1     9882613            73         South              Urban  2011
2    32190339            49          West              Urban  2011

编辑：

您可能只想调用一次，例如

df = pd.read_csv(filename, index_col = 0).drop_duplicates()

根据基础数据的整洁度，您可能首先需要进行预处理以去除空格等。

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-06-13

我来说两句

0条评论

登录后参与评论

来自分类Dev

如何使用熊猫简化具有多个索引的数据框？

来自分类Dev

如何忽略具有>或<符号的数值

来自分类Dev

在Rails应用程序中导入CSV时忽略具有空值的行

来自分类Dev

Apache忽略具有多个SSL域的documentroot

来自分类Dev

如何忽略具有特定值的 CSV 文件中的行？

来自分类Dev

当不同表中的两列具有相同名称时，如何使用SqlDataReader 读取数据？

来自分类Dev

Scrapy如何使用Loader忽略具有空白字段的项目

来自分类Dev

Scrapy如何使用Loader忽略具有空白字段的项目

来自分类Dev

如何忽略具有空值的行？

来自分类Dev

删除熊猫数据框中具有多个关联的条目？

来自分类Dev

熊猫数据框具有相同索引的多行

来自分类Dev

数据帧具有多个索引时的熊猫滚动平均值计算

来自分类Dev

删除/忽略具有非重叠编号序列（不是日期序列）的条目

来自分类Dev

熊猫：具有多个索引的滚动总和（即面板数据）

来自分类Dev

熊猫：如何在一个列上合并具有相同列名的多个数据框？

来自分类Dev

忽略具有glob的目录

来自分类Dev

如何强制多索引熊猫数据框在一个级别中具有相同数量的索引？

来自分类Dev

如何在熊猫中读取具有行名称的数据框的CSV文件

来自分类Dev

.gitignore正在忽略具有相同名称的其他目录

来自分类Dev

LiteDB - 具有相同 ID 的多个条目

来自分类Dev

如何合并具有重复索引条目的数据框和具有唯一索引条目的数据框？

来自分类Dev

如何使用熊猫在Excel输出文件中合并具有相同内容的多个列

来自分类Dev

从 Hibernate 检索时会忽略具有换行符的数据库列数据吗？

来自分类Dev

忽略具有多个自变量（known_x的）的Excel LINEST函数中的＃N / As

来自分类Dev

DIR命令可忽略具有多个扩展名的文件

来自分类Dev

使用变量筛选具有多个条件（熊猫）的数据框时出错

来自分类Dev

如何配置Automapper以自动忽略具有ReadOnly属性的属性？

来自分类Dev

Java：如何忽略具有null的字段并仅通过修改后的属性传递

来自分类Dev

Java：如何忽略具有null的字段并仅通过修改后的属性传递

Related 相关文章

文章