仅追加尚未在pandas数据框中包含的行

debugcn 发表于 Dev

马丁

我有相同的数据集，但是在不同的星期内（因此以后的星期包含新行）。我想将新行附加到原始数据框，以创建一个具有所有唯一行且无重复的大数据框。我不能只花最后一个星期，因为有些星期会被删除。

我尝试使用以下代码，但不知何故我的final_info数据框仍然包含一些非唯一值

final_info = data[list(data.keys())[-1]]['all_info']
    for week in reversed(data.keys()):
    df_diff = pd.concat([data[week]['all_info'],final_info]).drop_duplicates(subset='project_slug', 
                                                                             keep=False)
    final_info = final_info.append(df_diff).reset_index(drop=True)

有人看到哪里出了问题吗？

JT贝克

如果我理解您的问题，那么您只是想将一个数据帧中的唯一行添加到另一数据帧中。我认为不需要像您所做的那样遍历所有键。在这个问题上有一个示例，我认为可以为您提供帮助，并且我认为从概念上讲1是比较容易的。我将尝试通过一个例子来使其更加清晰。

因此，如果您有一个数据框A：

和数据框B：

这两个数据帧的前两行相同，但后几行不同。如果要将所有唯一行都放入一个数据框中，则可以首先从其中一个数据框中获得所有唯一行。因此，对于此示例，您可以在数据帧B中获得唯一行，在此示例中将其称为df_diff。为此的代码将是

df_diff = B[~B.col1.isin(A.col1)]

output: col1  col2
        6     4

上面的代码行将其称为布尔掩码，然后使用〜取反，以便获得数据帧B中的所有行，而col1值不在数据帧A中。

然后，您可以将此数据帧df_diff与第一个数据帧A合并。我们可以将其称为df_full。此步骤完成：

df_full = pd.concat([A, df_diff], ignore_index=True)

ignore_index = True只是重置结果数据帧的索引。这将为您提供：

现在，上面的数据框在数据框B中具有新行，再加上数据框A中的原始行。

我认为这将适合您的情况，并且代码行可能更少。

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-04-5

我来说两句

0条评论

登录后参与评论

来自分类Dev

Related 相关文章

文章

仅追加尚未在pandas数据框中包含的行

仅追加尚未在pandas数据框中包含的行

从仅包含0或仅包含0的数据框中删除行

如何从R中仅包含少量单词的数据框中删除行？

如何仅淡化包含分类变量的Pandas数据框中的数字列？

熊猫过滤数据框以仅显示包含零的行

仅当尚未在Julia中定义时分配

如何仅选择用户尚未在Django中回答的问题

Python：函数返回的值未在Pandas数据框中更新

从数据框中仅选择包含值> 5的列

仅缩放包含字符串的数据框中的数值

从熊猫的数据框中仅提取包含“真”值的列

python：删除pandas数据框中包含字符串的所有行

选择python pandas数据框的后两列中包含相同文本的行

提取行，其中列的列表在pandas数据框中包含某些值

python：删除pandas数据框中包含字符串的所有行

Pandas：如果满足条件，则在数据框中包含新的时间戳行

Python：创建一个仅包含指定索引编号数组中的行的新数据框

仅将 Pandas 数据框中的新行附加到数据库中的表的有效方法

从Pandas数据框中选择包含某些值的行

枚举pandas数据框中的行

从Pandas数据框中的行填充字典

仅将熊猫数据框的最后一行追加到新数据框

计算R中数据框中包含组合的行

在 Pandas 数据框列中存储仅数字或字母的值？

在列SQL中过滤仅包含数字数据的行

pandas str。包含在Pyspark的pyspark数据框中

str。包含在pandas数据框中创建新列

Pandas 数据框根据每个连续行追加行

从数据框中删除包含字符列表之外的字符的行

如何删除包含空列表的数据框中的行？