熊猫通过分类数据和大量nan值加入行/分组依据

debugcn 发表于 Dev

Weatherparga

我试图通过加入基于2列的行来简化数据框。现在，剩下的有点混乱了，有很多nan值等等。我将举一个例子：

初始：

    Name    Sex     Shoes       Bike          Car
0   John    Male             Specialised    
1   John    Male             Bridgestone    
2   Lucy    Female                            BMW
3   John    Male    Vans        
4   Lucy    Female  Nike

目标：

    Name    Sex     Shoes   Bike                        Car
0   John    Male    Vans    Specialised, Bridgestone    
1   Lucy    Female  Nike                                BMW

我应该使用什么功能？我不知道如何使用groupby和.agg（'，'。join）添加...

（上面的数据只是示例性的-我必须使用的数据有很多行，并且多次出现相同的名称，并且大约有20个“类别”列...也请注意，每一行中只有一个包含字符串） “类别”-鞋子/自行车/汽车等）

提前致谢！

马克·王

假设空单元格是NaN（不是空字符串），则以下将达到结果，

(df.set_index(['Name','Sex']) 
   .groupby(level=[0,1])
   .apply(lambda x:x.apply(lambda y: ', '.join(y.dropna())))
   .reset_index())

第二种方法

(df.set_index(['Name','Sex'])
   .stack()
   .groupby(level=[0,1,2])
   .apply(', '.join)
   .unstack()
   .reset_index()

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-04-1

我来说两句

0条评论

登录后参与评论

来自分类Dev

分类数据的累积值计数，分组依据

来自分类Dev

通过分类数据值进行计数和打印以达到卓越的有效方法

来自分类Dev

通过分类数据值进行计数和打印以达到卓越的有效方法

来自分类Dev

通过分组数据对图表进行熊猫循环

来自分类Dev

分组数据的分组依据（熊猫）

来自分类Dev

如何通过分组加入记录

来自分类Dev

如何通过分组依据从sql表中获取最大值？

来自分类Dev

在熊猫数据框的分组依据中获得唯一计数和最大值

来自分类Dev

熊猫：条件和与分组依据

来自分类Dev

熊猫数据框多索引和分组依据

来自分类Dev

使用Linq加入，分组依据和计数...。

来自分类Dev

通过分组计算熊猫数据框架上的累积移动平均值

来自分类Dev

通过分组查找最大值

来自分类Dev

通过分组选择不同的属性值

来自分类Dev

熊猫加入分组数据框

来自分类Dev

为什么加入和分组依据会影响Spark中的数据洗牌数量

来自分类Dev

为什么加入和分组依据会影响Spark中的数据洗牌数量

来自分类Dev

熊猫数据框中的MultiIndex分组依据

来自分类Dev

如何使用“分组依据”和“剪切”方法在熊猫数据框中使用连续分布对一系列列值进行分组？

来自分类Dev

熊猫分组依据和基于条件的计算

来自分类Dev

如何通过分组方式在熊猫中填充NA

来自分类Dev

选择大熊猫分组依据数据框的子集，其中多个键具有值

来自分类Dev

使用逻辑索引和分组依据在熊猫数据框中创建新列

来自分类Dev

如何使用加入和分组依据进行更新？

来自分类Dev

加入（？），分组依据和两个模式

来自分类Dev

如何通过分组数据制作数据透视表

来自分类Dev

熊猫-涉及分类分组的最近值查找

来自分类Dev

如何组合分组依据和排序值

来自分类Dev

高图通过分组值动态更新图例

Related 相关文章

文章