将非唯一列表的Pandas列转换为具有填充条目的列名称

debugcn 发表于 Dev

马格努斯

我有一个数据框 data:

import pandas as pd
data = pd.DataFrame({"col1" : ['1_xy','2_xy','3_xy','4_xy','5_xy'], 
                     "col2" : [['a', 'b', 'c'], 
                               ['d', 'e', 'f', 'g', 'h', 'i'], 
                               ['a', 'j', 'k'], 
                               ['a', 'b', 'd'], 
                               ['a', 'l', 'm']]})

输出：

    col1    col2
0   1_xy    [a, b, c]
1   2_xy    [d, e, f, g, h, i]
2   3_xy    [a, j, k] 
3   4_xy    [a, b, d]
4   5_xy    [a, l, m]

我正在尝试将此数据帧转换为如下所示的数据帧：

import re
new_data = pd.DataFrame({'col1': ['1_xy','2_xy','3_xy','4_xy','5_xy'],
                     'a' : [1,0,1,1,1], 'b' : [1,0,0,1,0],
                     'c' : [1,0,0,0,0], 'd' : [0,1,0,1,0],
                     'e' : [0,1,0,0,0], 'f' : [0,1,0,0,0],
                     'g' : [0,1,0,0,0], 'h' : [0,1,0,0,0],
                     'i' : [0,1,0,0,0], 'j' : [0,0,1,0,0],
                     'k' : [0,0,1,0,0], 'l' : [0,0,0,0,1],
                     'm' : [0,0,0,0,1]})
new_data[["col1"] + [name for name in new_data.columns if not re.search("col1", name)]]

输出：

    col1    a   b   c   d   e   f   g   h   i   j   k   l   m
0   1_xy    1   1   1   0   0   0   0   0   0   0   0   0   0
1   2_xy    0   0   0   1   1   1   1   1   1   0   0   0   0
2   3_xy    1   0   0   0   0   0   0   0   0   1   1   0   0
3   4_xy    1   1   0   1   0   0   0   0   0   0   0   0   0
4   5_xy    1   0   0   0   0   0   0   0   0   0   0   1   1

也就是说，新数据框的列由在中的列表中找到的唯一值组成data.col2，并且值填充有对应于列表中条目的值。

到目前为止，我一直在玩pandas.get_dummies，但是它会创建我无法控制的虚假列。

我尝试在其上执行此操作的实际数据非常高（很多行），因此内存“可能”成为一个问题，但是欢迎所有解决方案。我应该补充一点，我已经准备好一种变通方法，该方法使用字典方法-但不幸的是，它很慢。希望任何人以前都曾遇到过这个问题，可以为您提供帮助。

我目前正在使用python v3.4和pandas v0.14.1（我知道...）

博维尔上校

您可以通过播放参数以获取正确的列名来尝试get_dummies：

df = pd.get_dummies(data.col2.apply(pd.Series), prefix='', prefix_sep='')
pd.concat([data['col1'], df], axis=1)

Out[31]:
   col1  a  d  b  e  j  l  c  d  f  k  m  g  h  i
0  1_xy  1  0  1  0  0  0  1  0  0  0  0  0  0  0
1  2_xy  0  1  0  1  0  0  0  0  1  0  0  1  1  1
2  3_xy  1  0  0  0  1  0  0  0  0  1  0  0  0  0
3  4_xy  1  0  1  0  0  0  0  1  0  0  0  0  0  0
4  5_xy  1  0  0  0  0  1  0  0  0  0  1  0  0  0

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。