熊猫：读取CSV文件以创建3D数组

Jason 发表于 Dev

杰森

第一次在这里发布。所以我的问题是关于如何在Pandas中读取CSV文件的目的，目的是创建一个在每个元素内都具有矩阵的2d数组。

因此，以该示例CSV文件为例

1,1,1;2,2,2;3,3,3
1,1,1;2,2,2;3,3,3
1,1,1;2,2,2;3,3,3

其中每条新行代表一个单独的矩阵
，每个分号代表每个矩阵内的单独行
，每个逗号代表每行内的单独元素

因此，我想进入这种类型的数组：

[
   [[1,1,1],[2,2,2],[3,3,3]],
   [[1,1,1],[2,2,2],[3,3,3]],
   [[1,1,1],[2,2,2],[3,3,3]]
]

当前，当我在类似这样的东西上使用pandas.read_csv（）时，它不会读取分号作为分隔符，因此像1; 2这样的东西将被读取为字符串。

谢谢！

耶斯列尔

您可以使用read_csv参数sep=';'和header=None（如果没有标题csv）。然后，您需要applyfunction str.split，因为string函数仅适用于Series（的列df）：

import pandas as pd
import io

temp=u"""1,1,1;2,2,2;3,3,3
1,1,1;2,2,2;3,3,3
1,1,1;2,2,2;3,3,3"""
#after testing replace io.StringIO(temp) to filename
df = pd.read_csv(io.StringIO(temp), sep=";", header=None)
print (df)
       0      1      2
0  1,1,1  2,2,2  3,3,3
1  1,1,1  2,2,2  3,3,3
2  1,1,1  2,2,2  3,3,3

print (df.apply(lambda x: x.str.split(',')))
           0          1          2
0  [1, 1, 1]  [2, 2, 2]  [3, 3, 3]
1  [1, 1, 1]  [2, 2, 2]  [3, 3, 3]
2  [1, 1, 1]  [2, 2, 2]  [3, 3, 3]

print (df.apply(lambda x: x.str.split(',')).values.tolist())
[[['1', '1', '1'], ['2', '2', '2'], ['3', '3', '3']], 
 [['1', '1', '1'], ['2', '2', '2'], ['3', '3', '3']], 
 [['1', '1', '1'], ['2', '2', '2'], ['3', '3', '3']]]

但是如果需要清单int：

import pandas as pd
import io

temp=u"""1,1,1;2,2,2;3,3,3
1,1,1;2,2,2;3,3,3
1,1,1;2,2,2;3,3,3"""
#after testing replace io.StringIO(temp) to filename
df = pd.read_csv(io.StringIO(temp), sep=";", header=None)
print (df)
       0      1      2
0  1,1,1  2,2,2  3,3,3
1  1,1,1  2,2,2  3,3,3
2  1,1,1  2,2,2  3,3,3

for col in df.columns:
    df[col] = df[col].str.split(',')
    #if need convert string numbers to int
    df[col] = [[int(y) for y in x] for x in df[col]]    

print (df.values.tolist())
[[[1, 1, 1], [2, 2, 2], [3, 3, 3]], 
 [[1, 1, 1], [2, 2, 2], [3, 3, 3]], 
 [[1, 1, 1], [2, 2, 2], [3, 3, 3]]]