我试图以迭代方式添加从一组csv文件中读取的一些pandas数据帧,并且在第16个文件之后,出现内存错误。新文件是大约30万行的熊猫。
有没有办法在硬盘驱动器上(例如,使用hdf5)或更有效地利用内存?
请参阅下面的代码。注意sum_of_all_files从一个空的数据帧开始。
sum_of_all_files = pd.DataFrame()
for file_name in list_of_files:
file_df=pd.read_csv(file_name,index_col=0,header=None).dropna()
sum_of_all_files=sum_of_all_files.add(file_df,fill_value=0, axis='index')
谢谢!
编辑:我想按索引添加,即如果两行具有相同的索引,请将它们添加。我通过在最后一行添加“ axis ='index'”更正了上面的代码。
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句