以内存高效的方式迭代添加熊猫数据帧

乘员

我试图以迭代方式添加从一组csv文件中读取的一些pandas数据帧,并且在第16个文件之后,出现内存错误。新文件是大约30万行的熊猫。

有没有办法在硬盘驱动器上(例如,使用hdf5)或更有效地利用内存?

请参阅下面的代码。注意sum_of_all_files从一个空的数据帧开始。

sum_of_all_files = pd.DataFrame()
for file_name in list_of_files:
    file_df=pd.read_csv(file_name,index_col=0,header=None).dropna()
    sum_of_all_files=sum_of_all_files.add(file_df,fill_value=0, axis='index')

谢谢!

编辑:我想按索引添加,即如果两行具有相同的索引,请将它们添加。我通过在最后一行添加“ axis ='index'”更正了上面的代码。

耶斯列尔

你可以用concatsum

files = glob.glob('files/*.csv')

dfs = [pd.read_csv(file_name,index_col=0,header=None).dropna() for file_name in files]
df = pd.concat(dfs).sum()
print (df)

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

Numpy:以内存高效的方式存储标准基向量

来自分类Dev

使用RPy(或其他方式)*高效**将数据帧从熊猫移动到R

来自分类Dev

迭代和平均熊猫数据帧

来自分类Dev

迭代多个数据帧熊猫

来自分类Dev

高效的数据存储方式

来自分类Dev

如何分块迭代两个熊猫数据帧

来自分类Dev

在熊猫数据帧上逐行迭代,并可能跳回

来自分类Dev

创建熊猫数据帧时如何预分配内存

来自分类Dev

尽可能高效地执行一些熊猫数据帧行的成对比较

来自分类Dev

迭代时将元素添加到数据帧

来自分类Dev

高效的查询熊猫数据集

来自分类Dev

高效的熊猫数据框插入

来自分类Dev

加快数据帧迭代

来自分类Dev

网页抓取:使用熊猫更新/添加到数据帧

来自分类Dev

迭代并添加熊猫列

来自分类Dev

熊猫数据框迭代并添加到设置问题

来自分类Dev

熊猫数据帧压缩

来自分类Dev

循环熊猫的数据帧

来自分类Dev

在PySpark / Delta数据帧上高效执行

来自分类Dev

使用第二个数据帧在一个数据帧中有条件地填充值的更高效的方式

来自分类Dev

如何有效地迭代熊猫数据帧的连续块

来自分类Dev

熊猫数据帧:len(df)不等于df.iterrows()中的迭代次数

来自分类Dev

核心数据内存高效迁移

来自分类Dev

核心数据内存高效迁移

来自分类Dev

熊猫-读取以字符串形式存储在内存中的csv到数据帧

来自分类Dev

具有迭代器的内存高效词法分析

来自分类Dev

R内存有效的方式来存储许多数据帧?

来自分类Dev

R内存有效的方式来存储许多数据帧?

来自分类Dev

Python:跨数据帧迭代