搜索

搜索

以内存高效的方式迭代添加熊猫数据帧

Escachator 发表于 Dev

4

乘员

我试图以迭代方式添加从一组csv文件中读取的一些pandas数据帧，并且在第16个文件之后，出现内存错误。新文件是大约30万行的熊猫。

有没有办法在硬盘驱动器上（例如，使用hdf5）或更有效地利用内存？

请参阅下面的代码。注意sum_of_all_files从一个空的数据帧开始。

sum_of_all_files = pd.DataFrame()
for file_name in list_of_files:
    file_df=pd.read_csv(file_name,index_col=0,header=None).dropna()
    sum_of_all_files=sum_of_all_files.add(file_df,fill_value=0, axis='index')

谢谢！

编辑：我想按索引添加，即如果两行具有相同的索引，请将它们添加。我通过在最后一行添加“ axis ='index'”更正了上面的代码。

耶斯列尔

你可以用concat与sum：

files = glob.glob('files/*.csv')

dfs = [pd.read_csv(file_name,index_col=0,header=None).dropna() for file_name in files]
df = pd.concat(dfs).sum()
print (df)

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-03-3

0

我来说两句

0条评论

登录后参与评论

上一篇：如何从标签中删除数据

相关文章

来自分类Dev

Numpy：以内存高效的方式存储标准基向量

来自分类Dev

使用RPy（或其他方式）*高效**将数据帧从熊猫移动到R

来自分类Dev

迭代和平均熊猫数据帧

来自分类Dev

迭代多个数据帧熊猫

来自分类Dev

高效的数据存储方式

来自分类Dev

如何分块迭代两个熊猫数据帧

来自分类Dev

在熊猫数据帧上逐行迭代，并可能跳回

来自分类Dev

创建熊猫数据帧时如何预分配内存

来自分类Dev

尽可能高效地执行一些熊猫数据帧行的成对比较

来自分类Dev

迭代时将元素添加到数据帧

来自分类Dev

高效的查询熊猫数据集

来自分类Dev

高效的熊猫数据框插入

来自分类Dev

加快数据帧迭代

来自分类Dev

网页抓取：使用熊猫更新/添加到数据帧

来自分类Dev

迭代并添加熊猫列

来自分类Dev

熊猫数据框迭代并添加到设置问题

来自分类Dev

熊猫数据帧压缩

来自分类Dev

循环熊猫的数据帧

来自分类Dev

在PySpark / Delta数据帧上高效执行

来自分类Dev

使用第二个数据帧在一个数据帧中有条件地填充值的更高效的方式

来自分类Dev

如何有效地迭代熊猫数据帧的连续块

来自分类Dev

熊猫数据帧：len（df）不等于df.iterrows（）中的迭代次数

来自分类Dev

核心数据内存高效迁移

来自分类Dev

核心数据内存高效迁移

来自分类Dev

熊猫-读取以字符串形式存储在内存中的csv到数据帧

来自分类Dev

具有迭代器的内存高效词法分析

来自分类Dev

R内存有效的方式来存储许多数据帧？

来自分类Dev

R内存有效的方式来存储许多数据帧？

来自分类Dev

Python：跨数据帧迭代

Related 相关文章

文章

热门标签

归档