如何在Spark中释放数据帧？

debugcn 发表于 Dev

克莱默·李

我正在使用spark做一些计算。每隔5分钟，我就会得到一个新的数据框。我把它放在这样的字典中dict_1_hour

dict_1_hour[timestamp] = dataframe

新数据帧进入字典，旧数据帧从字典弹出。其中仅保留12个数据帧，即最近1小时的数据。

所以我的问题是我应该如何释放那些数据帧以确保没有内存泄漏？

一种用于数据框的API似乎可以做到这一点。（我不知道该参数的作用）

unpersist(blocking=True)
Marks the DataFrame as non-persistent, and remove all blocks for it from memory and disk.

我认为的另一种方法是从dict弹出数据框。

dict_1_hour.pop(timestamp)

Python应该自动释放未使用的变量。但是我不知道这里是否合适。我担心如果您不明确地释放火花，火花可能会使数据框保持不变

所以请建议我应该使用哪种方式

零323

首先DataFrame，类似于RDD，只是一个本地递归数据结构。我在Python和JVM端都经历了与任何其他对象相同的垃圾收集周期。

你必须要考虑的第二部分是持续的数据（cache，persist，cacheTable，随机文件等）。通常，这由Spark内部处理，并且不排除unpersist您对其生存期没有太多控制权。

牢记这两件事，除了del在对象上简单之外，没有什么可以做的。

try:
    del dict_1_hour[timestamp]
except KeyError:
    pass

不过，如果DataFrame已注册为临时表，请确保先注销它：

from py4j.protocol import Py4JError

try:
    sqlContext.dropTempTable("df")
except Py4JError:
    pass

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-06-18

我来说两句

0条评论

登录后参与评论

来自分类Dev

如何在Spark数据帧中展平结构？

来自分类Dev

如何在Spark数据帧中合并数组列

来自分类Dev

如何在Spark数据帧中执行链功能？

来自分类Dev

如何在 Spark 中转置数据帧？

来自分类Dev

如何在不使用Spark SQL的情况下在Spark中对数据帧进行排序？

来自分类Dev

如何在spark中的复杂结构数据帧中绑定变量

来自分类Dev

如何在Python中将Spark数据帧中的所有列值合并为String？

来自分类Dev

如何在spark scala中通过数据帧动态调用withColumn函数

来自分类Dev

如何在 Spark 中的 AWS Glue 创建的数据帧上运行 SQL SELECT？

来自分类Dev

如何在R中拉伸数据帧？

来自分类Dev

如何从分组数据中获取Spark数据帧

来自分类Dev

如何在Spark 1.5中转置数据帧（没有可用的数据透视运算符）？

来自分类Dev

如何将apache ignite与spark数据帧集成以及如何在spark数据帧上应用索引？

来自分类Dev

如何确定Apache Spark数据帧中的分区大小

来自分类Dev

如何从Pyspark中的spark数据帧创建边缘列表？

来自分类Dev

如何在不使用合并的情况下在本地系统的单个文件中写入spark数据帧

来自分类Dev

如何在R中的数据帧中添加抖动

来自分类Dev

如何在R中的数据帧中对子组编号

来自分类Dev

如何在R中的数据帧中组合相似元素

来自分类Dev

如何在R中的数据帧中组合相似元素

来自分类Dev

如何在Python中的数据帧中获取for循环的结果

来自分类Dev

如何在Spark中访问此类数据

来自分类Dev

如何在 R（交叉引用数据帧）中执行基于标记的数据帧校正？

来自分类Dev

如何在熊猫中按行拆分数据帧或重新排序数据帧

来自分类Dev

如何在使用pyspark从其自己的数据帧中选择的火花数据帧中执行计算

来自分类Dev

如何在R中获取数据帧的比例和计数

来自分类Dev

如何在熊猫中彼此堆叠数据帧

来自分类Dev

如何在熊猫中组合3个复杂的数据帧

来自分类Dev

如何在R中以正确的格式输出数据帧？

Related 相关文章

文章