Apache Spark与Python

德瓦什

我想使用python读取spark数据框,然后将spark数据框转换为pandas数据框,然后将pandas数据框转换回spark数据框(在进行一些数据分析之后)。请提出建议。

阿尔贝托·邦桑托

我真的建议您花些时间仔细阅读Spark的文档,着重于Pyspark实现,因为它比其他示例更多。

容易,如果您阅读了SQLContext.createDataFrame的文档,可以看到它们可以将以下结构作为数据接收:

createDataFrame(data, schema=None, samplingRatio=None)

数据–行/元组/列表/字典,列表或pandas.DataFrame的RDD。

此外,如果您阅读了有关DataFrames的文档,您会发现它们有一个称为的方法toPandas,它允许将spark的转换DataFramePandas

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章