我想使用python读取spark数据框,然后将spark数据框转换为pandas数据框,然后将pandas数据框转换回spark数据框(在进行一些数据分析之后)。请提出建议。
我真的建议您花些时间仔细阅读Spark的文档,着重于Pyspark
实现,因为它比其他示例更多。
容易,如果您阅读了SQLContext.createDataFrame的文档,则可以看到它们可以将以下结构作为数据接收:
createDataFrame(data, schema=None, samplingRatio=None)
数据–行/元组/列表/字典,列表或pandas.DataFrame的RDD。
此外,如果您阅读了有关DataFrames的文档,您会发现它们有一个称为的方法toPandas
,它允许将spark的转换DataFrame
为Pandas
。
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句