Apache Spark与Python

debugcn 发表于 Dev

德瓦什

我想使用python读取spark数据框，然后将spark数据框转换为pandas数据框，然后将pandas数据框转换回spark数据框（在进行一些数据分析之后）。请提出建议。

阿尔贝托·邦桑托

我真的建议您花些时间仔细阅读Spark的文档，着重于Pyspark实现，因为它比其他示例更多。

容易，如果您阅读了SQLContext.createDataFrame的文档，则可以看到它们可以将以下结构作为数据接收：

createDataFrame(data, schema=None, samplingRatio=None)

数据–行/元组/列表/字典，列表或pandas.DataFrame的RDD。

此外，如果您阅读了有关DataFrames的文档，您会发现它们有一个称为的方法toPandas，它允许将spark的转换DataFrame为Pandas。

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-06-16

我来说两句

0条评论

登录后参与评论

来自分类Dev

Apache Spark和Python Lambda

来自分类Dev

Apache Spark Python UDF 失败

来自分类Dev

Apache Spark与Apache Ignite

来自分类Dev

无法从Python运行Apache Spark的Pi示例

来自分类Dev

Apache Spark CombineByKey与Python中的元素列表

来自分类Dev

使用Python将Apache Kafka与Apache Spark流集成

来自分类Dev

Apache Spark如何处理python多线程问题？

来自分类Dev

如何使用Apache Spark数据帧（Python）执行Switch语句

来自分类Dev

How does Apache spark handle python multithread issues?

来自分类Dev

与Apache Spark嵌套嵌套？

来自分类Dev

Apache Spark中的“哪里”

来自分类Dev

Apache Spark mapPartitionsWithIndex

来自分类Dev

Apache Spark和gRPC

来自分类Dev

Apache Spark：SparkPi示例

来自分类Dev

Apache Spark与Akka

来自分类Dev

Apache Spark：map与mapPartitions？

来自分类Dev

Apache Spark架构

来自分类Dev

Apache Drill与Spark

来自分类Dev

Apache Spark：NoSuchMethodError

来自分类Dev

Google Dataflow与Apache Spark

来自分类Dev

Apache Sqoop和Spark

来自分类Dev

Apache Spark移动平均

来自分类Dev

Apache Spark任务失败

来自分类Dev

Apache Spark：逐步执行

来自分类Dev

Spark Apache源代码

来自分类Dev

Apache Spark RDD替代

来自分类Dev

Apache Spark 数据框

来自分类Dev

Apache Spark 代码问题

来自分类Dev

Apache Spark 分区

Related 相关文章

文章