如何将 Pandas DataFrame 的 rdd 转换为 Spark DataFrame

yuxu zi

我创建了一个 Pandas DataFrame rdd 作为中间结果。我想转换一个 Spark DataFrame,最终将它保存到 parquet 文件中。

我想知道什么是有效的方法。

谢谢

def create_df(x):
  return pd.DataFrame(np.random.rand(5, 3)).\
           assign(col=x)

sc.parallelize(range(5)).map(create_df).\
          .TO_DATAFRAME()..write.format("parquet").save("parquet_file")

我试过 pd.concat 将 rdd 减少到一个大数据帧,似乎不对。

yuxu zi
import pandas as pd

def create_df(x): 
    df=pd.DataFrame(np.random.rand(5, 3)).assign(col=x)
    return df.values.tolist()


sc.parallelize(range(5)).flatMap(create_df).toDF().\
.write.format("parquet").save("parquet_file")

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

Apache Spark:如何将Spark DataFrame转换为RDD [(Type1,Type2,...)]类型的RDD?

来自分类Dev

在Spark / Scala中将RDD转换为Dataframe

来自分类Dev

在scala中将Spark Dataframe转换为RDD

来自分类Dev

如何将基于案例类的RDD转换为DataFrame?

来自分类Dev

如何将SparkR DataFrame转换为RDD

来自分类Dev

如何将SparkR DataFrame转换为RDD

来自分类Dev

如何将 RDD[CassandraRow] 转换为 DataFrame?

来自分类Dev

如何将Spark Streaming数据转换为Spark DataFrame

来自分类Dev

如何将Pandas DataFrame groupby结果转换为DataFrame?

来自分类Dev

使用Scala将org.apache.spark.mllib.linalg.Vector RDD转换为Spark中的DataFrame

来自分类Dev

如何将表转换为Spark Dataframe

来自分类Dev

Spark:如何将元组转换为DataFrame

来自分类Dev

Spark SQL-如何将RelationalGroupedDataSet转换为DataFrame

来自分类Dev

pyspark:将DataFrame转换为RDD [string]

来自分类Dev

使用pyspark将RDD转换为DataFrame

来自分类Dev

无法将RDD [Row]转换为DataFrame

来自分类Dev

如何将 DataFrame 转换为 RDD[Point] 而不是 RDD[ROW]?

来自分类Dev

如何将单列Pandas DataFrame转换为Series

来自分类Dev

如何将Pandas Dataframe转换为所需的Json格式

来自分类Dev

如何将列名称数组转换为pandas Dataframe?

来自分类Dev

如何将嵌套字典从BeautifulSoup转换为Pandas DataFrame

来自分类Dev

如何将嵌套字典转换为Pandas DataFrame

来自分类Dev

如何将Pandas DataFrame转换为Python中的列

来自分类Dev

如何将Pandas DataFrame转换为TimeSeries?

来自分类Dev

如何将 Pandas Dataframe 转换为稀疏矩阵?

来自分类Dev

将 RDD 转换为 Spark Dataframe (Pyspark)。这奏效了。但给出新的错误

来自分类Dev

Scala Spark:如何从字符串列表创建RDD并将其转换为DataFrame

来自分类Dev

从 RDD 中的 Pandas DataFrames 创建 Spark DataFrame

来自分类Dev

将Dataframe转换回Spark中案例类的RDD

Related 相关文章

  1. 1

    Apache Spark:如何将Spark DataFrame转换为RDD [(Type1,Type2,...)]类型的RDD?

  2. 2

    在Spark / Scala中将RDD转换为Dataframe

  3. 3

    在scala中将Spark Dataframe转换为RDD

  4. 4

    如何将基于案例类的RDD转换为DataFrame?

  5. 5

    如何将SparkR DataFrame转换为RDD

  6. 6

    如何将SparkR DataFrame转换为RDD

  7. 7

    如何将 RDD[CassandraRow] 转换为 DataFrame?

  8. 8

    如何将Spark Streaming数据转换为Spark DataFrame

  9. 9

    如何将Pandas DataFrame groupby结果转换为DataFrame?

  10. 10

    使用Scala将org.apache.spark.mllib.linalg.Vector RDD转换为Spark中的DataFrame

  11. 11

    如何将表转换为Spark Dataframe

  12. 12

    Spark:如何将元组转换为DataFrame

  13. 13

    Spark SQL-如何将RelationalGroupedDataSet转换为DataFrame

  14. 14

    pyspark:将DataFrame转换为RDD [string]

  15. 15

    使用pyspark将RDD转换为DataFrame

  16. 16

    无法将RDD [Row]转换为DataFrame

  17. 17

    如何将 DataFrame 转换为 RDD[Point] 而不是 RDD[ROW]?

  18. 18

    如何将单列Pandas DataFrame转换为Series

  19. 19

    如何将Pandas Dataframe转换为所需的Json格式

  20. 20

    如何将列名称数组转换为pandas Dataframe?

  21. 21

    如何将嵌套字典从BeautifulSoup转换为Pandas DataFrame

  22. 22

    如何将嵌套字典转换为Pandas DataFrame

  23. 23

    如何将Pandas DataFrame转换为Python中的列

  24. 24

    如何将Pandas DataFrame转换为TimeSeries?

  25. 25

    如何将 Pandas Dataframe 转换为稀疏矩阵?

  26. 26

    将 RDD 转换为 Spark Dataframe (Pyspark)。这奏效了。但给出新的错误

  27. 27

    Scala Spark:如何从字符串列表创建RDD并将其转换为DataFrame

  28. 28

    从 RDD 中的 Pandas DataFrames 创建 Spark DataFrame

  29. 29

    将Dataframe转换回Spark中案例类的RDD

热门标签

归档