我创建了一个 Pandas DataFrame rdd 作为中间结果。我想转换一个 Spark DataFrame,最终将它保存到 parquet 文件中。
我想知道什么是有效的方法。
谢谢
def create_df(x):
return pd.DataFrame(np.random.rand(5, 3)).\
assign(col=x)
sc.parallelize(range(5)).map(create_df).\
.TO_DATAFRAME()..write.format("parquet").save("parquet_file")
我试过 pd.concat 将 rdd 减少到一个大数据帧,似乎不对。
import pandas as pd
def create_df(x):
df=pd.DataFrame(np.random.rand(5, 3)).assign(col=x)
return df.values.tolist()
sc.parallelize(range(5)).flatMap(create_df).toDF().\
.write.format("parquet").save("parquet_file")
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句