我实际上想解决的问题是获取PySpark数据帧的前N行/最后N行,并使其结果为数据帧。具体来说,我希望能够执行以下操作:
my_df.head(20).toPandas()
但是,由于head()
返回行列表,因此出现此错误:
AttributeError: 'list' object has no attribute 'toPandas'
因此,我正在寻找将PySpark数据帧的前N行返回为数据帧的方法,或者将这些行列表转换为数据帧的方法。有任何想法吗?
与limit
:
>>> df = sc.parallelize((("a", 1), ("b", 2))).toDF()
>>> df.limit(1).toPandas()
_1 _2
0 a 1
与pd.DataFrame
:
>>> pd.DataFrame(df.head(1), columns=df.columns)
_1 _2
0 a 1
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句