pysparkデータフレームを使用して一部のデータを分析していますが、集計しているデータフレームがdf
あるとします。
df.groupBy("group")\
.agg({"money":"sum"})\
.show(100)
これは私に与えます:
group SUM(money#2L)
A 137461285853
B 172185566943
C 271179590646
集計は問題なく機能しますが、新しい列名 "SUM(money#2L)"は嫌いです。この列の名前を.agg
メソッドから人間が読み取れるものに変更するためのきちんとした方法はありますか?たぶん、人がすることともっと似たものかもしれませんdplyr
:
df %>% group_by(group) %>% summarise(sum_money = sum(money))
私は今でもdplyr構文を好みますが、このコードスニペットは次のようになります。
import pyspark.sql.functions as sf
df.groupBy("group")\
.agg(sf.sum('money').alias('money'))\
.show(100)
冗長になります。
この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。
侵害の場合は、連絡してください[email protected]
コメントを追加