edf.select("x").distinct.show()
は、DataFrameのx
列に存在する個別の値を示していますedf
。
これらの個別の値がデータフレームで発生する回数も表示する効率的な方法はありますか?(個別の値ごとのカウント)
countDistinct
おそらく最初の選択です:
import org.apache.spark.sql.functions.countDistinct
df.agg(countDistinct("some_column"))
速度が考慮できる精度よりも重要な場合approx_count_distinct
(approxCountDistinct
Spark 1.x):
import org.apache.spark.sql.functions.approx_count_distinct
df.agg(approx_count_distinct("some_column"))
値とカウントを取得するには:
df.groupBy("some_column").count()
SQL(spark-sql
)の場合:
SELECT COUNT(DISTINCT some_column) FROM df
そして
SELECT approx_count_distinct(some_column) FROM df
この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。
侵害の場合は、連絡してください[email protected]
コメントを追加