データフレームのすべての列の各個別の値の出現を数える方法は？

debugcn 投稿 Dev

レオソーン：

edf.select("x").distinct.show()は、DataFrameのx列に存在する個別の値を示していますedf。

これらの個別の値がデータフレームで発生する回数も表示する効率的な方法はありますか？（個別の値ごとのカウント）

zero323：

countDistinct おそらく最初の選択です：

import org.apache.spark.sql.functions.countDistinct

df.agg(countDistinct("some_column"))

速度が考慮できる精度よりも重要な場合approx_count_distinct（approxCountDistinctSpark 1.x）：

import org.apache.spark.sql.functions.approx_count_distinct

df.agg(approx_count_distinct("some_column"))

値とカウントを取得するには：

df.groupBy("some_column").count()

SQL（spark-sql）の場合：

SELECT COUNT(DISTINCT some_column) FROM df

そして

SELECT approx_count_distinct(some_column) FROM df

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集2021-04-7

コメントを追加

サインイン

分類Dev

データフレームのすべての列の各個別の値の出現を数える方法は？

分類Dev

データフレームパイソンの特定の値の前の出現数を数える方法は？

分類Dev

Rの各列の最後の値でデータフレームの列を並べ替える方法

分類Dev

Rの各列の最後の値でデータフレームの列を並べ替える方法

分類Dev

Python（パンダ）の列の出現回数でデータフレームを並べ替える方法

分類Dev

Pandasデータフレームの一連の列の値と別の列の別の値の両方を含む行の数を数える方法は？

分類Dev

データフレーム列の一意の値を区別し、他の列を数える方法は？

分類Dev

現在の並べ替え位置と別の列に基づいてパンダデータフレーム列を作成する方法はありますか？

分類Dev

各列の個別の値をカウントし、データフレームを返し、値を並べ替えます

分類Dev

パンダのデータフレームで個別の値を数える

分類Dev

パンダのデータフレームを列の値の数で並べ替える方法は？

分類Dev

Pyspark：データフレーム内で出現するすべての値をnullに置き換えます

分類Dev

pandasデータフレームのすべての値を別のnumpy配列で変更する方法

分類Dev

dplyr: フィルタリングされたデータフレームのすべての列の個別の値の数を返します

分類Dev

同じデータフレーム内の別の列の値に基づいてデータフレーム内の値を置き換える方法は？

分類Dev

データフレーム内のすべてのカテゴリ列の個別の値を抽出するには

分類Dev

各列のすべての行の値が連結された単一の行にデータフレーム行をマージする方法は？

分類Dev

列の値を使用して、別のデータフレームで分析する列を識別する方法は？

分類Dev

データフレーム列の特定の文字の後のすべてを置き換える方法は？

分類Dev

パンダのデータフレームのすべての行の列に値を割り当てる方法は？

分類Dev

pysparkは、データフレーム内のすべての値を別の値に置き換えます

分類Dev

データフレームの各列を別のデータフレームのすべての列で除算する

分類Dev

特定のパンダのデータフレーム列で値を検索し、その行の他の値を個別の変数に格納する方法

分類Dev

パンダの別のデータフレームの列に基づいてデータフレームを並べ替える方法は？

分類Dev

データフレームの列の個別の値に基づいて、すべてのレコードを複数のCSVファイルに保存するにはどうすればよいですか？

分類Dev

特定の「NA」値（すべての「NA」ではない）をRデータフレームの特定の数値に置き換える方法は？

分類Dev

個別の列のデータフレームを取得する

分類Dev

Rは別のデータフレームの複数の列の値を置き換えます

分類Dev

pandas：データフレームのすべての数値列を対数に変換する方法

Related 関連記事

記事