すべての値が列に存在しない場合、SparkのデータフレームをgroupByすることは可能ですか？

debugcn 投稿 Dev

antonioACR1

たとえば、次のデータフレームがある場合

val tempDF=Seq(("a",2),("b",1),("a",3)).toDF("letter","value")

scala> tempDF.show()
+------+-----+
|letter|value|
+------+-----+
|     a|    2|
|     b|    1|
|     a|    3|
+------+-----+

groupBy列に対して操作を実行したいのですが、列letterに別の文字cが存在しない可能性があることを知っていますletter。通常私は持っているだろう

tempDF.groupBy("letter").sum()

scala> tempDF.groupBy("letter").sum().show()
+------+----------+                                                               
|letter|sum(value)|
+------+----------+
|     a|         5|
|     b|         1|
+------+----------+

しかし、私はこのようなものが欲しいです：

+------+----------+                                                             
|letter|sum(value)|
+------+----------+
|     a|         5|
|     b|         1|
|     c|         0|
+------+----------+

どういうわけcかデータフレームに文字を追加せずにこれを行うことは可能ですか？つまり、リストに多くのデータフレームを含めることができますが、各データフレームでどの文字が欠落しているか（存在する場合）はわかりません。代わりに、各データフレームに表示される文字のリスト全体を知っています。

AbhishekN

可能なすべての値がすでにわかっている場合は、「value」を0として別の（ユニバーサル）DataSetを作成します。次に、それを任意のtempDFと結合して、欠落している文字を追加します。次に、最終的なデータセットに対してgroupByを実行します。

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集2021-08-10

コメントを追加

サインイン

分類Dev

Related 関連記事

記事

すべての値が列に存在しない場合、SparkのデータフレームをgroupByすることは可能ですか？

すべての値が列に存在しない場合、SparkのデータフレームをgroupByすることは可能ですか？

この列のすべての値が特定の値である場合は、データフレームから列を削除します

これらの列のすべてが各データフレームに存在しない場合に、データフレームのリストから特定の列を削除する方法

列の1つが存在しない場合でも、データフレームに列を設定するにはどうすればよいですか？

Rのすべてのデータフレームにすべての列が存在しない場合は、列ごとにデータフレームをマージします

別のデータフレームの内容に基づいて、1つのデータフレームの列を結合することは可能ですか？

3つの異なる列を調べて、共通の数値を別のデータフレームの1つの列と一致させて、データをマージするにはどうすればよいですか（一致がない場合は追加します）。

列の共通行が存在するが結果がない場合に、データフレームの列の値を別のデータフレームの値に置き換えようとしています

Spark：列がデータフレームに存在しない場合、空の列を返します

すべての行の列に値が1つしかない場合は、Pandasデータフレームの行を折りたたむ

Scala Sparkでデータフレーム結合した後、外部結合が言及されたすべての列を保持しないのはなぜですか？

値のリストがデータフレーム列にない場合はtrueを返します（すべての単一の値）

すべての静的列をデータフレームに保持しながら、列名と列内の値を使用してデータフレームを反転するにはどうすればよいですか？

この場合、共通の値を照合して新しいデータフレームを生成するにはどうすればよいですか？

列とその値が両方のデータフレームに存在する場合、2つのデータフレームをマージするにはどうすればよいですか？

別の列の値を修正するときに、データフレーム内の列の可能なすべての組み合わせを検索します

データフレームの別の列に空の値がある場合、新しい列を値で更新しようとしています

値が存在する場合はデータフレームフィルター、それ以外の場合はすべてを返します

pandasデータフレーム列の値が別のデータフレームに存在する場合は、値を更新します

dplyrで、存在する場合と存在しない場合がある列でデータフレームを結合する方法は？

pandasデータフレームの列のすべての値が等しいかどうかを確認するにはどうすればよいですか？

Pandaデータフレームは、他の列のすべての可能な値に存在する行を検索します

RまたはMysql：同じデータフレームの別の行に列が存在しない場合は、列の値をnullに変更します

別の列に0より大きい値が存在する場合は、データフレームに値を割り当てる必要があります

既存のデータフレームから新しいデータフレームを作成するときに値が存在しない場合は、NAを挿入します

データフレーム内の文字列がディクショナリのキーと等しい場合、ディクショナリ値をデータフレームに挿入するにはどうすればよいですか？

リスト要素が列として存在する場合と存在しない場合がある場合に、指定されたリストを使用してPandasデータフレームから列をフィルター処理する

列名がデータフレームに存在するかどうかを確認し、存在しない場合はデフォルト値で列を作成するにはどうすればよいですか？

文字列値が別のデータフレームに存在しないかどうかを確認するにはどうすればよいですか？

Sparkデータフレームのすべての列値をPythonの文字列に連結するにはどうすればよいですか？