すべての値が列に存在しない場合、SparkのデータフレームをgroupByすることは可能ですか?

antonioACR1

たとえば、次のデータフレームがある場合

val tempDF=Seq(("a",2),("b",1),("a",3)).toDF("letter","value")

scala> tempDF.show()
+------+-----+
|letter|value|
+------+-----+
|     a|    2|
|     b|    1|
|     a|    3|
+------+-----+

groupByに対して操作を実行したいのですが、列letterに別の文字cが存在しない可能性があることを知っていますletter通常私は持っているだろう

tempDF.groupBy("letter").sum()

scala> tempDF.groupBy("letter").sum().show()
+------+----------+                                                               
|letter|sum(value)|
+------+----------+
|     a|         5|
|     b|         1|
+------+----------+

しかし、私はこのようなものが欲しいです:

+------+----------+                                                             
|letter|sum(value)|
+------+----------+
|     a|         5|
|     b|         1|
|     c|         0|
+------+----------+

どういうわけcかデータフレームに文字追加せずにこれを行うことは可能ですか?つまり、リストに多くのデータフレームを含めることができますが、各データフレームでどの文字が欠落しているか(存在する場合)はわかりません。代わりに、各データフレームに表示される文字のリスト全体を知っています。

AbhishekN

可能なすべての値がすでにわかっている場合は、「value」を0として別の(ユニバーサル)DataSetを作成します。次に、それを任意のtempDFと結合して、欠落している文字を追加します。次に、最終的なデータセットに対してgroupByを実行します。

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集
0

コメントを追加

0

関連記事

分類Dev

この列のすべての値が特定の値である場合は、データフレームから列を削除します

分類Dev

これらの列のすべてが各データフレームに存在しない場合に、データフレームのリストから特定の列を削除する方法

分類Dev

列の1つが存在しない場合でも、データフレームに列を設定するにはどうすればよいですか?

分類Dev

Rのすべてのデータフレームにすべての列が存在しない場合は、列ごとにデータフレームをマージします

分類Dev

別のデータフレームの内容に基づいて、1つのデータフレームの列を結合することは可能ですか?

分類Dev

3つの異なる列を調べて、共通の数値を別のデータフレームの1つの列と一致させて、データをマージするにはどうすればよいですか(一致がない場合は追加します)。

分類Dev

列の共通行が存在するが結果がない場合に、データフレームの列の値を別のデータフレームの値に置き換えようとしています

分類Dev

Spark:列がデータフレームに存在しない場合、空の列を返します

分類Dev

すべての行の列に値が1つしかない場合は、Pandasデータフレームの行を折りたたむ

分類Dev

Scala Sparkでデータフレーム結合した後、外部結合が言及されたすべての列を保持しないのはなぜですか?

分類Dev

値のリストがデータフレーム列にない場合はtrueを返します(すべての単一の値)

分類Dev

すべての静的列をデータフレームに保持しながら、列名と列内の値を使用してデータフレームを反転するにはどうすればよいですか?

分類Dev

この場合、共通の値を照合して新しいデータフレームを生成するにはどうすればよいですか?

分類Dev

列とその値が両方のデータフレームに存在する場合、2つのデータフレームをマージするにはどうすればよいですか?

分類Dev

別の列の値を修正するときに、データフレーム内の列の可能なすべての組み合わせを検索します

分類Dev

データフレームの別の列に空の値がある場合、新しい列を値で更新しようとしています

分類Dev

値が存在する場合はデータフレームフィルター、それ以外の場合はすべてを返します

分類Dev

pandasデータフレーム列の値が別のデータフレームに存在する場合は、値を更新します

分類Dev

dplyrで、存在する場合と存在しない場合がある列でデータフレームを結合する方法は?

分類Dev

pandasデータフレームの列のすべての値が等しいかどうかを確認するにはどうすればよいですか?

分類Dev

Pandaデータフレームは、他の列のすべての可能な値に存在する行を検索します

分類Dev

RまたはMysql:同じデータフレームの別の行に列が存在しない場合は、列の値をnullに変更します

分類Dev

別の列に0より大きい値が存在する場合は、データフレームに値を割り当てる必要があります

分類Dev

既存のデータフレームから新しいデータフレームを作成するときに値が存在しない場合は、NAを挿入します

分類Dev

データフレーム内の文字列がディクショナリのキーと等しい場合、ディクショナリ値をデータフレームに挿入するにはどうすればよいですか?

分類Dev

リスト要素が列として存在する場合と存在しない場合がある場合に、指定されたリストを使用してPandasデータフレームから列をフィルター処理する

分類Dev

列名がデータフレームに存在するかどうかを確認し、存在しない場合はデフォルト値で列を作成するにはどうすればよいですか?

分類Dev

文字列値が別のデータフレームに存在しないかどうかを確認するにはどうすればよいですか?

分類Dev

Sparkデータフレームのすべての列値をPythonの文字列に連結するにはどうすればよいですか?

Related 関連記事

  1. 1

    この列のすべての値が特定の値である場合は、データフレームから列を削除します

  2. 2

    これらの列のすべてが各データフレームに存在しない場合に、データフレームのリストから特定の列を削除する方法

  3. 3

    列の1つが存在しない場合でも、データフレームに列を設定するにはどうすればよいですか?

  4. 4

    Rのすべてのデータフレームにすべての列が存在しない場合は、列ごとにデータフレームをマージします

  5. 5

    別のデータフレームの内容に基づいて、1つのデータフレームの列を結合することは可能ですか?

  6. 6

    3つの異なる列を調べて、共通の数値を別のデータフレームの1つの列と一致させて、データをマージするにはどうすればよいですか(一致がない場合は追加します)。

  7. 7

    列の共通行が存在するが結果がない場合に、データフレームの列の値を別のデータフレームの値に置き換えようとしています

  8. 8

    Spark:列がデータフレームに存在しない場合、空の列を返します

  9. 9

    すべての行の列に値が1つしかない場合は、Pandasデータフレームの行を折りたたむ

  10. 10

    Scala Sparkでデータフレーム結合した後、外部結合が言及されたすべての列を保持しないのはなぜですか?

  11. 11

    値のリストがデータフレーム列にない場合はtrueを返します(すべての単一の値)

  12. 12

    すべての静的列をデータフレームに保持しながら、列名と列内の値を使用してデータフレームを反転するにはどうすればよいですか?

  13. 13

    この場合、共通の値を照合して新しいデータフレームを生成するにはどうすればよいですか?

  14. 14

    列とその値が両方のデータフレームに存在する場合、2つのデータフレームをマージするにはどうすればよいですか?

  15. 15

    別の列の値を修正するときに、データフレーム内の列の可能なすべての組み合わせを検索します

  16. 16

    データフレームの別の列に空の値がある場合、新しい列を値で更新しようとしています

  17. 17

    値が存在する場合はデータフレームフィルター、それ以外の場合はすべてを返します

  18. 18

    pandasデータフレーム列の値が別のデータフレームに存在する場合は、値を更新します

  19. 19

    dplyrで、存在する場合と存在しない場合がある列でデータフレームを結合する方法は?

  20. 20

    pandasデータフレームの列のすべての値が等しいかどうかを確認するにはどうすればよいですか?

  21. 21

    Pandaデータフレームは、他の列のすべての可能な値に存在する行を検索します

  22. 22

    RまたはMysql:同じデータフレームの別の行に列が存在しない場合は、列の値をnullに変更します

  23. 23

    別の列に0より大きい値が存在する場合は、データフレームに値を割り当てる必要があります

  24. 24

    既存のデータフレームから新しいデータフレームを作成するときに値が存在しない場合は、NAを挿入します

  25. 25

    データフレーム内の文字列がディクショナリのキーと等しい場合、ディクショナリ値をデータフレームに挿入するにはどうすればよいですか?

  26. 26

    リスト要素が列として存在する場合と存在しない場合がある場合に、指定されたリストを使用してPandasデータフレームから列をフィルター処理する

  27. 27

    列名がデータフレームに存在するかどうかを確認し、存在しない場合はデフォルト値で列を作成するにはどうすればよいですか?

  28. 28

    文字列値が別のデータフレームに存在しないかどうかを確認するにはどうすればよいですか?

  29. 29

    Sparkデータフレームのすべての列値をPythonの文字列に連結するにはどうすればよいですか?

ホットタグ

アーカイブ