Pysparkデータフレームの行が重複しています

フリカデル

データフレームがあるとしましょう:

df = sqlContext.createDataFrame(
    [(1, 10, 21.0, 0), (3, 14, -23.0, 1)], ("x1", "x2", "x3", "x4"))

df.show()

## +---+---+-----+---+
## | x1| x2|   x3| x4|
## +---+---+-----+---+
## |  1| 10| 23.0|  5|
## |  3| 14|-23.0|  0|
## +---+---+-----+---+

行を「複製」しx4=1、それらの複製を設定する効率的な方法は何でしょうか

## +---+---+-----+---+
## | x1| x2|   x3| x4|
## +---+---+-----+---+
## |  1| 10| 23.0|  5|
## |  1| 10| 23.0|  1|
## |  3| 14|-23.0|  0|
## |  3| 14|-23.0|  1|
## +---+---+-----+---+

Apache PIGでは、アナログは単純です。foreachを実行して次を生成します。

FLATTEN(TOBAG(1, x4)) AS x4

皆さん、ありがとうございました

zero323

必要な機能を以下からインポートしますpyspark.sql.functions

from pyspark.sql.functions import array, explode, lit

既存の列を置き換えます。

df.withColumn("x4", explode(array(lit(1), df["x4"])))

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集
0

コメントを追加

0

関連記事

分類Dev

Pysparkデータフレームがすべての重複を削除しない

分類Dev

キーの値が重複している2つのデータフレームを結合します

分類Dev

データフレーム列の値が重複している行のみを保持する

分類Dev

複数の条件に基づいてPySparkデータフレームの行を削除します

分類Dev

データフレーム内の値が重複している行を削除する

分類Dev

行が重複している2つのデータフレームを結合する

分類Dev

データフレームが重複していますが、日付が増加しています

分類Dev

Pandasデータフレームで重複する行を検索し、その行が重複しているかどうかを示す列をデータフレームに追加します

分類Dev

レコードが他のデータフレームと重複している場合は、データフレームを変更します

分類Dev

条件に基づいてパンダデータフレームの重複行を削除します

分類Dev

条件に基づいてパンダデータフレームの重複行を削除します

分類Dev

R:条件に基づいてデータフレームの重複行を選択します

分類Dev

パンダのデータフレームで行がほとんど重複しているジッター

分類Dev

Rデータフレームから重複していない行を削除します

分類Dev

Pysparkデータフレームは、重複する列名がほとんどなく、重複する列がない場合に結合します

分類Dev

値がリストにある場合、Pandasデータフレームの行が重複している

分類Dev

データフレームの値の範囲で行が重複している

分類Dev

シーケンスに基づいてRデータフレームに重複行を追加します

分類Dev

pandasデータフレーム内の重複するすべての行を検索します

分類Dev

pandasデータフレーム内の重複レコードを削除しますが、アルファベット順に基づいて保持します

分類Dev

Pythonでデータフレームの行をランダムに選択するが、行が重複している方法は?

分類Dev

日付フィールドと別のフィールドに基づいて、Rデータフレームの重複行を削除します

分類Dev

Pyspark:複数の条件に基づいてデータフレームをフィルタリングします

分類Dev

データフレーム全体で重複がないか確認します

分類Dev

選択した列に基づいて重複行をフィルタリングし、パンダの別のデータフレームと比較します

分類Dev

片側で「on」の値が重複している2つのデータフレームをマージする

分類Dev

データフレームをigraphエラーに変換:頂点名が重複しています

分類Dev

データフレームは、重複する値が5未満の行を削除します

分類Dev

pandasデータフレームに新しい列を追加して、特定の列の重複を示します

Related 関連記事

  1. 1

    Pysparkデータフレームがすべての重複を削除しない

  2. 2

    キーの値が重複している2つのデータフレームを結合します

  3. 3

    データフレーム列の値が重複している行のみを保持する

  4. 4

    複数の条件に基づいてPySparkデータフレームの行を削除します

  5. 5

    データフレーム内の値が重複している行を削除する

  6. 6

    行が重複している2つのデータフレームを結合する

  7. 7

    データフレームが重複していますが、日付が増加しています

  8. 8

    Pandasデータフレームで重複する行を検索し、その行が重複しているかどうかを示す列をデータフレームに追加します

  9. 9

    レコードが他のデータフレームと重複している場合は、データフレームを変更します

  10. 10

    条件に基づいてパンダデータフレームの重複行を削除します

  11. 11

    条件に基づいてパンダデータフレームの重複行を削除します

  12. 12

    R:条件に基づいてデータフレームの重複行を選択します

  13. 13

    パンダのデータフレームで行がほとんど重複しているジッター

  14. 14

    Rデータフレームから重複していない行を削除します

  15. 15

    Pysparkデータフレームは、重複する列名がほとんどなく、重複する列がない場合に結合します

  16. 16

    値がリストにある場合、Pandasデータフレームの行が重複している

  17. 17

    データフレームの値の範囲で行が重複している

  18. 18

    シーケンスに基づいてRデータフレームに重複行を追加します

  19. 19

    pandasデータフレーム内の重複するすべての行を検索します

  20. 20

    pandasデータフレーム内の重複レコードを削除しますが、アルファベット順に基づいて保持します

  21. 21

    Pythonでデータフレームの行をランダムに選択するが、行が重複している方法は?

  22. 22

    日付フィールドと別のフィールドに基づいて、Rデータフレームの重複行を削除します

  23. 23

    Pyspark:複数の条件に基づいてデータフレームをフィルタリングします

  24. 24

    データフレーム全体で重複がないか確認します

  25. 25

    選択した列に基づいて重複行をフィルタリングし、パンダの別のデータフレームと比較します

  26. 26

    片側で「on」の値が重複している2つのデータフレームをマージする

  27. 27

    データフレームをigraphエラーに変換:頂点名が重複しています

  28. 28

    データフレームは、重複する値が5未満の行を削除します

  29. 29

    pandasデータフレームに新しい列を追加して、特定の列の重複を示します

ホットタグ

アーカイブ