同じデータフレーム内の別の列の値に基づいてデータフレーム内の値を置き換える方法は？

debugcn 投稿 Dev

メタデータ

以下のようにsparkを使用してテーブルを読み取った後に取得したデータフレームがあります。

val orgDF = spark.read.format("jdbc").options("url", url).options("dbtable","select id, org_name, delete_state, soft_del, 0 as soft_del from schema.table as orgTable").options("user",username)options("password",pwd).load()

以下のようにデータフレームからの出力データを見ることができます：

-----------------------------------------
id | org_name  | delete_state | soft_del
-----------------------------------------
1  | Net       | delete       |   0
2  | Vert      | delete       |   0
3  | Bio       | insert       |   0
4  | Card      | delete       |   0
7  | stock     | update       |   0
-----------------------------------------

中列の谷があれば「1」としてsoft_del：HDFS上のデータフレームを保存する前に、私はCOLの値を設定しようとしていますdelete_stateでdelete以下のように、最終的なデータフレームをして行います。

  -----------------------------------------
    id | org_name  | delete_state | soft_del
    -----------------------------------------
    1  | Net       | delete       |   1
    2  | Vert      | delete       |   1
    3  | Bio       | insert       |   0
    4  | Card      | delete       |   1
    7  | Stock     | update       |   0
    -----------------------------------------

私はそれを以下のようにする方法があることを知っています：

orgDF.createOrReplaceTempView("orgData")
spark.sql("update orgData set soft_del = 1 where delete_state = 'delete'")

また、データフレーム関数の使用方法を理解しようとしていますが、正しい資料を見つけることができません。データフレーム関数を使用してそれを行う方法を誰かに教えてもらえますか？

アシュワンスクマール

あなたはこのようなことを試すことができます

orgDF.withColumn("soft_del", when($"delete_state" === "delete", 1).otherwise(0))

when必要に応じて、次のように複数のをチェーンすることもできます。

orgDF.withColumn("soft_del", 
  when($"delete_state" === "delete", 1)
  .when($"delete_state" === "update", 2)
  .otherwise(0)
)

参照

scaladocのwhen機能。

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集2021-08-15

コメントを追加

サインイン

分類Dev

同じデータフレーム内の別の列の値に基づいて、データフレーム列の値を置き換える

分類Dev

データフレーム内の位置に基づいて文字列を数値に置き換える方法は？

分類Dev

別の列の値に基づいてデータフレームの値を置き換える方法

分類Dev

別のデータフレームの値に基づいてデータフレーム内の行要素を置き換える

分類Dev

別の列に基づいてデータフレーム列の値を置き換える

分類Dev

別のデータフレーム条件に基づいてデータフレーム列の値を置き換える方法

分類Dev

条件に基づいてデータフレーム列の値をNaNに置き換える方法は？

分類Dev

特定の関数を適用して、データフレーム内の別の列の基準に基づいて列の値を置き換えます

分類Dev

データフレーム内のNAをRの同じ行の前の値に置き換える方法

分類Dev

別のデータフレームの一致するIDに基づいてデータフレーム列の値を置き換えます

分類Dev

別のデータフレームに基づいて、データフレームの列から複数の値を置き換える

分類Dev

1つの列の値に基づいて、データフレーム全体のnull値を置き換える

分類Dev

pandasデータフレーム列の値を別の列の同じ行値に置き換える

分類Dev

条件に基づいてパンダデータフレームの値を置き換える方法は？

分類Dev

別のデータフレームに応じてデータフレームの値を置き換える

分類Dev

条件に基づいてデータフレームの列の複数の値を置き換える

分類Dev

他の列に基づいてデータフレームの列値を置き換える

分類Dev

pandasデータフレーム列Aの値を別の列Bの値に基づいて置き換える方法

分類Dev

別のテーブルからのチェックに基づいてパンダデータフレームの列の値を置き換える方法

分類Dev

Python Pandas：条件付きベースの別の配列に基づいてデータフレームの値を置き換える方法

分類Dev

条件に基づいて、データフレームの特定の値を別のデータフレームの値に置き換えます

分類Dev

同じデータフレーム内の別の列の値に基づいて、2つの列の値をカウントまたは合計します

分類Dev

2番目のデータフレーム列の一致に基づいてデータフレーム列の値を置き換える

分類Dev

データフレーム内のデータ値を置き換える方法

分類Dev

ループのない別の列に従って、列（データフレーム）内のグループのすべての同じ値を置き換える方法は？

分類Dev

パンダ：条件に基づいて、データフレームの値を別のデータフレームの値に置き換えます

分類Dev

pysparkは、データフレーム内のすべての値を別の値に置き換えます

分類Dev

同じデータフレーム内の別の列の値に基づいてデータフレーム内の値を置き換える方法は？

同じデータフレーム内の別の列の値に基づいてデータフレーム内の値を置き換える方法は？

同じデータフレーム内の別の列の値に基づいて、データフレーム列の値を置き換える

データフレーム内の位置に基づいて文字列を数値に置き換える方法は？

別の列の値に基づいてデータフレームの値を置き換える方法

別のデータフレームの値に基づいてデータフレーム内の行要素を置き換える

別の列に基づいてデータフレーム列の値を置き換える

別のデータフレーム条件に基づいてデータフレーム列の値を置き換える方法

条件に基づいてデータフレーム列の値をNaNに置き換える方法は？

特定の関数を適用して、データフレーム内の別の列の基準に基づいて列の値を置き換えます

データフレーム内のNAをRの同じ行の前の値に置き換える方法

別のデータフレームの一致するIDに基づいてデータフレーム列の値を置き換えます

別のデータフレームに基づいて、データフレームの列から複数の値を置き換える

1つの列の値に基づいて、データフレーム全体のnull値を置き換える

pandasデータフレーム列の値を別の列の同じ行値に置き換える

条件に基づいてパンダデータフレームの値を置き換える方法は？

別のデータフレームに応じてデータフレームの値を置き換える

条件に基づいてデータフレームの列の複数の値を置き換える

他の列に基づいてデータフレームの列値を置き換える

pandasデータフレーム列Aの値を別の列Bの値に基づいて置き換える方法

別のテーブルからのチェックに基づいてパンダデータフレームの列の値を置き換える方法

Python Pandas：条件付きベースの別の配列に基づいてデータフレームの値を置き換える方法

条件に基づいて、データフレームの特定の値を別のデータフレームの値に置き換えます

同じデータフレーム内の別の列の値に基づいて、2つの列の値をカウントまたは合計します

2番目のデータフレーム列の一致に基づいてデータフレーム列の値を置き換える

データフレーム内のデータ値を置き換える方法

ループのない別の列に従って、列（データフレーム）内のグループのすべての同じ値を置き換える方法は？

パンダ：条件に基づいて、データフレームの値を別のデータフレームの値に置き換えます

pysparkは、データフレーム内のすべての値を別の値に置き換えます

別の異なるサイズのデータフレームに基づいて、データフレーム内の選択した列の値を置き換える

データフレーム内のNaNを文字列値に置き換える