データフレームの複雑な列の配列 (ケースクラス) を含む udf を作成する方法

debugcn 投稿 Dev

デサント pv

Arraytype> の複雑な列データ型を持つデータフレームがあります。このデータフレームを変換するために、Array [ケースクラス] をパラメーターとして使用してこの列を使用できる udf を作成しました。ここでの主なボトルネックは、stucttype に従ってケースクラスを作成するときに、structfield 名に「##field」などの特殊文字が含まれていることです。そこで、このようにケースクラス ( ##field) のようにケースクラスに同じ名前を付けて、これを udf パラメータにアタッチします。Spark udf 定義で解釈された後、ケースクラスフィールドの名前をこの "$hash$hashfield" に変更します。このデータフレームを使用して変換を実行すると、このミスマッチのために失敗します。助けてください ...

アルトゥール・ラシトフ

エンコードされた形式とマップすることはできません現在、スパークでのJVMの制限Scalaの店舗識別子に起因##fieldします$hash$hashfield。

考えられる解決策の 1 つは、生の行からフィールドを手動で抽出することです (ただし、フィールドの順序を知る必要があります。そのためにdf使用できますdf.schema)。

val myUdf = udf { (struct: Row) =>
  // Pattern match struct:
  struct match {
    case Row(a: String) => Foo(a)
  }

  // .. or extract values from Row
  val `##a` = struct.getAs[String](0)
}

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集2021-07-31

コメントを追加

サインイン

分類Dev

Related 関連記事

記事

データフレームの複雑な列の配列 (ケース クラス) を含む udf を作成する方法

データフレームの複雑な列の配列 (ケース クラス) を含む udf を作成する方法

Pythonで複数のリスト/配列を含むデータフレームを作成する方法

行全体の複雑なロジックを含むPythonpandasデータフレームに列を追加します

udfを使用して配列を含むsparkデータフレーム列を更新する方法

構造体またはクラスの配列をUDFからデータフレーム列の値に返す方法は？

スペースの複雑さ-配列を含むさまざまなケースの関数

スペースの複雑さ-配列を含むさまざまなケースの関数

配列の列を含むPandasデータフレームで条件付きスライスを実行するより高速な方法

lubridateパッケージのクラス間隔の列を含む複数のデータフレームの行のバインド

文字列を含むデータフレーム内の数値のみをスケーリングする

ケースを含むSQLServer

Python：指定されたインデックス番号の配列からの行のみを含む新しいデータフレームを作成する

Javaでジェネリックスを含むカスタムクラスの配列を作成する方法

Rのデータフレームに最小値を含む列のインデックスを返す方法

forループなしでデータフレーム内の複数の列のクラスを変更する

各列のすべての行にリストを含むデータフレームを変換する方法

文字列のリストを含むデータフレーム列で文字列を検索し、完全なデータフレームを返します

パスを含むデータフレーム列からデータフレームへのdictの抽出

Rの要素のリストを含む別のデータフレームのa.character列からデータフレームを作成する

スカラー列と配列列の両方を含む、PostgreSQLでの複数列インデックスの作成

複雑なデータを含むRのigraphを使用してグラフを作成する

パンダのデータフレームで複雑なスライスをベクトル化する

XMLはデータのプレーンシーケンスを複雑なデータ配列にマップします

XMLはデータのプレーンシーケンスを複雑なデータ配列にマップします

データフレーム列と外部リストをwithColumnの下のudfに渡す

リストを含むパンダの列をデータフレームに変換する方法

JavaScriptで複数のスペースを含む文字列を作成する方法

Pythonのリストにある文字列を含むデータフレーム列のすべての行を識別する最も効率的な方法は？

データフレームの複数の列をスタックして単一の列を作成する

JSONオブジェクトの配列を含むSparkデータフレーム列を複数の行に変換します

データフレームの複雑な列の配列 (ケースクラス) を含む udf を作成する方法

データフレームの複雑な列の配列 (ケースクラス) を含む udf を作成する方法