文字列列を持つsparkデータフレームをStructType列に変換します

saurabh kumar

CSV「メッセージ」としてヘッダーがあり、次のように行があるファイルがあります

{"a":1,"b":"hello 1","c":"1234"}
{"a":2,"b":"hello 2","c":"2345"}

それらを別の列に変換したいa,b,c次のコードを試しました。

df1 = spark.read.format("csv").option("header","true")
      .option("delimiter","^")
      .option("inferSchema","false")
      .load("testing.csv")

しかし、それはstringコラムとしてとらえています。

df1.printScema() --> String
レミス・ハルーン

ファイルはjson形式で、最初の行は「メッセージ」です。Sparkを使用して読み取る
ときにオプション"DROPMALFORMED"使用すると、最初の行を無視できます。DataFrameReader

file : json-test.txt

message
{"a":1,"b":"hello 1","c":"1234"}
{"a":2,"b":"hello 2","c":"2345"}

不良レコードを無視してjsonファイルを読み取る[初期レコード]:

val jsondf = spark.read
                  .option("multiLine", false)
                  .option("mode", "DROPMALFORMED")
                  .json("files/file-reader-test/json-test.txt")
jsondf.show()

出力:

+---+-------+----+
|  a|      b|   c|
+---+-------+----+
|  1|hello 1|1234|
|  2|hello 2|2345|
+---+-------+----+

スキーマ:

jsondf.printSchema()

root
 |-- a: long (nullable = true)
 |-- b: string (nullable = true)
 |-- c: string (nullable = true)

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集
0

コメントを追加

0

関連記事

分類Dev

SparkデータフレームにStructTypeの空の列を作成します

分類Dev

Scala-Spark-1つの文字列列を含むデータフレームをrigthタイプの列を持つDFに変換する方法は?

分類Dev

データフレーム文字列列をArray [Int]に変換します

分類Dev

SparkデータフレームPythonでバイナリ文字列の列をintに変換します

分類Dev

文字列を列名を含むデータフレームに変換します

分類Dev

文字列の配列をデータフレーム列の整数の配列に変換します

分類Dev

複数の列のデータを持つ同じ列の行データを新しいデータフレームに変換します

分類Dev

データ フレームのリストを、追加の列に df 名を持つ 1 つのデータ フレームに変換します。

分類Dev

Apache Spark:JSON文字列を含む列をScalaSparkの新しいデータフレームに変換する

分類Dev

文字列形式の科学的記数法をsparkデータフレームの数値に変換します

分類Dev

R大きな文字列をデータフレームに変換します

分類Dev

pysparkデータフレームの列を小文字に変換します

分類Dev

array <string>を文字列pysparkデータフレームに変換します

分類Dev

データフレームの各行を文字列に変換します

分類Dev

assign()はデータフレームを文字列に変換しますか?

分類Dev

RDD [文字列]をデータフレームに変換します

分類Dev

データフレームを連続インデックスと列を持つデータフレームに変換します

分類Dev

データフレームを連続インデックスと列を持つデータフレームに変換します

分類Dev

Scala変換し、文字列列をデータフレームのMapType列に分割します

分類Dev

データフレームを、Rの列の名前を持つデータフレームの名前付きリストに変換します

分類Dev

dictを保持する文字列をデータフレームに変換してデータを取得します

分類Dev

Sparkデータフレームで文字列データ型列をMapTypeに変換する

分類Dev

JSON配列を持つデータフレーム列を解析し、ワンホットエンコーディングに変換します

分類Dev

Sparkデータフレーム内のタイプMapTypeの列のデータを文字列に変換します

分類Dev

複数の列を持つパンダでパンダのデータフレームを変換します

分類Dev

配列をScalaの列とインデックスを持つデータフレームに変換する

分類Dev

xml を重複した列を持つデータ フレームに変換する

分類Dev

Pandasデータフレームで列タイプを文字列から日時形式に変換します

分類Dev

文字列を列に変換-データフレーム

Related 関連記事

  1. 1

    SparkデータフレームにStructTypeの空の列を作成します

  2. 2

    Scala-Spark-1つの文字列列を含むデータフレームをrigthタイプの列を持つDFに変換する方法は?

  3. 3

    データフレーム文字列列をArray [Int]に変換します

  4. 4

    SparkデータフレームPythonでバイナリ文字列の列をintに変換します

  5. 5

    文字列を列名を含むデータフレームに変換します

  6. 6

    文字列の配列をデータフレーム列の整数の配列に変換します

  7. 7

    複数の列のデータを持つ同じ列の行データを新しいデータフレームに変換します

  8. 8

    データ フレームのリストを、追加の列に df 名を持つ 1 つのデータ フレームに変換します。

  9. 9

    Apache Spark:JSON文字列を含む列をScalaSparkの新しいデータフレームに変換する

  10. 10

    文字列形式の科学的記数法をsparkデータフレームの数値に変換します

  11. 11

    R大きな文字列をデータフレームに変換します

  12. 12

    pysparkデータフレームの列を小文字に変換します

  13. 13

    array <string>を文字列pysparkデータフレームに変換します

  14. 14

    データフレームの各行を文字列に変換します

  15. 15

    assign()はデータフレームを文字列に変換しますか?

  16. 16

    RDD [文字列]をデータフレームに変換します

  17. 17

    データフレームを連続インデックスと列を持つデータフレームに変換します

  18. 18

    データフレームを連続インデックスと列を持つデータフレームに変換します

  19. 19

    Scala変換し、文字列列をデータフレームのMapType列に分割します

  20. 20

    データフレームを、Rの列の名前を持つデータフレームの名前付きリストに変換します

  21. 21

    dictを保持する文字列をデータフレームに変換してデータを取得します

  22. 22

    Sparkデータフレームで文字列データ型列をMapTypeに変換する

  23. 23

    JSON配列を持つデータフレーム列を解析し、ワンホットエンコーディングに変換します

  24. 24

    Sparkデータフレーム内のタイプMapTypeの列のデータを文字列に変換します

  25. 25

    複数の列を持つパンダでパンダのデータフレームを変換します

  26. 26

    配列をScalaの列とインデックスを持つデータフレームに変換する

  27. 27

    xml を重複した列を持つデータ フレームに変換する

  28. 28

    Pandasデータフレームで列タイプを文字列から日時形式に変換します

  29. 29

    文字列を列に変換-データフレーム

ホットタグ

アーカイブ