文字列列を持つsparkデータフレームをStructType列に変換します

debugcn 投稿 Dev

saurabh kumar

CSV「メッセージ」としてヘッダーがあり、次のように行があるファイルがあります

{"a":1,"b":"hello 1","c":"1234"}
{"a":2,"b":"hello 2","c":"2345"}

それらを別の列に変換したいa,b,c。次のコードを試しました。

df1 = spark.read.format("csv").option("header","true")
      .option("delimiter","^")
      .option("inferSchema","false")
      .load("testing.csv")

しかし、それはstringコラムとしてとらえています。

df1.printScema() --> String

レミス・ハルーン

ファイルはjson形式で、最初の行は「メッセージ」です。Sparkを使用して読み取る
ときにオプション"DROPMALFORMED"を使用すると、最初の行を無視できます。DataFrameReader

file : json-test.txt

message
{"a":1,"b":"hello 1","c":"1234"}
{"a":2,"b":"hello 2","c":"2345"}

不良レコードを無視してjsonファイルを読み取る[初期レコード]：

val jsondf = spark.read
                  .option("multiLine", false)
                  .option("mode", "DROPMALFORMED")
                  .json("files/file-reader-test/json-test.txt")
jsondf.show()

出力：

+---+-------+----+
|  a|      b|   c|
+---+-------+----+
|  1|hello 1|1234|
|  2|hello 2|2345|
+---+-------+----+

スキーマ：

jsondf.printSchema()

root
 |-- a: long (nullable = true)
 |-- b: string (nullable = true)
 |-- c: string (nullable = true)

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集2021-06-12

コメントを追加

サインイン

分類Dev

SparkデータフレームにStructTypeの空の列を作成します

分類Dev

Scala-Spark-1つの文字列列を含むデータフレームをrigthタイプの列を持つDFに変換する方法は？

分類Dev

データフレーム文字列列をArray [Int]に変換します

分類Dev

SparkデータフレームPythonでバイナリ文字列の列をintに変換します

分類Dev

文字列を列名を含むデータフレームに変換します

分類Dev

文字列の配列をデータフレーム列の整数の配列に変換します

分類Dev

複数の列のデータを持つ同じ列の行データを新しいデータフレームに変換します

分類Dev

データフレームのリストを、追加の列に df 名を持つ 1 つのデータフレームに変換します。

分類Dev

Apache Spark：JSON文字列を含む列をScalaSparkの新しいデータフレームに変換する

分類Dev

文字列形式の科学的記数法をsparkデータフレームの数値に変換します

分類Dev

R大きな文字列をデータフレームに変換します

分類Dev

pysparkデータフレームの列を小文字に変換します

分類Dev

array <string>を文字列pysparkデータフレームに変換します

分類Dev

データフレームの各行を文字列に変換します

分類Dev

assign（）はデータフレームを文字列に変換しますか？

分類Dev

RDD [文字列]をデータフレームに変換します

分類Dev

データフレームを連続インデックスと列を持つデータフレームに変換します

分類Dev

データフレームを連続インデックスと列を持つデータフレームに変換します

分類Dev

Scala変換し、文字列列をデータフレームのMapType列に分割します

分類Dev

データフレームを、Rの列の名前を持つデータフレームの名前付きリストに変換します

分類Dev

dictを保持する文字列をデータフレームに変換してデータを取得します

分類Dev

Sparkデータフレームで文字列データ型列をMapTypeに変換する

分類Dev

JSON配列を持つデータフレーム列を解析し、ワンホットエンコーディングに変換します

分類Dev

Sparkデータフレーム内のタイプMapTypeの列のデータを文字列に変換します

分類Dev

複数の列を持つパンダでパンダのデータフレームを変換します

分類Dev

配列をScalaの列とインデックスを持つデータフレームに変換する

分類Dev

xml を重複した列を持つデータフレームに変換する

分類Dev

文字列列を持つsparkデータフレームをStructType列に変換します

文字列列を持つsparkデータフレームをStructType列に変換します

SparkデータフレームにStructTypeの空の列を作成します

Scala-Spark-1つの文字列列を含むデータフレームをrigthタイプの列を持つDFに変換する方法は？

データフレーム文字列列をArray [Int]に変換します

SparkデータフレームPythonでバイナリ文字列の列をintに変換します

文字列を列名を含むデータフレームに変換します

文字列の配列をデータフレーム列の整数の配列に変換します

複数の列のデータを持つ同じ列の行データを新しいデータフレームに変換します

データ フレームのリストを、追加の列に df 名を持つ 1 つのデータ フレームに変換します。

Apache Spark：JSON文字列を含む列をScalaSparkの新しいデータフレームに変換する

文字列形式の科学的記数法をsparkデータフレームの数値に変換します

R大きな文字列をデータフレームに変換します

pysparkデータフレームの列を小文字に変換します

array <string>を文字列pysparkデータフレームに変換します

データフレームの各行を文字列に変換します

assign（）はデータフレームを文字列に変換しますか？

RDD [文字列]をデータフレームに変換します

データフレームを連続インデックスと列を持つデータフレームに変換します

データフレームを連続インデックスと列を持つデータフレームに変換します

Scala変換し、文字列列をデータフレームのMapType列に分割します

データフレームを、Rの列の名前を持つデータフレームの名前付きリストに変換します

dictを保持する文字列をデータフレームに変換してデータを取得します

Sparkデータフレームで文字列データ型列をMapTypeに変換する

JSON配列を持つデータフレーム列を解析し、ワンホットエンコーディングに変換します

Sparkデータフレーム内のタイプMapTypeの列のデータを文字列に変換します

複数の列を持つパンダでパンダのデータフレームを変換します

配列をScalaの列とインデックスを持つデータフレームに変換する

xml を重複した列を持つデータ フレームに変換する

Pandasデータフレームで列タイプを文字列から日時形式に変換します

文字列を列に変換-データフレーム

データフレームのリストを、追加の列に df 名を持つ 1 つのデータフレームに変換します。

xml を重複した列を持つデータフレームに変換する