Sparkデータフレームの各行を個別のファイルとして書き込みます

user1219520

単一の列を持つSparkDataframeがあり、各行は長い文字列(実際にはxmlファイル)です。DataFrameを調べて、各行の文字列をテキストファイルとして保存したいのですが、これらは単に1.xml、2.xmlなどと呼ぶことができます。

これを行う方法に関する情報や例が見つからないようです。そして、私はSparkとPySparkを使い始めたばかりです。DataFrameに関数をマップするかもしれませんが、関数はテキストファイルに文字列を書き込む必要があります。これを行う方法が見つかりません。

シャイド

Sparkでデータフレームを保存すると、パーティションごとに1つのファイルが作成されます。したがって、ファイルごとに1つの行を取得する1つの方法は、最初にデータを行と同じ数のパーティションに再パーティション化することです。

SparkでXMLファイルを読み書きするためのライブラリがgithubにあります。ただし、正しいXMLを生成するには、データフレームに特別な形式が必要です。この場合、すべてが1つの列に文字列として含まれているため、保存する最も簡単な方法はおそらくcsvです。

再パーティション化と保存は、次のように実行できます。

rows = df.count()
df.repartition(rows).write.csv('save-dir')

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集
0

コメントを追加

0

関連記事

分類Dev

各行のすべての列を文字列として連結し、それをRの別のデータフレームに書き込みます

分類Dev

NAの値を空白にしてデータフレームをcsvファイルに書き込みます

分類Dev

Pythonと「|」を使用してsparkデータフレームをファイルに書き込みます デリミタ

分類Dev

プログラムのコードでテキストファイルを作成して書き込むこと、テキストファイルを作成してデータを個別に書き込むことには利点がありますか?

分類Dev

SparkのデータフレームとしてCSVファイルを読み込めません

分類Dev

データフレームに書き込み、次にRの.csvファイルに書き込みます

分類Dev

データフレームをファイルに書き込もうとすると、org.apache.spark.SparkExceptionが発生します:行の書き込み中にタスクが失敗しました

分類Dev

JavaScriptのみを使用してファイルにデータを書き込むことはできますか?

分類Dev

purrr :: walkを使用して、オンザフライのファイル名でネストされたデータフレームから書き込みます

分類Dev

このjsonファイルをデータフレームとしてRに取り込みます

分類Dev

データフレームの内容を行ごとに1つのファイルで.txtファイルに書き込みますか?

分類Dev

複数のファイル名をデータフレームの行として書き込む方法

分類Dev

辞書のファイルをpysparkデータフレームとして読み取ります

分類Dev

ファイルの各行について、Pythonの個々のファイルに行を書き込みます

分類Dev

purrr :: mapを使用して、複数のデータフレームをcsvファイルに書き込みます

分類Dev

適用ファミリを使用して、2つのリストからExcelファイルの2つの別々のシートにデータフレームを書き込みます

分類Dev

データフレームに識別子行を追加してから、Excelファイルに書き込みます

分類Dev

AVFoundationAVAssetWriterを使用してQuicktimeファイルにメタルフレームを書き込もうとしたときのすべての黒いフレーム

分類Dev

Sparkはデータを読み込み、データフレーム列としてファイル名を追加

分類Dev

Sparkはデータを読み込み、データフレーム列としてファイル名を追加

分類Dev

Sparkはデータを読み込み、データフレーム列としてファイル名を追加

分類Dev

pysparkのデータフレームからの出力として寄木細工のファイルを書き込むときにHDFSでメタデータファイルを作成します

分類Dev

各行を個別のファイルとして保存します

分類Dev

データフレームからの新しいファイルの書き込み中にファイルが既に存在します

分類Dev

PHPを使用して特定の行のデータをファイルに書き込みます

分類Dev

データフレームのリストを使用して書き込みを並列化するSpark

分類Dev

ループの出力をデータフレームに書き込みます

分類Dev

Rの列ヘッダーなしでデータフレームをcsvファイルに書き込みます

分類Dev

多くの小さなファイルを書き込むSparkデータフレーム書き込みメソッド

Related 関連記事

  1. 1

    各行のすべての列を文字列として連結し、それをRの別のデータフレームに書き込みます

  2. 2

    NAの値を空白にしてデータフレームをcsvファイルに書き込みます

  3. 3

    Pythonと「|」を使用してsparkデータフレームをファイルに書き込みます デリミタ

  4. 4

    プログラムのコードでテキストファイルを作成して書き込むこと、テキストファイルを作成してデータを個別に書き込むことには利点がありますか?

  5. 5

    SparkのデータフレームとしてCSVファイルを読み込めません

  6. 6

    データフレームに書き込み、次にRの.csvファイルに書き込みます

  7. 7

    データフレームをファイルに書き込もうとすると、org.apache.spark.SparkExceptionが発生します:行の書き込み中にタスクが失敗しました

  8. 8

    JavaScriptのみを使用してファイルにデータを書き込むことはできますか?

  9. 9

    purrr :: walkを使用して、オンザフライのファイル名でネストされたデータフレームから書き込みます

  10. 10

    このjsonファイルをデータフレームとしてRに取り込みます

  11. 11

    データフレームの内容を行ごとに1つのファイルで.txtファイルに書き込みますか?

  12. 12

    複数のファイル名をデータフレームの行として書き込む方法

  13. 13

    辞書のファイルをpysparkデータフレームとして読み取ります

  14. 14

    ファイルの各行について、Pythonの個々のファイルに行を書き込みます

  15. 15

    purrr :: mapを使用して、複数のデータフレームをcsvファイルに書き込みます

  16. 16

    適用ファミリを使用して、2つのリストからExcelファイルの2つの別々のシートにデータフレームを書き込みます

  17. 17

    データフレームに識別子行を追加してから、Excelファイルに書き込みます

  18. 18

    AVFoundationAVAssetWriterを使用してQuicktimeファイルにメタルフレームを書き込もうとしたときのすべての黒いフレーム

  19. 19

    Sparkはデータを読み込み、データフレーム列としてファイル名を追加

  20. 20

    Sparkはデータを読み込み、データフレーム列としてファイル名を追加

  21. 21

    Sparkはデータを読み込み、データフレーム列としてファイル名を追加

  22. 22

    pysparkのデータフレームからの出力として寄木細工のファイルを書き込むときにHDFSでメタデータファイルを作成します

  23. 23

    各行を個別のファイルとして保存します

  24. 24

    データフレームからの新しいファイルの書き込み中にファイルが既に存在します

  25. 25

    PHPを使用して特定の行のデータをファイルに書き込みます

  26. 26

    データフレームのリストを使用して書き込みを並列化するSpark

  27. 27

    ループの出力をデータフレームに書き込みます

  28. 28

    Rの列ヘッダーなしでデータフレームをcsvファイルに書き込みます

  29. 29

    多くの小さなファイルを書き込むSparkデータフレーム書き込みメソッド

ホットタグ

アーカイブ