多くの小さなファイルを作成するSparkStreaming

ilovetolearn

過去6か月間に受信したイベントをHDFSにストリーミングするSparkStreamingジョブを実装しました。

HDFSで多数の小さなファイルを作成しているので、それぞれのファイルサイズをHDFSの128 MB(ブロックサイズ)にします。

追加モードを使用すると、代わりにすべてのデータが1つの寄木細工のファイルに書き込まれます。

128 MBのデータごとに新しいHDFS寄木細工のファイルを作成するようにSparkを構成するにはどうすればよいですか?

アフェルドマン

Sparkは、書き込む前に、オブジェクトのパーティションと同じ数のファイルを書き込みます。それは本当に非効率的です。パーツファイルの総数を減らすために、これを試してください。オブジェクトの合計バイトサイズをチェックし、最適なサイズを+1するように表現します。

import org.apache.spark.util.SizeEstimator

val inputDF2 : Long = SizeEstimator.estimate(inputDF.rdd)
//find its appropiate number of partitions
val numPartitions : Long = (inputDF2/134217728) + 1
 //write it out with that many partitions
 val outputDF = inputDF.repartition(numPartitions.toInt)

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集
0

コメントを追加

0

関連記事

分類Dev

SLURM / Sbatchは多くの小さな出力ファイルを作成します

分類Dev

FTPで多くの小さなファイルをすばやくダウンロードする

分類Dev

多くの小さなJSONファイルをすばやく解析する方法は?

分類Dev

多くの小さなファイルを順番に読む

分類Dev

サーバー上で多くの小さなファイルを転送する最速の方法(gitなし)

分類Dev

Pig CPUを集中的に使用するタスク-小さなデータファイル-多くのマッパー?

分類Dev

NTFSで多くの小さなファイルを開くのは遅すぎます

分類Dev

ファイルを多くの小さなファイルに分割してから再構築するにはどうすればよいですか?

分類Dev

多くの小さなファイルを読み取るときのシーク時間の短縮

分類Dev

gitリポジトリに多くの小さなバイナリファイルを含める方法は?

分類Dev

小さなファイルを作成するFlume

分類Dev

起動可能なISOファイルを小さくする

分類Dev

Hadoop HDFSに多くの小さなファイルを保存しないようにする必要があるのはなぜですか?

分類Dev

ランダムな内容で多くのファイルを作成する

分類Dev

jsファイルのサイズを小さくする

分類Dev

EARファイルのサイズを小さくする方法

分類Dev

png画像のファイルサイズを小さくする

分類Dev

MBPのSSDは、*多くの*小さなファイルを処理することに対してどれほどうまく機能しますか?

分類Dev

一部のトレントファイルが多くの小さなrarファイルに分割されるのはなぜですか?

分類Dev

あまりにも多くの小さなファイルをより速くバックアップする方法は?

分類Dev

多くの小さなテキストファイルを転送するための電子メールとFTPサーバー

分類Dev

Windows8と7でたくさんの小さなファイルをすばやく移動する方法

分類Dev

多くの小さなファイルのコンテンツ(行)を単一の大きなファイルのコンテンツ(行)と(効率的に)一致させ、それらを更新/再作成するにはどうすればよいですか?

分類Dev

CPLEXでMinizincモデルを実行すると、多くのcpxファイルが作成されるのはなぜですか?

分類Dev

たくさんの小さなファイルをダウンロードする

分類Dev

SFTPを使用した多くの小さなファイルのアップロードが遅い

分類Dev

Flutter / Dartでビデオファイルのサイズを小さくする

分類Dev

Pythonで非常に大きなファイルを小さなファイルに分割する-開いているファイルが多すぎる

分類Dev

MDFファイルを多くのndfファイルに分割するジョブを作成する方法

Related 関連記事

  1. 1

    SLURM / Sbatchは多くの小さな出力ファイルを作成します

  2. 2

    FTPで多くの小さなファイルをすばやくダウンロードする

  3. 3

    多くの小さなJSONファイルをすばやく解析する方法は?

  4. 4

    多くの小さなファイルを順番に読む

  5. 5

    サーバー上で多くの小さなファイルを転送する最速の方法(gitなし)

  6. 6

    Pig CPUを集中的に使用するタスク-小さなデータファイル-多くのマッパー?

  7. 7

    NTFSで多くの小さなファイルを開くのは遅すぎます

  8. 8

    ファイルを多くの小さなファイルに分割してから再構築するにはどうすればよいですか?

  9. 9

    多くの小さなファイルを読み取るときのシーク時間の短縮

  10. 10

    gitリポジトリに多くの小さなバイナリファイルを含める方法は?

  11. 11

    小さなファイルを作成するFlume

  12. 12

    起動可能なISOファイルを小さくする

  13. 13

    Hadoop HDFSに多くの小さなファイルを保存しないようにする必要があるのはなぜですか?

  14. 14

    ランダムな内容で多くのファイルを作成する

  15. 15

    jsファイルのサイズを小さくする

  16. 16

    EARファイルのサイズを小さくする方法

  17. 17

    png画像のファイルサイズを小さくする

  18. 18

    MBPのSSDは、*多くの*小さなファイルを処理することに対してどれほどうまく機能しますか?

  19. 19

    一部のトレントファイルが多くの小さなrarファイルに分割されるのはなぜですか?

  20. 20

    あまりにも多くの小さなファイルをより速くバックアップする方法は?

  21. 21

    多くの小さなテキストファイルを転送するための電子メールとFTPサーバー

  22. 22

    Windows8と7でたくさんの小さなファイルをすばやく移動する方法

  23. 23

    多くの小さなファイルのコンテンツ(行)を単一の大きなファイルのコンテンツ(行)と(効率的に)一致させ、それらを更新/再作成するにはどうすればよいですか?

  24. 24

    CPLEXでMinizincモデルを実行すると、多くのcpxファイルが作成されるのはなぜですか?

  25. 25

    たくさんの小さなファイルをダウンロードする

  26. 26

    SFTPを使用した多くの小さなファイルのアップロードが遅い

  27. 27

    Flutter / Dartでビデオファイルのサイズを小さくする

  28. 28

    Pythonで非常に大きなファイルを小さなファイルに分割する-開いているファイルが多すぎる

  29. 29

    MDFファイルを多くのndfファイルに分割するジョブを作成する方法

ホットタグ

アーカイブ