大量の寄木細工のファイルを処理する方法

アイマジナ

Hadoop で Apache Parquet を使用していますが、しばらくして懸念事項が 1 つあります。Hadoop 上の Spark で寄木細工を生成すると、かなり厄介になります。散らかっていると言うのは、Spark ジョブが大量の寄せ木細工のファイルを生成していることを意味します。それらにクエリを実行しようとすると、Spark がすべてのファイルをマージしているため、大量のクエリを処理しています。

それに対処する正しい方法を教えてもらえますか? すでに対処済みで、どのように解決しましたか?

更新 1: これらのファイルを 1 つの寄木細工の床にマージするためのいくつかの「副業」で十分ですか? 使用するのが好ましい寄木細工のファイルのサイズ、いくつかの上下の境界は?

キャップ

見てみましょう。このGitHubのレポと、この答えを。要するに、ファイルのサイズを HDFS ブロック サイズ (128MB、256MB) よりも大きくしてください。

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集
0

コメントを追加

0

関連記事

分類Dev

多数の寄木細工のファイルを処理するCUDFエラー

分類Dev

寄木細工のファイルを読み込んでいるときに埋め込まれたヌルを処理する方法はありますか?

分類Dev

AWS DMS:Presto / AthenaでTIMESTAMP_MICROS寄木細工のフィールドを処理する方法

分類Dev

Javaで寄木細工のファイルを作成します

分類Dev

forループで複数の寄木細工のファイルを個別に処理するにはどうすればよいですか?

分類Dev

小さな寄木細工のファイルを1つの大きな寄木細工のファイルに組み合わせる方法は?

分類Dev

寄木細工のファイルを読み取る並列処理を増やす-Sparkは自己結合を最適化する

分類Dev

テーブルのデータに基づいて寄木細工のファイル名を取得する方法

分類Dev

寄木細工のファイルの名前の各部分を理解する方法

分類Dev

sparklyrの寄木細工のファイルから読み取る行数を制限する方法

分類Dev

寄木細工のファイルをハイブテーブルにロードする方法

分類Dev

Sparkを使用して寄木細工のファイルをHiveテーブルにロードする方法は?

分類Dev

寄木細工のファイルをコピーしてcsvに変換する方法

分類Dev

寄木細工のファイルからカスタムクラスを読み書きする方法

分類Dev

寄木細工のファイルのバッファサイズを決定するもの

分類Dev

寄木細工のファイルはSparkDataFrameの行順を保持しますか?

分類Dev

2つの寄木細工のファイルを比較できますか?

分類Dev

Sparkでハイブします。寄木細工のファイルを読む

分類Dev

FlinkのDataStreamAPIでデータストリームとして継続的に寄木細工のファイルを処理します

分類Dev

SparkSQL-寄木細工のファイルを直接読み取る

分類Dev

寄木細工のフォルダーの下にある寄木細工のファイルの1つはパーティションですか?

分類Dev

PySparkでの読み取り時に寄木細工のファイルをフィルタリングする

分類Dev

行グループサイズが100未満のSparkで寄木細工のファイルを作成する

分類Dev

Sparkで寄木細工のファイルをインポートするときのメモリの問題

分類Dev

s3で複数の寄木細工のファイルの上にHiveテーブルを作成する

分類Dev

異なる列選択で複数の寄木細工のファイルをロードするdask

分類Dev

Sparkが寄木細工のファイルを読み取る際に問題が発生する

分類Dev

寄木細工のファイルを書いているときに発行する

分類Dev

寄木細工のファイルをPostgreSQLデータベースに保存する

Related 関連記事

  1. 1

    多数の寄木細工のファイルを処理するCUDFエラー

  2. 2

    寄木細工のファイルを読み込んでいるときに埋め込まれたヌルを処理する方法はありますか?

  3. 3

    AWS DMS:Presto / AthenaでTIMESTAMP_MICROS寄木細工のフィールドを処理する方法

  4. 4

    Javaで寄木細工のファイルを作成します

  5. 5

    forループで複数の寄木細工のファイルを個別に処理するにはどうすればよいですか?

  6. 6

    小さな寄木細工のファイルを1つの大きな寄木細工のファイルに組み合わせる方法は?

  7. 7

    寄木細工のファイルを読み取る並列処理を増やす-Sparkは自己結合を最適化する

  8. 8

    テーブルのデータに基づいて寄木細工のファイル名を取得する方法

  9. 9

    寄木細工のファイルの名前の各部分を理解する方法

  10. 10

    sparklyrの寄木細工のファイルから読み取る行数を制限する方法

  11. 11

    寄木細工のファイルをハイブテーブルにロードする方法

  12. 12

    Sparkを使用して寄木細工のファイルをHiveテーブルにロードする方法は?

  13. 13

    寄木細工のファイルをコピーしてcsvに変換する方法

  14. 14

    寄木細工のファイルからカスタムクラスを読み書きする方法

  15. 15

    寄木細工のファイルのバッファサイズを決定するもの

  16. 16

    寄木細工のファイルはSparkDataFrameの行順を保持しますか?

  17. 17

    2つの寄木細工のファイルを比較できますか?

  18. 18

    Sparkでハイブします。寄木細工のファイルを読む

  19. 19

    FlinkのDataStreamAPIでデータストリームとして継続的に寄木細工のファイルを処理します

  20. 20

    SparkSQL-寄木細工のファイルを直接読み取る

  21. 21

    寄木細工のフォルダーの下にある寄木細工のファイルの1つはパーティションですか?

  22. 22

    PySparkでの読み取り時に寄木細工のファイルをフィルタリングする

  23. 23

    行グループサイズが100未満のSparkで寄木細工のファイルを作成する

  24. 24

    Sparkで寄木細工のファイルをインポートするときのメモリの問題

  25. 25

    s3で複数の寄木細工のファイルの上にHiveテーブルを作成する

  26. 26

    異なる列選択で複数の寄木細工のファイルをロードするdask

  27. 27

    Sparkが寄木細工のファイルを読み取る際に問題が発生する

  28. 28

    寄木細工のファイルを書いているときに発行する

  29. 29

    寄木細工のファイルをPostgreSQLデータベースに保存する

ホットタグ

アーカイブ