大量の寄木細工のファイルを処理する方法

debugcn 投稿 Dev

アイマジナ

Hadoop で Apache Parquet を使用していますが、しばらくして懸念事項が 1 つあります。Hadoop 上の Spark で寄木細工を生成すると、かなり厄介になります。散らかっていると言うのは、Spark ジョブが大量の寄せ木細工のファイルを生成していることを意味します。それらにクエリを実行しようとすると、Spark がすべてのファイルをマージしているため、大量のクエリを処理しています。

それに対処する正しい方法を教えてもらえますか? すでに対処済みで、どのように解決しましたか?

更新 1: これらのファイルを 1 つの寄木細工の床にマージするためのいくつかの「副業」で十分ですか? 使用するのが好ましい寄木細工のファイルのサイズ、いくつかの上下の境界は?

キャップ

見てみましょう。このGitHubのレポと、この答えを。要するに、ファイルのサイズを HDFS ブロックサイズ (128MB、256MB) よりも大きくしてください。

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集2021-08-3

コメントを追加

サインイン

分類Dev

Related 関連記事

記事

大量の寄木細工のファイルを処理する方法

大量の寄木細工のファイルを処理する方法

多数の寄木細工のファイルを処理するCUDFエラー

寄木細工のファイルを読み込んでいるときに埋め込まれたヌルを処理する方法はありますか？

AWS DMS：Presto / AthenaでTIMESTAMP_MICROS寄木細工のフィールドを処理する方法

Javaで寄木細工のファイルを作成します

forループで複数の寄木細工のファイルを個別に処理するにはどうすればよいですか？

小さな寄木細工のファイルを1つの大きな寄木細工のファイルに組み合わせる方法は？

寄木細工のファイルを読み取る並列処理を増やす-Sparkは自己結合を最適化する

テーブルのデータに基づいて寄木細工のファイル名を取得する方法

寄木細工のファイルの名前の各部分を理解する方法

sparklyrの寄木細工のファイルから読み取る行数を制限する方法

寄木細工のファイルをハイブテーブルにロードする方法

Sparkを使用して寄木細工のファイルをHiveテーブルにロードする方法は？

寄木細工のファイルをコピーしてcsvに変換する方法

寄木細工のファイルからカスタムクラスを読み書きする方法

寄木細工のファイルのバッファサイズを決定するもの

寄木細工のファイルはSparkDataFrameの行順を保持しますか？

2つの寄木細工のファイルを比較できますか？

Sparkでハイブします。寄木細工のファイルを読む

FlinkのDataStreamAPIでデータストリームとして継続的に寄木細工のファイルを処理します

SparkSQL-寄木細工のファイルを直接読み取る

寄木細工のフォルダーの下にある寄木細工のファイルの1つはパーティションですか？

PySparkでの読み取り時に寄木細工のファイルをフィルタリングする

行グループサイズが100未満のSparkで寄木細工のファイルを作成する

Sparkで寄木細工のファイルをインポートするときのメモリの問題

s3で複数の寄木細工のファイルの上にHiveテーブルを作成する

異なる列選択で複数の寄木細工のファイルをロードするdask

Sparkが寄木細工のファイルを読み取る際に問題が発生する

寄木細工のファイルを書いているときに発行する

寄木細工のファイルをPostgreSQLデータベースに保存する