Hadoop で Apache Parquet を使用していますが、しばらくして懸念事項が 1 つあります。Hadoop 上の Spark で寄木細工を生成すると、かなり厄介になります。散らかっていると言うのは、Spark ジョブが大量の寄せ木細工のファイルを生成していることを意味します。それらにクエリを実行しようとすると、Spark がすべてのファイルをマージしているため、大量のクエリを処理しています。
それに対処する正しい方法を教えてもらえますか? すでに対処済みで、どのように解決しましたか?
更新 1: これらのファイルを 1 つの寄木細工の床にマージするためのいくつかの「副業」で十分ですか? 使用するのが好ましい寄木細工のファイルのサイズ、いくつかの上下の境界は?
この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。
侵害の場合は、連絡してください[email protected]
コメントを追加