Parquetとしてストレージを備えたHIVEターゲットがあります。Informatica BDMジョブは、データをHIVEターゲットにロードする実行エンジンとしてsparkを使用するように構成されています。
HDFSのパーティション内に生成されたパーツファイルが約2000個あることに気づきました。この動作は、HIVEのパフォーマンスに影響を与えます。
同じものに代わるものはありますか?
入力ファイルサイズはわずか12MBです
ブロックサイズは128MBです
よろしく、Sridar Venkatesan
根本的な原因はspark.sql.shuffle.partitionsによるものでした
この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。
侵害の場合は、連絡してください[email protected]
コメントを追加