特定の Spark executor への kafka パーティションのマッピング

debugcn 投稿 Dev

サミ・オアサイディ

そのため、エグゼキューターが kafka トピックからデータを消費する方法を指定する必要があります。

2 つのトピックがあるとします。それぞれ 2 つのパーティションを持つ t0 と t1、および 2 つのエグゼキューター e0 と e1 (両方とも同じノードに存在できるため、割り当て戦略は機能しません。マルチエグゼキューターノードの場合はラウンドロビンに基づいて動作するため)スケジューリング、最初に利用可能なエグゼキュータがトピックパーティションを消費するものは何でも）

私がやりたいことは、e0 が t0 と t1 の両方からパーティション 0 を消費し、e1 が t0 と t1 からパーティション 1 を消費するようにすることです。スケジューリングをいじる以外に方法はありませんか? もしそうなら、最善のアプローチは何ですか。

これを行う理由は、エグゼキューターが cassandra データベースに書き込み、並列化されたコンテキストになるため、1 つのエグゼキューターが別のエグゼキューターと「衝突」する可能性があるため、パーティションを割り当てることにより、エグゼキューターに強制的に処理させたいと考えているためです。データを順次。

クリス・マッタ

Spark 2.x は、assignオプションを使用したパーティションの割り当てをサポートしています。詳細については、こちらを参照してください。

例:

Dataset<Row> ds2 = spark
  .readStream()
  .format("kafka")
  .option("kafka.bootstrap.servers", "host1:port1,host2:port2")
  .option("subscribe", "t0,t1")
  .option("assign", '{"t0": [0], "t1": [0]}')
  .load()

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集2021-07-29

コメントを追加

サインイン

分類Dev

Related 関連記事

記事

特定の Spark executor への kafka パーティションのマッピング

特定の Spark executor への kafka パーティションのマッピング

Spark + Kafka統合-KafkaパーティションのRDDパーティションへのマッピング

Kafkaトピック内の特定のパーティションからSparkを使用してデータをストリーミングする

Sparkストリーミング-Kafkaトピックの特定のパーティションを消費することは可能ですか？

Kafka + Spark Streaming-パーティション間の公平性？

トピック内の特定のパーティションからのストリーミング（Kafka Streams）

（py）sparkでの単純なマッピングパーティションジョブ

Spark Structured Streaming Kafka Writerは、特定のパーティションへのデータの書き込みをサポートしていますか？

Apache Kafka-トピック/パーティションのKafkaStream

Kafkaのコンシューマーパーティションとプロデューサーパーティションのマッチング

Kafka：単一のコンシューマーグループ、パーティションなし、複数のトピック

ZFSプールのパーティションへのマッピング

Spark連続処理モードは、すべてのkafkaトピックパーティションを読み取るわけではありません

Kafkaコンシューマー-特定のkafkaトピックパーティションからのイベントのポーリングを一時停止して、それを遅延キューとして使用します

kafka-複数のトピックと複数のパーティション

未使用のKafkaトピック/パーティションのコスト

kafkaストリーム-パーティション化されたトピックへの参加

リーダー-1のKafkaトピックパーティション

「spark.yarn.executor.memoryOverhead」設定の値は？

Kafka + Sparkストリーミング：単一のジョブでのマルチトピック処理

特定のkafkaコンシューマーを特定のパーティションに割り当てる方法

kafkaがトピックのパーティション数を取得する

Kafkaトピックのパーティション数を減らす方法は？

kafkaとsparkストリーミングを使用して直接ストリームを作成する前に、トピックのパーティション数を取得しますか？

KafkaクライアントからのKafkaトピックのパーティション数を増やす

KafkaトピックパーティションとSparkエグゼキューターマッピング

パーティションはSparkのタスクにどのようにマッピングされますか？

特定の同じパーティションへのKafka複数のプロデューサー

Kafkaパーティションの再割り当てパフォーマンスへの影響

パーティションのKafka複数のコンシューマー