特定の Spark executor への kafka パーティションのマッピング

サミ・オアサイディ

そのため、エグゼキューターが kafka トピックからデータを消費する方法を指定する必要があります。

2 つのトピックがあるとします。それぞれ 2 つのパーティションを持つ t0 と t1、および 2 つのエグゼキューター e0 と e1 (両方とも同じノードに存在できるため、割り当て戦略は機能しません。マルチエグゼキューター ノードの場合はラウンド ロビンに基づいて動作するため)スケジューリング、最初に利用可能なエグゼキュータがトピックパーティションを消費するものは何でも)

私がやりたいことは、e0 が t0 と t1 の両方からパーティション 0 を消費し、e1 が t0 と t1 からパーティション 1 を消費するようにすることです。スケジューリングをいじる以外に方法はありませんか? もしそうなら、最善のアプローチは何ですか。

これを行う理由は、エグゼキューターが cassandra データベースに書き込み、並列化されたコンテキストになるため、1 つのエグゼキューターが別のエグゼキューターと「衝突」する可能性があるため、パーティションを割り当てることにより、エグゼキューターに強制的に処理させたいと考えているためです。データを順次。

クリス・マッタ

Spark 2.x は、assignオプションを使用したパーティションの割り当てをサポートしています。詳細については、こちらを参照してください

例:

Dataset<Row> ds2 = spark
  .readStream()
  .format("kafka")
  .option("kafka.bootstrap.servers", "host1:port1,host2:port2")
  .option("subscribe", "t0,t1")
  .option("assign", '{"t0": [0], "t1": [0]}')
  .load()

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集
0

コメントを追加

0

関連記事

分類Dev

Spark + Kafka統合-KafkaパーティションのRDDパーティションへのマッピング

分類Dev

Kafkaトピック内の特定のパーティションからSparkを使用してデータをストリーミングする

分類Dev

Sparkストリーミング-Kafkaトピックの特定のパーティションを消費することは可能ですか?

分類Dev

Kafka + Spark Streaming-パーティション間の公平性?

分類Dev

トピック内の特定のパーティションからのストリーミング(Kafka Streams)

分類Dev

(py)sparkでの単純なマッピングパーティションジョブ

分類Dev

Spark Structured Streaming Kafka Writerは、特定のパーティションへのデータの書き込みをサポートしていますか?

分類Dev

Apache Kafka-トピック/パーティションのKafkaStream

分類Dev

Kafkaのコンシューマーパーティションとプロデューサーパーティションのマッチング

分類Dev

Kafka:単一のコンシューマーグループ、パーティションなし、複数のトピック

分類Dev

ZFSプールのパーティションへのマッピング

分類Dev

Spark連続処理モードは、すべてのkafkaトピックパーティションを読み取るわけではありません

分類Dev

Kafkaコンシューマー-特定のkafkaトピックパーティションからのイベントのポーリングを一時停止して、それを遅延キューとして使用します

分類Dev

kafka-複数のトピックと複数のパーティション

分類Dev

未使用のKafkaトピック/パーティションのコスト

分類Dev

kafkaストリーム-パーティション化されたトピックへの参加

分類Dev

リーダー-1のKafkaトピックパーティション

分類Dev

「spark.yarn.executor.memoryOverhead」設定の値は?

分類Dev

Kafka + Sparkストリーミング:単一のジョブでのマルチトピック処理

分類Dev

特定のkafkaコンシューマーを特定のパーティションに割り当てる方法

分類Dev

kafkaがトピックのパーティション数を取得する

分類Dev

Kafkaトピックのパーティション数を減らす方法は?

分類Dev

kafkaとsparkストリーミングを使用して直接ストリームを作成する前に、トピックのパーティション数を取得しますか?

分類Dev

KafkaクライアントからのKafkaトピックのパーティション数を増やす

分類Dev

KafkaトピックパーティションとSparkエグゼキューターマッピング

分類Dev

パーティションはSparkのタスクにどのようにマッピングされますか?

分類Dev

特定の同じパーティションへのKafka複数のプロデューサー

分類Dev

Kafkaパーティションの再割り当てパフォーマンスへの影響

分類Dev

パーティションのKafka複数のコンシューマー

Related 関連記事

  1. 1

    Spark + Kafka統合-KafkaパーティションのRDDパーティションへのマッピング

  2. 2

    Kafkaトピック内の特定のパーティションからSparkを使用してデータをストリーミングする

  3. 3

    Sparkストリーミング-Kafkaトピックの特定のパーティションを消費することは可能ですか?

  4. 4

    Kafka + Spark Streaming-パーティション間の公平性?

  5. 5

    トピック内の特定のパーティションからのストリーミング(Kafka Streams)

  6. 6

    (py)sparkでの単純なマッピングパーティションジョブ

  7. 7

    Spark Structured Streaming Kafka Writerは、特定のパーティションへのデータの書き込みをサポートしていますか?

  8. 8

    Apache Kafka-トピック/パーティションのKafkaStream

  9. 9

    Kafkaのコンシューマーパーティションとプロデューサーパーティションのマッチング

  10. 10

    Kafka:単一のコンシューマーグループ、パーティションなし、複数のトピック

  11. 11

    ZFSプールのパーティションへのマッピング

  12. 12

    Spark連続処理モードは、すべてのkafkaトピックパーティションを読み取るわけではありません

  13. 13

    Kafkaコンシューマー-特定のkafkaトピックパーティションからのイベントのポーリングを一時停止して、それを遅延キューとして使用します

  14. 14

    kafka-複数のトピックと複数のパーティション

  15. 15

    未使用のKafkaトピック/パーティションのコスト

  16. 16

    kafkaストリーム-パーティション化されたトピックへの参加

  17. 17

    リーダー-1のKafkaトピックパーティション

  18. 18

    「spark.yarn.executor.memoryOverhead」設定の値は?

  19. 19

    Kafka + Sparkストリーミング:単一のジョブでのマルチトピック処理

  20. 20

    特定のkafkaコンシューマーを特定のパーティションに割り当てる方法

  21. 21

    kafkaがトピックのパーティション数を取得する

  22. 22

    Kafkaトピックのパーティション数を減らす方法は?

  23. 23

    kafkaとsparkストリーミングを使用して直接ストリームを作成する前に、トピックのパーティション数を取得しますか?

  24. 24

    KafkaクライアントからのKafkaトピックのパーティション数を増やす

  25. 25

    KafkaトピックパーティションとSparkエグゼキューターマッピング

  26. 26

    パーティションはSparkのタスクにどのようにマッピングされますか?

  27. 27

    特定の同じパーティションへのKafka複数のプロデューサー

  28. 28

    Kafkaパーティションの再割り当てパフォーマンスへの影響

  29. 29

    パーティションのKafka複数のコンシューマー

ホットタグ

アーカイブ