SparkStreamingでKafkaConsumerを一時停止して再開します

debugcn 投稿 Dev

ボルハ

簡単に言うと、Kafkaからの新しいレコードを消費したくないという（奇妙な）状況に陥ったので、トピック内のすべてのパーティションのsparkStreaming消費（InputDStream [ConsumerRecord]）を一時停止し、いくつかの操作を実行して、最後に、レコードの消費を再開します。

まず第一に...これは可能ですか？

私はこのようなsthを試してきました：

var consumer: KafkaConsumer[String, String] = _    
consumer = new KafkaConsumer[String, String](properties)    
consumer.subscribe(java.util.Arrays.asList(topicName))

consumer.pause(consumer.assignment())
...
consumer.resume(consumer.assignment())

しかし、私はこれを手に入れました：

println(s"Assigned partitions: $consumer.assignment()") --> []
println(s"Paused partitions: ${consumer.paused()}") --> []
println(s"Partitions for: ${consumer.partitionsFor(topicNAme)}") --> [Partition(topic=topicAAA, partition=0, leader=1, replicas=[1,2,3], partition=1, ... ]

何が欠けているのか、そして消費者がパーティションを割り当てていることが明らかなのになぜ空の結果が得られるのかを理解するための助けは歓迎されます！

バージョン：Kafka：0.10 Spark：2.3.0 Scala：2.11.8

クイックシルバー

はい、可能ですコードにチェックポインティングを追加し、永続ストレージ（ローカルディスク、S3、HDFS）パスを渡します

また、ジョブを開始/再開するたびに、チェックポインティングからのコンシューマーオフセットを含むKafkaコンシューマーグループ情報を取得し、停止した場所から処理を開始します。

val context = StreamingContext.getOrCreate(checkpointDirectory, functionToCreateContext _)

Spark Check- = pointingは、オフセットを保存するだけでなく、ステージとジョブのDAGのシリアル化状態を保存するためのメカニズムです。したがって、新しいコードでジョブを再開するたびに、

シリアル化されたデータを読み取って処理する
Sparkアプリにコードの変更がある場合は、キャッシュされたDAGステージをクリーンアップします
最新のコードを使用して、新しいデータから処理を再開します。

ここで、ディスクからの読み取りは、SparkがKafkaオフセット、DAG、および古い不完全な処理済みデータをロードするために必要な1回限りの操作です。

完了すると、デフォルトまたは指定されたチェックポイント間隔で常にデータをディスクに保存し続けます。

SparkストリーミングにはKafkaグループIDを指定するオプションがありますが、Spark構造化ストリームにはありません。

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集2021-06-12

コメントを追加

サインイン

分類Dev

Related 関連記事

記事

SparkStreamingでKafkaConsumerを一時停止して再開します

SparkStreamingでKafkaConsumerを一時停止して再開します

setIntervalを一時停止して再開します

forループを一時停止して再開します

Swift：NSTimerを一時停止して再開します

ストリームを一時停止して再開します

Pythonでスレッドを一時停止して再開します

JavaScriptでsetIntervalを一時停止および再開します

他のブランチで作業している間、gitrebaseを一時停止して再開します

Javaスレッドを停止、中断、一時停止、再開します

脊椎アニメーションを一時停止して再開します

アプリケーションを一時停止して再開します

addEventListenerが一時停止して再開しない-Androidで電話または通知を受信した後、HTML5オーディオを再開します

Rでのキャレットトレーニングを一時停止して再開します

LinuxでPythonを使用してオーディオを一時停止または再開する

スレッドを一時停止/再開します

jmeterの実行を一時停止および再開します

Seleniumの実行を一時停止および再開します

forループを一時停止し、進行状況を保存して、もう一度再開しますか？

一時停止する前にsystemdサービスを停止し、再開後に再開します

タイマーを「一時停止」して再開しようとしています

Excelの読み取りを一時停止し、ボタンをクリックして再開します

一時停止、再開時に最後に一時停止した値を指定します

Bashでループを停止して再開します

UIViewPropertyAnimatorを使用して制約アニメーションを一時停止および再開します

Czを使用してコンソールemacsを一時停止/再開しますか？

ターミナルを閉じるときにwgetを一時停止して再開します

ExoPlayer 2の再生を一時停止して再開する方法（PlayerControlは削除されました）

ExoPlayer 2の再生を一時停止して再開する方法（PlayerControlは削除されました）

ExoPlayer 2の再生を一時停止して再開する方法（PlayerControlは削除されました）

スレッドアクティビティを一時停止して再開します