JavaでのSparkファイルストリーミングによるチェックポイント

debugcn 投稿 Dev

Ajit：

私のスパークストリーミングアプリケーションが停止/終了した場合に、hadoopからのすべての未処理ファイルを処理するために、スパークファイルストリーミングアプリケーションにチェックポイントを実装したいと思います。私はこれに従っています：ストリーミングプログラミングガイドですが、JavaStreamingContextFactoryが見つかりません。どうしたらいいか手伝ってください。

私のコードは

public class StartAppWithCheckPoint {

    public static void main(String[] args) {
        
        try {
            
            String filePath = "hdfs://Master:9000/mmi_traffic/listenerTransaction/2020/*/*/*/"; 
            String checkpointDirectory = "hdfs://Mongo1:9000/probeAnalysis/checkpoint";
            SparkSession sparkSession = JavaSparkSessionSingleton.getInstance();

            JavaStreamingContextFactory contextFactory = new JavaStreamingContextFactory() {
                  @Override public JavaStreamingContext create() {
                      
                    SparkConf sparkConf = new SparkConf().setAppName("ProbeAnalysis");
                    JavaSparkContext sc = new JavaSparkContext(sparkConf);  
                    JavaStreamingContext jssc = new JavaStreamingContext(sc, Durations.seconds(300));
                    JavaDStream<String> lines = jssc.textFileStream(filePath).cache();
                    
                    jssc.checkpoint(checkpointDirectory);
                    return jssc;
                  }
                };
                
            JavaStreamingContext context = JavaStreamingContext.getOrCreate(checkpointDirectory, contextFactory);
            
            context.start();
            context.awaitTermination();
            context.close();
            sparkSession.close();
            
        } catch(Exception e) {
            e.printStackTrace();
        }   
    }
}

マジッドハジババ：

チェックポイントを使用する必要があります

チェックポイントには、またはのいずれかのステートフル変換を使用します。git-hubのprebuild sparkとspark sourceとともに提供されるspark-examplesには多くの例があります。具体的には、JavaStatefulNetworkWordCount.javaを参照してください。updateStateByKeyreduceByKeyAndWindow

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集2021-04-7

コメントを追加

サインイン

分類Dev

Related 関連記事

記事

JavaでのSparkファイルストリーミングによるチェックポイント

JavaでのSparkファイルストリーミングによるチェックポイント

Sparkチェックポイント非ストリーミング-チェックポイントファイルは、後続のジョブ実行またはドライバープログラムで使用できます

DStreamsのSparkストリーミングチェックポイント

Sparkストリーミングの多くのソースをチェックポイントする方法

Sparkストリーミングチェックポイントの回復は非常に遅い

Spark構造化ストリーミングチェックポイントのクリーンアップ

チェックポイントを使用したSparkストリーミング

Apache Flinkストリーミングでチェックポイントのタイミングをどのように計りますか？

シークできないファイルのようなオブジェクトを複数のシンクにストリーミングする

チェックポイントを有効にしたSparkストリーミングSQS

Javaで空スペースのあるJPGファイルをクロップ/トリミング

Sparkストリーミングアプリケーションを再デプロイするようにチェックポイントを構成するにはどうすればよいですか？

ストリーミング用にvlcをすべてのインターフェイスにバインドし、telnetインターフェイスのループバックのみにするにはどうすればよいですか？

ストリーミング用にvlcをすべてのインターフェイスにバインドし、telnetインターフェイスのループバックのみにするにはどうすればよいですか？

Java8複数のファイルを行にフラットマップでストリーミング

Spark構造化ストリーミング-入力ソースの数が増えたため、チェックポイントでAssertionError

gitチェックアウトによって失われたファイルの回復（ステージング/コミットされていない）

apachepoiを使用したストリーミング/ページネーション戦略によるxlsxファイルのチャンクとしての解析

ヘッダー付きのcsvファイルをJavaのHashMap <String、Double>にストリーミングするにはどうすればよいですか？

Ubuntu16.04にファミリーサーチインデックスをインストールする方法

チェックアウトの間に特定のファイルを自動的にクリーニングする

フォントの個々のグリフをユニコード名でバッチでsvgファイルにエクスポートしますか？

Elixirのファイルにストリーミングするにはどうすればよいですか？

GSONのJsonReaderでJsonファイルをストリーミングするとき、オブジェクトを文字列にダンプできますか？

browserSyncが実際に変更されたファイルのみをストリーミングできるようにするために、CSSの変更を監視するgulpウォッチをフィルタリングする方法

ファイルのインストールアクションのSSLチェックを無効にする

Spark構造化ストリーミングファイルシンクファイルパスまたはファイル名を定義するにはどうすればよいですか？

クロスドメインポリシーを回避してjqueryajaxを使用して別のドメインからオーディオファイルをストリーミングするにはどうすればよいですか？

PFファイアウォール：特定のポート転送ルールを除いて、ループバックインターフェイスですべてのフィルタリングを無効にする方法は？

ブロックチェーン：Windows10でのHyperLedgerファブリックのインストール