検索

検索

データフロージョブで処理されたファイルを特定するにはどうすればよいですか？

debugcn 投稿 Dev

4

カマル・シャルマ

データフロージョブで処理されたファイルを特定するにはどうすればよいですか？ワイルドカードを使用してクラウドストレージからファイルを読み取ります。ただし、ジョブが実行されるたびに、すべてのファイルが再読み取りされます。

これはバッチジョブであり、以下は私が使用しているTextIOを読み取るサンプルです。

PCollection<String> filePColection  = pipeline.apply("Read files from Cloud Storage ", TextIO.read().from("gs://bucketName/TrafficData*.txt"));

パブロ

ワイルドカードに一致するファイルのリストを表示するにgsutilsは、CloudStorageコマンドラインユーティリティであるを使用できます。次のようにします。

gsutils ls gs://bucketName/TrafficData*.txt

これで、バッチジョブを複数回実行する場合、パイプラインには、分析済みのファイルがすでにあるかどうかを知る方法がありません。新しいファイルの分析を回避するには、次のいずれかを実行できます。

ストリーミングジョブを定義し、TextIOのwatchForNewFiles機能を使用します。ファイルの処理を続けたい限り、ジョブを実行したままにしておく必要があります。
すでに分析されたファイルをパイプラインに提供する方法を見つけてください。このため、パイプラインを実行するたびに、分析するファイルのリストを生成し、それをに入れPCollection、それぞれをTextIO.readAll()で読み取り、分析されたファイルのリストをどこかに保存することができます。後でパイプラインを再度実行すると、このリストを、再度実行する必要のないファイルのブラックリストとして使用できます。

これらの2つのオプションのいずれかに関する解決策を検討したい場合は、コメントでお知らせください。

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集2021-08-10

0

コメントを追加

0

サインイン

関連記事

分類Dev

アップロードされたファイルデータを手動で処理するにはどうすればよいですか？

分類Dev

ファイルのクローズによってスローされた例外を処理するにはどうすればよいですか？

分類Dev

動的に作成されたフィルターをSQLServerのストアドプロシージャのパラメーターとして渡し、データをフィルター処理するにはどうすればよいですか？

分類Dev

DBに保存する前にファイルからアップロードされた後処理データを作成するにはどうすればよいですか？

分類Dev

ajaxを使用し、データベースを使用せずに、単純なjsonファイルサーバー側からjavascript、フィルター処理されたレコードを取得するにはどうすればよいですか？

分類Dev

Primefacesレイジーデータテーブルでフィルタリングされた値を取得するにはどうすればよいですか？

分類Dev

ハンドブレーキを使用して、圧縮された（バッチ処理された）ビデオファイルを元のフォルダーに保存するにはどうすればよいですか？

分類Dev

cronジョブの実行時に特定のメッセージをログファイルに記録するにはどうすればよいですか？

分類Dev

Cでのファイル処理に関するデータを削除するにはどうすればよいですか？

分類Dev

ノード名を指定せずにネストされたYMLファイルを反復処理するにはどうすればよいですか？

分類Dev

「忘れた」アップロードファイルを処理および削除するにはどうすればよいですか？

分類Dev

JSONファイルで特定のデータを取得するにはどうすればよいですか

分類Dev

特定の式でデータファイルを分割するにはどうすればよいですか？

分類Dev

処理コードを別々のファイルに整理するにはどうすればよいですか？

分類Dev

パブリックリポジトリでプライベート設定ファイルを処理するにはどうすればよいですか？

分類Dev

Mapreduceジョブのマッパーでデータシャードのファイルパスを取得するにはどうすればよいですか？

分類Dev

ファイルマネージャによる実行可能ファイルの処理方法を変更するにはどうすればよいですか？

分類Dev

フィルター処理された計算プロパティをember-drag-dropsortable-objectsで使用するにはどうすればよいですか？

分類Dev

FORループを使用して、条件を満たさないファイルを処理するにはどうすればよいですか？

分類Dev

Rのデータテーブル列を反復処理して、プロットでグラフ化するにはどうすればよいですか？

分類Dev

Web ジョブコンソールアプリのデプロイされた構成ファイルの内容ではなく、Azure ポータルストレージ接続文字列を使用する Web ジョブを取得するにはどうすればよいですか?

分類Dev

AngularJS-フィルター処理された配列を別のフィルターで使用するにはどうすればよいですか？

分類Dev

Pythonの.jsonファイルで指定された形式の.csvファイルからデータを抽出するにはどうすればよいですか？

分類Dev

GCSファイルパターンを一度に完全なファイルで処理するにはどうすればよいですか？

分類Dev

データファイルをarraylistにロードするにはどうすればよいですか

分類Dev

txtファイル（PHP）の特定のデータを削除するにはどうすればよいですか？

分類Dev

パラメータで渡された関数を使用して、指定された必須フィールドをフォーマットする複雑なオブジェクトを処理するにはどうすればよいですか？

分類Dev

パラメータとして渡された特定のファイル以外のファイルを削除するにはどうすればよいですか？

分類Dev

javascriptを使用して処理済みデータをテキストファイルに保存するにはどうすればよいですか？

Related 関連記事

記事

ホットタグ

アーカイブ