私は現在、これらのパラメーターを使用してテンプレートを生成しています。
--runner DataflowRunner \
--requirements_file requirements.txt \
--project ${GOOGLE_PROJECT_ID} \
--output ${GENERATED_FILES_PATH}/staging \
--staging_location=${GENERATED_FILES_PATH}/staging \
--temp_location=${GENERATED_FILES_PATH}/temp \
--template_location=${GENERATED_FILES_PATH}/templates/calculation-template \
SDKは、内部で指定された依存関係をrequirements.txt
ステージングセクション内のGCSにアップロードしています。わかりません...この種のファイルを使用すると、ワーカーはGCSからではなく、公式のpipレジストリから依存関係を直接取得できます。
パッケージをアップロードする必要があるため、このコマンドの実行は非常に長くなります:/
なぜそれが起こっているのか説明はありますか?多分私は何か間違ったことをしているのですか?
ありがとうございました、
これは、Dataflowワーカーの起動プロセスをより効率的かつ一貫性のあるものにするために行われると思います(最初と自動スケーリングの両方)。これがないと、Dataflowワーカーが起動するたびに、そのワーカーはPyPIに直接接続して、依存関係の最新の一致するバージョンを見つける必要があります。これの代わりに、一連の依存関係はパイプラインの開始時にステージングされ、パイプラインの実行全体を通じてワーカーに一貫してインストールされます。
この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。
侵害の場合は、連絡してください[email protected]
コメントを追加