dataprocクラスターの各ノードに環境変数を設定して、そのクラスターで実行されるpysparkジョブで使用できるようにしたいと思います。これを行うための最良の方法は何ですか?
Compute Engineメタデータを使用してそれを行う方法があるかどうか疑問に思っています(これまでの私の調査では、Compute Engineメタデータは、環境変数ではなく、Compute Engineインスタンスのメタデータサーバーを介して利用できることが示されています)。
それ以外export
は、dataproc初期化スクリプトでコマンドを発行する以外にそれを行う方法を考えることはできません。
誰かが他の選択肢を提案できますか?
Dataprocは、カスタム環境変数のファーストクラスのサポートを持っていませんが、環境変数をに追加することにより、initアクションでそれを実現できます/etc/environment
。
この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。
侵害の場合は、連絡してください[email protected]
コメントを追加