Google Cloud Storageから12個の圧縮(gzip)表形式ファイルをロードするロードジョブをGoogleBigQueryに送信しました。各ファイルは約2ギガ圧縮されています。私が実行したコマンドは次のようなものでした。
bq load --nosync --skip_leading_rows=1 --source_format=CSV
--max_bad_records=14000 -F "\t" warehouse:some_dataset.2014_lines
gs://bucket/file1.gz,gs://bucket/file2.gz,gs://bucket/file12.gz
schema.txt
BigQueryの読み込みジョブから次のエラーが表示されますが、理由は説明されていません。
エラー理由:internalError。このエラーの詳細については、エラーのトラブルシューティング:internalErrorを参照してください。
エラー:予期しない。もう一度やり直してください。
同じスキーマで異なるファイルのセットを使用してファイルを正常にロードしたので、スキーマファイルは正しくフォーマットされていると確信しています。
このような内部エラーはどのような状況で発生するのでしょうか。また、この問題をデバッグするにはどうすればよいでしょうか。
私のBQジョブID:bqjob_r78ca777a8ad4bdd9_0000014e2dc86e0e_1
ありがとうございました!
明確な原因で常に報告されるとは限らない大きな.gz入力ファイルを使用する場合があります。これは、特に(排他的ではありませんが)圧縮性の高いテキストで発生する可能性があるため、1GBの圧縮データは異常に大量のテキストを表します。
圧縮されたCSV / JSONについて、このページに記載されている制限は1GBです。それが最新の場合、実際には2GBの入力でエラーが発生すると予想されます。確認させてください。
これらのファイルを小さな部分に分割して再試行できますか?
(メタ:グレース、あなたは正しいです、GoogleはStackOverflowで「Googleエンジニアはタグgoogle-bigqueryで質問を監視して答えます」と言っています。私はGoogleエンジニアですが、そうでない知識のある人もたくさんいます。Googleのドキュメントはおそらく、より明確なガイダンスを提供します。StackOverflowコミュニティにとって最も価値のある質問は、将来の人が同じ問題を抱えていることを特定できる質問であり、Google以外の人が公開情報から答えることができれば、難しい質問です。エラーが広範囲で原因が不明なためですが、公開できる入力ファイルを使用して問題を再現できれば、ここでより多くの人が問題を解決できるようになります。ファイルすることもできます。問題 Google以外の誰も実際に多くのことを行うことができない質問のために。)
この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。
侵害の場合は、連絡してください[email protected]
コメントを追加