假设我有一个BigQuery表,其中包含3M行,我想将其导出到gcs。我的工作是标准的bq extract <flags> ... <project_id>:<dataset_id>.<table_id> gs://<bucket>/file_name_*.<extension>
我受文件(部分)可以具有的行数限制的约束。有没有办法对文件部分的大小设置硬限制?
例如,如果我希望每个分区都不超过10Mb,甚至更高,是否要设置文件部分允许的最大行数?该文档似乎没有提及任何用于此目的的标志。
BigQuery提取API无法做到这一点。
但是您可以编写脚本(在一个循环中执行数千行的导出),但是您将不得不为处理后的数据付费(提取是免费的!)。您也可以为此设置Dataflow作业(但它也不是免费的!)。
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句