使用假时间戳在 Google BigQuery 上创建分区

debugcn 发表于 Dev

JLCDev

Google BigQuery (BQ) 允许您仅使用timestamp或date类型创建分区。

我 99% 的数据都有一个非常清晰的选择器，idClient。我已经使用谓词创建了客户的视图，idClient = code因此可以保证隐私。

这种策略的问题在于，有些客户有 500 万行，而其他客户有 20 万行，并且由于BQ没有索引，他们总是在处理彼此的数据（并且成本正在上升）。

我打算创建一个timestamp字段，其中每个客户都有一个不同的字段，每个客户timestamp敏感表中的每个插入都会重复该字段，因此我可以timestamp通过修复它来查询，就像使用标准 ID 一样。

这有意义吗？如果 BQ 是一个索引数据库，我会担心数据倾斜，但由于它始终是全表扫描，我认为我只会有好处而没有坏处。

塔米尔克莱因

您的问题的解决方案是将 Cluster 字段添加到您的表中，这相当于其他数据库中的索引

此链接提供了有关如何使用集群字段的基础知识

聚类可以提高某些类型查询的性能，例如使用过滤器子句的查询和聚合数据的查询。当查询作业或加载作业将数据写入聚簇表时，BigQuery 会使用聚簇列中的值对数据进行排序

注意：当使用集群字段 BigQuert dryRun 不显示只能在执行后看到的成本改进

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-07-26

我来说两句

0条评论

登录后参与评论

来自分类Dev

Google bigquery中的时间戳格式丢失

来自分类Dev

在Google Bigquery中使用loadjob时如何创建日期分区表？

来自分类Dev

BigQuery - 更新行分区时间戳值，是否重新分区

来自分类Dev

在 Google BigQuery 上按时间窗口拆分时间块

来自分类Dev

从Google BigQuery提取时间序列

来自分类Dev

使用Python在Google BigQuery中创建每周计划的查询作业

来自分类Dev

BigQuery-使用分区创建视图，但基本表没有

来自分类Dev

Google Bigquery：不兼容的表分区规范

来自分类Dev

Google BigQuery per ID 分区技术

来自分类Dev

BigQuery：按摄取时间分区的查询表成本与分区的日期/时间戳的查询成本

来自分类Dev

如何创建作业以在 google-BigQuery 上启动 python 脚本

来自分类Dev

Unix 时间到日期时间 google bigquery？

来自分类Dev

何时在BigQuery中使用分区

来自分类Dev

如何在非唯一时间戳上使用时间分区创建TimescaleDB Hypertable？

来自分类Dev

在Google bigquery中创建多列数组

来自分类Dev

Google BigQuery 创建简单的计数表

来自分类Dev

Google BigQuery不会解析可为空的第二个时间戳字段

来自分类Dev

如何为通过Google Apps脚本创建的BigQuery中的新表设置过期时间？

来自分类Dev

使用Google BigQuery Client API在BigQuery中加载JSON文件

来自分类Dev

如何在PHP / MySQL上使用时间戳转换为JSON Google Chart Table

来自分类Dev

是否可以从 Google BigQuery 的分区表中删除列？

来自分类Dev

在 Google bigquery 中对非分区数据进行运行计数

来自分类Dev

在Google BigQuery中使用外部.csv文件

来自分类Dev

使用Google Bigquery和Python批处理

来自分类Dev

根据条件/列值BigQuery创建分区

来自分类Dev

新时间戳上的分区日期以获取先前的时间戳

来自分类Dev

BigQuery时间戳到Ruby时间

来自分类Dev

Google BigQuery：从日期字段（“ yyyy-mm-dd”）或时间戳中选择“ yyyy-mm”并进行分组

来自分类Dev

在BigQuery中计算分区上的运行总和

Related 相关文章

文章