合并两个大型数据集的最佳策略

保罗·K

我目前正在尝试找到处理两个非常大的数据集的最佳方法。

我有两个BigQuery表:

  • 一个包含流事件的表(十亿行)
  • 一个包含标签和相关事件属性的表(100 000行)

我想根据事件属性使用适当的标记来标记每个事件(一个事件可以有多个标记)。但是,对于数据集大小,SQL交叉联接似乎太慢。

因为必须将每个事件与每个标记进行比较,所以最好的方法是继续使用mapreduce的流水线并避免非常昂贵的随机播放阶段。

另外,我还计划使用Google Cloud Dataflow,此工具是否适合该任务?

杰里米·里维(Jeremy Levi)

Google Cloud Dataflow非常适合此操作。

假设标签数据足够小以适合内存,您可以通过将其作为SideInput传递来避免随机播放

您的管道如下所示

  • 使用两个BigQueryIO转换从每个表中读取。
  • 创建一个DoFn,以使用其标签来标记每个事件。
  • DoFn的输入PCollection应该是事件。将标签表作为侧面输入传递。
  • 使用BigQueryIO转换将结果写回到BigQuery(假设您要对输出使用BigQuery)

如果您的标签数据太大而无法容纳在内存中,则您很有可能必须使用Join

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

合并两个大型数据集的最佳策略

来自分类Dev

在RxJava中联接两个大型数据集

来自分类Dev

如何合并两个文件之间的通用数据集

来自分类Dev

根据排除重复项的两个 comumn 值合并两个 spark 数据集

来自分类Dev

合并大型数据集

来自分类Dev

合并特定列上的两个大型数据框,并显示进度条

来自分类Dev

如何在两个VirtualBox虚拟机之间复制大型数据集?

来自分类Dev

合并两个数据集

来自分类Dev

合并两个数据集

来自分类Dev

合并两个父>子表集

来自分类Dev

合并两个IGrouping集

来自分类Dev

Django 合并两个查询集

来自分类Dev

如何合并两个图标集?

来自分类Dev

如何在Java中合并两个大型POJO?

来自分类Dev

使用键合并两个熊猫数据框并对其进行分割的最佳方法

来自分类Dev

合并/合并名称重复的两个数据集

来自分类Dev

合并两个对象数据

来自分类Dev

合并两个对象数据

来自分类Dev

Linq更新和合并两个结果集(来自数据表)

来自分类Dev

ggplot2:合并来自两个不同地理数据集的shapefile

来自分类Dev

合并两个不相等的数据集以计算比例

来自分类Dev

Linq更新和合并两个结果集(来自数据表)

来自分类Dev

附加和合并R中两个不等长的数据集

来自分类Dev

合并以SAS中的3个变量为条件的两个数据集

来自分类Dev

合并两个以上的数据集无法正常工作 sas

来自分类Dev

有条件地将两个大型数据集的多个列中的元素彼此匹配

来自分类Dev

使用精确匹配和模糊匹配将R中的两个大型数据集连接起来

来自分类Dev

合并两个sql表的最佳方法

来自分类Dev

优化两个大型pyspark数据帧的连接

Related 相关文章

热门标签

归档