合并两个大型数据集的最佳策略

debugcn 发表于 Dev

保罗·K

我目前正在尝试找到处理两个非常大的数据集的最佳方法。

我有两个BigQuery表：

一个包含流事件的表（十亿行）
一个包含标签和相关事件属性的表（100 000行）

我想根据事件属性使用适当的标记来标记每个事件（一个事件可以有多个标记）。但是，对于数据集大小，SQL交叉联接似乎太慢。

因为必须将每个事件与每个标记进行比较，所以最好的方法是继续使用mapreduce的流水线并避免非常昂贵的随机播放阶段。

另外，我还计划使用Google Cloud Dataflow，此工具是否适合该任务？

杰里米·里维（Jeremy Levi）

Google Cloud Dataflow非常适合此操作。

假设标签数据足够小以适合内存，您可以通过将其作为SideInput传递来避免随机播放。

您的管道如下所示

使用两个BigQueryIO转换从每个表中读取。
创建一个DoFn，以使用其标签来标记每个事件。
DoFn的输入PCollection应该是事件。将标签表作为侧面输入传递。
使用BigQueryIO转换将结果写回到BigQuery（假设您要对输出使用BigQuery）

如果您的标签数据太大而无法容纳在内存中，则您很有可能必须使用Join。

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-06-15

我来说两句

0条评论

登录后参与评论

来自分类Dev

合并两个大型数据集的最佳策略

来自分类Dev

在RxJava中联接两个大型数据集

来自分类Dev

如何合并两个文件之间的通用数据集

来自分类Dev

根据排除重复项的两个 comumn 值合并两个 spark 数据集

来自分类Dev

合并大型数据集

来自分类Dev

合并特定列上的两个大型数据框，并显示进度条

来自分类Dev

如何在两个VirtualBox虚拟机之间复制大型数据集？

来自分类Dev

合并两个数据集

来自分类Dev

合并两个数据集

来自分类Dev

合并两个父>子表集

来自分类Dev

合并两个IGrouping集

来自分类Dev

Django 合并两个查询集

来自分类Dev

如何合并两个图标集？

来自分类Dev

如何在Java中合并两个大型POJO？

来自分类Dev

使用键合并两个熊猫数据框并对其进行分割的最佳方法

来自分类Dev

合并/合并名称重复的两个数据集

来自分类Dev

合并两个对象数据

来自分类Dev

合并两个对象数据

来自分类Dev

Linq更新和合并两个结果集（来自数据表）

来自分类Dev

ggplot2：合并来自两个不同地理数据集的shapefile

来自分类Dev

合并两个不相等的数据集以计算比例

来自分类Dev

Linq更新和合并两个结果集（来自数据表）

来自分类Dev

附加和合并R中两个不等长的数据集

来自分类Dev

合并以SAS中的3个变量为条件的两个数据集

来自分类Dev

合并两个以上的数据集无法正常工作 sas

来自分类Dev

有条件地将两个大型数据集的多个列中的元素彼此匹配

来自分类Dev

使用精确匹配和模糊匹配将R中的两个大型数据集连接起来

来自分类Dev

合并两个sql表的最佳方法

来自分类Dev

优化两个大型pyspark数据帧的连接

Related 相关文章

文章