我目前正在尝试找到处理两个非常大的数据集的最佳方法。
我有两个BigQuery表:
我想根据事件属性使用适当的标记来标记每个事件(一个事件可以有多个标记)。但是,对于数据集大小,SQL交叉联接似乎太慢。
因为必须将每个事件与每个标记进行比较,所以最好的方法是继续使用mapreduce的流水线并避免非常昂贵的随机播放阶段。
另外,我还计划使用Google Cloud Dataflow,此工具是否适合该任务?
Google Cloud Dataflow非常适合此操作。
假设标签数据足够小以适合内存,您可以通过将其作为SideInput传递来避免随机播放。
您的管道如下所示
如果您的标签数据太大而无法容纳在内存中,则您很有可能必须使用Join。
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句