如何避免基于列子集的BigQuery中的重复数据？

Bryan 发表于 Dev

布赖恩

我正在生成包含应用程序日志数据的CSV文件。CSV文件中的列为timestamp, source_address, destination_url, request_type。当我将CSV文件加载到BigQuery中时，它只是将CSV中的数据附加到BigQuery中的现有表中。我想避免重复source_address, destination_url, request_type设置，而只是跟踪此类设置的最新时间戳。

我考虑过的一种方法是GROUP BY source_address, destination_url, request_type获取MAX(timestamp)，但这意味着我必须将该查询保存到一个新表中，然后可以查询该表，然后将其复制回到定期加载该表的原始表中。 CSV文件到。

有更好的方法可以做到这一点吗？除了Google会为查询完成的数据收费之外，重复的记录就可以了。

----编辑＃1 ----

我也完全欢迎在加载到BiqQuery之前对CSV数据进行重复数据删除的方法，因此，如果有人对如何使用管道工具基于某些列索引或某些内容来区分CSV文件有任何很酷的想法，就像我很想听听他们。

----编辑＃2 ----

好的，所以我一直在修改sort命令，我想我可能会做一些事情，但是我希望其他人的意见可以确认。在sort -t, -k1,1 -r logfile.csv | sort -u -t, -k2,4做我想要的吗？这种方法仍然需要我创建一个新表，而不是每次要加载新数据时都附加表，但是如果没有其他选择，那就可以了。

乔丹·提加尼（Jordan Tigani）

您建议的第一种方法通常是最佳选择。如果您有大量数据，则可能需要用aGROUP EACH BY代替GROUP BY。

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-02-16

我来说两句

0条评论

登录后参与评论

来自分类Dev

Related 相关文章

文章

如何避免基于列子集的BigQuery中的重复数据？

如何避免基于列子集的BigQuery中的重复数据？

删除 bigquery 中的重复数据

如何避免多次重复数据库查询

如何避免保存重复数据？[姜戈]

避免在“客户也已购买”表中重复数据

避免OpenGL缓冲区中的重复数据

避免在php mysql中重复数据更新？

R中数据帧的按列子集

Android-如何在Sqlite中基于重复数据合并行

如何防止SQL中的重复数据

如何从GridView中删除重复数据？

重复数组中的数据如何过滤

基于条件输入的闪亮R DT中的列子集

匹配特定列子集后，删除文件中的重复行

如何从数据表中的列子集中提取唯一行？

使用PHP和MySQL从数据库中获取数据时，无法避免重复数据

如何在Spark结构化流中基于时间戳字段重复数据删除并保持最新？

在 R 中的数据框中的列子集上拟合模型

如何停止重复数据

SQL中的重复数据

将数据帧拆分为 R 中的列子集列表

如何用熊猫中的重复数据填写行？

如何在R中重复数据帧的顺序

如何找到数据帧中重复数的计数？

如何检测然后删除RPGLE阵列中的重复数据？

如何从PDO数组结果中删除重复数据

如何删除数组中的重复数据？

如何过滤ng-repeat中的重复数据？

如何删除交叉过滤器中的重复数据？

增值时如何控制firebase中的重复数据？