如何避免基于列子集的BigQuery中的重复数据?

布赖恩

我正在生成包含应用程序日志数据的CSV文件。CSV文件中的列为timestamp, source_address, destination_url, request_type当我将CSV文件加载到BigQuery中时,它只是将CSV中的数据附加到BigQuery中的现有表中。我想避免重复source_address, destination_url, request_type设置,而只是跟踪此类设置的最新时间戳。

我考虑过的一种方法是GROUP BY source_address, destination_url, request_type获取MAX(timestamp),但这意味着我必须将该查询保存到一个新表中,然后可以查询该表,然后将其复制回到定期加载该表的原始表中。 CSV文件到。

有更好的方法可以做到这一点吗?除了Google会为查询完成的数据收费之外,重复的记录就可以了。

----编辑#1 ----

我也完全欢迎在加载到BiqQuery之前对CSV数据进行重复数据删除的方法,因此,如果有人对如何使用管道工具基于某些列索引或某些内容来区分CSV文件有任何很酷的想法,就像我很想听听他们。

----编辑#2 ----

好的,所以我一直在修改sort命令,我我可能会做一些事情,但是我希望其他人的意见可以确认。sort -t, -k1,1 -r logfile.csv | sort -u -t, -k2,4做我想要的吗?这种方法仍然需要我创建一个新表,而不是每次要加载新数据时都附加表,但是如果没有其他选择,那就可以了。

乔丹·提加尼(Jordan Tigani)

您建议的第一种方法通常是最佳选择。如果您有大量数据,则可能需要用aGROUP EACH BY代替GROUP BY

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

删除 bigquery 中的重复数据

来自分类Dev

如何避免多次重复数据库查询

来自分类Dev

如何避免保存重复数据?[姜戈]

来自分类Dev

避免在“客户也已购买”表中重复数据

来自分类Dev

避免OpenGL缓冲区中的重复数据

来自分类Dev

避免在php mysql中重复数据更新?

来自分类Dev

R中数据帧的按列子集

来自分类Dev

Android-如何在Sqlite中基于重复数据合并行

来自分类Dev

如何防止SQL中的重复数据

来自分类Dev

如何从GridView中删除重复数据?

来自分类Dev

重复数组中的数据如何过滤

来自分类Dev

基于条件输入的闪亮R DT中的列子集

来自分类Dev

匹配特定列子集后,删除文件中的重复行

来自分类Dev

如何从数据表中的列子集中提取唯一行?

来自分类Dev

使用PHP和MySQL从数据库中获取数据时,无法避免重复数据

来自分类Dev

如何在Spark结构化流中基于时间戳字段重复数据删除并保持最新?

来自分类Dev

在 R 中的数据框中的列子集上拟合模型

来自分类Dev

如何停止重复数据

来自分类Dev

SQL中的重复数据

来自分类Dev

将数据帧拆分为 R 中的列子集列表

来自分类Dev

如何用熊猫中的重复数据填写行?

来自分类Dev

如何在R中重复数据帧的顺序

来自分类Dev

如何找到数据帧中重复数的计数?

来自分类Dev

如何检测然后删除RPGLE阵列中的重复数据?

来自分类Dev

如何从PDO数组结果中删除重复数据

来自分类Dev

如何删除数组中的重复数据?

来自分类Dev

如何过滤ng-repeat中的重复数据?

来自分类Dev

如何删除交叉过滤器中的重复数据?

来自分类Dev

增值时如何控制firebase中的重复数据?

Related 相关文章

热门标签

归档