如何在Hive中对文件进行重复数据删除并保持原始排序顺序？

debugcn 发表于 Dev

乌察夫·查特吉（Utsav Chatterjee）

我的数据已经按last_column降序和third_column降序进行了排序。我想在保持原始排序顺序的基础上对基于last_column的数据集进行重复数据删除。因此，对于每个last_column，我都希望最终输出中的第一行。我需要使用Hive来实现。我的数据是：

10009,12/3/1959,Rodney,Purtle,M,8/28/1986,d007
10010,5/1/1954,Ahishek ,Kumar,M,12/1/1986,d007
10011,1/21/1955,Abhilash,Whatever,M,9/12/1989,d007
10016,5/1/1954,Ross,Hupchuck,M,12/1/1986,d006
10008,1/21/1955,Michael ,Gross,M,9/12/1989,d006
10014,1/21/1955,John ,Talburt,M,9/12/1989,d006
10013,5/1/1954,John,Doe,M,12/1/1986,d006
10015,12/3/1959,Daniel ,Pullen,M,8/28/1986,d006

所需的输出：

10009,12/3/1959,Rodney,Purtle,M,8/28/1986,d007
10016,5/1/1954,Ross,Hupchuck,M,12/1/1986,d006

我当前的代码：

select * 
from 
(select *, row_number() over (partition by last_column order by desc)as r from table_name)s 
where r = 1;

我得到的输出是：

10014   1/21/1955   John    Talburt M   9/12/1989   d006    1
10010   5/1/1954    Ahishek     Kumar   M   12/1/1986   d007    1

谁能帮忙，建议我可能做错了什么？

RKS

@Utsav您可以尝试以下查询：

select * from（select *，row_number（）over（按last_column顺序划分，由third_column desc划分，如table_name中的r），其中r = 1按last_column desc排序；

希望能帮助到你！

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-06-17

我来说两句

0条评论

登录后参与评论

来自分类Dev

如何按列对文本文件进行排序并保持原始顺序

来自分类Dev

如何从Logstash索引到Elasticsearch中时对文档进行重复数据删除

来自分类Dev

在OSX Lion中使用命令行对文件进行重复数据删除

来自分类Dev

如何从元组列表中删除重复项，但保持原始顺序

来自分类Dev

如何在R中重复数据帧的顺序

来自分类Dev

R-在保持记录顺序的同时对列表进行重复数据删除

来自分类Dev

如何在pytorch中对矩阵的每一行中的值进行重复数据删除？

来自分类Dev

如何在find命令中对-exec表达式进行重复数据删除？

来自分类Dev

如何在BASH中对文件行进行排序

来自分类Dev

如何在jQuery DataTables中对文件大小进行排序

来自分类Dev

在这种情况下如何删除q？并按字母顺序对文件进行排序？

来自分类Dev

如何在只删除连续重复项的字符串中进行重复数据删除

来自分类Dev

批处理以删除重复行对文件进行排序？

来自分类Dev

删除新闻文件中的重复数据

来自分类Dev

如何在Spark结构化流中基于时间戳字段重复数据删除并保持最新？

来自分类Dev

如何在 apache 梁/数据流中跨重叠滑动窗口进行重复数据删除

来自分类Dev

如何从GridView中删除重复数据？

来自分类Dev

如何以排序顺序对文件进行tar处理？

来自分类Dev

在Go中按数字顺序对文件进行排序

来自分类Dev

如何使用gedit按字母顺序对文本文件中的行进行排序

来自分类Dev

如何在Unix中对文件排序

来自分类Dev

如何使用BTRFS对数据进行重复数据删除？

来自分类Dev

如何使用BTRFS对数据进行重复数据删除？

来自分类Dev

按数字顺序对文件进行排序

来自分类Dev

按特定顺序对文件进行排序

来自分类Dev

使用熊猫如何对正在读取的文件进行重复数据删除？

来自分类Dev

用于对多个文件中的行进行重复数据删除的 Python 脚本

来自分类Dev

排序并删除重复项后，保持ArrayList中的顺序

来自分类Dev

排序并删除重复项后，保持ArrayList中的顺序

Related 相关文章

文章