Grep找出满足特定条件的“大多数”行

职员

我有1600万行数据文件,正在将其用作回归测试/重播工具的一部分。数据有很多相似的行。我想从文件中删除许多类似的行

文件格式

|DATA|DATA|DATE|3|DATA|DATA
|DATA|DATA|DATE|3|DATA|DATA
|DATA|DATA|DATE|3|DATA|DATA
|DATA|DATA|DATE|2|DATA|DATA
|DATA|DATA|DATE|4|DATA|DATA
|DATA|DATA|DATE|2|DATA|DATA
|DATA|DATA|DATE|2|DATA|DATA

该文件为1600万行,带有2、3或10的第4个元素的行组成1300万行。第2个元素,第2个,第3个或第10个元素的行彼此相似,因此我想从文件中删掉它们的90%。为了获得一些消息类型的计数,我能够运行此命令以找到第4个元素为3的所有行

awk -F"|" '$4=="3"' capture.txt > out.txt 

那条线是我用来确定最常见消息的可重复性的方式,但是它并没有帮助我删节那些记录。我真正想要的是能够创建一个新文件,其中包括

    (All records where pipe deliminated 4th element is not 2, 3 or 10) +
    (1 out of every 10 records where the 4th element is 2, 3 or 10)

通过文件一次可以做到这一点吗?我想我可以创建两个文件,将第4个元素分别为2、3或10的记录与具有不同第4个元素的记录分开。然后,我可能会从一个文件中删除第10行,然后将它们组合在一起。但我真正的偏好是一次性完成此操作并保留原始文件顺序。

有什么想法吗?

卡拉法

也许随机方法会更好。

awk -F'|' 'BEGIN{srand()} $5~/^(2|3|10)$/{if(rand()<0.1) print; next}1' file

将有大约10%的机会打印这些行,您可以设置一个种子使其也可重复。请注意,您应该检查的是第五字段,而不是第四字段。

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

满足特定条件的SQL仅选择行

来自分类Dev

删除满足特定条件的行

来自分类Dev

apache2中的循环技术lbmethod = byrequests是否足以满足大多数情况?

来自分类Dev

Grep找出满足特定条件的“大多数”行

来自分类Dev

如何使用NA找出至少一列是否满足特定条件

来自分类Dev

如果5行中的任何3行满足特定条件,Python都会返回True

来自分类Dev

如何删除满足R中某些特定条件的行

来自分类Dev

在满足特定条件的熊猫行之间进行简单的计算

来自分类Dev

满足特定条件的列的列表

来自分类Dev

在MySQL中满足特定条件时如何排除行

来自分类Dev

满足特定条件时向特定列的行添加值

来自分类Dev

无法安装大多数主要软件包;未满足的依赖关系,无法修复

来自分类Dev

SQL Server-按大多数行汇总值

来自分类Dev

满足特定条件的代码?

来自分类Dev

使新数据框满足特定条件

来自分类Dev

grep -P(Perl / Python regex)可在大多数Linux发行版上移植吗

来自分类Dev

满足特定条件时关闭QMessageBox

来自分类Dev

查找满足特定条件的元素

来自分类Dev

哪个对象的数组具有大多数特定对象

来自分类Dev

如何加快脚本以隐藏满足特定条件的行

来自分类Dev

如何选择查询中特定行满足特定条件的所有行?

来自分类Dev

如何找到满足特定条件的矩阵行的索引?

来自分类Dev

Pandas DataFrame:删除满足特定条件的行

来自分类Dev

在 Python 中满足特定条件的行之间选择行

来自分类Dev

满足特定条件时关闭 AlertDialog

来自分类Dev

满足特定条件后跳过步骤

来自分类Dev

选择一行或多行满足特定条件的组

来自分类Dev

逐行读取csv文件并保存满足特定条件的行

来自分类Dev

排除满足特定条件的元素的查询

Related 相关文章

  1. 1

    满足特定条件的SQL仅选择行

  2. 2

    删除满足特定条件的行

  3. 3

    apache2中的循环技术lbmethod = byrequests是否足以满足大多数情况?

  4. 4

    Grep找出满足特定条件的“大多数”行

  5. 5

    如何使用NA找出至少一列是否满足特定条件

  6. 6

    如果5行中的任何3行满足特定条件,Python都会返回True

  7. 7

    如何删除满足R中某些特定条件的行

  8. 8

    在满足特定条件的熊猫行之间进行简单的计算

  9. 9

    满足特定条件的列的列表

  10. 10

    在MySQL中满足特定条件时如何排除行

  11. 11

    满足特定条件时向特定列的行添加值

  12. 12

    无法安装大多数主要软件包;未满足的依赖关系,无法修复

  13. 13

    SQL Server-按大多数行汇总值

  14. 14

    满足特定条件的代码?

  15. 15

    使新数据框满足特定条件

  16. 16

    grep -P(Perl / Python regex)可在大多数Linux发行版上移植吗

  17. 17

    满足特定条件时关闭QMessageBox

  18. 18

    查找满足特定条件的元素

  19. 19

    哪个对象的数组具有大多数特定对象

  20. 20

    如何加快脚本以隐藏满足特定条件的行

  21. 21

    如何选择查询中特定行满足特定条件的所有行?

  22. 22

    如何找到满足特定条件的矩阵行的索引?

  23. 23

    Pandas DataFrame:删除满足特定条件的行

  24. 24

    在 Python 中满足特定条件的行之间选择行

  25. 25

    满足特定条件时关闭 AlertDialog

  26. 26

    满足特定条件后跳过步骤

  27. 27

    选择一行或多行满足特定条件的组

  28. 28

    逐行读取csv文件并保存满足特定条件的行

  29. 29

    排除满足特定条件的元素的查询

热门标签

归档