如何在两个文件中查找和计算ID列的匹配数据?

DN1

我有两个遗传数据集,它们具有匹配的染色体位置ID。我想计算一下文件1的染色体位置ID在文件2中出现了多少次。

例如,我的数据如下所示:

文件1(染色体位置实际上是我的第125列,由表示...):

Gene  pval    ... Chromosome position ID
ACE   0.002   ... 01:3290834_CT_C_1
NOS   0.01    ... 03:3304593_GA_G_1
BRCA  0.004 . ... 06:6265733_GA_G_1
CYP3  0.34    ... 09:9433933_GA_G_1

文件2(染色体位置是我的第一列):

Chromosome position ID  Gene  pval
01:1243933_GA_G_1       ACE   0.002
03:3304593_GA_G_1       NOS   0.01
06:6265733_GA_G_1       BRCA  0.004
09:9433933_GA_G_1       CYP3  0.34

我发现了很多问题,需要提取匹配行,并根据这些问题应用了代码,但我只想获取2个文件之间匹配染色体位置的数量。

目前,我正在使用:

awk -F'|' 'NR==FNR{c[$125]++;next};c[$125]' file2.csv file1.txt > file3.txt

wc -l file1.txt
wc -l file3.txt

文件1和3的行数与我期望的不完全匹配(我希望文件1的所有行都在文件2中),并且要确保正在发生的事情,我需要找到一种方法来执行匹配计数染色体位置列中的所有行。如果我能找到一种编码方式“文件1的所有染色体位置是否都匹配/出现在文件3中?” 那将是理想的,但即使是现在也只是一个数而已。

因此,输出将是一个数字,用于计算文件1中染色体位置列$ 125与文件2染色体位置列$ 1匹配的次数。

我正在使用Linux。

保罗·托梅(PauloTomé)

一个解决方案awktailsortjoinwc

join <(awk -F '\t' '{print $125}' file1 | tail -n +2 | sort) <(awk -F '\t' '{print $1}' file2 | tail -n +2 | sort ) | wc -l
3

解释。

此解决方案假定列是制表符分隔的。使用awk收集文件1的第125列和文件2的第一列。tail -n +2删除收集结果的第一行。sort是必需的,因为join需要有序的文件。生成的相交集被提供给wc它,返回其行数。

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

如何在两个文件中查找两个匹配的ID,然后使用它们的值来计算

来自分类Dev

根据两个表中的主键计算列中匹配数据的数量

来自分类Dev

Perl:在两个文件中匹配数据

来自分类Dev

匹配数据以更正来自awk中两个文件的ID

来自分类Dev

如何从另一个SQL表中为两个不同的列获取匹配数据:内部联接和/或联合?

来自分类Dev

从两个范围中查找数据,如果文本匹配,则分配数值

来自分类Dev

如何匹配数据库中两个值中的任何一个?

来自分类Dev

如何从两个文件中的匹配列中查找列的值?

来自分类Dev

在两个不同数据框中匹配数字

来自分类Dev

根据列中的匹配数据合并两个Excel表

来自分类Dev

awk ::如何在两个文件中查找匹配的单词

来自分类Dev

如何在Perl中编写算法以从两个文件中读取数据并匹配并打印查询

来自分类Dev

如何在两个不同列中具有匹配数字的列中添加所有单元格

来自分类Dev

如何在Perl中匹配来自两个大文件的数据?

来自分类Dev

比较两个文件脚本并查找不匹配的数据

来自分类Dev

比较两个文件脚本并查找不匹配的数据

来自分类Dev

如何在两个数据帧中查找值,以及如何在一个数据帧中的匹配行上添加新值

来自分类Dev

从两个文件中的特定列中查找匹配项

来自分类Dev

连接两个文件中的匹配ID,以及两个文件中的其他列

来自分类Dev

如何在SAS中匹配数据

来自分类Dev

如何在vi编辑器或linux中查找和删除两个文件中的重复行

来自分类Dev

如何在两个单独的数据框中的行中匹配元素,以获取不同的值和计数?

来自分类Dev

使用python在两个文件中查找匹配项

来自分类Dev

使用python在两个文件中查找匹配项

来自分类Dev

在R中,对两个匹配数据帧的每一行进行排序

来自分类Dev

数据框中两个逗号分隔因子之间的匹配数

来自分类Dev

如何在R中出现两个单独的列时查找模式匹配

来自分类Dev

如何基于一列合并两个文件并打印匹配和不匹配?

来自分类Dev

如何匹配两个矩阵的日期并在Matlab中查找后续数据?

Related 相关文章

  1. 1

    如何在两个文件中查找两个匹配的ID,然后使用它们的值来计算

  2. 2

    根据两个表中的主键计算列中匹配数据的数量

  3. 3

    Perl:在两个文件中匹配数据

  4. 4

    匹配数据以更正来自awk中两个文件的ID

  5. 5

    如何从另一个SQL表中为两个不同的列获取匹配数据:内部联接和/或联合?

  6. 6

    从两个范围中查找数据,如果文本匹配,则分配数值

  7. 7

    如何匹配数据库中两个值中的任何一个?

  8. 8

    如何从两个文件中的匹配列中查找列的值?

  9. 9

    在两个不同数据框中匹配数字

  10. 10

    根据列中的匹配数据合并两个Excel表

  11. 11

    awk ::如何在两个文件中查找匹配的单词

  12. 12

    如何在Perl中编写算法以从两个文件中读取数据并匹配并打印查询

  13. 13

    如何在两个不同列中具有匹配数字的列中添加所有单元格

  14. 14

    如何在Perl中匹配来自两个大文件的数据?

  15. 15

    比较两个文件脚本并查找不匹配的数据

  16. 16

    比较两个文件脚本并查找不匹配的数据

  17. 17

    如何在两个数据帧中查找值,以及如何在一个数据帧中的匹配行上添加新值

  18. 18

    从两个文件中的特定列中查找匹配项

  19. 19

    连接两个文件中的匹配ID,以及两个文件中的其他列

  20. 20

    如何在SAS中匹配数据

  21. 21

    如何在vi编辑器或linux中查找和删除两个文件中的重复行

  22. 22

    如何在两个单独的数据框中的行中匹配元素,以获取不同的值和计数?

  23. 23

    使用python在两个文件中查找匹配项

  24. 24

    使用python在两个文件中查找匹配项

  25. 25

    在R中,对两个匹配数据帧的每一行进行排序

  26. 26

    数据框中两个逗号分隔因子之间的匹配数

  27. 27

    如何在R中出现两个单独的列时查找模式匹配

  28. 28

    如何基于一列合并两个文件并打印匹配和不匹配?

  29. 29

    如何匹配两个矩阵的日期并在Matlab中查找后续数据?

热门标签

归档