如何在两个文件中查找和计算ID列的匹配数据？

debugcn 发表于 Dev

DN1

我有两个遗传数据集，它们具有匹配的染色体位置ID。我想计算一下文件1的染色体位置ID在文件2中出现了多少次。

例如，我的数据如下所示：

文件1（染色体位置实际上是我的第125列，由表示...）：

Gene  pval    ... Chromosome position ID
ACE   0.002   ... 01:3290834_CT_C_1
NOS   0.01    ... 03:3304593_GA_G_1
BRCA  0.004 . ... 06:6265733_GA_G_1
CYP3  0.34    ... 09:9433933_GA_G_1

文件2（染色体位置是我的第一列）：

Chromosome position ID  Gene  pval
01:1243933_GA_G_1       ACE   0.002
03:3304593_GA_G_1       NOS   0.01
06:6265733_GA_G_1       BRCA  0.004
09:9433933_GA_G_1       CYP3  0.34

我发现了很多问题，需要提取匹配行，并根据这些问题应用了代码，但我只想获取2个文件之间匹配染色体位置的数量。

目前，我正在使用：

awk -F'|' 'NR==FNR{c[$125]++;next};c[$125]' file2.csv file1.txt > file3.txt

wc -l file1.txt
wc -l file3.txt

文件1和3的行数与我期望的不完全匹配（我希望文件1的所有行都在文件2中），并且要确保正在发生的事情，我需要找到一种方法来执行匹配计数染色体位置列中的所有行。如果我能找到一种编码方式“文件1的所有染色体位置是否都匹配/出现在文件3中？” 那将是理想的，但即使是现在也只是一个数而已。

因此，输出将是一个数字，用于计算文件1中染色体位置列$ 125与文件2染色体位置列$ 1匹配的次数。

我正在使用Linux。

保罗·托梅（PauloTomé）

一个解决方案awk，tail，sort，join和wc。

join <(awk -F '\t' '{print $125}' file1 | tail -n +2 | sort) <(awk -F '\t' '{print $1}' file2 | tail -n +2 | sort ) | wc -l
3

解释。

此解决方案假定列是制表符分隔的。使用awk收集文件1的第125列和文件2的第一列。tail -n +2删除收集结果的第一行。sort是必需的，因为join需要有序的文件。生成的相交集被提供给wc它，返回其行数。

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-06-11

我来说两句

0条评论

登录后参与评论

来自分类Dev

Related 相关文章

文章

如何在两个文件中查找和计算ID列的匹配数据？

如何在两个文件中查找和计算ID列的匹配数据？

如何在两个文件中查找两个匹配的ID，然后使用它们的值来计算

根据两个表中的主键计算列中匹配数据的数量

Perl：在两个文件中匹配数据

匹配数据以更正来自awk中两个文件的ID

如何从另一个SQL表中为两个不同的列获取匹配数据：内部联接和/或联合？

从两个范围中查找数据，如果文本匹配，则分配数值

如何匹配数据库中两个值中的任何一个？

如何从两个文件中的匹配列中查找列的值？

在两个不同数据框中匹配数字

根据列中的匹配数据合并两个Excel表

awk ::如何在两个文件中查找匹配的单词

如何在Perl中编写算法以从两个文件中读取数据并匹配并打印查询

如何在两个不同列中具有匹配数字的列中添加所有单元格

如何在Perl中匹配来自两个大文件的数据？

比较两个文件脚本并查找不匹配的数据

比较两个文件脚本并查找不匹配的数据

如何在两个数据帧中查找值，以及如何在一个数据帧中的匹配行上添加新值

从两个文件中的特定列中查找匹配项

连接两个文件中的匹配ID，以及两个文件中的其他列

如何在SAS中匹配数据

如何在vi编辑器或linux中查找和删除两个文件中的重复行

如何在两个单独的数据框中的行中匹配元素，以获取不同的值和计数？

使用python在两个文件中查找匹配项

使用python在两个文件中查找匹配项

在R中，对两个匹配数据帧的每一行进行排序

数据框中两个逗号分隔因子之间的匹配数

如何在R中出现两个单独的列时查找模式匹配

如何基于一列合并两个文件并打印匹配和不匹配？

如何匹配两个矩阵的日期并在Matlab中查找后续数据？