在Linux中从Fasta文件中提取列

debugcn 发表于 Dev

萨马尔·拉普普特（Saamar Rajput）

我有一个看起来像这样的fasta文件

>ENST00000632684.1 cdna chromosome:GRCh38:7:142786213:142786224:1 gene:ENSG00000282431.1 gene_biotype:TR_D_gene transcript_biotype:TR_D_gene gene_symbol:TRBD1 description:T cell receptor beta diversity 1 [Source:HGNC Symbol;Acc:HGNC:12158]
GGGACAGGGGGC
>ENST00000434970.2 cdna chromosome:GRCh38:14:22439007:22439015:1 gene:ENSG00000237235.2 gene_biotype:TR_D_gene transcript_biotype:TR_D_gene gene_symbol:TRDD2 description:T cell receptor delta diversity 2 [Source:HGNC Symbol;Acc:HGNC:12255]
CCTTCCTAC

我想提取出gene_symbol和描述。但不幸的是，说明之间有空格，我无法提取完整的说明。

我已经试过了

cat Homo_sapiens.GRCh38.cdna.all.fa | grep ">" | cut -f 7,8 -d" "  > Human_Annotations

但这给了我这样的输出，描述被打破了。

gene_symbol:TRBD1 description:T
gene_symbol:TRDD2 description:T

我想要这样的输出

TRBD1 T cell receptor beta diversity 1
TRDD2 T cell receptor delta diversity 2

通配符

尝试这样的事情：

cat ... | sed -n '/^>/ { s/.*description: *//; s/\[.*//; p; }'

（未经测试，因为我正在使用手机。）

还有更多优雅的方法。例如，Awk循环将是最灵活的。

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-06-28

我来说两句

0条评论

登录后参与评论

来自分类Dev

从Fasta文件中提取子集

来自分类Dev

grep，根据id行中的单词从fasta文件中提取序列子集

来自分类Dev

从文件中提取列

来自分类Dev

从文件中提取列

来自分类Dev

从文件中提取列

来自分类Dev

从FASTA文件中提取序列到多个文件，这些文件基于单独文件中的header_ID

来自分类Dev

从FASTA文件中提取序列到多个文件，这些文件基于单独文件中的header_ID

来自分类Dev

根据序列 ID 从文件中提取 FASTA 序列

来自分类Dev

如何从tar文件中的csv文件中提取前几行而不在Linux中提取它？

来自分类Dev

使用Linux Shell命令从CSV文件中提取列

来自分类Dev

linux：从文件中提取模式

来自分类Dev

在Linux中提取SFX文件

来自分类Dev

从文件 linux 中提取计数

来自分类Dev

从“ JSON”文件中提取列

来自分类Dev

从Python目录中的多个CSV文件中提取特定列

来自分类Dev

试图从 sql server 中的列中提取文件名

来自分类Dev

仅从fasta文件中提取第一个序列

来自分类Dev

根据文件2中的列范围从文件1中提取行

来自分类Dev

从文件列中提取零件

来自分类Dev

从文本文件中提取列

来自分类Dev

从文本文件中提取列

来自分类Dev

从文件中提取列和行

来自分类Dev

在Linux中使用不同的分隔符从文本文件中提取列

来自分类Dev

使用 linux 或 python 从文件中提取特定的列和字符串

来自分类Dev

如何从 Linux 中的密钥中提取值

来自分类Dev

从多个CSV文件中提取信息，并在第三列中写入新的CSV文件

来自分类Dev

从多个CSV文件中提取信息，并在第三列中写入新的CSV文件

来自分类Dev

如何从不同的文件中提取特定的列并在一个文件中输出？

来自分类Dev

从R中的csv文件中提取行

Related 相关文章

文章