我有一个看起来像这样的fasta文件
>ENST00000632684.1 cdna chromosome:GRCh38:7:142786213:142786224:1 gene:ENSG00000282431.1 gene_biotype:TR_D_gene transcript_biotype:TR_D_gene gene_symbol:TRBD1 description:T cell receptor beta diversity 1 [Source:HGNC Symbol;Acc:HGNC:12158]
GGGACAGGGGGC
>ENST00000434970.2 cdna chromosome:GRCh38:14:22439007:22439015:1 gene:ENSG00000237235.2 gene_biotype:TR_D_gene transcript_biotype:TR_D_gene gene_symbol:TRDD2 description:T cell receptor delta diversity 2 [Source:HGNC Symbol;Acc:HGNC:12255]
CCTTCCTAC
我想提取出gene_symbol和描述。但不幸的是,说明之间有空格,我无法提取完整的说明。
我已经试过了
cat Homo_sapiens.GRCh38.cdna.all.fa | grep ">" | cut -f 7,8 -d" " > Human_Annotations
但这给了我这样的输出,描述被打破了。
gene_symbol:TRBD1 description:T
gene_symbol:TRDD2 description:T
我想要这样的输出
TRBD1 T cell receptor beta diversity 1
TRDD2 T cell receptor delta diversity 2
尝试这样的事情:
cat ... | sed -n '/^>/ { s/.*description: *//; s/\[.*//; p; }'
(未经测试,因为我正在使用手机。)
还有更多优雅的方法。例如,Awk循环将是最灵活的。
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句