我有一个fasta文件,其中包含多种病毒的基因组序列。
例子:
>gi_138375030_Human_papillomavirus
GAAAGTTTCAATCATACTTTATTATATTGGGAGTAAAAAAAA...
>gi_94481944_Human_herpesvirus_3
GGCCCAGCCCTCTCGCGGCCCCCTCGAGAGAGAAAAAAA...
我只想提取疱疹病毒条目,包括实际序列,在此文件中,该序列始终是(在此文件中)遵循说明的行。
以下正则表达式的工作原理:
>.*herpes.*\n.*\n
它选择描述和顺序行。
我发现了类似的问题,但都使用了“书签行”功能:将Textpad或Notepad ++中的所有正则表达式匹配项导出为列表
但是,这仅将正则表达式输出的第一行添加为书签,因此我无法使用所描述的解决方案。如果我使用“在当前文档中查找全部”,它也仅列出第一行。
我要做的就是将regex的输出复制到一个新文件中。尤其令人沮丧的是,它发现的条目刚好超过一百,这正好高于我愿意手动执行的边距。
我希望使用Windows操作系统中的解决方案。
您可以复制该文件,然后在该副本上搜索并替换所需的否定项:
(?!>.*herpes.*)^(>.*\R)([ATGC]+\R)
上面将(或应该)找到没有疱疹的成对线。再加上一个空白的replace字段,您将得到一个只包含您要查找的文件的文件。
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句