如何使用grep对序列中的特定字母进行grep

debugcn 发表于 Dev

詹姆士

我有一个包含以下信息形式的文件：

>scaffold1|size69534
ACATAAGAGSTGATGATAGATAGATGCAGATGACAGATGANNGTGANNNNNNNNNNNNNTAGAT
>scaffold2|size68281
ATAGAGATGAGACAGATGACAGANNNNAGATAGATAGAGCAGATAGACANNNNAGATAGAG
>scaffold3|size67203
ATAGAGTAGAGAGAGAGTACAGATAGAGGAGAGAGATAGACNNNNNNACATYYYYYYYYYYYYYYYYY
>scaffold4|size66423
ACAGATAGCAGATAGACAGATNNNNNNNAGATAGTAGACSSSSSSSSSS

等等

但是我想序列中有些异常，所以我要在支架后的所有行中grep所有不是A，C，T，G或N的字母（我只想搜索其中的行）该序列不在> scaffold-size）行中。
在上面的示例中，它将在scaffold3和scaffold 4中的SSSSSSSSSSSSSSS之后grep YYYYYYYYYYYYYYYYYY grep
。

谢谢

数学家

假设您不仅仅需要知道哪些序列包含无效字符-您还想知道每个序列属于哪个支架。这可以做到；如何执行取决于您所需的确切输出格式，还取决于数据的确切结构。

仅作说明，我将做以下简化假设：“序列”只能包含大写字母（可以是有效字母或无效字母-但不能有标点符号或数字等）；并且标签（以开头的行>）不包含任何大写字母。注意-如果序列仅包含字母，那么对文件进行预处理以将序列转换为全大写字母并将标签转换为全小写字母并不太难，因此下面的解决方案仍然适用。

在GREP的某些版本中，无效字符将以不同的颜色显示（请参见链接的图像）。我觉得这很有帮助。

grep --no-group-separator -B 1 '[BDEFHIJKLMOPQRSUVWXYZ]' input_file

输出：

>scaffold1|size69534
ACATAAGAGSTGATGATAGATAGATGCAGATGACAGATGANNGTGANNNNNNNNNNNNNTAGAT
>scaffold3|size67203
ATAGAGTAGAGAGAGAGTACAGATAGAGGAGAGAGATAGACNNNNNNACATYYYYYYYYYYYYYYYYY
>scaffold4|size66423
ACAGATAGCAGATAGACAGATNNNNNNNAGATAGTAGACSSSSSSSSSS

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-04-2

我来说两句

0条评论

登录后参与评论

来自分类Dev

Related 相关文章

文章

如何使用grep对序列中的特定字母进行grep

如何使用grep对序列中的特定字母进行grep

如何使用grep命令找到不包含字母“ e”的8个字母单词的数量？

如何为特定模式上下的行进行grep

使用grep搜索以字母“ s”开头的单词

如何使用grep / sed / awk在Linux中复制文本文件中的小写字母？

如何热切评估来自Raku中grep的序列？

如何使用grep的输出进行ping

如何根据特定模式对行进行grep？

如何使用Grep命令在文本文件中查找特定值

使用GREP进行重击计数

从文件中的特定行以相反的顺序对文件进行Grep

如何热切评估来自Raku中grep的序列？

如何根据特定模式对行进行grep？

如何递归grep目录中的特定文件？

如何使用grep仅在文件的第一行中搜索特定字符串？

如何使用此特定模式进行grep和排序？

如何使用grep的输出进行ping

UNIX：如何使用sed / awk / grep打印文件中的特定行？

如何grep R中的特定整数？

使用grep进行过滤

如何从包含多个序列的列中对数字序列的范围进行grep

如何使用grep从命令输出中打印特定变量？

如何对所有带有特定字母的单词进行grep？

如何使用 sed 从文件中 grep 特定值

如何使用 Python 使用字典中包含的正则表达式进行 grep

鉴于 grep -n 的结果，如何在该特定行中打开 vim？（仅使用键盘）

使用 grep 进行近似匹配

如何使用shell脚本从输出中grep特定值？

如何使用 grep、sed 或 awk 从字母表中删除所有不包含字母的行？

如何在PHP中使用不同格式的特定数字进行preg_grep？