Python正则表达式匹配上一组中匹配的内容（多个选项中的1个）

AlanSTACK 发表于 Dev

艾伦·斯塔克

可以说我有一个正则表达式(?:AA|BB)(.*)(?:AA|BB)，它捕获定界符AA和BB

我遇到的问题是，这也将匹配 AA...BB

我怎样才能让这个正则表达式只匹配AA...AA和BB...BB

维克多·史翠比维

如果您需要匹配的字符串以相同的前后定界符开头和结尾，则只需捕获前导定界符并在模式本身内部使用反向引用：

(AA|BB)(.*)\1
^     ^    ^^

见正则表达式演示

在Python中，re.finditer如果只想获取所需的组，就必须使用，而不必re.findall返回一个元组列表（因此将包含AA或BB）。要匹配从子字符串AA到第一个子字符串AA，请使用惰性量词*?：(AA|BB)(.*?)\1

简短的Python演示：

import re
p = re.compile(r'(AA|BB)(.*)\1')
test_str = "AA text AA"
print([x.group(2).strip() for x in p.finditer(test_str)])
# => ['text']

如果您需要使用前导和尾部定界符不匹配的字符串进行匹配，则必须使用alternation：

AA(.*)AA|BB(.*)BB

或-惰性量词版本，以匹配最接近的AAs和BBs：

AA(.*?)ZZ|BB(.*?)YY

请注意，这将在结果中输出空元素，因为仅会匹配一组。在大多数Python版本中，如果计划在re.sub（直到Python 3.5，未匹配的组未使用空字符串（= None）初始化，并且可能引发异常）中使用该模式，则应谨慎使用。

下面是一个提取样本代码与re.finditer：

import re
p = re.compile(r'(AA)(.*?)(ZZ)|(BB)(.*?)(YY)')
test_str = "AA Text 1 here ZZ and BB Text2 there YY"
print("Contents:") 
print([x.group(2).strip() for x in p.finditer(test_str) if x.group(2)])
print([x.group(5).strip() for x in p.finditer(test_str) if x.group(5)])
print("Delimiters:")
print([(x.group(1), x.group(3)) for x in p.finditer(test_str) if x.group(1) and x.group(3)])
print([(x.group(4), x.group(6)) for x in p.finditer(test_str) if x.group(4) and x.group(6)])

结果：

Contents:
['Text 1 here']
['Text2 there']
Delimiters:
[('AA', 'ZZ')]
[('BB', 'YY')]

在现实生活中，使用非常长且复杂的文本，可以展开这些正则表达式以使匹配线性和高效，但这是另一回事。

最后但并非最不重要的一点是，如果您需要将一个定界符中的最短子字符串与其中不包含这些定界符的另一个子字符串进行匹配，请使用经过调节的贪婪标记：

AA((?:(?!AA|ZZ).)*)ZZ|BB((?:(?!BB|YY).)*)YY
   ^^^^^^^^^^^^^^^       ^^^^^^^^^^^^^^^

请参阅regex演示以了解与的区别AA(.*?)ZZ|BB(.*?)YY。

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-02-25

我来说两句

0条评论

登录后参与评论

上一篇：编译后Visual Studio冻结。当我尝试启动应用程序时，资源管理器也是如此

来自分类Dev

Related 相关文章

文章

Python正则表达式匹配上一组中匹配的内容（多个选项中的1个）

Python正则表达式匹配上一组中匹配的内容（多个选项中的1个）

正则表达式匹配JavaScript中的反向组

正则表达式在引号中查找组匹配

正则表达式：匹配句号和python中的一个单词

Python正则表达式中的上一个分组匹配

匹配一组几乎相等的元素中的单个元素的正则表达式是什么？

确定正则表达式中匹配的组

Python正则表达式：提取多个匹配组

Vim中的正则表达式以匹配组捕获

替换正则表达式匹配中的命名组

正则表达式只匹配一组可能的字符串中的一个值，而不匹配该组中的多个字符串

正则表达式：需要匹配一组字符而不匹配另一组字符

正则表达式匹配，如果字符串中的多个选项中只有一个匹配项

正则表达式：匹配一组字符中的字符串，但需要精确计数特定字符的X

在正则表达式中如何匹配多个或条件但排除一个条件

Python正则表达式不匹配多个组

正则表达式仅匹配一组

Perl正则表达式-匹配上一个字符

正则表达式与PHP中的内容不匹配

匹配直到正则表达式中的另一个表达式

正则表达式只匹配一组可能的字符串中的一个值，而不匹配该组中的多个字符串

在Java正则表达式中匹配多个组

正则表达式：跳过组中角色的第一个匹配项？

正则表达式匹配一个或多个组太多

无法匹配正则表达式组中的括号

Java中的正则表达式组匹配

Java正则表达式匹配列表中的一个或多个字符

.net 中的正则表达式 - 匹配引号中的第一组，忽略嵌套引号

在正则表达式中匹配一个或多个

如何在递归正则表达式中匹配一个组？