考虑以下示例字符串:
abc1235abc53abcXX
123abc098YXabc
我想捕获发生在 abc 之间的组,
例如,我应该得到以下组:
1235, 53, XX
123, 098YX
我正在尝试这个正则表达式,但不知何故它没有捕获中间文本:
(abc(.*?))+
我究竟做错了什么?
编辑:我需要使用正则表达式来完成,没有字符串拆分,因为我需要对捕获的组应用进一步的规则。
re.findall()
具有特定正则表达式模式的方法:
import re
strings = ['abc1235abc53abcXX', '123abc098YXabc']
pat = re.compile(r'(?:abc|^)(.+?)(?=abc|$)') # prepared pattern
for s in strings:
items = pat.findall(s)
print(items)
# further processing
输出:
['1235', '53', 'XX']
['123', '098YX']
(?:abc|^)
- 未捕获的组以匹配abc
子字符串或字符串的开头 ^
(.+?)
- 捕获组以尽可能少地匹配任何字符序列(?=abc|$)
- 前瞻肯定断言,确保前一个匹配项后跟字符串的任一abc
序列或结尾 $
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句