如何使用正则表达式从文本中提取由标签分隔的多个引文？

debugcn 发表于 Dev

苏拉夫——

我有一个由引文组成的手动输入文件，每个文件的格式为：

< S sid ="2" ssid ="2">它与之前基于机器学习的 NER 的不同之处在于它使用整个文档中的信息对每个单词进行分类，只需一个分类器。</S>< S sid =" 3" ssid = "3">以前的工作涉及从整个文档中收集信息，通常使用二级分类器，以纠正基于主要句子的分类器的错误。</S>

这是我目前使用 python 的 re 模块的方法：

citance = citance[citance.find(">")+1:citance.rfind("<")]
fd.write(citance+"\n")

我试图提取从第一个右尖括号（“>”）出现到最后一个左尖括号（“<”）的所有内容。但是，在多个引用的情况下，这种方法会失败，因为中间标签也会在输出中被提取：

它与之前基于机器学习的 NER 不同，它使用整个文档中的信息对每个单词进行分类，只需一个分类器。</S>< S sid ="3" ssid = "3">之前的工作涉及从整个文档中收集信息通常使用二级分类器，它可以纠正基于句子的主要分类器的错误。

我想要的输出：

它与之前基于机器学习的 NER 不同，它使用整个文档中的信息对每个单词进行分类，只使用一个分类器。以前的工作涉及从整个文档中收集信息，通常使用二级分类器来纠正主要基于句子的分类器的错误。

我该如何正确实施？

巴勃罗

我会使用 python regex 模块：re通过这样做：

re.findall(r'\">(.*?)<', text_to_parse)

这个方法会从一个引号返回到多个引号，但是如果你想要一个统一的文本( " ".join(....))

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-07-12

我来说两句

0条评论

登录后参与评论

来自分类Dev

使用 R 从拉取引文中提取文本引文的正则表达式

来自分类Dev

如何从包含其他标签的html标签中提取文本？正则表达式

来自分类Dev

使用正则表达式从文本中提取帮助

来自分类Dev

如何在python中使用正则表达式提取以“ ----”分隔的文本的特殊部分？

来自分类Dev

Javascript：如何使用正则表达式从字符串中提取多个值？

来自分类Dev

Javascript：如何使用正则表达式从字符串中提取多个值？

来自分类Dev

从正则表达式中提取文本？

来自分类Dev

正则表达式从文本中提取日期

来自分类Dev

正则表达式| 从文本中提取日期

来自分类Dev

从多个正则表达式命名组中提取

来自分类Dev

python：使用正则表达式从日语Twitter文本中提取图释文本

来自分类Dev

Java正则表达式提取文本INSIDE标签

来自分类Dev

使用正则表达式从非ASCII字符串中提取主题标签

来自分类Dev

使用Python正则表达式从组织模式行中提取标签

来自分类Dev

如何在Java中使用正则表达式或子字符串从字符串中提取文本？

来自分类Dev

如何使用正则表达式从 PHP 中用 html 编写的文本块中提取具体 url？

来自分类Dev

如何使用正则表达式从获得通话记录中提取（扬声器、文本）元组？

来自分类Dev

正则表达式如何从括号中提取单词

来自分类Dev

在标签错误的`|分隔`使用正则表达式蟒蛇

来自分类Dev

如何在R中提取与正则表达式（regexpr）索引相关的文本

来自分类Dev

正则表达式：如何从最后一个括号中提取文本

来自分类Dev

使用正则表达式从网页中提取表格

来自分类Dev

使用正则表达式从网址中提取日期

来自分类Dev

使用正则表达式从地址中提取数字

来自分类Dev

使用正则表达式从网页中提取表格

来自分类Dev

使用正则表达式从列表中提取位置

来自分类Dev

使用正则表达式模式从文本中提取每个片段

来自分类Dev

Python使用正则表达式从文本中提取数字

来自分类Dev

使用正则表达式从文本文件中提取的字符串总和

Related 相关文章

文章