如何使用正则表达式从文本中提取由标签分隔的多个引文?

苏拉夫——

我有一个由引文组成的手动输入文件,每个文件的格式为:

< S sid ="2" ssid ="2">它与之前基于机器学习的 NER 的不同之处在于它使用整个文档中的信息对每个单词进行分类,只需一个分类器。</S>< S sid =" 3" ssid = "3">以前的工作涉及从整个文档中收集信息,通常使用二级分类器,以纠正基于主要句子的分类器的错误。</S>

这是我目前使用 python 的 re 模块的方法:

citance = citance[citance.find(">")+1:citance.rfind("<")]
fd.write(citance+"\n")

我试图提取从第一个右尖括号(“>”)出现到最后一个左尖括号(“<”)的所有内容。但是,在多个引用的情况下,这种方法会失败,因为中间标签也会在输出中被提取:

它与之前基于机器学习的 NER 不同,它使用整个文档中的信息对每个单词进行分类,只需一个分类器。</S>< S sid ="3" ssid = "3">之前的工作涉及从整个文档中收集信息通常使用二级分类器,它可以纠正基于句子的主要分类器的错误。

我想要的输出:

它与之前基于机器学习的 NER 不同,它使用整个文档中的信息对每个单词进行分类,只使用一个分类器。以前的工作涉及从整个文档中收集信息,通常使用二级分类器来纠正主要基于句子的分类器的错误。

我该如何正确实施?

巴勃罗

我会使用 python regex 模块:re通过这样做:

re.findall(r'\">(.*?)<', text_to_parse)

这个方法会从一个引号返回到多个引号,但是如果你想要一个统一的文本( " ".join(....))

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

使用 R 从拉取引文中提取文本引文的正则表达式

来自分类Dev

如何从包含其他标签的html标签中提取文本?正则表达式

来自分类Dev

使用正则表达式从文本中提取帮助

来自分类Dev

如何在python中使用正则表达式提取以“ ----”分隔的文本的特殊部分?

来自分类Dev

Javascript:如何使用正则表达式从字符串中提取多个值?

来自分类Dev

Javascript:如何使用正则表达式从字符串中提取多个值?

来自分类Dev

从正则表达式中提取文本?

来自分类Dev

正则表达式从文本中提取日期

来自分类Dev

正则表达式| 从文本中提取日期

来自分类Dev

从多个正则表达式命名组中提取

来自分类Dev

python:使用正则表达式从日语Twitter文本中提取图释文本

来自分类Dev

Java正则表达式提取文本INSIDE标签

来自分类Dev

使用正则表达式从非ASCII字符串中提取主题标签

来自分类Dev

使用Python正则表达式从组织模式行中提取标签

来自分类Dev

如何在Java中使用正则表达式或子字符串从字符串中提取文本?

来自分类Dev

如何使用正则表达式从 PHP 中用 html 编写的文本块中提取具体 url?

来自分类Dev

如何使用正则表达式从获得通话记录中提取(扬声器、文本)元组?

来自分类Dev

正则表达式如何从括号中提取单词

来自分类Dev

在标签错误的`|分隔`使用正则表达式蟒蛇

来自分类Dev

如何在R中提取与正则表达式(regexpr)索引相关的文本

来自分类Dev

正则表达式:如何从最后一个括号中提取文本

来自分类Dev

使用正则表达式从网页中提取表格

来自分类Dev

使用正则表达式从网址中提取日期

来自分类Dev

使用正则表达式从地址中提取数字

来自分类Dev

使用正则表达式从网页中提取表格

来自分类Dev

使用正则表达式从列表中提取位置

来自分类Dev

使用正则表达式模式从文本中提取每个片段

来自分类Dev

Python使用正则表达式从文本中提取数字

来自分类Dev

使用正则表达式从文本文件中提取的字符串总和

Related 相关文章

  1. 1

    使用 R 从拉取引文中提取文本引文的正则表达式

  2. 2

    如何从包含其他标签的html标签中提取文本?正则表达式

  3. 3

    使用正则表达式从文本中提取帮助

  4. 4

    如何在python中使用正则表达式提取以“ ----”分隔的文本的特殊部分?

  5. 5

    Javascript:如何使用正则表达式从字符串中提取多个值?

  6. 6

    Javascript:如何使用正则表达式从字符串中提取多个值?

  7. 7

    从正则表达式中提取文本?

  8. 8

    正则表达式从文本中提取日期

  9. 9

    正则表达式| 从文本中提取日期

  10. 10

    从多个正则表达式命名组中提取

  11. 11

    python:使用正则表达式从日语Twitter文本中提取图释文本

  12. 12

    Java正则表达式提取文本INSIDE标签

  13. 13

    使用正则表达式从非ASCII字符串中提取主题标签

  14. 14

    使用Python正则表达式从组织模式行中提取标签

  15. 15

    如何在Java中使用正则表达式或子字符串从字符串中提取文本?

  16. 16

    如何使用正则表达式从 PHP 中用 html 编写的文本块中提取具体 url?

  17. 17

    如何使用正则表达式从获得通话记录中提取(扬声器、文本)元组?

  18. 18

    正则表达式如何从括号中提取单词

  19. 19

    在标签错误的`|分隔`使用正则表达式蟒蛇

  20. 20

    如何在R中提取与正则表达式(regexpr)索引相关的文本

  21. 21

    正则表达式:如何从最后一个括号中提取文本

  22. 22

    使用正则表达式从网页中提取表格

  23. 23

    使用正则表达式从网址中提取日期

  24. 24

    使用正则表达式从地址中提取数字

  25. 25

    使用正则表达式从网页中提取表格

  26. 26

    使用正则表达式从列表中提取位置

  27. 27

    使用正则表达式模式从文本中提取每个片段

  28. 28

    Python使用正则表达式从文本中提取数字

  29. 29

    使用正则表达式从文本文件中提取的字符串总和

热门标签

归档