打开文件并阅读句子

user3119123 发表于 Dev

用户名

我想打开一个文件并获得句子。文件中的句子是跨行的，如下所示：

"He said, 'I'll pay you five pounds a week if I can have it on my own
terms.'  I'm a poor woman, sir, and Mr. Warren earns little, and the
money meant much to me.  He took out a ten-pound note, and he held it
out to me then and there.

目前，我正在使用此代码：

text = ' '.join(file_to_open.readlines())
sentences = re.split(r' *[\.\?!][\'"\)\]]* *', text)

readlines删掉句子，有没有解决这个问题的好方法，让它仅获取句子？（没有NLTK）

感谢您的关注。

当前问题：

file_to_read = 'test.txt'

with open(file_to_read) as f:
    text = f.read()

import re
word_list = ['Mrs.', 'Mr.']     

for i in word_list:
    text = re.sub(i, i[:-1], text)

我得到的（在测试案例中）是，太太换了先生，而先生只是先生。我尝试了其他几件事，但似乎没有用。答案可能很简单，但我很想念

图腾

如果执行此操作，则您的正则表达式适用于上面的文本：

with open(filename) as f:
    text = f.read()

sentences = re.split(r' *[\.\?!][\'"\)\]]* *', text)

唯一的问题是，正则表达式在“先生”中的点上分开。从上面的文本中，因此您需要修复/更改该问题。

解决这个问题的方法（虽然不是完美的）是，您可以消除Mr后面出现的所有点的情况：

text = re.sub(r'(M\w{1,2})\.', r'\1', text) # no for loop needed for this, like there was before

匹配一个'M'，后跟最少1个字符，最多2个字母数字字符（\ w {1,3}），后跟一个点。模式的括号部分被分组并捕获，在替换中被称为'\ 1'（或组1，因为您可能会有更多的括号组）。因此从本质上讲，先生或太太是匹配的，但是只捕获了先生或太太部分，然后用不包括点的捕获部分替换了先生或太太。

进而：

sentences = re.split(r' *[\.\?!][\'"\)\]]* *', text)

将以您想要的方式工作。

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-02-5

我来说两句

0条评论

登录后参与评论

上一篇：我如何在R Studio中绘制具有13个节点的二叉树

来自分类Dev

打开和阅读txt文件

来自分类Dev

无法打开文件以阅读[file link] laravel

来自分类Dev

如何打开 Acrobat Reader 阅读 pdf 文件？

来自分类Dev

您如何打开文件流以使用Scrapy进行阅读？

来自分类Dev

如何使用python中的mmap打开csv文件以进行阅读？

来自分类Dev

找到pdf阅读器的路径并用它打开文件

来自分类Dev

打开多个文本文件并阅读直到特定字符

来自分类Dev

阅读文件，看到句号后，将句子移至下一行

来自分类Dev

一次阅读多个pdf文件并使用R提取包含关键字的句子

来自分类Dev

GPS“打开”不同的句子

来自分类Dev

用scanf（）阅读完整的句子

来自分类Dev

xml阅读器打开文件，但仍给出“尝试读取之前加载数据”错误

来自分类Dev

如何在Outlook中使用VBA打开和阅读txt文件附件？

来自分类Dev

“无法打开文件以供阅读”将存储中的PDF附加到可邮寄

来自分类Dev

使用自定义函数在Sumatra PDF阅读器中打开已编译的.rnw文件？

来自分类Dev

浏览器如何在打开页面上的文件时知道要阅读的内容

来自分类Dev

消息“ PHPExcel_Reader_Exception”无法打开以供阅读！文件不存在。'

来自分类Dev

C＃-通过另一种形式打开文本文件（阅读说明）

来自分类Dev

如何配置 Ranger 以使用福昕阅读器打开 pdf 文件

来自分类Dev

逐个打印文件的句子

来自分类Dev

在线阅读xml文件

来自分类Dev

按顺序阅读文件

来自分类Dev

如何逐字阅读文件

来自分类Dev

在线阅读txt文件

来自分类常见问题

如何阅读打字稿构造函数和Record <>句子

来自分类Dev

如何阅读打字稿构造函数和Record <>句子

来自分类Dev

如何在阅读C中的特定单词后阅读整个句子

来自分类Dev

Bash，文件中的grep句子

来自分类Dev

在文件Java中搜索句子

Related 相关文章

文章