删除字典中所有包含单词NOT的行

user1899415 发表于 Dev

用户名

我有一个英语词典，来自 /usr/share/dict/words

我有大量的句子，逐行。我正尝试通过与字典进行比较，以消除带有外来词和词汇词的这些怪异句子。

Master.txt
Thanks to Your Greatness (谢谢你的美好)
Himatnagar has a small Railway Station
Pu$haz Ink

有人可以帮忙吗？我尝试使用，diff但是它只能在单词级别而不是句子级别进行比较

塞尔尼

您需要分阶段进行。

首先，使用tr（或者sed-速度稍慢但更灵活，可以更精确地删除标点符号等），将句子文件分成单词：

tr " " "\n" < hugefile | sort | uniq | grep -v -F -f dictionary > blacklist.txt

为不区分大小写添加-i选项grep（请参阅Scott的评论）。

然后uniq，您可以用来收集唯一的单词，并grep -v -F -f dictionary获取不在词典中的所有单词。

拥有此“黑名单”后，您可以请求黑名单本身中不包含任何单词的所有行。同样，您可能要考虑是否使用大写/小写：

 grep -v -F -f blacklist.txt > goodlines.txt

在Python中，您可以以更有效的方式遵循相同的方法：

将字典加载到列表D中。
对于输入巨大文件的每一行
- 把它分解成单词，使这个小列表变得唯一。设为W。
- 计算两个列表W和D的交集。
- 如果其长度与W的长度相同，则该行不包含未知单词。

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-02-7

我来说两句

0条评论

登录后参与评论

上一篇：在Matlab中获取唯一元素的数量及其数量

来自分类Dev

如何删除Vim中所有不包含某个单词的行？

来自分类Dev

查找包含另一个文件中所有单词/行的所有文件

来自分类Dev

如何用TextWrangler删除所有包含单词的行？

来自分类Dev

删除所有包含指定单词的行

来自分类Dev

删除cPanel中所有文件中包含字符串的所有行

来自分类Dev

删除sql中所有重复的行

来自分类Dev

删除R中所有重复的行

来自分类Dev

包含键中项的字典中所有值的总和

来自分类Dev

如何删除数组中所有相似的单词

来自分类Dev

python：删除列表中所有字母重复的单词

来自分类Dev

使用php删除文件中包含特定单词的行之前的所有行

来自分类Dev

计算Shell脚本中所有行中的单词数

来自分类Dev

如何删除包含列表中所有元素的嵌套列表？

来自分类Dev

从文本区域中删除所有包含特定单词的行

来自分类Dev

创建给定字符串和给定字典中所有单词的列表

来自分类Dev

删除选择集中所有未选择R的行

来自分类Dev

如何删除R中所有NULL值的行

来自分类Dev

删除文件中所有非以“ 07”开头的行

来自分类Dev

确定删除表中所有行的操作

来自分类Dev

删除文件中所有早于24小时的行

来自分类Dev

想要删除 df 中所有负值的行

来自分类Dev

从目录中删除包含特定单词的所有文件

来自分类Dev

删除所有标题中不包含单词的文件

来自分类Dev

删除所有包含尖号（^）的行

来自分类Dev

删除所有包含重复字母的行

来自分类Dev

删除所有包含$ PWD的行

来自分类Dev

匹配标签中所有指定的单词

来自分类Dev

删除C语言中某个句子中所有单词出现的功能

来自分类Dev

删除句子中所有的元音，但在R中单词开头的那些元音除外

Related 相关文章

文章