在NLTK中标记时如何忽略特殊字符？

debugcn 发表于 Dev

伊姆·温杜斯

我有以下字符串：

title = 'Tesla S&P Debut Comes All at Once'

当我在NLTK中对此标记化时，我得到以下信息：

token = nltk.word_tokenize(title1)
token
['Tesla', 'S', '&', 'P', 'Debut', 'Comes', 'All', 'at', 'Once']

令牌化的S&P原因是&。

如何防止NLTK分割成特殊的特殊字符？

吉马单抗

您可以在nltk中使用regexp_tokenize，在其中可以选择正则表达式来定义seps

from nltk import regexp_tokenize
title = 'Tesla S&P Debut Comes All at Once'
tokens = regexp_tokenize(title, pattern=r"\s|[\.,;']", gaps=True)

print(tokens)

[“特斯拉”，“标准普尔”，“首次亮相”，“来临”，“全部”，“在”，“一次”]

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-04-5

我来说两句

0条评论

登录后参与评论

来自分类Dev

如何在 Java 代码中标记忽略返回值？

来自分类Dev

使用nltk句子标记器和特殊字符的奇怪行为

来自分类Dev

选中标记时从数组中删除值

来自分类Dev

如何从NLTK中标记的结果中获取前三个单词

来自分类Dev

如何根据空格（< > | & 等）标记特殊字符

来自分类Dev

为什么在使用标记时在XLSX中忽略样式？

来自分类Dev

为什么在使用标记时在XLSX中忽略样式？

来自分类Dev

单击<a>标记时如何防止页面刷新？

来自分类Dev

重击：忽略特殊字符

来自分类Dev

如何比较javascript中忽略特殊字符的字符串

来自分类Dev

如何忽略字符串中的特殊字符和空格？

来自分类Dev

使用 nltk 在 python 中标记化和 dtMatrix

来自分类Dev

如何使用php在不是HTML实体结尾字符的字符串中标记分号（;）？

来自分类Dev

如何在Excel的字符串中标记是否存在特定子字符串？

来自分类Dev

单击任何标记时如何显示标记文本

来自分类Dev

在Elasticsearch中标记字符串吗？

来自分类Dev

在（旧）Lua中标记字符串

来自分类Dev

Matlab中标记字符串的直方图

来自分类Dev

在powershell中标记字符串数组

来自分类Dev

显示多个标记时如何在单击另一个标记时关闭InfoWindow

来自分类Dev

使用单词限制时如何忽略特殊字符

来自分类Dev

如何从忽略特殊字符的 MySql 中检索信息？

来自分类Dev

如何在 HTML 元标记中取消转义特殊字符？

来自分类Dev

使用正则表达式将文本拆分为标记时要保留特殊标记

来自分类Dev

如何在c中标记字符串而不会出现错误？

来自分类Dev

忽略使用lucene的特殊字符？

来自分类Dev

忽略检查中的特殊字符

来自分类Dev

忽略使用lucene的特殊字符？

来自分类Dev

停止mongodb忽略特殊字符？

Related 相关文章

文章