语音标记和实体识别的一部分-python

debugcn 发表于 Dev

锚

我想在python中执行部分语音标记和实体识别，类似于R中的openNLP的Maxent_POS_Tag_Annotator和Maxent_Entity_Annotator函数。，“ CD”的数量，“ DT”的数量等。CC，CD，DT是Penn Treebank中使用的POS标签。因此，与Penn Treebank POS一样，应该有36列/功能用于POS标签，与36个POS标签相对应。我想在Azure ML“执行Python脚本”模块上实现此功能，Azure ML支持python 2.7.7。我听说python中的nltk可以完成这项工作，但是我是python的初学者。任何帮助，将不胜感激。

地狱战士

看看NTLK的书，“分类和标记单词”部分。

一个简单的例子，它使用Penn Treebank标签集：

from nltk.tag import pos_tag
from nltk.tokenize import word_tokenize
pos_tag(word_tokenize("John's big idea isn't all that bad.")) 

[('John', 'NNP'),
("'s", 'POS'),
 ('big', 'JJ'),
 ('idea', 'NN'),
 ('is', 'VBZ'),
 ("n't", 'RB'),
 ('all', 'DT'),
 ('that', 'DT'),
 ('bad', 'JJ'),
 ('.', '.')]

那你可以用

from collections import defaultdict
counts = defaultdict(int)
for (word, tag) in pos_tag(word_tokenize("John's big idea isn't all that bad.")):
    counts[tag] += 1

获得频率：

defaultdict(<type 'int'>, {'JJ': 2, 'NN': 1, 'POS': 1, '.': 1, 'RB': 1, 'VBZ': 1, 'DT': 2, 'NNP': 1})

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-06-14

我来说两句

0条评论

登录后参与评论

来自分类Dev

Related 相关文章

文章

语音标记和实体识别的一部分-python

语音标记和实体识别的一部分-python

替换路径的一部分-python

在Python中获取整数的一部分

如何获得Python的最后一部分

剪掉一部分视频-python

Python递增数组的一部分

只旋转图像python的一部分

Spark是更大的python脚本的一部分

Python提取json元素的一部分

在python中获得字典的一部分

在python中交换列表的一部分

在Python中缩小图像的一部分

在python中编辑图像的一部分

Python deque和popleft（集合模块的一部分）

只能使用Python和BS4擦除表的一部分

如何使用Selenium WebDriver和Python检索元素的文本的一部分？

将第一行的一部分和第二行的一部分用作python pandas中的列标题

如何让python将DBF中的字符串值识别为if / else语句的一部分？

如何使用Python在lambda的一部分中在for循环中的if中添加和else语句

Python-缩放数组的一部分而不是其余部分

OpenCV Python将图像的某些部分复制到另一部分

使用Python，如何根据匹配的部分替换路径的一部分？

在python中有一种删除列的一部分的方法吗？

使用Scrapy选择Python中文本字段的一部分

在Python 3中删除字符串的一部分

重用序列作为Python列表的一部分

Python中的多处理，每个进程处理文件的一部分

在Python中包含文档字符串是否是干净代码的一部分？

python 2.7：通过键的一部分从字典中删除键

在Python中删除用点号分隔的字符串的最后一部分