我想在python中执行部分语音标记和实体识别,类似于R中的openNLP的Maxent_POS_Tag_Annotator和Maxent_Entity_Annotator函数。 ,“ CD”的数量,“ DT”的数量等。CC,CD,DT是Penn Treebank中使用的POS标签。因此,与Penn Treebank POS一样,应该有36列/功能用于POS标签,与36个POS标签相对应。我想在Azure ML“执行Python脚本”模块上实现此功能,Azure ML支持python 2.7.7。我听说python中的nltk可以完成这项工作,但是我是python的初学者。任何帮助,将不胜感激。
看看NTLK的书,“分类和标记单词”部分。
一个简单的例子,它使用Penn Treebank标签集:
from nltk.tag import pos_tag
from nltk.tokenize import word_tokenize
pos_tag(word_tokenize("John's big idea isn't all that bad."))
[('John', 'NNP'),
("'s", 'POS'),
('big', 'JJ'),
('idea', 'NN'),
('is', 'VBZ'),
("n't", 'RB'),
('all', 'DT'),
('that', 'DT'),
('bad', 'JJ'),
('.', '.')]
那你可以用
from collections import defaultdict
counts = defaultdict(int)
for (word, tag) in pos_tag(word_tokenize("John's big idea isn't all that bad.")):
counts[tag] += 1
获得频率:
defaultdict(<type 'int'>, {'JJ': 2, 'NN': 1, 'POS': 1, '.': 1, 'RB': 1, 'VBZ': 1, 'DT': 2, 'NNP': 1})
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句