这里有一个句子列表。使用NLTK,我可以标记句子并获取该句子的标记模式。这样就可以得到整个列表的标签模式,但是我想要的是找出大多数句子都匹配的常见标签模式,例如:
什么是封装
tag pattern : {<WP><VBZ><NN>}
你的婚礼怎么样
tag pattern : {<WRB><VBD><PRP$><NN>}
你今天有什么计划
tag pattern : {<WP><VBZ><PRP$><NN><NN>}
因此,上述三句的通用标记模式(Combining regexp tagger)是:
{<W.+><V.+><PRP.?>?<NN>+} - One "Wh" word,one verb,zero or one pronoun,one or many nouns
所以我想将句子的标记模式概括为普通的标记模式。这就是我想要做的。
有人可以告诉我该怎么做吗?
听起来好像您正在使用正则表达式(带有量词),它将匹配数据中所有不同的标记序列。虽然这不是一个简单的问题,但我怀疑您的目标是找到一种模式来捕获合法句子的序列,对吗?
如果是这样,则正则表达式(通常是有限状态方法)天生就是用于此工作的错误工具。为了甚至开始刻画句子集合的特征,您需要查看上下文无关的语法。查看有关该主题的NLTK材料。
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句