我遇到了几种使用WordNet的结构和层次结构来度量语义相似性的方法,例如Jiang and Conrath度量(JNC),Resnik度量(RES),Lin度量(LIN)等。
使用NLTK进行测量的方式是:
sim2=wn.jcn_similarity(entry1,entry2,brown_ic)
sim3=entry1.res_similarity(entry2, brown_ic)
sim4=entry1.lin_similarity(entry2,brown_ic)
如果WordNet是计算语义相似度的基础,那么这里的Brown Corpus有什么用?
来看看有关NLTK wordnet的解释。
具体地说,* _ic表示法是信息内容。
synset1.res_similarity(synset2,ic):Resnik相似度:根据最小共同使用者(最具体的祖先节点)的信息内容(IC),返回一个表示两个词义相似程度的分数。请注意,对于使用信息内容的任何相似性度量,结果取决于用于生成信息内容的语料库以及如何创建信息内容的细节。
一下就更多信息信息内容从这里:
衡量词义IC的常规方法是将来自诸如WordNet之类的本体的层次结构知识与从大型语料库中得出的其在文本中的实际用法统计信息结合起来
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句