我是文字挖掘的新手。我使用的是开放源代码jar(Mate Parser),它在依赖项解析后以CoNLL 2009格式提供输出。我想将依赖项解析结果用于信息提取。但是我能够理解一些输出,但是不能理解CoNLL数据格式。谁能帮助我理解CoNLL数据格式?任何类型的指针将不胜感激。
由于CoNLL每年是一个不同的共享任务,因此有许多不同的CoNLL格式。2009年CoNLL的格式描述在这里。每行代表一个单词,带有一系列制表符分隔的字段。_
s表示空值。Mate-Parser的手册说,它使用了CoNLL 2009的前12列:
ID FORM LEMMA PLEMMA POS PPOS FEAT PFEAT HEAD PHEAD DEPREL PDEPREL
其中一些列的定义来自早期的共享任务(2006和2007年使用的CoNLL-X格式):
ID
(句子索引,从1开始)FORM
(单词形式本身)LEMMA
(单词的引理或词干)POS
(词性)FEAT
(用|分隔的形态特征列表)HEAD
(语法父级的索引,0为ROOT
)DEPREL
(HEAD
与该词之间的句法关系)这些列的变体(例如PPOS
但不是POS
)以开头,P
表示该值是自动预测的,而不是黄金标准值。
更新:现在还有一种CoNLL-U数据格式,并且扩展了CoNLL-X格式。
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句