我有一组,trainFeatures
一组testFeatures
带有正,中性和负标签:
trainFeats = negFeats + posFeats + neutralFeats
testFeats = negFeats + posFeats + neutralFeats
例如,内部的一个条目trainFeats
是
(['blue', 'yellow', 'green'], 'POSITIVE')
测试功能列表也是如此,因此我为每组指定标签。我的问题是如何使用随机森林分类器和SVM的scikit实现来获得该分类器的准确性以及每个类别的准确性和召回率得分?问题是我目前使用单词作为特征,而根据我的阅读,这些分类器需要数字。有没有一种方法可以实现我的目标而无需更改功能?非常感谢!
您可以查看此scikit-learn教程,尤其是有关如何创建和使用分类器的学习和预测部分。该示例使用SVM,但是,使用RandomForestClassifier代替它是简单的,因为所有分类器都实现fit
和predict
方法。
使用文本功能时,可以使用CountVectorizer或DictVectorizer。看一下特征提取,尤其是第4.1.3节。
您可以在此处找到分类文本文档的示例。
然后,您可以通过分类报告获得分类器的精度和召回率。
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句