NLTK-多标签分类

红rub

我正在使用NLTK来对文档进行分类-每个文档有1个标签,并且有10种文档类型。

对于文本提取,我正在清理文本(删除标点符号,删除html标签,小写字母),删除nltk.corpus.stopwords以及我自己的停用词集合。

对于我的文档功能,我查看了所有50k文档,并按照频率(frequency_words)收集了前2k个单词,然后为每个文档标识了文档中哪些单词也位于全局frequency_words中。

然后,我将每个文档作为hashmap传递{word: boolean}到nltk.NaiveBayesClassifier(...)关于文档总数,我的测试培训比例为20:80。

我遇到的问题:

  1. NLTK的此分类器是否适合多标签数据?-我看到的所有示例都更多地是关于2类分类的,例如,某些东西是声明为肯定的还是否定的。
  2. 这些文档应使他们具备一些关键技能,但不幸的是,我没有这些技能所在的语料库。因此,我采取了一种理解的方法,即每个文档的字数并不是一个好的文档提取器-这是正确的吗?每个文档都是由个人编写的,因此我需要为文档中的各个变体留出余地。我知道SkLearn MBNaiveBayes可以处理字数统计。
  3. 我应该使用替代库还是该算法的变体?

谢谢!

夏姆

术语:文档被分为10个不同的类别,这使其成为一个多类别的分类问题。除此之外,如果要对具有多个标签的文档进行分类,则可以将其称为多类多标签分类。

对于您面临的问题,

  1. nltk.NaiveBayesClassifier()是开箱即用的多类分类器。所以可以,您可以使用它来解决此问题。根据多标签数据,如果您的标签是a,b,c,d,e,f,g,h,i,j,则必须将特定文档的标签“ b”定义为“ 0,1”, 0,0,0,0,0,0,0,0'。

  2. 特征提取是分类(机器学习)中最难的部分。我建议您研究不同的算法,以了解并选择最适合您数据的算法(不查看数据,就很难推荐使用哪种算法/实现)

  3. 有许多不同的库可供分类。我个人使用了scikit-learn,可以说它是很好的现成分类器。

注意:使用scikit-learn,由于数据集庞大且存在其他挫折,因此我能够在一周内取得成果。

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

NLTK-多标签分类

来自分类Dev

使用NLTK,scikit-learn和OneVsRestClassifier启用多标签分类

来自分类Dev

NLTK分类器对象

来自分类Dev

NER 的 NLTK 树标签

来自分类Dev

多标签分类实施

来自分类Dev

在特定文件上测试NLTK分类器

来自分类Dev

Python NLTK朴素贝叶斯分类器

来自分类Dev

R中的多标签分类

来自分类Dev

tensorflow 多标签分类 mnist

来自分类Dev

nltk naivebayes分类器,用于文本分类

来自分类Dev

NLTK 2.0分类器批次分类器方法

来自分类Dev

在NLTK中显示标签概率/置信度

来自分类Dev

NLTK布朗语料库标签

来自分类Dev

定制标签机NLTK 3

来自分类Dev

NLTK包,未定义标签

来自分类Dev

定制标签机NLTK 3

来自分类Dev

出现次数多的单词的NLTK索引

来自分类Dev

在nltk文本蕴含分类器上获取AttributeError

来自分类Dev

NLTK分类器在情感分析中仅给出否定答案

来自分类Dev

Python:已加载的NLTK分类器不起作用

来自分类Dev

NLTK分类器在情感分析中仅给出否定答案

来自分类Dev

多标签图像分类与目标检测

来自分类Dev

用于多标签分类的Vowpal Wabbit预测

来自分类常见问题

pytorch多标签分类网络不训练

来自分类Dev

Tensorflow中的多标签分类器

来自分类Dev

scikit学习文本的多标签分类

来自分类Dev

pytorch多标签分类网络不训练

来自分类Dev

多标签分类的Vowpal Wabbit预测

来自分类Dev

创建lmdb进行多标签分类