N-gram与文本分类中的其他分类器

乌德佩克

我是文本分类技术的新手,我想知道N-gram文本分类方法与其他基于分类器(决策树,KNN,SVM)的文本分类之间的区别。

我想知道哪一个更好,n-gram是否属于分类器?n-gram可以克服分类器技术中的任何缺点吗?

我在哪里可以获得有关所有这些技术的比较信息。

提前致谢。

本·艾里森

实际上,我将对此发表完整的答案,因为我认为很明显可以将n-gram模型用作分类器(与您可以将要素的任何概率模型用作一个对象一样,这很明显)。

生成分类器将感兴趣的后验值p(class | test doc)近似为:

p(c | t)\原型P(C)P(t | c)

其中p(c)是c的先验概率,p(t | c)是似然性。分类选取所有c的arg-max。像朴素贝叶斯(Naive Bayes)或LDA一样的n-gram语言模型或任何您喜欢的生成模型,如果您为每个类估计一个单独的模型,则可以将其解释为概率模型p(t | c)。这样,它可以提供进行分类所需的所有信息。

问题是该模型是否有用。主要问题是,n-gram模型倾向于建立在数十亿个文字的单词上,其中分类器通常在数千个单词上进行训练。您可以做一些复杂的事情,例如将联合先验放在所有类模型的参数上,将超参数钳制为相等(这些参数取决于您进行平滑的方式)……但这仍然很棘手。

另一种方法是构建一个n-gram字符模型(如果有用,则包括空格/标点符号)。可以更可靠地估算出该值(三元模型的参数为26 ^ 3,而不是〜20000 ^ 3),对于作者识别/类型分类/具有风格元素的其他分类形式可能非常有用。

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

Weka进行文本分类器:如何正确训练分类器问题

来自分类Dev

SVM用于R中的文本分类

来自分类Dev

python textblob和文本分类

来自分类Dev

Sklearn除了用于文本分类的文本以外的其他输入

来自分类Dev

带有单词袋和sklearn中附加情感功能的文本分类器

来自分类Dev

交叉验证和文本分类

来自分类Dev

在文本分类中定义词汇量

来自分类Dev

nltk naivebayes分类器,用于文本分类

来自分类Dev

我的文本分类器模型无法在多个类中得到改善

来自分类Dev

在Tensorflow 2.0 / Keras中使用其他数据功能创建文本分类器

来自分类Dev

构建用于标记级别文本分类的n-gram

来自分类Dev

伯特文本分类损失是南

来自分类Dev

在ML分类器中编码文本

来自分类Dev

机器学习中未标记数据的文本分类

来自分类Dev

测试SVM分类器以进行文本分类时出错

来自分类Dev

在实践中如何使用我的文本分类器?截至获得新评论的tf-idf值

来自分类Dev

SVM用于R中的文本分类

来自分类Dev

Weka,arff文件上的文本分类

来自分类Dev

R中针对单个段落的文本分类

来自分类Dev

在文本分类中定义词汇量

来自分类Dev

多个标签的文本分类

来自分类Dev

使用 Python 进行文本分类

来自分类Dev

此场景的文本分类技术

来自分类Dev

文本分类 NaiveBayes

来自分类Dev

运行 BigDL 文本分类器失败

来自分类Dev

使用 Keras 进行文本分类

来自分类Dev

文本分类问题

来自分类Dev

如何计算文本分类的困惑度?

来自分类Dev

如何减少文本分类中的特征数量?