N-gram与文本分类中的其他分类器

wudpecker 发表于 Dev

乌德佩克

我是文本分类技术的新手，我想知道N-gram文本分类方法与其他基于分类器（决策树，KNN，SVM）的文本分类之间的区别。

我想知道哪一个更好，n-gram是否属于分类器？n-gram可以克服分类器技术中的任何缺点吗？

我在哪里可以获得有关所有这些技术的比较信息。

提前致谢。

本·艾里森

实际上，我将对此发表完整的答案，因为我认为很明显可以将n-gram模型用作分类器（与您可以将要素的任何概率模型用作一个对象一样，这很明显）。

生成分类器将感兴趣的后验值p（class | test doc）近似为：

p（c | t）\原型P（C）P（t | c）

其中p（c）是c的先验概率，p（t | c）是似然性。分类选取所有c的arg-max。像朴素贝叶斯（Naive Bayes）或LDA一样的n-gram语言模型或任何您喜欢的生成模型，如果您为每个类估计一个单独的模型，则可以将其解释为概率模型p（t | c）。这样，它可以提供进行分类所需的所有信息。

问题是该模型是否有用。主要问题是，n-gram模型倾向于建立在数十亿个文字的单词上，其中分类器通常在数千个单词上进行训练。您可以做一些复杂的事情，例如将联合先验放在所有类模型的参数上，将超参数钳制为相等（这些参数取决于您进行平滑的方式）……但这仍然很棘手。

另一种方法是构建一个n-gram字符模型（如果有用，则包括空格/标点符号）。可以更可靠地估算出该值（三元模型的参数为26 ^ 3，而不是〜20000 ^ 3），对于作者识别/类型分类/具有风格元素的其他分类形式可能非常有用。

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2020-11-26

我来说两句

0条评论

登录后参与评论

上一篇：如何获取传递给函数调用的关键字参数的原始顺序？

来自分类Dev

Related 相关文章

文章

N-gram与文本分类中的其他分类器

N-gram与文本分类中的其他分类器

Weka进行文本分类器：如何正确训练分类器问题

SVM用于R中的文本分类

python textblob和文本分类

Sklearn除了用于文本分类的文本以外的其他输入

带有单词袋和sklearn中附加情感功能的文本分类器

交叉验证和文本分类

在文本分类中定义词汇量

nltk naivebayes分类器，用于文本分类

我的文本分类器模型无法在多个类中得到改善

在Tensorflow 2.0 / Keras中使用其他数据功能创建文本分类器

构建用于标记级别文本分类的n-gram

伯特文本分类损失是南

在ML分类器中编码文本

机器学习中未标记数据的文本分类

测试SVM分类器以进行文本分类时出错

在实践中如何使用我的文本分类器？截至获得新评论的tf-idf值

SVM用于R中的文本分类

Weka，arff文件上的文本分类

R中针对单个段落的文本分类

在文本分类中定义词汇量

多个标签的文本分类

使用 Python 进行文本分类

此场景的文本分类技术

文本分类 NaiveBayes

运行 BigDL 文本分类器失败

使用 Keras 进行文本分类

文本分类问题

如何计算文本分类的困惑度？

如何减少文本分类中的特征数量？