scikit-learn中安排文本数据进行文本分类的标准方法是什么？

John doe 发表于 Dev

约翰·杜

我有一个NLP任务，基本上是监督文本分类。我用它的POS标签标记了一个语料库，然后使用scikit-learn提供的不同矢量化程序来提供scikit-learn提供的一些分类算法。我还拥有以前以无人监督的方式获得的语料库的标签（类别）。

首先，我用POS标记了语料库，然后获得了一些不同的双字母组，它们具有以下结构：

bigram = [[('word','word'),...,('word','word')]]

显然，似乎我可以对所有内容进行分类（我已经准备好通过一些小例子进行分类，但还没有全部语料库）。

我想将双字母组合用作功能，以便将其呈现给分类算法（多项式朴素贝叶斯，SVM等）。

安排所有文本数据以分类和显示分类语料库结果的标准（pythonic）方法是什么？我当时正在考虑使用arff文件和numpy数组，但是我想它可能会使任务不必要地复杂化。另一方面，我正在考虑将数据拆分到训练和测试文件夹中，但是我不可视化如何在训练文件夹中设置标签。

弗雷德·富

最简单的选项是load_files，它需要目录布局

data/
    positive/     # class label
        1.txt     # arbitrary filename
        2.txt
        ...
    negative/
        1.txt
        2.txt
        ...
    ...

（这并不是真正的标准，只是方便和惯例。网络上的某些ML数据集都以这种格式提供。）

输出的load_files是其中dict包含数据的。

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-02-16

我来说两句

0条评论

登录后参与评论

上一篇：rake db:seed is not working using neo4j gem

来自分类Dev

Related 相关文章

文章

scikit-learn中安排文本数据进行文本分类的标准方法是什么？

scikit-learn中安排文本数据进行文本分类的标准方法是什么？

对于使用 scikit-learn 进行文本分类，我是否必须同时使用 Countvectorizer 和 TFIDF？

Scikit学习-如何使用SVM和随机森林进行文本分类？

如何使用scikit Learn对文本数据进行二值化？

使用scikit对文本进行分类

一类用于文本分类的SVM模型（scikit-learn）

Scikit-Learn中的分类数据转换

使用scikit-learn加载文本数据时遇到问题？

如何在scikit-learn中正确加载文本数据？

在 scikit-learn 中加载自定义文本数据的问题

如何使用scikit-learn使用标签对文本进行分类？

scikit学习文本的多标签分类

Scikit学习分类

scikit中的分类报告学习

scikit中的RBM预测

Scikit Learn中的交叉验证

Scikit Learn中的距离指标

scikit中的参数“ verbose”的定义是什么？

使用scikit-learn处理分类特征

使用scikit-learn处理分类特征

处理 scikit-learn MLPClassifier 的分类标签

使用scikit-learn进行二次采样+分类

在Scikit-Learn中使用近似最近邻进行分类

Scikit Learn-K均值-肘部-标准

.arff文件与scikit-learn？

Python scikit-learn-TypeError

scikit-learn StratifiedKFold实现

输出 Scikit Learn OLS 报告

scikit-learn：最近的邻居

Scikit-learn 导入约定