scikit-learn中安排文本数据进行文本分类的标准方法是什么?

约翰·杜

我有一个NLP任务,基本上是监督文本分类我用它的POS标签标记了一个语料库,然后使用scikit-learn提供的不同矢量化程序来提供scikit-learn提供的一些分类算法。我还拥有以前以无人监督的方式获得的语料库的标签(类别)。

首先,我用POS标记了语料库,然后获得了一些不同的双字母组,它们具有以下结构:

bigram = [[('word','word'),...,('word','word')]]

显然,似乎我可以对所有内容进行分类(我已经准备好通过一些小例子进行分类,但还没有全部语料库)。

我想将双字母组合用作功能,以便将其呈现给分类算法(多项式朴素贝叶斯,SVM等)。

安排所有文本数据以分类和显示分类语料库结果的标准(pythonic)方法是什么?我当时正在考虑使用arff文件和numpy数组,但是我想它可能会使任务不必要地复杂化。另一方面,我正在考虑将数据拆分到训练和测试文件夹中,但是我不可视化如何在训练文件夹中设置标签。

弗雷德·富

最简单的选项是load_files,它需要目录布局

data/
    positive/     # class label
        1.txt     # arbitrary filename
        2.txt
        ...
    negative/
        1.txt
        2.txt
        ...
    ...

(这并不是真正的标准,只是方便和惯例。网络上的某些ML数据集都以这种格式提供。)

输出的load_files是其中dict包含数据的。

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

对于使用 scikit-learn 进行文本分类,我是否必须同时使用 Countvectorizer 和 TFIDF?

来自分类Dev

Scikit学习-如何使用SVM和随机森林进行文本分类?

来自分类Dev

如何使用scikit Learn对文本数据进行二值化?

来自分类Dev

使用scikit对文本进行分类

来自分类Dev

一类用于文本分类的SVM模型(scikit-learn)

来自分类Dev

Scikit-Learn中的分类数据转换

来自分类Dev

使用scikit-learn加载文本数据时遇到问题?

来自分类Dev

如何在scikit-learn中正确加载文本数据?

来自分类Dev

在 scikit-learn 中加载自定义文本数据的问题

来自分类Dev

如何使用scikit-learn使用标签对文本进行分类?

来自分类Dev

scikit学习文本的多标签分类

来自分类Dev

Scikit学习分类

来自分类Dev

scikit中的分类报告学习

来自分类Dev

scikit中的RBM预测

来自分类Dev

Scikit Learn中的交叉验证

来自分类Dev

Scikit Learn中的距离指标

来自分类Dev

scikit中的参数“ verbose”的定义是什么?

来自分类Dev

使用scikit-learn处理分类特征

来自分类Dev

使用scikit-learn处理分类特征

来自分类Dev

处理 scikit-learn MLPClassifier 的分类标签

来自分类Dev

使用scikit-learn进行二次采样+分类

来自分类Dev

在Scikit-Learn中使用近似最近邻进行分类

来自分类Dev

Scikit Learn-K均值-肘部-标准

来自分类Dev

.arff文件与scikit-learn?

来自分类Dev

Python scikit-learn-TypeError

来自分类Dev

scikit-learn StratifiedKFold实现

来自分类Dev

输出 Scikit Learn OLS 报告

来自分类Dev

scikit-learn:最近的邻居

来自分类Dev

Scikit-learn 导入约定