我有一个NLP任务,基本上是监督文本分类。我用它的POS标签标记了一个语料库,然后使用scikit-learn提供的不同矢量化程序来提供scikit-learn提供的一些分类算法。我还拥有以前以无人监督的方式获得的语料库的标签(类别)。
首先,我用POS标记了语料库,然后获得了一些不同的双字母组,它们具有以下结构:
bigram = [[('word','word'),...,('word','word')]]
显然,似乎我可以对所有内容进行分类(我已经准备好通过一些小例子进行分类,但还没有全部语料库)。
我想将双字母组合用作功能,以便将其呈现给分类算法(多项式朴素贝叶斯,SVM等)。
安排所有文本数据以分类和显示分类语料库结果的标准(pythonic)方法是什么?我当时正在考虑使用arff文件和numpy数组,但是我想它可能会使任务不必要地复杂化。另一方面,我正在考虑将数据拆分到训练和测试文件夹中,但是我不可视化如何在训练文件夹中设置标签。
最简单的选项是load_files
,它需要目录布局
data/
positive/ # class label
1.txt # arbitrary filename
2.txt
...
negative/
1.txt
2.txt
...
...
(这并不是真正的标准,只是方便和惯例。网络上的某些ML数据集都以这种格式提供。)
输出的load_files
是其中dict
包含数据的。
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句