使用 Python 进行文本分类

debugcn 发表于 Dev

一友

我有带有标签的文本变量中的单词列表。我喜欢制作一个可以预测新输入文本标签的分类器。

我正在考虑在 Python 中使用 scikit-learn 包来使用 SVM 模型。

我意识到文本需要转换为矢量形式，所以我正在尝试 TfidfVectorizer 和 CountVectorizer。

到目前为止，这是我使用 TfidfVectorizer 的代码：

from sklearn import svm
from sklearn.feature_extraction.text import TfidfVectorizer

label = ['organisasi','organisasi','organisasi','organisasi','organisasi','lokasi','lokasi','lokasi','lokasi','lokasi']
text = ['Partai Anamat Nasional','Persatuan Sepak Bola', 'Himpunan Mahasiswa','Organisasi Sosial','Masyarakat Peduli','Malioboro','Candi Borobudur','Taman Pintar','Museum Sejarah','Monumen Mandala']

vectorizer = TfidfVectorizer(min_df=1)

X = vectorizer.fit_transform(text)
y = label

klasifikasi = svm.SVC()

klasifikasi = klasifikasi.fit(X,y) #training

test_text = ['Partai Perjuangan']
test_vector = vectorizer.fit_transform(test_text)

prediksi = klasifikasi.predict([test_vector]) #test

print(prediksi)

我还尝试使用上述相同代码的 CountVectorizer。两者都显示相同的错误结果：

ValueError: setting an array element with a sequence.

如何解决这个问题呢？谢谢

维维克·库马尔

错误是由于这一行：

prediksi = klasifikasi.predict([test_vector])

大多数 scikit 估计器需要一个 shape 数组[n_samples, n_features]。test_vectorTfidfVectorizer的输出已经准备好用于估计器的形状。您不需要将其包裹在方括号 ([和]) 中。包装使它成为一个不合适的列表。

尝试像这样使用它：

prediksi = klasifikasi.predict(test_vector)

但即使那样你也会gt错误。因为这一行：

test_vector = vectorizer.fit_transform(test_text)

在这里，您以与klasifikasi估计器学到的不同的方式拟合矢量化器。fit_transform()只是调用fit()（学习数据）然后transform()它的快捷方式。对于测试数据，始终使用transform()方法，从不fit()或fit_transform()

所以正确的代码将是：

test_vector = vectorizer.transform(test_text)
prediksi = klasifikasi.predict(test_vector)

#Output: array(['organisasi'],  dtype='|S10')

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-07-12

我来说两句

0条评论

登录后参与评论

来自分类Dev

Related 相关文章

文章

使用 Python 进行文本分类

使用 Python 进行文本分类

使用 Keras 进行文本分类

使用Spark ML进行文本分类

如何使用Accord.Net进行文本分类？

如何使用GPT 3进行文本分类？

使用朴素贝叶斯进行文本分类

使用R和SVM进行文本分类。矩阵功能

Scikit学习-如何使用SVM和随机森林进行文本分类？

使用预制字典进行文本分类的SVM特征向量表示

使用TF-IDF分数进行文本分类的KNN

使用Keras在LSTM中获取单词进行文本分类的可能性

使用预制字典进行文本分类的SVM特征向量表示

使用我自己的数据进行文本分类的Tensorflow错误

对于使用 scikit-learn 进行文本分类，我是否必须同时使用 Countvectorizer 和 TFIDF？

使用TensorFlow进行多标签文本分类

使用python进行文本搜索

如何使用sklearn库使用朴素贝叶斯执行文本分类？

python textblob和文本分类

使用对数概率进行并发症-朴素贝叶斯文本分类器

在R中使用LDA和tm进行文本分析

使用brain.js神经网络进行文本分析

使用Rapidminer对imdb电影评论进行文本分析

在R中使用LDA和tm进行文本分析

使用人类语言字典动态填充哈希图以进行文本分析

使用python 3.4.3进行文本文件索引

使用* .dic * .aff使用Python进行形态学文本分析

编码数据标签以进行文本分类

使用doc2vec gensim进行二进制文本分类的最佳培训方法

在R中使用文本分类和大稀疏矩阵

如何使用更少的内存完成文本分类任务