带有tfidf和计数矢量化器的gridsearchcv

Abtc

我想使用GridSearchCV进行参数调整。是否还可以使用GridSearchCV检查CountVectorizer或TfidfVectorizer效果最佳?我的点子:

pipeline = Pipeline([
           ('vect', TfidfVectorizer()),
           ('clf', SGDClassifier()),
])
parameters = {
'vect__max_df': (0.5, 0.75, 1.0),
'vect__max_features': (None, 5000, 10000, 50000),
'vect__ngram_range': ((1, 1), (1, 2), (1,3),  
'tfidf__use_idf': (True, False),
'tfidf__norm': ('l1', 'l2', None),
'clf__max_iter': (20,),
'clf__alpha': (0.00001, 0.000001),
'clf__penalty': ('l2', 'elasticnet'),
'clf__max_iter': (10, 50, 80),
}

grid_search = GridSearchCV(pipeline, parameters, n_jobs=-1, verbose=1, cv=5)

我的想法是:CountVectorizer与TfidfVectorizer相同,其中use_idf = False且normalize = None。如果GridSearchCV将此参数作为最佳结果,则CountVectorizer是最佳选择。那是对的吗?

先感谢您 :)

亚图

在中包含给定步骤及其对应名称之后Pipeline,您就可以从参数网格访问该步骤,并在网格中添加其他参数或矢量化器(在这种情况下)。您还可以在单​​个管道中具有网格列表:

from sklearn.feature_extraction.text import CountVectorizer

pipeline = Pipeline([
           ('vect', TfidfVectorizer()),
           ('clf', SGDClassifier()),
])
parameters = [{
    'vect__max_df': (0.5, 0.75, 1.0),
    'vect__max_features': (None, 5000, 10000, 50000),
    'vect__ngram_range': ((1, 1), (1, 2), (1,3),)  
    'tfidf__use_idf': (True, False),
    'tfidf__norm': ('l1', 'l2', None),
    'clf__max_iter': (20,),
    'clf__alpha': (0.00001, 0.000001),
    'clf__penalty': ('l2', 'elasticnet'),
    'clf__max_iter': (10, 50, 80)
},{
    'vect': (CountVectorizer(),)
    # count_vect_params...
    'clf__max_iter': (20,),
    'clf__alpha': (0.00001, 0.000001),
    'clf__penalty': ('l2', 'elasticnet'),
    'clf__max_iter': (10, 50, 80)
}]

grid_search = GridSearchCV(pipeline, parameters)

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

分别使用哈希矢量化器和计数矢量化器有什么区别?

来自分类Dev

在熊猫数据框列上带有计数器的矢量化功能

来自分类Dev

在熊猫数据框列上带有计数器的矢量化功能

来自分类Dev

具有count和tfidf矢量化器的管道会产生TypeError:预期的字符串或类似字节的对象

来自分类Dev

TFIDF矢量化器给出错误

来自分类Dev

在计数矢量化器中使用哪个轴?

来自分类Dev

矢量化的新事件计数方法

来自分类Dev

熊猫列的矢量化“和”

来自分类Dev

Lambda和python中的矢量化

来自分类Dev

LLVM ScalarEvolution传递无法计算循环矢量化器的退出计数

来自分类Dev

有效的日期矢量化

来自分类Dev

带有引号列的数据表子集缺乏矢量化

来自分类Dev

带有索引数组的numpy 3D数组矢量化访问

来自分类Dev

matlab:一个棘手的矢量化,函数带有2个嵌套循环

来自分类Dev

if else 语句基于 numpy 中的二进制数组,带有矢量化函数

来自分类Dev

numpy矢量化

来自分类Dev

熊猫矢量化

来自分类Dev

矢量化算法

来自分类Dev

矢量化列表

来自分类Dev

通过gensim使用scikit学习矢量化器和词汇表

来自分类Dev

通过gensim使用scikit学习矢量化器和词汇表

来自分类Dev

scikit学习矢量化器词汇,具有映射到同一索引的多个术语

来自分类Dev

sklearn:如何加快矢量化器(例如Tfidfvectorizer)的速度

来自分类Dev

矢量化图片以传递到分类器

来自分类Dev

寻找一种更有效的方式来矢量化带有不同行信息的CSV

来自分类Dev

加速符号化和矢量化功能

来自分类Dev

Python:沿轴的矢量化条件和

来自分类Dev

您将如何优化此矢量化的谐波和?

来自分类Dev

在熊猫数据框的某些列上对和进行矢量化

Related 相关文章

热门标签

归档