如何在scikit-learn中使用随机对数回归找到最低的正则化参数（C）？

alichaudry 发表于 Dev

ich

我正在尝试使用scikit-learn随机Logistic回归特征选择方法，但我一直遇到这种情况，在拟合时它会杀死所有特征并返回：

ValueError: Found array with 0 feature(s) (shape=(777, 0)) while a minimum of 1 is required.

显然，这是预料之中的，因为我将正则化参数-降低C到非常低的水平（请注意，这是数学正则化参数的倒数lambda，即C = 1/lambdaC越低，正则化就越极端）。

我的问题是，如何在C不手动测试多个值并消除抛出该错误的值的情况下提前找到我可以选择的最低值？

就我而言（从约250个功能开始），我知道这C = 0.5是我能做到的最低标准。0.1，0.4甚至0.49在他们将我的功能集降低到0时抛出错误（并给出shape = (blah, 0)我上面粘贴的错误）。

另一个注意事项（也许这应该是一个不同的问题）-我的值越高C（即，我的lambda或正则化参数越低）-我的计算机花费的时间越多。再加上一个事实，我通常在RLR之前通过带有StandardScaler的管道运行RLR，之后再通过SVM或RF运行RLR，并且还使用交叉验证，这使得在我的计算机上运行所需的总时间呈指数增长。

ich

正如我在评论Leb的答案时提到的那样，正确的答案是它取决于数据。（目前为止）sklearn.pipeline.Pipeline或sklearn.grid_search.GridSearchCV无法捕获此特定情况。如果正则化参数足够紧，可以剔除输入数据集中的所有特征，并且没有其他需要训练的内容，则搜索最佳参数Pipeline时，即将出现的分类器将失败（很明显）GridSearchCV。

在这种情况下，我处理这种情况的方法是在将任何形式的特征选择添加到中前，彻底理解和探索我的数据Pipeline。

作为示例用法，我将特征选择变换器放在的外部，Pipeline然后将其手动拟合到一组不同的值上。我特别关注极端（非常高的正则化和非常低的正则化）。这给了我一个关于特征选择转换器何时剔除所有特征以及什么时候根本不选择特征的想法。然后，我将特征选择转换器重新添加到中，Pipeline然后将其放入中GridSearchCV。在这里，我确保为特征选择转换器搜索的参数都在我之前发现的两个极限之内，这可以防止我GridSearchCV碰到零特征的情况并破坏它。

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-02-23

我来说两句

0条评论

登录后参与评论

上一篇：Android Studio Gradle androidTest与InstrumentTest

来自分类Dev

Related 相关文章

文章

如何在scikit-learn中使用随机对数回归找到最低的正则化参数（C）？

如何在scikit-learn中使用随机对数回归找到最低的正则化参数（C）？

如何在scikit-learn中使用tfidf计算功能？

如何在scikit-learn中使用tfidf计算功能？

如何在Python scikit-learn中从随机森林中的每棵树输出回归预测？

如何在python中使用scikit-tensor

如何在python中使用scikit训练SVM？

如何在python中使用scikit-tensor

如何使用 scikit-learn 执行非正则化逻辑回归？

如何在scikit-learn中预测时间序列？

如何在scikit-learn中理解DecisionTreeClassifier的输出？

如何在scikit-learn的DecisionTreeRegressor中获取节点的MSE？

如何在scikit-learn CountVectorizer中计算词频

如何在scikit Learn，Python中处理名义数据？

如何在scikit-learn中使用字符串内核？

如何在scikit-learn的`pipeline'中使用自定义功能选择功能

如何在scikit-learn中使用字符串内核？

如何在scikit-learn的岭回归中设置学习率？

如何在结构化查询中使用scikit学习模型？

如何在scikit-learn中保存一个随机森林？

如何在scikit-learn的LogisticRegressionCV调用中将参数传递给评分函数

如何在scikit-learn中对管道中的转换参数进行网格搜索

如何在scikit-learn中使用散列技巧对bigrams进行矢量化处理？

python：如何在scikit学习分类器（SVM）等中使用POS（词性）功能

如何在scikit-learning DecisionTreeRegressor中使用实际功能名称代替“ X”？

如何在scikit的feature.selection中使用“ metrics.mutual_info”

如何在python / Scikit中使用许多唯一值处理分类特征

如何在scikit-learning DecisionTreeRegressor中使用实际功能名称代替“ X”？

python：如何在scikit学习分类器（SVM）等中使用POS（词性）功能

如何在Scikit python中提高逻辑回归的模型准确性？

如何使用scikit-learn执行多元线性回归？