LassoCV如何在scikit学习分区数据中？

Sirrah 发表于 Dev

西拉

我正在使用sklearn中的套索方法执行线性回归。

根据他们的指导，以及我在其他地方看到的指导，建议不要简单地对所有训练数据进行交叉验证，而建议将其分成更传统的训练集/验证集分区。

因此，在训练集上训练了套索，然后根据来自验证集的交叉验证的结果来调整超参数alpha。最后，在测试集上使用可接受的模型以给出真实的视图，以了解其在现实中的性能。在这里将关注点分开是防止过度拟合的预防措施。

实际问题

Lasso CV是否符合上述协议，还是只是在相同的数据上和/或在相同的CV轮次中以某种方式训练了模型参数和超参数？

谢谢。

艾肯伯格

如果sklearn.cross_validation.cross_val_score与sklearn.linear_model.LassoCV对象一起使用，那么您将执行嵌套的交叉验证。cross_val_score会根据您指定折叠的方式将数据分为训练集和测试集（可以使用诸如之类的对象来完成sklearn.cross_validation.KFold）。火车将被传递到LassoCV，该火车本身会再次对数据进行拆分，以选择正确的罚则。看来，这与您要查找的设置相对应。

import numpy as np
from sklearn.cross_validation import KFold, cross_val_score
from sklearn.linear_model import LassoCV

X = np.random.randn(20, 10)
y = np.random.randn(len(X))

cv_outer = KFold(len(X), n_folds=5)
lasso = LassoCV(cv=3)  # cv=3 makes a KFold inner splitting with 3 folds

scores = cross_val_score(lasso, X, y, cv=cv_outer)

答：不，LassoCV不会为您完成所有工作，您必须将其与所需的功能结合使用cross_val_score。同时，这也是实现此类对象的合理方式，因为我们也可能只对优化过的超参数进行拟合LassoCV而不必对另一组保留的数据直接进行评估，对此很感兴趣。

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-02-10

我来说两句

0条评论

登录后参与评论

上一篇：如何在liquibase中创建复合索引

来自分类Dev

Related 相关文章

文章

LassoCV如何在scikit学习分区数据中？

LassoCV如何在scikit学习分区数据中？

如何标准化scikit学习中的排名数据？

如何创建scikit学习数据集？

如何在scikit学习决策树中形成数据以构成n个特征和n个样本的数组？

使用scikit学习OneHotEncoder时如何处理分类数据中的缺失值（NaN）？

如何在scikit学习管道中组合数字和分类功能？

如何在scikit学习列选择器管道中仅选择少数列？

如何在SnappyData的列表中对数据进行分区？

如何在 sparklyr 中重新分区数据框

如何在scikit Learn，Python中处理名义数据？

将csv中的数据加载到Scikit中以学习SVM

将csv中的数据加载到Scikit中以学习SVM

python scikit中更快的数据拟合（或学习）功能

Zip scikit学习数据集

scikit-学习CountVectorizer中的术语频率如何计算

PCA如何为scikit中的Kmeans算法中心提供学习

如何在内存中加载scikit学习机器学习模块？

如何在分区之间平衡我的数据？

scikit中的RandomForestClassifier与ExtraTreesClassifier学习

scikit学习中的NuSVR与SVR

scikit中的OneHotEncoder混淆学习

scikit中的分类报告学习

Python中的Scikit学习更新

分区表后，如何查看每个分区中的数据

如何在张量流学习验证监视器中输入数据？

如何在Django中的字段上进行数据库分区？

Cassandra分区容限如何在多数据中心环境中工作

如何在pyspark数据帧读取方法中包括分区列

如何在Azure CosmosDB中为Graph数据库选择分区键

如何在Django中的字段上进行数据库分区？