使用scikit-learn生成困难分类数据集

debugcn 发表于 Dev

肖恩·B。

我正在尝试使用scikit-learn中的make_classification生成一系列综合数据集，并具有不同的样本大小，患病率（即，阳性类别的比例）和准确性。改变样本量和患病率非常简单，但是我很难使用逻辑回归生成任何精度低于50％的数据集。玩弄信息性列的数量，每个类的簇的数量以及flip_y参数（随机翻转给定比例的观测值的类）似乎降低了准确性，但并没有我想要的那么多。有没有一种方法可以改变make_classification的参数，从而进一步降低该参数（例如，降低到20％）？

谢谢！

tttthomasssss

通常，将极低的数量n_samples，随机翻转标签的高可能性flip_y和大量的数量相结合，n_classes可以将您带到您想要的位置。

您可以尝试以下操作：

from sklearn.cross_validation import cross_val_score
from sklearn.datasets import make_classification
from sklearn.linear_model import LogisticRegression

lr = LogisticRegression()

# 2-class problem
X, y = make_classification(n_samples=100, n_informative=2, flip_y=0.8, random_state=42)

cross_val_score(estimator=lr, X=X, y=y, scoring='accuracy', cv=10)

# Output
array([ 0.54545455,  0.27272727,  0.45454545,  0.2       ,  0.4       ,
        0.5       ,  0.7       ,  0.55555556,  0.55555556,  0.44444444])

# 8-class problem
X, y = make_classification(n_samples=100, n_classes=8, n_informative=4, n_clusters_per_class=1, flip_y=0.5, random_state=42)

cross_val_score(estimator=lr, X=X, y=y, scoring='accuracy', cv=5)

# Output
array([ 0.16666667,  0.19047619,  0.15      ,  0.16666667,  0.29411765])

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-06-11

我来说两句

0条评论

登录后参与评论

来自分类Dev

Related 相关文章

文章

使用scikit-learn生成困难分类数据集

使用scikit-learn生成困难分类数据集

使用scikit-learn处理太多分类功能

使用scikit-learn处理分类特征

使用scikit-learn训练多维数据

使用scikit-learn并行生成随机森林

使用scikit-learn让熊猫玩得开心

使用Scikit Learn进行Unigram分析

如何使用scikit-learn使用标签对文本进行分类？

如何使用scikit-learn执行集成（多分类器）分类？

Scikit-Learn中的分类数据转换

使用scikit对文本进行分类

在scikit-learn中使用OneHotEncoder为分类准备序数和名义特征

如何预处理新实例进行分类，以使特征编码与使用Scikit-learn的模型相同？

在Android中使用经过训练的Scikit-learn svm分类器

scikit-learn：如何使用两个不同的数据集作为训练集和测试集

使用scikit-learn进行二次采样+分类

使用NLTK，scikit-learn和OneVsRestClassifier启用多标签分类

在Scikit-Learn中使用近似最近邻进行分类

Scikit使用随机森林学习分类数据

无法使用scikit-learn导入“数据集”

使用scikit-learn运行k折后如何访问数据集？

使用scikit-learn处理分类特征

如何使用scikit-learn训练/扩展非常大的数据集？

无法使用scikit-learn导入“数据集”

使用 SciKit 对句子进行分类

在 csv 数据集上使用 Scikit-learn

在 scikit-learn 中使用图像数据拟合支持向量分类器会产生错误

如何使用 scikit learn 预测目标标签

使用 Anaconda 更新 scikit-learn 失败

使用 Scikit-Learn 使用分类数据制作回归模型