使用scikit-learn生成困难分类数据集

肖恩·B。

我正在尝试使用scikit-learn中的make_classification生成一系列综合数据集,并具有不同的样本大小,患病率(即,阳性类别的比例)和准确性。改变样本量和患病率非常简单,但是我很难使用逻辑回归生成任何精度低于50%的数据集。玩弄信息性列的数量,每个类的簇的数量以及flip_y参数(随机翻转给定比例的观测值的类)似乎降低了准确性,但并没有我想要的那么多。有没有一种方法可以改变make_classification的参数,从而进一步降低该参数(例如,降低到20%)?

谢谢!

tttthomasssss

通常,将极低的数量n_samples,随机翻转标签的高可能性flip_y和大量的数量相结合,n_classes可以将您带到您想要的位置。

您可以尝试以下操作:

from sklearn.cross_validation import cross_val_score
from sklearn.datasets import make_classification
from sklearn.linear_model import LogisticRegression

lr = LogisticRegression()

# 2-class problem
X, y = make_classification(n_samples=100, n_informative=2, flip_y=0.8, random_state=42)

cross_val_score(estimator=lr, X=X, y=y, scoring='accuracy', cv=10)

# Output
array([ 0.54545455,  0.27272727,  0.45454545,  0.2       ,  0.4       ,
        0.5       ,  0.7       ,  0.55555556,  0.55555556,  0.44444444])

# 8-class problem
X, y = make_classification(n_samples=100, n_classes=8, n_informative=4, n_clusters_per_class=1, flip_y=0.5, random_state=42)

cross_val_score(estimator=lr, X=X, y=y, scoring='accuracy', cv=5)

# Output
array([ 0.16666667,  0.19047619,  0.15      ,  0.16666667,  0.29411765])

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

使用scikit-learn处理太多分类功能

来自分类Dev

使用scikit-learn处理分类特征

来自分类Dev

使用scikit-learn训练多维数据

来自分类Dev

使用scikit-learn并行生成随机森林

来自分类Dev

使用scikit-learn让熊猫玩得开心

来自分类Dev

使用Scikit Learn进行Unigram分析

来自分类Dev

如何使用scikit-learn使用标签对文本进行分类?

来自分类Dev

如何使用scikit-learn执行集成(多分类器)分类?

来自分类Dev

Scikit-Learn中的分类数据转换

来自分类Dev

使用scikit对文本进行分类

来自分类Dev

在scikit-learn中使用OneHotEncoder为分类准备序数和名义特征

来自分类Dev

如何预处理新实例进行分类,以使特征编码与使用Scikit-learn的模型相同?

来自分类Dev

在Android中使用经过训练的Scikit-learn svm分类器

来自分类Dev

scikit-learn:如何使用两个不同的数据集作为训练集和测试集

来自分类Dev

使用scikit-learn进行二次采样+分类

来自分类Dev

使用NLTK,scikit-learn和OneVsRestClassifier启用多标签分类

来自分类Dev

在Scikit-Learn中使用近似最近邻进行分类

来自分类Dev

Scikit使用随机森林学习分类数据

来自分类Dev

无法使用scikit-learn导入“数据集”

来自分类Dev

使用scikit-learn运行k折后如何访问数据集?

来自分类Dev

使用scikit-learn处理分类特征

来自分类Dev

如何使用scikit-learn训练/扩展非常大的数据集?

来自分类Dev

无法使用scikit-learn导入“数据集”

来自分类Dev

使用 SciKit 对句子进行分类

来自分类Dev

在 csv 数据集上使用 Scikit-learn

来自分类Dev

在 scikit-learn 中使用图像数据拟合支持向量分类器会产生错误

来自分类Dev

如何使用 scikit learn 预测目标标签

来自分类Dev

使用 Anaconda 更新 scikit-learn 失败

来自分类Dev

使用 Scikit-Learn 使用分类数据制作回归模型

Related 相关文章

  1. 1

    使用scikit-learn处理太多分类功能

  2. 2

    使用scikit-learn处理分类特征

  3. 3

    使用scikit-learn训练多维数据

  4. 4

    使用scikit-learn并行生成随机森林

  5. 5

    使用scikit-learn让熊猫玩得开心

  6. 6

    使用Scikit Learn进行Unigram分析

  7. 7

    如何使用scikit-learn使用标签对文本进行分类?

  8. 8

    如何使用scikit-learn执行集成(多分类器)分类?

  9. 9

    Scikit-Learn中的分类数据转换

  10. 10

    使用scikit对文本进行分类

  11. 11

    在scikit-learn中使用OneHotEncoder为分类准备序数和名义特征

  12. 12

    如何预处理新实例进行分类,以使特征编码与使用Scikit-learn的模型相同?

  13. 13

    在Android中使用经过训练的Scikit-learn svm分类器

  14. 14

    scikit-learn:如何使用两个不同的数据集作为训练集和测试集

  15. 15

    使用scikit-learn进行二次采样+分类

  16. 16

    使用NLTK,scikit-learn和OneVsRestClassifier启用多标签分类

  17. 17

    在Scikit-Learn中使用近似最近邻进行分类

  18. 18

    Scikit使用随机森林学习分类数据

  19. 19

    无法使用scikit-learn导入“数据集”

  20. 20

    使用scikit-learn运行k折后如何访问数据集?

  21. 21

    使用scikit-learn处理分类特征

  22. 22

    如何使用scikit-learn训练/扩展非常大的数据集?

  23. 23

    无法使用scikit-learn导入“数据集”

  24. 24

    使用 SciKit 对句子进行分类

  25. 25

    在 csv 数据集上使用 Scikit-learn

  26. 26

    在 scikit-learn 中使用图像数据拟合支持向量分类器会产生错误

  27. 27

    如何使用 scikit learn 预测目标标签

  28. 28

    使用 Anaconda 更新 scikit-learn 失败

  29. 29

    使用 Scikit-Learn 使用分类数据制作回归模型

热门标签

归档