具有逻辑回归的分类任务的R,statmodels,sklearn的比较

f

我已经在R,python statmodels和sklearn中使用逻辑回归进行了一些实验。尽管R和statmodels给出的结果一致,但是sklearn返回的结果存在一些差异。我想了解为什么这些结果不同。我了解到,这可能与在后台使用的优化算法不同。

具体来说,我使用标准Default数据集(在ISL书中使用)。以下Python代码将数据读入数据框Default

import pandas as pd
 # data is available here
Default = pd.read_csv('https://d1pqsl2386xqi9.cloudfront.net/notebooks/Default.csv', index_col=0)
 #
Default['default']=Default['default'].map({'No':0, 'Yes':1})
Default['student']=Default['student'].map({'No':0, 'Yes':1})
 #
I=Default['default']==0
print("Number of 'default' values :", Default[~I]['balance'].count())

“默认”值的数量:333。

共有10000个示例,只有333个阳性

R中的逻辑回归

我用以下

library("ISLR")
data(Default,package='ISLR')
 #write.csv(Default,"default.csv")
glm.out=glm('default~balance+income+student', family=binomial, data=Default)
s=summary(glm.out)
print(s)
#
glm.probs=predict(glm.out,type="response") 
glm.probs[1:5]
glm.pred=ifelse(glm.probs>0.5,"Yes","No")
 #attach(Default)
t=table(glm.pred,Default$default)
print(t)
score=mean(glm.pred==Default$default)
print(paste("score",score))

结果如下

呼叫:glm(公式=“默认〜余额+收入+学生”,家庭=二项式,数据=默认)

偏差残差:最小值1Q中位数3Q最大值
-2.4691 -0.1418 -0.0557 -0.0203 3.7383

系数:

Estimate Std. Error z value Pr(>|z|)        
(Intercept) -1.087e+01  4.923e-01 -22.080  < 2e-16 
balance      5.737e-03    2.319e-04  24.738  < 2e-16  
income       3.033e-06  8.203e-06   0.370   0.71152     
studentYes  -6.468e-01  2.363e-01  -2.738  0.00619  

(二项式族的色散参数取为1)

Null deviance: 2920.6  on 9999  degrees of freedom Residual 

偏差:在9996自由度上为1571.5,AIC:1579.5

Fisher计分迭代次数:8

     glm.pred   No  Yes
 No  9627  228
 Yes   40  105 

1 “得分0.9732”

我懒得剪切和粘贴使用statmodels获得的结果。可以说它们与R给出的极其相似。

清除

对于sklearn,我运行了以下代码。

  • 有一个参数class_weight用于考虑不平衡的类。我测试了class_weight = None(不加权-我认为这是R中的默认设置),并且class_weight ='auto'(使用数据中的反向频率加权)
  • 我还把C = 10000(正则化参数的倒数),以最小化正则化的影响。

~~

import sklearn
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import confusion_matrix

features = Default[[ 'balance', 'income' ]]
target = Default['default']
# 
for weight in (None,  'auto'):
    print("*"*40+"\nweight:",weight)

    classifier = LogisticRegression(C=10000, class_weight=weight, random_state=42) 
                #C=10000 ~ no regularization

    classifier.fit(features, target,)  #fit classifier on whole base
    print("Intercept", classifier.intercept_)
    print("Coefficients", classifier.coef_)

    y_true=target
    y_pred_cls=classifier.predict_proba(features)[:,1]>0.5
    C=confusion_matrix(y_true,y_pred_cls)

    score=(C[0,0]+C[1,1])/(C[0,0]+C[1,1]+C[0,1]+C[1,0])
    precision=(C[1,1])/(C[1,1]+C[0 ,1])
    recall=(C[1,1])/(C[1,1]+C[1,0])
    print("\n Confusion matrix")
    print(C)
    print()
    print('{s:{c}<{n}}{num:2.4}'.format(s='Score',n=15,c='', num=score))
    print('{s:{c}<{n}}{num:2.4}'.format(s='Precision',n=15,c='', num=precision))
    print('{s:{c}<{n}}{num:2.4}'.format(s='Recall',n=15,c='', num=recall))

结果如下。

> **************************************** 
>weight: None 
>
>Intercept [ -1.94164126e-06] 
>
>Coefficients [[ 0.00040756 -0.00012588]]
> 
>  Confusion matrix 
>
>     [[9664    3]  
>     [ 333    0]]
> 
>     Score          0.9664 
>     Precision      0.0 
>     Recall         0.0
>
> **************************************** 
>weight: auto 
>
>Intercept [-8.15376429] 
>
>Coefficients 
>[[  5.67564834e-03   1.95253338e-05]]
> 
>  Confusion matrix 
>
>     [[8356 1311]  
>     [  34  299]]
> 
>     Score          0.8655 
>     Precision      0.1857 
>     Recall         0.8979

我观察到的是class_weight=None,的得分非常好,但是没有正面的例子被认可。精度和召回率均为零。发现的系数非常小,尤其是截距。修改C不会改变任何事情。对于class_weight='auto'事情来说似乎更好,但我仍然有一个非常低的精度(过于积极的分类)。同样,更改C并没有帮助。如果我手动修改截距,则可以恢复R给出的结果。因此,我怀疑这两种情况下的截距的估计之间存在差异。由于这会影响到三位数的规范(模拟重采样),因此可以解释性能的差异。

但是,我欢迎在两种解决方案之间进行选择的任何建议,并有助于理解这些差异的根源。谢谢。

airalcorn2

我遇到了类似的问题,最终在/ r / MachineLearning发布了有关该问题的信息事实证明,差异可以归因于数据标准化。如果数据标准化,则scikit-learn所使用的任何方法来查找模型的参数都会产生更好的结果。scikit-learn有一些讨论预处理数据(包括标准化)的文档,可以在此处找到

结果

Number of 'default' values : 333
Intercept: [-6.12556565]
Coefficients: [[ 2.73145133  0.27750788]]

Confusion matrix
[[9629   38]
 [ 225  108]]

Score          0.9737
Precision      0.7397
Recall         0.3243

代码

# scikit-learn vs. R
# http://stackoverflow.com/questions/28747019/comparison-of-r-statmodels-sklearn-for-a-classification-task-with-logistic-reg

import pandas as pd
import sklearn

from sklearn.linear_model import LogisticRegression
from sklearn.metrics import confusion_matrix
from sklearn import preprocessing

# Data is available here.
Default = pd.read_csv('https://d1pqsl2386xqi9.cloudfront.net/notebooks/Default.csv', index_col = 0)

Default['default'] = Default['default'].map({'No':0, 'Yes':1})
Default['student'] = Default['student'].map({'No':0, 'Yes':1})

I = Default['default'] == 0
print("Number of 'default' values : {0}".format(Default[~I]['balance'].count()))

feats = ['balance', 'income']

Default[feats] = preprocessing.scale(Default[feats])

# C = 1e6 ~ no regularization.
classifier = LogisticRegression(C = 1e6, random_state = 42) 

classifier.fit(Default[feats], Default['default'])  #fit classifier on whole base
print("Intercept: {0}".format(classifier.intercept_))
print("Coefficients: {0}".format(classifier.coef_))

y_true = Default['default']
y_pred_cls = classifier.predict_proba(Default[feats])[:,1] > 0.5

confusion = confusion_matrix(y_true, y_pred_cls)
score = float((confusion[0, 0] + confusion[1, 1])) / float((confusion[0, 0] + confusion[1, 1] + confusion[0, 1] + confusion[1, 0]))
precision = float((confusion[1, 1])) / float((confusion[1, 1] + confusion[0, 1]))
recall = float((confusion[1, 1])) / float((confusion[1, 1] + confusion[1, 0]))
print("\nConfusion matrix")
print(confusion)
print('\n{s:{c}<{n}}{num:2.4}'.format(s = 'Score', n = 15, c = '', num = score))
print('{s:{c}<{n}}{num:2.4}'.format(s = 'Precision', n = 15, c = '', num = precision))
print('{s:{c}<{n}}{num:2.4}'.format(s = 'Recall', n = 15, c = '', num = recall))

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

加快sklearn逻辑回归

来自分类Dev

具有二进制输出的逻辑回归与分类之间的区别

来自分类Dev

具有分类输入的回归树或随机森林回归器

来自分类Dev

Python SKLearn:逻辑回归概率

来自分类Dev

逻辑回归分类器的Bootstrap聚合(装袋)

来自分类Dev

r中的袋装逻辑回归

来自分类Dev

在R中部署具有预定系数的逻辑回归模型

来自分类Dev

使用分类变量的sklearn线性回归

来自分类Dev

具有相互作用的三因素逻辑回归

来自分类Dev

具有字符串/分类特征(变量)的线性回归分析?

来自分类Dev

具有分类的Pandas DataFrame比较失败

来自分类Dev

使用计算的逻辑回归模型,基于R中合适的临界值创建分类器

来自分类Dev

带逻辑回归的sklearn RFE

来自分类Dev

具有相同拟合值的回归模型,当在r中使用相等的运算符进行比较时,输出FALSE

来自分类Dev

具有L1正则化的逻辑回归模型

来自分类Dev

树与回归算法-对于大多数具有分类特征的模型,哪种算法更好?

来自分类Dev

逻辑回归中的coef_ sklearn

来自分类Dev

具有分类输入的回归树或随机森林回归器

来自分类Dev

Python SKLearn:逻辑回归概率

来自分类Dev

逻辑回归R预测函数

来自分类Dev

用于Python预测的逻辑回归分类器

来自分类Dev

为什么auc与sklearn和R的逻辑回归如此不同

来自分类Dev

具有中心水平的分类回归

来自分类Dev

sklearn 逻辑回归中的困惑

来自分类Dev

使用python在没有SKlearn的情况下构建多类逻辑回归分类器

来自分类Dev

C#,具有许多时序逻辑的少数任务或具有很少时序逻辑的许多任务?

来自分类Dev

单个数据通过具有多个分类特征的线性回归模型进行预测

来自分类Dev

R 具有分类变量和交互项的线性回归的嵌套横截面的可视化

来自分类Dev

他们是否有任何 sklearn 模块,例如用于回归的投票分类器?

Related 相关文章

  1. 1

    加快sklearn逻辑回归

  2. 2

    具有二进制输出的逻辑回归与分类之间的区别

  3. 3

    具有分类输入的回归树或随机森林回归器

  4. 4

    Python SKLearn:逻辑回归概率

  5. 5

    逻辑回归分类器的Bootstrap聚合(装袋)

  6. 6

    r中的袋装逻辑回归

  7. 7

    在R中部署具有预定系数的逻辑回归模型

  8. 8

    使用分类变量的sklearn线性回归

  9. 9

    具有相互作用的三因素逻辑回归

  10. 10

    具有字符串/分类特征(变量)的线性回归分析?

  11. 11

    具有分类的Pandas DataFrame比较失败

  12. 12

    使用计算的逻辑回归模型,基于R中合适的临界值创建分类器

  13. 13

    带逻辑回归的sklearn RFE

  14. 14

    具有相同拟合值的回归模型,当在r中使用相等的运算符进行比较时,输出FALSE

  15. 15

    具有L1正则化的逻辑回归模型

  16. 16

    树与回归算法-对于大多数具有分类特征的模型,哪种算法更好?

  17. 17

    逻辑回归中的coef_ sklearn

  18. 18

    具有分类输入的回归树或随机森林回归器

  19. 19

    Python SKLearn:逻辑回归概率

  20. 20

    逻辑回归R预测函数

  21. 21

    用于Python预测的逻辑回归分类器

  22. 22

    为什么auc与sklearn和R的逻辑回归如此不同

  23. 23

    具有中心水平的分类回归

  24. 24

    sklearn 逻辑回归中的困惑

  25. 25

    使用python在没有SKlearn的情况下构建多类逻辑回归分类器

  26. 26

    C#,具有许多时序逻辑的少数任务或具有很少时序逻辑的许多任务?

  27. 27

    单个数据通过具有多个分类特征的线性回归模型进行预测

  28. 28

    R 具有分类变量和交互项的线性回归的嵌套横截面的可视化

  29. 29

    他们是否有任何 sklearn 模块,例如用于回归的投票分类器?

热门标签

归档