Scikit-Learn中的分类数据转换

吉姆·GB

我有一个4000万x 22 numpy的整数数据数组,用于分类任务。大多数功能都是使用不同的整数值表示不同类别的分类数据。例如,在“颜色”列中:0表示蓝色,1表示红色,依此类推。我已经使用LabelEncoder预处理了数据。

  1. 将这些数据拟合到SK学习中的任何分类模型中是否有意义?我试图将数据拟合到随机森林模型中,但准确性极差。我还尝试了一次热编码将数据转换为伪变量,但是我的计算机在使用一次热编码后只能处理稀疏矩阵,问题是随机森林只能采用密集矩阵,这将超出计算机的内存。
  2. 在SK-learn中处理分类数据的正确策略是什么?
阿特姆·索博列夫(Artem Sobolev)

LabelEncoder在您的情况下是没有用的,因为输出数字与数字没有任何意义(即,对它们执行算术运算是没有意义的)。OneHotEncoder在处理分类数据时至关重要。

最近,sklearn支持在“随机森林”和“决策树”中的稀疏输入,因此您可能需要查看最新版本。此外,其他方法(如LogisticRegression)也支持稀疏数据。

而且,我认为您不需要使用所有40M的示例来获得不错的准确性。例如,随机抽样100k就足够了(此数目取决于OneHotEncoding之后的功能数量,其可变性以及目标类别的数量)。

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

将分类数据转换为数字数据scikit-learn优化

来自分类Dev

使用scikit-learn生成困难分类数据集

来自分类Dev

使用 Scikit-Learn 使用分类数据制作回归模型

来自分类Dev

scikit-learn中处理nan / null的分类器

来自分类Dev

scikit-learn中多类问题的级联分类器

来自分类Dev

scikit-learn中安排文本数据进行文本分类的标准方法是什么?

来自分类Dev

scikit中的分类报告学习

来自分类Dev

使用scikit-learn处理分类特征

来自分类Dev

使用scikit-learn处理分类特征

来自分类Dev

处理 scikit-learn MLPClassifier 的分类标签

来自分类Dev

Scikit Learn中的交叉验证

来自分类Dev

Scikit Learn中的距离指标

来自分类Dev

scikit-learn中的目标转换和特征选择

来自分类Dev

Scikit学习分类

来自分类Dev

将分类数据从CSV加载到Scikit-Learn以进行机器学习

来自分类Dev

在 scikit-learn 中使用图像数据拟合支持向量分类器会产生错误

来自分类Dev

scikit学习离散分类数值数据

来自分类Dev

了解scikit-learn中的数据格式

来自分类Dev

如何在scikit Learn,Python中处理名义数据?

来自分类Dev

Scikit Learn Pipeline的定制转换器

来自分类Dev

scikit-learn分类器中的得分函数位于哪里?

来自分类Dev

在scikit-learn中组合概率分类器的最佳方法

来自分类Dev

scikit-learn计算多标签分类中的F1

来自分类Dev

在scikit-learn python中结合两个不同的分类器结果

来自分类Dev

使用特定列在scikit-learn中估算分类缺失值

来自分类Dev

在scikit-learn的Pipeline中包含分类器以进行交叉验证是否有意义?

来自分类Dev

scikit-learn中多类分类器的平均值=“ micro”的精确召回曲线

来自分类Dev

如何处理 Scikit.learn 管道中不平衡的 xgboost 多类分类?

来自分类Dev

使用scikit-learn训练多维数据

Related 相关文章

  1. 1

    将分类数据转换为数字数据scikit-learn优化

  2. 2

    使用scikit-learn生成困难分类数据集

  3. 3

    使用 Scikit-Learn 使用分类数据制作回归模型

  4. 4

    scikit-learn中处理nan / null的分类器

  5. 5

    scikit-learn中多类问题的级联分类器

  6. 6

    scikit-learn中安排文本数据进行文本分类的标准方法是什么?

  7. 7

    scikit中的分类报告学习

  8. 8

    使用scikit-learn处理分类特征

  9. 9

    使用scikit-learn处理分类特征

  10. 10

    处理 scikit-learn MLPClassifier 的分类标签

  11. 11

    Scikit Learn中的交叉验证

  12. 12

    Scikit Learn中的距离指标

  13. 13

    scikit-learn中的目标转换和特征选择

  14. 14

    Scikit学习分类

  15. 15

    将分类数据从CSV加载到Scikit-Learn以进行机器学习

  16. 16

    在 scikit-learn 中使用图像数据拟合支持向量分类器会产生错误

  17. 17

    scikit学习离散分类数值数据

  18. 18

    了解scikit-learn中的数据格式

  19. 19

    如何在scikit Learn,Python中处理名义数据?

  20. 20

    Scikit Learn Pipeline的定制转换器

  21. 21

    scikit-learn分类器中的得分函数位于哪里?

  22. 22

    在scikit-learn中组合概率分类器的最佳方法

  23. 23

    scikit-learn计算多标签分类中的F1

  24. 24

    在scikit-learn python中结合两个不同的分类器结果

  25. 25

    使用特定列在scikit-learn中估算分类缺失值

  26. 26

    在scikit-learn的Pipeline中包含分类器以进行交叉验证是否有意义?

  27. 27

    scikit-learn中多类分类器的平均值=“ micro”的精确召回曲线

  28. 28

    如何处理 Scikit.learn 管道中不平衡的 xgboost 多类分类?

  29. 29

    使用scikit-learn训练多维数据

热门标签

归档