我有一个4000万x 22 numpy的整数数据数组,用于分类任务。大多数功能都是使用不同的整数值表示不同类别的分类数据。例如,在“颜色”列中:0表示蓝色,1表示红色,依此类推。我已经使用LabelEncoder预处理了数据。
LabelEncoder
在您的情况下是没有用的,因为输出数字与数字没有任何意义(即,对它们执行算术运算是没有意义的)。OneHotEncoder
在处理分类数据时至关重要。
最近,sklearn支持在“随机森林”和“决策树”中的稀疏输入,因此您可能需要查看最新版本。此外,其他方法(如LogisticRegression)也支持稀疏数据。
而且,我认为您不需要使用所有40M的示例来获得不错的准确性。例如,随机抽样100k就足够了(此数目取决于OneHotEncoding之后的功能数量,其可变性以及目标类别的数量)。
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句