在应用分类算法之前，对分类数据进行预处理的方式有哪些？

debugcn 发表于 Dev

阿比舍克·纳林（Abhishek Nalin）

我是机器学习的新手，正在研究分类（标称）数据的分类问题。我尝试将BayesNet和一些“树和规则”分类算法应用于原始数据。我能够达到0.85的AUC。

我还想通过预处理或转换数据来改进AUC。但是，由于数据是分类的，因此我认为不同列的对数转换，加法，乘法等在这里不起作用。

有人可以列出在分类数据集上最常用的转换是什么吗？（我尝试了一次热编码，但它占用大量内存！！）

麦克风

正如您所提到的，根据我的经验，Categorical最适合处理一键编码（例如，转换为二进制矢量）。如果存在内存问题，则可能值得使用在线分类算法并动态生成修改后的向量。

除此之外，如果类别代表一个范围（例如，如果类别代表诸如年龄，身高或收入之类的值的范围），则可以对中心进行处理（或者，如果存在标签内，则可以使用一些适当的均值）类别）作为实数范围。

如果要应用聚类，还可以将类别标签视为轴上的点（1、2、3、4、5等），并根据其他要素进行适当缩放。

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-06-2

我来说两句

0条评论

登录后参与评论

来自分类Dev

如何对分类数据进行插值

来自分类Dev

使用jaccard相似度对分类数据进行聚类

来自分类Dev

R：使用knncat对分类变量进行分类时出错

来自分类Dev

对服装照片进行分类有哪些好的功能？

来自分类Dev

文档分类：预处理和多个标签

来自分类Dev

一类分类使用哪些算法？

来自分类Dev

如何预处理新实例进行分类，以使特征编码与使用Scikit-learn的模型相同？

来自分类Dev

哪些FFT描述符应用作实现分类或聚类算法的功能？

来自分类Dev

熊猫：是否可以对分类列进行下采样？

来自分类Dev

分类问题，对分类的POST导致错误

来自分类Dev

培训文件数量对分类时间有什么影响？

来自分类Dev

直接对JSON数据进行分类

来自分类Dev

如何对预测数据进行分类

来自分类Dev

对保留所有值的数据进行分类

来自分类Dev

4类分类有哪些统计指标？

来自分类Dev

应用和绘制具有多标签分类的数据

来自分类Dev

使用分类数据集进行一键编码：如何处理分类数据中的不同值（较少的数字）

来自分类Dev

通过使用3个不同的参数使用哪种算法对数据进行分类？

来自分类Dev

使用分类数据进行回归时发现未知分类

来自分类Dev

在Android上以编程方式对已安装的应用程序列表进行分类

来自分类Dev

使用前移算法对数据进行预处理如何帮助霍夫曼编码？

来自分类Dev

如何对AppStore应用进行分类转储

来自分类Dev

如何对分类列和数值列进行分组，并根据该组对数值进行分组

来自分类Dev

在分类数据上使用带有XBoostClassifier的Azure AutoML时的奇怪算法选择

来自分类Dev

分类算法的散点图

来自分类Dev

在新列中对数据进行分类

来自分类Dev

如何训练大型数据集进行分类

来自分类Dev

在R中对数据进行分类

来自分类Dev

无法使用R对数据进行分类

Related 相关文章

文章