我是机器学习的新手,正在研究分类(标称)数据的分类问题。我尝试将BayesNet和一些“树和规则”分类算法应用于原始数据。我能够达到0.85的AUC。
我还想通过预处理或转换数据来改进AUC。但是,由于数据是分类的,因此我认为不同列的对数转换,加法,乘法等在这里不起作用。
有人可以列出在分类数据集上最常用的转换是什么吗?(我尝试了一次热编码,但它占用大量内存!!)
正如您所提到的,根据我的经验,Categorical最适合处理一键编码(例如,转换为二进制矢量)。如果存在内存问题,则可能值得使用在线分类算法并动态生成修改后的向量。
除此之外,如果类别代表一个范围(例如,如果类别代表诸如年龄,身高或收入之类的值的范围),则可以对中心进行处理(或者,如果存在标签内,则可以使用一些适当的均值)类别)作为实数范围。
如果要应用聚类,还可以将类别标签视为轴上的点(1、2、3、4、5等),并根据其他要素进行适当缩放。
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句