我在这里有一个简短的问题。我想知道什么时候和什么情况下使用one-hot编码以及什么时候应该使用虚拟变量。
我打算用分类和数值变量进行聚类分析。我在一个论坛上读到我可以尝试使用 one-hot encoding 对分类变量进行编码。但我想知道是什么让它与虚拟变量不同。
谢谢
大多数聚类算法都是基于距离的。
任何这样的编码都是一种让分类数据看起来像是数字的黑客,但这只会推迟由此产生的问题:如何规范化、加权、去相关和组合特征。
对于大多数聚类算法,无论您将虚拟编码为 0,1、0,100000 还是 0,0.000001,都会产生巨大的差异。那么你应该使用哪一个?对此没有客观的数学答案,它会导致严重的问题。
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句