我正在使用样本数据集来学习聚类。该数据集包含关键字的出现次数。
由于所有这些都是不同关键字的出现次数,因此可以不按比例缩放值并按原样使用它们吗?
我在互联网上读了几篇文章,其中强调缩放很重要,因为缩放会调整频率的相对性。由于大多数频率为0(95%+),因此z分数缩放会改变分布的形状,当我改变数据的性质时,我觉得这可能是个问题。
我正在考虑完全不更改值来避免这种情况。这会影响我从聚类获得的结果的质量吗?
如前所述,答案很大程度上取决于所使用的算法。
如果您使用基于距离的算法(通常是默认的)欧几里得距离(例如,k-Means或k-NN),它将更多地依赖具有较大范围的特征,因为该值的“典型差异”功能更大。
基于非距离的模型也会受到影响。尽管人们可能会认为线性模型不属于此类,因为缩放(和转换,如果需要)是线性变换,因此,如果使结果更好,那么模型应该学习它,对吗?事实证明,答案是否定的。原因是没有人使用原始线性模型,它们总是与某种正则化一起使用,这种正则化会惩罚太大的权重。这会阻止您的线性模型从数据中学习缩放。
有些模型与功能比例无关。例如,基于树的算法(决策树和随机森林)不受影响。树的节点通过将特征(最佳分割数据集)与阈值进行比较,将数据分为2组。阈值没有正则化(因为应该使树的高度保持较小),因此它不受不同比例的影响。
话虽如此,通常建议对数据进行标准化(减去均值并除以标准差)。
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句