是否需要功能缩放

Yantraguru 发表于 Dev

扬特拉古鲁

我正在使用样本数据集来学习聚类。该数据集包含关键字的出现次数。

由于所有这些都是不同关键字的出现次数，因此可以不按比例缩放值并按原样使用它们吗？

我在互联网上读了几篇文章，其中强调缩放很重要，因为缩放会调整频率的相对性。由于大多数频率为0（95％+），因此z分数缩放会改变分布的形状，当我改变数据的性质时，我觉得这可能是个问题。

我正在考虑完全不更改值来避免这种情况。这会影响我从聚类获得的结果的质量吗？

阿特姆·索博列夫（Artem Sobolev）

如前所述，答案很大程度上取决于所使用的算法。

如果您使用基于距离的算法（通常是默认的）欧几里得距离（例如，k-Means或k-NN），它将更多地依赖具有较大范围的特征，因为该值的“典型差异”功能更大。

基于非距离的模型也会受到影响。尽管人们可能会认为线性模型不属于此类，因为缩放（和转换，如果需要）是线性变换，因此，如果使结果更好，那么模型应该学习它，对吗？事实证明，答案是否定的。原因是没有人使用原始线性模型，它们总是与某种正则化一起使用，这种正则化会惩罚太大的权重。这会阻止您的线性模型从数据中学习缩放。

有些模型与功能比例无关。例如，基于树的算法（决策树和随机森林）不受影响。树的节点通过将特征（最佳分割数据集）与阈值进行比较，将数据分为2组。阈值没有正则化（因为应该使树的高度保持较小），因此它不受不同比例的影响。

话虽如此，通常建议对数据进行标准化（减去均值并除以标准差）。

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2020-10-28

我来说两句

0条评论

登录后参与评论

来自分类Java

Related 相关文章

文章

是否需要功能缩放

是否需要功能缩放

为什么需要功能接口才能使用Lambda？

可以将BiFunction引用传递给需要功能接口的方法吗？

主要功能

AWS Stack更新错误：需要功能：[CAPABILITY_IAM]

Node.js：如何在模块中需要功能的地方获取文件名？

雄辩的Javascript需要功能说明

需要C中的主要功能，用于微控制器

需要了解骨干网的主要功能

为什么在Elixir中需要功能“捕获运算符”？

为什么在MISRA：2012中需要功能原型？

加快或向量化熊猫应用功能-需要功能的有条件应用

Nodejs Router需要功能但有一个对象

在不需要功能的情况下使用的F＃扩展

边说边在Babel'ed代码上需要功能

如何创建一个主要功能需要引用参数的线程？

为什么定义MonadReader需要功能依赖？

我们在React挂钩中还需要功能setState方法吗？

需要功能的版本范围

需要功能和指针的解释

要管理Ubuntu和Nginx，需要了解的主要功能是什么

摘要功能

nodejs 需要功能不能在一个地方工作的文件

npm build 是否也包含包的不必要功能

需要功能编辑

props.history.push('/') 不会到页面顶部（需要功能组件）

我需要多个输入来运行主要功能电话簿 python

需要帮助将我的主要功能代码转换为单独的功能

需要帮助将我的主要功能代码转换为单独的功能

允许容器的非 root 用户执行需要功能的二进制文件