mahout Spearmans相关性Java

用户名

我正在使用mahoutKMeansDriver构建集群,并希望Spearman用作DistanceMeasure

我可以在Java中找到该算法还是需要自己编写算法?

我在网络上找不到任何示例。

有QUIT--Anony-Mousse

请勿将k均值与其他距离度量一起使用。

它可能会停止收敛。

K-装置被设计最小化方差您的距离函数还必须使方差最小化,否则将失去收敛属性。为了确保与其他距离的会聚,请参阅围绕medoid(PAM)或k-medoids分区。

相关度量是不适用于k均值的距离的一个很好的例子

考虑两个向量和绝对Spearman相关性:dist = 1- | r |

1 2 3 4 5
5 4 3 2 1

显然,斯皮尔曼相关性是-1,并且这两个向量被认为是“相同的”。

但是,k均值现在将计算这两个值平均值,从而得出常数向量

3 3 3 3 3

这与这两者不一样(实际上,它与任何事物的相关性甚至都没有得到很好的定义)。换句话说:平均值不会使绝对相关最小化,并且您不应该使用此距离函数。

方差=平方欧几里得

这就是为什么只应使用平方欧几里德距离的k均值的原因。

在L2归一化向量上:方差〜余弦

当查看余弦相似度的定义以及球形k均值也起作用的原因时,很容易看出这一点

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

在计算Spearmans等级相关性(科学性)之前,我应该对序数变量进行编码吗?

来自分类Dev

Apache Mahout和REST Java Web应用程序集成

来自分类Dev

Mahout on Spark

来自分类Dev

Mahout是否提供确定内容之间相似性的方法(针对基于内容的建议)?

来自分类Dev

没有mahout和eclipse的安装mahout

来自分类Dev

线程“主”中的异常java.lang.IllegalArgumentException:字符串中的属性数量错误+ Mahout

来自分类Dev

如何从Java代码而不是命令提示符运行mahout的逻辑回归?

来自分类Dev

任务管理器及其与Java流程的相关性

来自分类Dev

Mahout-用户推荐

来自分类Dev

Mahout 0.9中的ClusterDump

来自分类Dev

更新HATEOAS的相关性

来自分类Dev

MySQL相关性排序

来自分类Dev

根据相关性填写

来自分类Dev

最新的Mahout 0.11.0中的Mahout核心jar已丢失

来自分类Dev

建立mahout时发生错误

来自分类Dev

类型名称在namedtuple中的相关性

来自分类Dev

python中数组之间的相关性

来自分类Dev

Scipy:距离相关性高于1

来自分类Dev

MySQL全文搜索与通配符的相关性

来自分类Dev

R-比较计算的相关性

来自分类Dev

MarkLogic 7提升相关性

来自分类Dev

在Python中计算Pearson相关性

来自分类Dev

Python,numpy相关性返回nan

来自分类Dev

熊猫的css文件-相关性表

来自分类Dev

估计Python中的相关性

来自分类Dev

python中分类的相关性

来自分类Dev

R中类似变量的相关性

来自分类Dev

衡量文本与主题“相关性”的概念?

来自分类Dev

Ubuntu安装中的相关性错误