Apache Spark-计算相关性

用户名

我正在尝试计算用户评分之间的相关性。我想出了一个简单的程序,现在试图了解皮尔逊相关性的结果。

val user1 = Vectors.dense(10, 2, 3, 3)
val user2 = Vectors.dense(10, 3, 2, 2)
val user3 = Vectors.dense(1, 8, 9, 1)
val user4 = Vectors.dense(3, 9, 8, 2)
val user5 = Vectors.dense(1, 1, 1, 1)
val user6 = Vectors.dense(2, 2, 2, 2)


val users = spark.sparkContext.parallelize(Array(user1, user2, user3, user4, user5, user6))

val corr = Statistics.corr(users)

这是供参考的矩阵结果:

1.0                   -0.30336465877348895  -0.33033040622002124  0.7679896586280794    
-0.30336465877348895  1.0                   0.9660056657223798    -0.21945076948288175  
-0.33033040622002124  0.9660056657223798    1.0                   -0.21945076948288175  
0.7679896586280794    -0.21945076948288175  -0.21945076948288175  1.0     

有人可以帮我解释这个矩阵吗?我很惊讶它包含4列和4行(我有六个用户作为输入)?

零323

这里没有太多要解释的。如您所见,API文档 corr(X: RDD[Vector])返回:

皮尔逊相关矩阵比较X中的

因此,四列表示4 * 4矩阵。

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

R-比较计算的相关性

来自分类Dev

在Python中计算Pearson相关性

来自分类Dev

R-比较计算的相关性

来自分类Dev

在 numpy 中计算相关性

来自分类Dev

计算Apache Spark DStream中的元素

来自分类Dev

计算Apache Spark DStream中的元素

来自分类Dev

使用 apache spark 写入谷歌计算实例

来自分类Dev

Apache Spark与Apache Ignite

来自分类Dev

计算R中函数生成的数据的相关性

来自分类Dev

在R中的数据帧中计算相关性

来自分类Dev

计算表中各列之间的相关性

来自分类Dev

根据列名计算两列之间的相关性

来自分类Dev

计算时间序列上的滚动相关性

来自分类Dev

如何使用Postgresql计算不同组之间的相关性

来自分类Dev

mysql select ... in,计算几个匹配的相关性

来自分类Dev

计算不同大小的2D信号的相关性

来自分类Dev

计算单独的相关性,按列值分组

来自分类Dev

如何向zabbix snmp数据添加相关性/计算

来自分类Dev

在MQL4中如何计算Pearson的相关性?

来自分类Dev

如何计算XTS中行之间的滚动相关性?

来自分类Dev

计算 R 数据框列之间的相关性

来自分类Dev

以面板数据长格式计算相关性

来自分类Dev

迭代计算具有列相关性的行?

来自分类Dev

如何计算/测量excel中文本的相关性?

来自分类常见问题

Apache Spark根据列的不同值计算列值

来自分类Dev

计算Apache Spark中每个单词的出现次数

来自分类Dev

如何在Apache Spark中计算RowMatrix的逆数?

来自分类Dev

如何用Apache Spark计算平均值?

来自分类Dev

Apache Spark根据列的不同值计算列值