我有两组。治疗组接触媒体;对照组是没有媒体。它们通过数据框中的分类变量进行区分。(接触媒体 = 1,无媒体 = 0)
现在,我想检查这两组之间是否存在明显差异。为此,请将具有两个聚类的 k 均值算法应用于四个变量(黑人人口比例、男性人口比例、西班牙裔人口比例、对数尺度上的收入中位数)。
如何在 R 中做到这一点?有人可以给一些提示吗?谢谢!
试试这个:
km <-kmeans(your data, 2, nstart=10)
您在此处的数据data.frame
(您的整个数据或您可以选择您对它们感兴趣的变量)。您需要选择集群的数量(这里是 2)。了解您的数据的一个好做法是应用不同数量的集群,然后查看哪个更适合您的数据(例如使用任何标准方法,如 AIC 或 BIC)。
k-means 是一种应用于聚类数据的方法。这些数据来自不同的分布,我们想知道每个观察来自哪里(来自哪个分布)。
您还可以查看有关kmeans
R中的许多教程。例如,
https://onlinecourses.science.psu.edu/stat857/node/125
https://www.r-statistics.com/2013/08/k-means-clustering-from-r-in-action/
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句