我是机器学习的新手,现在我正在学习 k-means 聚类。我对此有很多疑问。我的 CSV 文件有 Mall_Customers
CustomerID Genre Age Annual Income (k$) Spending Score (1-100)
0 1 Male 19 15 39
1 2 Male 21 15 81
2 3 Female 20 16 6
3 4 Female 23 16 77
4 5 Female 31 17 40
我想对上面的 csv 文件执行 k-means 以预测谁在商场里花更多的钱。这里的功能是AnnualIncome 和Spendin Score。所以我的模型给出了二维的输出。如果假设我需要执行 2 个以上的特征变量,那么那时我的模型是否超过 2 维?
1 > 如何对 2 个以上的特征进行 k-means 聚类?2 > 如果假设我的 csv 文件中有 5 个特征字段,如何减少特征数量?
我分两部分回答你的问题
如果你有 2 个以上的特征,k 表示聚类发生在 n 维空间,其中 n 是特征数。每个样本的向量中的维数会改变,不需要改变算法或方法。
如果您想减少可视化的特征数量,您可以使用 PCA(主成分分析)来实现。这是一种无监督的降维技术。您可以阅读更多相关信息。
为了做到这两个,你可以使用 python sklearn 库。
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句