我有一组300,000条历史客户购买数据记录。我已经开始进行SSAS数据挖掘项目,以确定最佳客户。
数据划分:-90%非买家-10%买家
我使用了SSAS的各种算法(决策树和神经网络表现出最好的提升)来探索我的数据。
该项目的目标是根据谁最有可能购买产品来识别/打分。
目前,我已将所有记录用于此目的。感觉项目中缺少一些东西。我正在阅读两本有关数据挖掘的书。他们两个都讨论将数据挖掘分为不同的集合。但是,它们都没有解释如何实际拆分它们。
我相信我需要将可能的记录分成3组,然后重新运行ssas算法。
主要问题:
您可以对数据集进行随机划分,因为您的数据集很大并且购买者的数量也不太低(10%)。但是,如果您要确保自己的数据集具有代表性,则可以抽取80%的买方样本和80%的非买方样本,然后将它们混合以构建包含总数据集80%且具有购买者与非购买者的比例与原始数据集相同,从而使子集具有代表性。您可能希望将数据集不分为两个子集,而是分为三个子集:训练,交叉验证和测试。如果使用neural network
您所说的,则应使用交叉验证子集来调整模型(权重衰减,学习率,动量...)。
关于您的第二个问题,您可以使用您所说的神经网络并获取输出,如果在输出层中使用S型曲线作为激活函数,则该输出将在[0,1]范围内,作为概率。我还建议您看一下collaborative filtering
此任务,因为它可以帮助您了解哪些产品可能是对使用其他具有相似偏好的其他买家的知识感兴趣的客户。
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句