SSAS-分类-如何将数据划分为：训练集-验证集-测试集

BI Dude 发表于 Dev

BI Dude

我有一组300,000条历史客户购买数据记录。我已经开始进行SSAS数据挖掘项目，以确定最佳客户。

数据划分：-90％非买家-10％买家

我使用了SSAS的各种算法（决策树和神经网络表现出最好的提升）来探索我的数据。

该项目的目标是根据谁最有可能购买产品来识别/打分。

目前，我已将所有记录用于此目的。感觉项目中缺少一些东西。我正在阅读两本有关数据挖掘的书。他们两个都讨论将数据挖掘分为不同的集合。但是，它们都没有解释如何实际拆分它们。

我相信我需要将可能的记录分成3组，然后重新运行ssas算法。

主要问题：

如何将数据分为培训，验证和测试集1.1培训集中应有多少比例的购买者和非购买者？
如何根据最有可能购买产品和最有可能购买产品的方式对客户进行评分。

Pabaldonedo

您可以对数据集进行随机划分，因为您的数据集很大并且购买者的数量也不太低（10％）。但是，如果您要确保自己的数据集具有代表性，则可以抽取80％的买方样本和80％的非买方样本，然后将它们混合以构建包含总数据集80％且具有购买者与非购买者的比例与原始数据集相同，从而使子集具有代表性。您可能希望将数据集不分为两个子集，而是分为三个子集：训练，交叉验证和测试。如果使用neural network您所说的，则应使用交叉验证子集来调整模型（权重衰减，学习率，动量...）。

关于您的第二个问题，您可以使用您所说的神经网络并获取输出，如果在输出层中使用S型曲线作为激活函数，则该输出将在[0，1]范围内，作为概率。我还建议您看一下collaborative filtering此任务，因为它可以帮助您了解哪些产品可能是对使用其他具有相似偏好的其他买家的知识感兴趣的客户。

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-02-3

我来说两句

0条评论

登录后参与评论

来自分类Dev

Related 相关文章

文章