大型不平衡数据的机器学习模型建议

user5875020 发表于 Dev

用户名

我有用于分类问题的数据集。我总共有50节课。

 Class1: 10,000 examples 
 Class2: 10 examples
 Class3: 5 examples 
 Class4: 35 examples
 .
 .
 . 
and so on.

我尝试使用SVM（线性和高斯核）训练分类器。我的准确度分别对65％和72％的测试数据非常不好。现在，我正在考虑使用神经网络。您是否对大型不平衡数据的任何机器学习模型和算法有任何建议？这对我非常有帮助

艾尔·舒尔曼（Eyal Shulman）

您应该提供有关数据集功能和类分布的更多信息，这将有助于其他人为您提供建议。无论如何，我都不认为神经网络适合这里，因为该数据集太小了。

假设50％或更多的样本属于1类，那么我首先要寻找一个区分1类样本和非1类样本的分类器（二进制分类）。该分类器的性能应优于朴素的分类器（基准），后者会随机选择一个与训练集类别分布相对应的先验分类。例如，假设有1,000个样本，其中700个属于第1类，则基准分类器将新样本以700 / 1,000 = 0.7的概率分类为第1类（就像不公平的抛硬币一样）。

一旦找到具有良好准确性的分类器，下一阶段便可以将非1类分类的样本分类为其他49个分类之一，假设这些分类更加均衡，那么我将以RF，NB和KNN开始。

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。