我有用于分类问题的数据集。我总共有50节课。
Class1: 10,000 examples
Class2: 10 examples
Class3: 5 examples
Class4: 35 examples
.
.
.
and so on.
我尝试使用SVM(线性和高斯核)训练分类器。我的准确度分别对65%和72%的测试数据非常不好。现在,我正在考虑使用神经网络。您是否对大型不平衡数据的任何机器学习模型和算法有任何建议?这对我非常有帮助
您应该提供有关数据集功能和类分布的更多信息,这将有助于其他人为您提供建议。无论如何,我都不认为神经网络适合这里,因为该数据集太小了。
假设50%或更多的样本属于1类,那么我首先要寻找一个区分1类样本和非1类样本的分类器(二进制分类)。该分类器的性能应优于朴素的分类器(基准),后者会随机选择一个与训练集类别分布相对应的先验分类。例如,假设有1,000个样本,其中700个属于第1类,则基准分类器将新样本以700 / 1,000 = 0.7的概率分类为第1类(就像不公平的抛硬币一样)。
一旦找到具有良好准确性的分类器,下一阶段便可以将非1类分类的样本分类为其他49个分类之一,假设这些分类更加均衡,那么我将以RF,NB和KNN开始。
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句