大型不平衡数据的机器学习模型建议

用户名

我有用于分类问题的数据集。我总共有50节课。

 Class1: 10,000 examples 
 Class2: 10 examples
 Class3: 5 examples 
 Class4: 35 examples
 .
 .
 . 
and so on.

我尝试使用SVM(线性和高斯核)训练分类器。我的准确度分别对65%和72%的测试数据非常不好。现在,我正在考虑使用神经网络。您是否对大型不平衡数据的任何机器学习模型和算法有任何建议?这对我非常有帮助

艾尔·舒尔曼(Eyal Shulman)

您应该提供有关数据集功能和类分布的更多信息,这将有助于其他人为您提供建议。无论如何,我都不认为神经网络适合这里,因为该数据集太小了。

假设50%或更多的样本属于1类,那么我首先要寻找一个区分1类样本和非1类样本的分类器(二进制分类)。该分类器的性能应优于朴素的分类器(基准),后者会随机选择一个与训练集类别分布相对应的先验分类。例如,假设有1,000个样本,其中700个属于第1类,则基准分类器将新样本以700 / 1,000 = 0.7的概率分类为第1类(就像不公平的抛硬币一样)。

一旦找到具有良好准确性的分类器,下一阶段便可以将非1类分类的样本分类为其他49个分类之一,假设这些分类更加均衡,那么我将以RF,NB和KNN开始。

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

机器学习中的偏斜班和不平衡班

来自分类Dev

不平衡训练数据集和回归模型

来自分类Dev

SAS中不平衡数据集的滚动窗口模型

来自分类Dev

如何平衡不平衡的面板数据?

来自分类Dev

使用TensorFlow训练不平衡数据

来自分类Dev

从长到宽的不平衡数据帧

来自分类Dev

迁移学习能解决数据集不平衡的问题吗?

来自分类Dev

C5.0树模型上的数据高度不平衡

来自分类Dev

C5.0树模型上的数据高度不平衡

来自分类Dev

班级不平衡的H2O深度学习

来自分类Dev

统计模型Logistic回归类不平衡

来自分类Dev

重新采样不平衡数据集的数据框

来自分类Dev

R不平衡数据帧数据清理

来自分类Dev

使用libSVM的SVM中的数据不平衡

来自分类Dev

来自不平衡面板数据的R样本

来自分类Dev

根据不平衡数据在ggplot中创建重叠直方图

来自分类Dev

在Spark MLlib中处理不平衡的数据集

来自分类Dev

迷你图数据帧不平衡

来自分类Dev

如何确定不平衡数据集的class_weights

来自分类Dev

如何处理R中不平衡的数据集?

来自分类Dev

带有不平衡数据的SKlearn SVM RBF

来自分类Dev

迷你图数据帧不平衡

来自分类Dev

编辑 TensorFlow 源以修复不平衡的数据

来自分类Dev

数据集不平衡时的连接优化

来自分类Dev

KMeans的不平衡因子?

来自分类Dev

PInvoke使堆栈不平衡

来自分类Dev

如何使图像不平衡?

来自分类Dev

在使用不平衡学习过采样后仅检索重采样实例的索引?

来自分类Dev

如何通过svmlight中可用的不平衡训练数据集来提供平衡训练的成本?