线性 SVM 与非线性 SVM 高维数据

弗洛林·吉萨

我正在做一个项目,我使用 Spark Mllib 线性 SVM 对一些数据进行分类(l2 正则化)。我有 200 个正面观察和 150 个(生成的)负面观察,每个都有 744 个特征,代表一个人在房屋不同区域的活动水平。

我已经运行了一些测试,“areaUnderROC”指标是 0.991,看起来该模型在对我提供给它的数据进行分类方面做得很好。我做了一些研究,我发现线性 SVM 在高维数据中很好,但问题是我不明白线性的东西如何能如此好地划分我的数据。

我认为在 2D 中,也许这就是问题所在,但查看底部图像,我 90% 确信我的数据看起来更像是一个非线性问题在此处输入图片说明

所以我在测试中取得好成绩是正常的吗?难道我做错了什么?我应该改变方法吗?

FesianXu

我认为您的问题是关于“为什么线性 SVM 可以很好地对我的高维数据进行分类,即使数据应该是非线性的”
某些数据集在低维中看起来像非线性,就像您右侧的示例图像一样,但实际上很难说数据集在高维上绝对是非线性的,因为 nD 非线性在 (n+1)D 空间中可能是线性的。所以我不知道为什么你 90% 确定你的数据集是非线性的,即使它是一个高维度的。
最后,我认为您在测试样本中获得良好的测试结果是正常的,因为它表明您的数据集在高维度上只是线性或接近线性的,否则效果不佳。也许交叉验证可以帮助您确认您的方法是否合适。

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

最好在线性内核中使用svm?

来自分类Dev

如何确定线性SVM的误报率?

来自分类Dev

在R(线性SVM内核)中调整svm参数

来自分类Dev

scikit-learn仅允许使用线性svm访问clf.coef_吗?

来自分类Dev

旋转的非线性优化

来自分类Dev

在R中由插入符号包训练的SVM线性模型

来自分类Dev

逐段拟合非线性数据

来自分类Dev

python scikit-learn中RBF内核的性能比SVM中的线性性能差得多

来自分类Dev

在Scikit-Learn中使用非线性SVM时出错

来自分类Dev

从线性SVM绘制3D决策边界

来自分类Dev

从CSV文件加载用于线性SVM分类的数据集

来自分类Dev

非线性数据的逻辑回归

来自分类Dev

MapControl视场非线性

来自分类Dev

mlxtend.feature_selection正向选择不适用于SVM线性内核吗?

来自分类Dev

Matlab中的n维非线性曲线拟合

来自分类Dev

如何确定线性SVM的误报率?

来自分类Dev

非线性次级xlabel

来自分类Dev

scikit-learn仅允许使用线性svm访问clf.coef_是否有原因?

来自分类Dev

了解线性分类SVM

来自分类Dev

在R中绘制SVM线性分隔符

来自分类Dev

如何为SVM线性内核类型选择最佳参数

来自分类Dev

用R的脱字符号包训练图SVM线性模型

来自分类Dev

线性和非线性数据结构列表

来自分类Dev

非线性回归

来自分类Dev

MATLAB:如何求解高维非线性ODE?

来自分类Dev

SVM 线性分类器 - 奇怪的行为

来自分类Dev

HOG + 线性 SVM + Python

来自分类Dev

非线性数据方程

来自分类Dev

径向 Svm 特征的非线性变换