线性 SVM 与非线性 SVM 高维数据

debugcn 发表于 Dev

弗洛林·吉萨

我正在做一个项目，我使用 Spark Mllib 线性 SVM 对一些数据进行分类（l2 正则化）。我有 200 个正面观察和 150 个（生成的）负面观察，每个都有 744 个特征，代表一个人在房屋不同区域的活动水平。

我已经运行了一些测试，“areaUnderROC”指标是 0.991，看起来该模型在对我提供给它的数据进行分类方面做得很好。我做了一些研究，我发现线性 SVM 在高维数据中很好，但问题是我不明白线性的东西如何能如此好地划分我的数据。

我认为在 2D 中，也许这就是问题所在，但查看底部图像，我 90% 确信我的数据看起来更像是一个非线性问题

所以我在测试中取得好成绩是正常的吗？难道我做错了什么？我应该改变方法吗？

FesianXu

我认为您的问题是关于“为什么线性 SVM 可以很好地对我的高维数据进行分类，即使数据应该是非线性的”
某些数据集在低维中看起来像非线性，就像您右侧的示例图像一样，但实际上很难说数据集在高维上绝对是非线性的，因为 nD 非线性在 (n+1)D 空间中可能是线性的。所以我不知道为什么你 90% 确定你的数据集是非线性的，即使它是一个高维度的。
最后，我认为您在测试样本中获得良好的测试结果是正常的，因为它表明您的数据集在高维度上只是线性或接近线性的，否则效果不佳。也许交叉验证可以帮助您确认您的方法是否合适。

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-07-12

我来说两句

0条评论

登录后参与评论

来自分类Dev

Related 相关文章

文章

线性 SVM 与非线性 SVM 高维数据

线性 SVM 与非线性 SVM 高维数据

最好在线性内核中使用svm？

如何确定线性SVM的误报率？

在R（线性SVM内核）中调整svm参数

scikit-learn仅允许使用线性svm访问clf.coef_吗？

旋转的非线性优化

在R中由插入符号包训练的SVM线性模型

逐段拟合非线性数据

python scikit-learn中RBF内核的性能比SVM中的线性性能差得多

在Scikit-Learn中使用非线性SVM时出错

从线性SVM绘制3D决策边界

从CSV文件加载用于线性SVM分类的数据集

非线性数据的逻辑回归

MapControl视场非线性

mlxtend.feature_selection正向选择不适用于SVM线性内核吗？

Matlab中的n维非线性曲线拟合

如何确定线性SVM的误报率？

非线性次级xlabel

scikit-learn仅允许使用线性svm访问clf.coef_是否有原因？

了解线性分类SVM

在R中绘制SVM线性分隔符

如何为SVM线性内核类型选择最佳参数

用R的脱字符号包训练图SVM线性模型

线性和非线性数据结构列表

非线性回归

MATLAB：如何求解高维非线性ODE？

SVM 线性分类器 - 奇怪的行为

HOG + 线性 SVM + Python

非线性数据方程

径向 Svm 特征的非线性变换