SVM 算法是我的模型有效

SVM Algorithm is my model valid

我有一个数据集,一个大数据集。我使用 T-SNE 绘制数据,我找不到线性可分离的决策边界,因为我找不到其中的决策边界。

我尝试了 SVM 并希望它能够工作,如果它能够分离更高维度的超平面。

目前我的训练准确率为 94%,但后来我收到了 50% 的测试错误,当我将数据集的大小增加 20,000 个条目时,训练数据的准确度增加到 65%(这也是,在交叉验证中大致相同),训练准确率仍然是 93%。 我的问题是,我真的准确地解决了这个机器学习问题吗?还是我方向错了,如果可能的话,请给我一些link关于解决问题的实用方法。

您的 overfitting 数据似乎有问题。基本上你的 SVM 正在记忆训练数据并且无法正确预测它以前没有见过的新数据。您可以尝试使用较小的 C.

来减少过度拟合

我认为一般来说很难说 SVM 是否是解决您问题的正确方法。 no free lunch theorem 假设可能没有一种机器学习算法可以解决所有问题,我目前不知道有什么方法可以将问题映射到它们的最优算法。

您可能应该使用 SVM 修复当前方法中的明显错误,然后研究失败的位置和原因。如果您这样做了,您也许可以选择另一种算法来解决这些缺点。