Statistica 的 %75 和 %25 数据采样和 10 折交叉验证如何协同工作?

How do Statistica's %75 and %25 Data Sampling & 10 fold Cross Validation works together?

我用戴尔的Statistica软件对一些数据进行了分析。我在一篇科学论文中使用了这个分析。虽然数据挖掘不是我的主要主题,但我之前学过数据挖掘 class 并且有一些知识。

我知道数据要么分为 %75 %25(数字可能会改变)训练和测试部分,要么使用 n 折交叉验证来测试模型性能。

在执行模型之前的 Statistica SVM 建模中,有用于进行配置的选项卡。在数据采样选项卡中,我输入了 %75、%25 分离,在交叉验证选项卡中,我输入了 10 倍交叉验证。在输出中,我看到数据实际上是作为训练和测试分开的(模型预测是针对测试值给出的)。

还有一个交叉验证错误。我将在下面复制结果。我很难理解和解释这个输出。我希望比我更了解统计数据的人 and/or 对这个工具更有经验的人可以向我解释它是如何工作的?

菲尔达

Support Vector machine results SVM type: Regression type 1 (capacity=9.000, epsilon=0.100) Kernel type: Radial Basis Function (gamma=0.053) Number of support vectors = 705 (674 bounded) Cross-validation error = 0.244
Mean error squared = 1.830(Train), 0.193(Test), 1.267(Overall) S.D. ratio = 0.952(Train), 37076026627971.336(Test), 0.977(Overall) Correlation coefficient = 0.314(Train), -0.000(Test), 0.272(Overall)

我发现 Statistica 网站对我的误解有解答。在采样选项卡中,数据可以分为训练集和测试集,在交叉验证选项卡中,如果例如选择 10,则使用 10 折交叉验证来决定适当的 ni、epsilon 等,例如用于执行的 SVM 参数支持向量机建模。

这个解释解决了我的问题。希望对有类似情况的人有所帮助...

菲尔达