在整个数据集上测试模型性能是否正确?
Is it correct to test model performance over the entire dataset?
数据集使用函数train_test_split()按75:25比例分为训练集和测试集。
该模型是在数据集 x_train 和 y_train 上训练的。(分类器模型,如高斯朴素贝叶斯、随机森林、k 最近邻等)
我们现在可以使用完整的数据集(即 x 和 y)测试模型吗?
或者我们应该只使用 x_test 和 y_test 来测试模型?
train_test_split() 旨在为您提供一种从原始数据集创建训练和测试子集的更简单方法。 x_train 和 y_train 都代表训练数据和目标数据,对于训练像上面提到的模型以最终在测试子集上进行测试的模型很有用。
这是为了训练,即练习。
对整个数据集的测试是错误的,因为你的模型显然会偏向于它从 x_train y_train 训练的数据。
你应该在前所未见的 y_test 数据
上测试你的模型
数据集使用函数train_test_split()按75:25比例分为训练集和测试集。
该模型是在数据集 x_train 和 y_train 上训练的。(分类器模型,如高斯朴素贝叶斯、随机森林、k 最近邻等)
我们现在可以使用完整的数据集(即 x 和 y)测试模型吗? 或者我们应该只使用 x_test 和 y_test 来测试模型?
train_test_split() 旨在为您提供一种从原始数据集创建训练和测试子集的更简单方法。 x_train 和 y_train 都代表训练数据和目标数据,对于训练像上面提到的模型以最终在测试子集上进行测试的模型很有用。
这是为了训练,即练习。 对整个数据集的测试是错误的,因为你的模型显然会偏向于它从 x_train y_train 训练的数据。 你应该在前所未见的 y_test 数据
上测试你的模型