测试和训练良好实践 wrt 摘要功能
test and train good practice wrt summary feature
当数据集的一个特征是整个数据池的汇总统计时,将训练数据包含在测试数据中以计算特征以进行验证是否是一种好的做法?
例如,假设我有 1000 个数据点,分为 800 个训练条目和 200 个验证条目。我用 800 个条目创建了一个特征,用于训练排名四分位数(或者可以是任何东西),其中 0-3 表示其他特征所在的四分位数。因此在训练集中,每个四分位数中将有 200 个数据点。
一旦您训练了模型并需要为验证集再次计算特征,a) 您是否使用已经设置的四分位数障碍,即 200 个验证条目可能不同于 50-50-50-50四分位数拆分,或 b) 您是否使用所有 1000 个条目重新计算四分位数,以便有四分位数等级的新功能,每个 250 个条目?
非常感谢
理想的做法是计算训练数据集的四分位数,并在你的保留/验证数据集上使用这些障碍。为确保您正确生成模型诊断以评估其预测性能,您不希望测试数据集的分布影响您的模型训练。这是因为当您将模型应用于看不见的数据时,该数据在现实生活中将不可用。
我还认为,在考虑训练-测试拆分时,您会发现这篇文章非常有用 - https://towardsdatascience.com/3-things-you-need-to-know-before-you-train-test-split-869dfabb7e50
当数据集的一个特征是整个数据池的汇总统计时,将训练数据包含在测试数据中以计算特征以进行验证是否是一种好的做法?
例如,假设我有 1000 个数据点,分为 800 个训练条目和 200 个验证条目。我用 800 个条目创建了一个特征,用于训练排名四分位数(或者可以是任何东西),其中 0-3 表示其他特征所在的四分位数。因此在训练集中,每个四分位数中将有 200 个数据点。
一旦您训练了模型并需要为验证集再次计算特征,a) 您是否使用已经设置的四分位数障碍,即 200 个验证条目可能不同于 50-50-50-50四分位数拆分,或 b) 您是否使用所有 1000 个条目重新计算四分位数,以便有四分位数等级的新功能,每个 250 个条目?
非常感谢
理想的做法是计算训练数据集的四分位数,并在你的保留/验证数据集上使用这些障碍。为确保您正确生成模型诊断以评估其预测性能,您不希望测试数据集的分布影响您的模型训练。这是因为当您将模型应用于看不见的数据时,该数据在现实生活中将不可用。
我还认为,在考虑训练-测试拆分时,您会发现这篇文章非常有用 - https://towardsdatascience.com/3-things-you-need-to-know-before-you-train-test-split-869dfabb7e50