机器学习的样本与完整数据集正则化
Regularization on Sample vs Full Dataset for Machine Learning
我最近看了一个视频,解释说对于深度学习,如果你添加更多的数据,你不需要那么多的正则化,这是有道理的。
也就是说,这个说法是否适用于 "normal" 机器学习算法,例如随机森林?如果是这样,在搜索算法的最佳超参数时,理论上您应该拥有尽可能多的数据作为输入数据集(当然,它会进一步分为交叉验证集等),而不仅仅是样本它。这当然意味着更长的训练时间,因为对于超参数的每种组合,您都有 X 个需要训练的交叉验证集等等。
所以基本上,假设为数据集的适当大小样本找到的参数是 "best" 用于整个数据集的参数是否公平?
从统计学家的角度来说:这实际上取决于估算器的质量。如果它是无偏的并且 low-variance,那么样本就可以了。如果差异很大,您将希望使用所有可能的数据。
我最近看了一个视频,解释说对于深度学习,如果你添加更多的数据,你不需要那么多的正则化,这是有道理的。
也就是说,这个说法是否适用于 "normal" 机器学习算法,例如随机森林?如果是这样,在搜索算法的最佳超参数时,理论上您应该拥有尽可能多的数据作为输入数据集(当然,它会进一步分为交叉验证集等),而不仅仅是样本它。这当然意味着更长的训练时间,因为对于超参数的每种组合,您都有 X 个需要训练的交叉验证集等等。
所以基本上,假设为数据集的适当大小样本找到的参数是 "best" 用于整个数据集的参数是否公平?
从统计学家的角度来说:这实际上取决于估算器的质量。如果它是无偏的并且 low-variance,那么样本就可以了。如果差异很大,您将希望使用所有可能的数据。