机器学习的样本与完整数据集正则化

Regularization on Sample vs Full Dataset for Machine Learning

我最近看了一个视频，解释说对于深度学习，如果你添加更多的数据，你不需要那么多的正则化，这是有道理的。

也就是说，这个说法是否适用于 "normal" 机器学习算法，例如随机森林？如果是这样，在搜索算法的最佳超参数时，理论上您应该拥有尽可能多的数据作为输入数据集（当然，它会进一步分为交叉验证集等），而不仅仅是样本它。这当然意味着更长的训练时间，因为对于超参数的每种组合，您都有 X 个需要训练的交叉验证集等等。

所以基本上，假设为数据集的适当大小样本找到的参数是 "best" 用于整个数据集的参数是否公平？

从统计学家的角度来说：这实际上取决于估算器的质量。如果它是无偏的并且 low-variance，那么样本就可以了。如果差异很大，您将希望使用所有可能的数据。

机器学习的样本与完整数据集正则化

Regularization on Sample vs Full Dataset for Machine Learning

machine-learning

random-forest

regularized

deep-learning