Bootstrap 大数据抽样

Bootstrap Sampling on Large Data

我有一个大型数据集,我正在尝试为该数据集中的所有实例估计函数 f(x)。以下哪种方法更好?

方法 1: 从数据集中采样 N 个实例,并对这 N 个实例使用引导程序来估计 f(x)。

方法 2: 对大型数据集采样 N 个实例 M 次。然后对这M个样本分别计算f(x),然后聚合(例如:求平均值)结果。

没有一个明确的答案,但是通常简单地使用关于数据集的更多信息的方法更好(不太容易过度拟合)。因此,如果您的决定是 "should I use just N samples but M times internally, or M*N different samples",那么答案将是 "in absence of problem-specific knowledge - to the second one"。