使用 sample() 进行重采样时,我应该如何指定参数 "prob"?

How should I specify argument "prob" when using sample() for resampling?

简而言之

我试图更好地理解参数 prob 作为 R 中函数 sample 的一部分。在接下来的内容中,我都提出了一个问题,并提供了一段 R 代码与我的问题有关。

问题

假设我生成了 10,000 个随机标准 rnorm。然后我想从这个母亲10,000标准rnorms.

中抽取size 5的样本

我应该如何设置 sample 中的 prob 参数,使得从母亲 rnorm 中抽取这些 5 数字的概率认为中间区域母亲rnorm更密集但尾部区域更薄(所以在绘制这5个数字时它会比尾部区域更频繁地从更密集的区域绘制)?

x = rnorm(1e4)
sample( x = x, size = 5, replace = TRUE, prob = ? ) ## what should be "prob" here?
# OR I leave `prob` to be the default by not using it: 
sample( x = x, size = 5, replace = TRUE )

想太多是魔鬼。

您想按照原始分布或经验分布对这些样本重新采样。想想经验CDF是如何得到的:

plot(sort(x), 1:length(x)/length(x))

换句话说,经验PDF只是

plot(sort(x), rep(1/length(x), length(x)))

所以,我们想要 prob = rep(1/length(x), length(x)) 或者简单地说,prob = rep(1, length(x)) 因为 sample 在内部规范化 prob。或者,将其保留为未指定,因为默认为等概率。