使用 sample() 进行重采样时,我应该如何指定参数 "prob"?
How should I specify argument "prob" when using sample() for resampling?
简而言之
我试图更好地理解参数 prob
作为 R 中函数 sample
的一部分。在接下来的内容中,我都提出了一个问题,并提供了一段 R 代码与我的问题有关。
问题
假设我生成了 10,000
个随机标准 rnorm
。然后我想从这个母亲10,000
标准rnorm
s.
中抽取size
5
的样本
我应该如何设置 sample
中的 prob
参数,使得从母亲 rnorm
中抽取这些 5
数字的概率认为中间区域母亲rnorm
更密集但尾部区域更薄(所以在绘制这5个数字时它会比尾部区域更频繁地从更密集的区域绘制)?
x = rnorm(1e4)
sample( x = x, size = 5, replace = TRUE, prob = ? ) ## what should be "prob" here?
# OR I leave `prob` to be the default by not using it:
sample( x = x, size = 5, replace = TRUE )
想太多是魔鬼。
您想按照原始分布或经验分布对这些样本重新采样。想想经验CDF是如何得到的:
plot(sort(x), 1:length(x)/length(x))
换句话说,经验PDF只是
plot(sort(x), rep(1/length(x), length(x)))
所以,我们想要 prob = rep(1/length(x), length(x))
或者简单地说,prob = rep(1, length(x))
因为 sample
在内部规范化 prob
。或者,将其保留为未指定,因为默认为等概率。
简而言之
我试图更好地理解参数 prob
作为 R 中函数 sample
的一部分。在接下来的内容中,我都提出了一个问题,并提供了一段 R 代码与我的问题有关。
问题
假设我生成了 10,000
个随机标准 rnorm
。然后我想从这个母亲10,000
标准rnorm
s.
size
5
的样本
我应该如何设置 sample
中的 prob
参数,使得从母亲 rnorm
中抽取这些 5
数字的概率认为中间区域母亲rnorm
更密集但尾部区域更薄(所以在绘制这5个数字时它会比尾部区域更频繁地从更密集的区域绘制)?
x = rnorm(1e4)
sample( x = x, size = 5, replace = TRUE, prob = ? ) ## what should be "prob" here?
# OR I leave `prob` to be the default by not using it:
sample( x = x, size = 5, replace = TRUE )
想太多是魔鬼。
您想按照原始分布或经验分布对这些样本重新采样。想想经验CDF是如何得到的:
plot(sort(x), 1:length(x)/length(x))
换句话说,经验PDF只是
plot(sort(x), rep(1/length(x), length(x)))
所以,我们想要 prob = rep(1/length(x), length(x))
或者简单地说,prob = rep(1, length(x))
因为 sample
在内部规范化 prob
。或者,将其保留为未指定,因为默认为等概率。