用R在某些特定点进行超出边界的插值和外插
Interpolation and extrapolation beyond the boundry in some especific points with R
我有
的数据集
x=c(1600L, 1650L, 1675L, 1700L, 1725L, 1775L, 1800L, 1825L, 1850L,
1875L, 1880L, 1885L, 1900L, 1920L, 1925L, 1930L, 1935L, 1940L,
1945L, 1950L, 1955L, 1960L, 1965L, 1975L, 1980L, 1985L, 1990L,
1995L, 2000L, 2005L, 2010L, 2015L, 2020L, 2025L, 2030L, 2035L,
2040L, 2045L, 2050L, 2055L, 2060L, 2065L, 2070L, 2075L, 2080L,
2085L, 2090L, 2095L, 2100L, 2105L, 2110L, 2115L, 2120L, 2125L,
2130L, 2135L, 2140L, 2145L, 2150L, 2155L, 2160L, 2165L, 2170L,
2175L, 2180L, 2185L, 2190L, 2195L, 2200L, 2225L, 2250L, 2275L,
2300L, 2325L, 2350L, 2400L)
y= c(0.294529, 0.285516, 0.240616, 0.275107, 0.275033, 0.236293,
0.240515, 0.229588, 0.20417, 0.20361, 0.203624, 0.204582, 0.195379,
0.187396, 0.185315, 0.182648, 0.18076, 0.178717, 0.176931, 0.173805,
0.171352, 0.169856, 0.170566, 0.166413, 0.164074, 0.162457, 0.160333,
0.158291, 0.156577, 0.154371, 0.152205, 0.150303, 0.148391, 0.146455,
0.144258, 0.142454, 0.139729, 0.137987, 0.135529, 0.133566, 0.131664,
0.129607, 0.127761, 0.125352, 0.123669, 0.121388, 0.119598, 0.117541,
0.11575, 0.113464, 0.111405, 0.109566, 0.107747, 0.105732, 0.104137,
0.102337, 0.100538, 0.099007, 0.097542, 0.096187, 0.095008, 0.094473,
0.094044, 0.093378, 0.093201, 0.093218, 0.093572, 0.094112, 0.094962,
0.102078, 0.111409, 0.120824, 0.128211, 0.137644, 0.144049, 0.16133
)
我正在尝试使用 R 中的样条函数在 x 上插入 y 的函数,并在 x 的边界之前和之后以一定范围的数字退出一些具有相等间距的特定点。所以我写:
fineX <- seq(min(x)-500, max(x)+500 , 1)
interp <- spline(x,y , xout= fineX , method = c("natural"))
插值很好,如下图所示:
plot(x,y)
lines(interp)
natural interpolation
但是用这种方法进行的外推是愚蠢的,如下图所示:
plot(fineX, interp$y)
extrapolation
在插值中,大约x=2000 之前的函数明显递减,但您可以看到x=1600 之前的外推变得递增。
smooth.spline
函数给出了更好的结果,但它不让我选择我想要的xout
点(或者我不知道如何选择!)。
我该怎么做才能在 x 的边界之外进行良好的插值(非线性)并获得我需要的 xout
个点?
这既是一个统计问题(如果不是更多的话)也是一个编程问题。
首先,您根据什么标准来判断什么是好的外推法?
其次,我不明白为什么外推明显不好,如果你相信你在 x=1600 到 x=1700 范围内的自然内插?如下图所示,如果您相当确定数据中的噪音很小,或者如果您的基础 data-generation 在某种意义上具有 "inertia"(您没有提供上下文数据实际上是)。
fineX <- seq(min(x)-50, max(x)+50 , 1)
interp <- spline(x, y ,xout = fineX , method = "natural")
plot(x,y, xlim = range(fineX), ylim = range(interp$y))
lines(interp)
s <- fineX > max(x) | fineX < min(x)
points(fineX[s], interp$y[s], pch = 3, cex = .7, col = "red")
abline(v = range(x), col = "red")
设置 method = "natural"
,该函数使用自然(三次)样条,因此它将始终为您提供数据区间之外的线性外推;这就是自然样条的定义。通过使用 method="fmm"
(这是不受限制的三次样条),它看起来更糟(通过我自己的任何 eye-balling,启发式的,特殊的措施)。在通过 spline
在 R 中可用的标准插值方法中,最好的 "fit" 是我所看到的自然样条。
第三,为什么一定要插值?我认为局部回归(例如黄土)可以提供 well-fitting 模型,这可能会更好地推断。下面我尝试这样做,同时 eye-balling 设置 span
参数。
low <- loess(y ~ x, span = 0.2, control = loess.control(surface = "direct"))
res <- predict(low, newdata = fineX)
lines(fineX, res, col = "blue", lwd = 3)
points(fineX[s], res[s], col = "green", cex = .6, pch = 3)
至于选择 span
更 objective 的方式,我想你可以 cross-validate 和 select 最合适的 objective测量。
我有
的数据集x=c(1600L, 1650L, 1675L, 1700L, 1725L, 1775L, 1800L, 1825L, 1850L,
1875L, 1880L, 1885L, 1900L, 1920L, 1925L, 1930L, 1935L, 1940L,
1945L, 1950L, 1955L, 1960L, 1965L, 1975L, 1980L, 1985L, 1990L,
1995L, 2000L, 2005L, 2010L, 2015L, 2020L, 2025L, 2030L, 2035L,
2040L, 2045L, 2050L, 2055L, 2060L, 2065L, 2070L, 2075L, 2080L,
2085L, 2090L, 2095L, 2100L, 2105L, 2110L, 2115L, 2120L, 2125L,
2130L, 2135L, 2140L, 2145L, 2150L, 2155L, 2160L, 2165L, 2170L,
2175L, 2180L, 2185L, 2190L, 2195L, 2200L, 2225L, 2250L, 2275L,
2300L, 2325L, 2350L, 2400L)
y= c(0.294529, 0.285516, 0.240616, 0.275107, 0.275033, 0.236293,
0.240515, 0.229588, 0.20417, 0.20361, 0.203624, 0.204582, 0.195379,
0.187396, 0.185315, 0.182648, 0.18076, 0.178717, 0.176931, 0.173805,
0.171352, 0.169856, 0.170566, 0.166413, 0.164074, 0.162457, 0.160333,
0.158291, 0.156577, 0.154371, 0.152205, 0.150303, 0.148391, 0.146455,
0.144258, 0.142454, 0.139729, 0.137987, 0.135529, 0.133566, 0.131664,
0.129607, 0.127761, 0.125352, 0.123669, 0.121388, 0.119598, 0.117541,
0.11575, 0.113464, 0.111405, 0.109566, 0.107747, 0.105732, 0.104137,
0.102337, 0.100538, 0.099007, 0.097542, 0.096187, 0.095008, 0.094473,
0.094044, 0.093378, 0.093201, 0.093218, 0.093572, 0.094112, 0.094962,
0.102078, 0.111409, 0.120824, 0.128211, 0.137644, 0.144049, 0.16133
)
我正在尝试使用 R 中的样条函数在 x 上插入 y 的函数,并在 x 的边界之前和之后以一定范围的数字退出一些具有相等间距的特定点。所以我写:
fineX <- seq(min(x)-500, max(x)+500 , 1)
interp <- spline(x,y , xout= fineX , method = c("natural"))
插值很好,如下图所示:
plot(x,y)
lines(interp)
natural interpolation
但是用这种方法进行的外推是愚蠢的,如下图所示:
plot(fineX, interp$y)
extrapolation
在插值中,大约x=2000 之前的函数明显递减,但您可以看到x=1600 之前的外推变得递增。
smooth.spline
函数给出了更好的结果,但它不让我选择我想要的xout
点(或者我不知道如何选择!)。
我该怎么做才能在 x 的边界之外进行良好的插值(非线性)并获得我需要的 xout
个点?
这既是一个统计问题(如果不是更多的话)也是一个编程问题。
首先,您根据什么标准来判断什么是好的外推法?
其次,我不明白为什么外推明显不好,如果你相信你在 x=1600 到 x=1700 范围内的自然内插?如下图所示,如果您相当确定数据中的噪音很小,或者如果您的基础 data-generation 在某种意义上具有 "inertia"(您没有提供上下文数据实际上是)。
fineX <- seq(min(x)-50, max(x)+50 , 1)
interp <- spline(x, y ,xout = fineX , method = "natural")
plot(x,y, xlim = range(fineX), ylim = range(interp$y))
lines(interp)
s <- fineX > max(x) | fineX < min(x)
points(fineX[s], interp$y[s], pch = 3, cex = .7, col = "red")
abline(v = range(x), col = "red")
设置 method = "natural"
,该函数使用自然(三次)样条,因此它将始终为您提供数据区间之外的线性外推;这就是自然样条的定义。通过使用 method="fmm"
(这是不受限制的三次样条),它看起来更糟(通过我自己的任何 eye-balling,启发式的,特殊的措施)。在通过 spline
在 R 中可用的标准插值方法中,最好的 "fit" 是我所看到的自然样条。
第三,为什么一定要插值?我认为局部回归(例如黄土)可以提供 well-fitting 模型,这可能会更好地推断。下面我尝试这样做,同时 eye-balling 设置 span
参数。
low <- loess(y ~ x, span = 0.2, control = loess.control(surface = "direct"))
res <- predict(low, newdata = fineX)
lines(fineX, res, col = "blue", lwd = 3)
points(fineX[s], res[s], col = "green", cex = .6, pch = 3)
至于选择 span
更 objective 的方式,我想你可以 cross-validate 和 select 最合适的 objective测量。