滚动 182 天平均值

Question

我有一个包含多个站点和抽样年份的数据集，一年中的每一天都有一个分数。例如，SiteA 有 40 年的数据，每天都有一个值，采样年份定义为 Sampling.Year。为了让我们的抽样年变得混乱，所以采用 2016-2017 年的形式。例如：

SiteName Sampling.Year   Date    Score 
A        2015-2016               1  
A        2015-2016               5  
A        2015-2016               2 
A        2016-2017               3 
A        2016-2017               12 
A        2016-2017               6 
B        2015-2016               9 
B        2015-2016               2 
B        2015-2016               1 
B        2016-2017               4 
B        2016-2017               1 
B        2016-2017               7

我想对这些数据应用滚动的 182 天平均值，以找到每个 site/Sampling. 年组合的最大（182 天平均值）分数。结果将是，例如：

Site Sampling.Year   MaxAve StartDate
A    2016-2017       7.5    01/10/2016 
A    2017-2018       6.0    12/12/2017 
B    2016-2017       2.3    13/11/2016
B    2017-2018       4.2    09/09/2017

我在这里保存了一个示例数据集： Sample data。我想使用一个循环代码（因为我是新手，我不确定更好的方法），但我发现它是网站和年份的分组很棘手。理想情况下，我希望能够将移动平均线导出为每个 window 具有开始和结束日期（或至少开始日期）的新数据框，以便我们可以根据当时的天气状况进行检查。

Moving_Average_Function <- function(arr, n=182){
  res = arr
  for(i in n:length(arr)){
    res[i] = mean(arr[(i-n+1):i])
  }
  res
}

提前致谢

Answer 1

使用循环对于此类操作来说效率非常低。您可以使用一些专用函数，这些函数允许您按组执行此操作并使用 zoo::rollmean 获得滚动平均值。

library(dplyr)

DailyScore %>% 
  group_by(SITENAME, Sampling.Year) %>% 
  summarise(max_average = max(zoo::rollmean(Score, 182)))

Answer 2

如果您愿意使用外部库，可以使用 dplyr 包中的 group_by() 和 RcppRoll 包中的 roll_mean() 函数。 RcppRoll 有一组快速灵活的函数来计算移动平均线。

我也倾向于将您的 DATE 列转换为日期 class 以便它顺利排列。

library(dplyr)  # I would typically use library(tidyverse) to load both dplyr and tidyr (among other related packages)
library(tidyr)
library(lubridate)
library(RcppRoll)

my_data <- data.table::fread("DailyScore.csv")  # easy way to load a data frame from file

my_data2 <- my_data %>%
      mutate(DATE = dmy(DATE)) %>% # Converting to Date format
      pivot_longer(H1:T2, 
                   names_to = "Sensor",
                   values_to = "data"
                   )  %>% # convert column names to data
      group_by(STATION, Sensor) %>%  # so you don't average by site.
      arrange(STATION, DATE) %>%  # to be sure you are in order for the rolling mean 
                                  #  The STATION argument isn't necessary, but helps for display
      mutate(Mean_182 = roll_meanr(data, 182)) %>%  # New column with your rolling mean
      pivot_wider(names_from = Sensor, values_from = c(data, Mean_182))  # converts back to original "wide" format

my_data2[180:195,]

# # A tibble: 16 x 14
# # Groups:   STATION [1]
# STATION SITENAME Sampling.Year DATE       data_H1  data_I1 data_H2 data_P2 data_T2 Mean_182_H1
# <chr>   <chr>    <chr>         <date>       <dbl>    <dbl>   <dbl>   <dbl>   <dbl>       <dbl>
#       1 Site A  Site A   1979-1980     1980-06-28    2.85 1.06e- 9    2.10   0.762    2.85       NA   
# 2 Site A  Site A   1979-1980     1980-06-29    2.79 1.62e-12    2.06   0.744    2.79       NA   
# 3 Site A  Site A   1979-1980     1980-06-30    2.75 1.00e-11    2.04   0.732    2.75        2.70
# 4 Site A  Site A   1980-1981     1980-07-01    2.72 1.00e-11    2.01   0.724    2.72        2.71
# 5 Site A  Site A   1980-1981     1980-07-02    2.70 1.00e-11    2.00   0.720    2.70        2.73
# 6 Site A  Site A   1980-1981     1980-07-03    2.68 1.00e-11    1.98   0.718    2.68        2.74
# 7 Site A  Site A   1980-1981     1980-07-04    2.67 1.00e-11    1.97   0.719    2.67        2.75
# 8 Site A  Site A   1980-1981     1980-07-05    2.65 1.11e- 9    1.95   0.708    2.65        2.76
# 9 Site A  Site A   1980-1981     1980-07-06    2.62 2.77e-10    1.93   0.703    2.62        2.76
# 10 Site A  Site A   1980-1981     1980-07-07    2.60 3.18e-12    1.92   0.700    2.60        2.77
# 11 Site A  Site A   1980-1981     1980-07-08    2.59 1.00e-11    1.90   0.701    2.59        2.79
# 12 Site A  Site A   1980-1981     1980-07-09    2.59 1.00e-11    1.89   0.706    2.59        2.80
# 13 Site A  Site A   1980-1981     1980-07-10    2.59 1.00e-11    1.89   0.713    2.59        2.81
# 14 Site A  Site A   1980-1981     1980-07-11    2.59 1.00e-11    1.88   0.722    2.59        2.82
# 15 Site A  Site A   1980-1981     1980-07-12    2.60 1.00e-11    1.88   0.731    2.60        2.83
# 16 Site A  Site A   1980-1981     1980-07-13    2.60 1.00e-11    1.87   0.741    2.60        2.84
# # ... with 4 more variables: Mean_182_I1 <dbl>, Mean_182_H2 <dbl>, Mean_182_P2 <dbl>, Mean_182_T2 <dbl>

有几件事需要牢记，它们会影响您的设置方式。

一般来说，滚动平均值在没有完整数据集时会 return 不适用。因此，对于 182 天的平均值，您将在第一个完整平均值之前获得一系列 181 NA。
你会想弄清楚你想如何处理滚动部分 - 特别是长期滚动平均值，如果你不想混合采样年份，你会有大约半年没有数据。

滚动 182 天平均值

Rolling 182-day average

loops

average

r

rolling-computation