每组 'n' 行数的组平均值 - R

Question

我有一个包含三列的数据框； entity, date, value.

首先，我必须根据每个实体的“'DATE' 降序”对 'value' 进行排序。

然后，要求是根据用户定义的行数为每个实体2 种类型的平均值。例如，如果用户输入 3 和 6；这意味着每个实体“给我前 3 个值的平均值，然后 接下来 6 个值的平均值”。

对于给定的数据集，结果将是一个数据框：

    Entity    Avg3 Avg6
        A     110   65 
        B     220  130

我可以使用“aggregate”函数按实体获取“mean”，但我无法提取每个实体的特定行数据。此外，ordering 基于实体的数据框然后 'date' 似乎不起作用。

#order data based on date (tried adding entity here but it does not work)
df_new <- df[rev(order(as.Date(df$Date)))),]

这里是输出：

structure(list(Wells = c("A", "A", "A", "A", "A", "A", "A", "A", 
"A", "A", "A", "A", "B", "B", "B", "B", "B", "B", "B", "B", "B", 
"B", "B", "B"), Date = structure(c(1577836800, 1577923200, 1578009600, 
1578096000, 1578182400, 1578268800, 1578355200, 1578441600, 1578528000, 
1578614400, 1578700800, 1578787200, 1577836800, 1577923200, 1578009600, 
1578096000, 1578182400, 1578268800, 1578355200, 1578441600, 1578528000, 
1578614400, 1578700800, 1578787200), class = c("POSIXct", "POSIXt"
), tzone = "UTC"), Index = c(10, 20, 30, 40, 50, 60, 70, 80, 
90, 100, 110, 120, 20, 40, 60, 80, 100, 120, 140, 160, 180, 200, 
220, 240)), row.names = c(NA, -24L), class = c("tbl_df", "tbl", 
"data.frame"))

Answer 1

这里有一个 tidyverse 的选项。假设我们有动态输入（'n1'、'n2'）、arrange 数据 'Wells' 和 desc 结束顺序为 'Date'、group_by 'Well'，使用 slice_head 获取前 (n1 + n2) 行，然后 summarise 创建 'Avg' mean 列在'n1'和'n2'的基础上分别取'Index'的head和tail

library(dplyr)
library(stringr)
n1 <- 3
n2 <- 6
df %>%
    arrange(Wells, desc(Date)) %>% 
    group_by(Wells) %>%
    slice_head(n = n1 + n2) %>%
    summarise(!! str_c('Avg', n1) := mean(head(Index, n1)), 
              !! str_c('Avg', n2)  := mean(tail(Index, n2)), .groups = 'drop')

-输出

# A tibble: 2 x 3
#  Wells  Avg3  Avg6
#  <chr> <dbl> <dbl>
#1 A       110    65
#2 B       220   130

或使用base R

df1 <- df[order(df$Wells, -as.numeric(df$Date)),]
out <- do.call(data.frame, aggregate(Index ~ Wells, 
       subset(df1, ave(seq_along(Wells), 
         Wells, FUN = seq_along) <= (n1 + n2)), FUN = function(x)
        c(Avg3 = mean(head(x, n1)), Avg6 = mean(tail(x, n2)))))

Answer 2

可以使用cut/findInterval将数据分组，每组取mean，使用pivot_wider.[=15得到宽格式的数据=]

library(dplyr)
n <- c(3, 6)

df %>%
  arrange(Wells, desc(Date)) %>%
  group_by(Wells) %>%
  group_by(grp = findInterval(row_number(), cumsum(n), left.open = TRUE), .add = TRUE) %>%
  #For older dplyr version use add = TRUE
  #group_by(grp = findInterval(row_number(), cumsum(n), left.open = TRUE), add = TRUE) %>%
  summarise(Index = mean(Index)) %>%
  slice(seq_along(n)) %>%
  mutate(grp = paste0('avg', n)) %>%
  tidyr::pivot_wider(names_from = grp, values_from = Index)

#  Wells  avg3  avg6
#  <chr> <dbl> <dbl>
#1 A       110    65
#2 B       220   130

每组 'n' 行数的组平均值 - R

Average by group for 'n' number of rows per group - R

average

r

dataframe

dplyr