用缺失数据填充行

Question

我有一个特定的代码想用 R 编写，但我在 Stack Overflow 上找不到答案。我正在处理大陆数据的数据集，并希望计算每年的累积值。这是 df 的快照：

Continent   Year  Value     Cumulative Value
   <chr>      <dbl> <dbl>              <dbl>
 1 Europe     2000.   10.                10.
 2 Asia       2000.   30.                30.
 3 Africa     2000.   67.                67.
 4 N. America 2000.   23.                23.
 5 S. America 2000.   19.                19.
 6 Europe     2001.    3.                13.
 7 Asia       2001.    4.                34.
 8 Africa     2001.    3.                70.
 9 Europe     2002.    3.                16.
10 Asia       2002.    9.                43.
11 Africa     2002.    2.                72.
12 N. America 2002.    4.                27.
13 S. America 2002.   90.               109.

我的问题是并不是每个大陆每年都有一个值，但我仍然需要那一年的累计值。该特定大陆的那一年的累计值与前一年相同。

比如2001年N.America和S.America没有一行，我希望两者都出现value=0，累计值分别为23和19，同前一年（2000 年）。我不确定什么代码可以完成此操作，因此将不胜感激任何建议。

Continent   Year  Value     Cumulative Value
N. America 2001.   0.                23.
S. America 2001.   0.                19.

让我知道是否需要提供更多信息，再次感谢！

数据

structure(list(Continent = c("Europe", "Asia", "Africa", "N. America", 
"S. America", "Europe", "Asia", "Africa", "Europe", "Asia", "Africa", 
"N. America", "S. America"), Year = c(2000, 2000, 2000, 2000, 
2000, 2001, 2001, 2001, 2002, 2002, 2002, 2002, 2002), Value = c(10, 
30, 67, 23, 19, 3, 4, 3, 3, 9, 2, 4, 90), `Cumulative Value` = c(10, 
30, 67, 23, 19, 13, 34, 70, 16, 43, 72, 27, 109)), .Names = c("Continent", 
"Year", "Value", "Cumulative Value"), row.names = c(NA, -13L), class = c("tbl_df", 
"tbl", "data.frame"))

Answer 1

这应该可行，但未经测试，因为您的数据未以 copy/pasteable 方式共享。分享 dput(your_sample_data) 我会 test/debug.

library(dplyr)
library(tidyr)
complete(your_data, Continent, Year, fill = list(Value = 0)) %>%
  group_by(Continent) %>%
  mutate(`Cumulative Value` = zoo::na.locf(`Cumulative Value`))
# A tibble: 15 x 4
# Groups:   Continent [5]
   Continent   Year Value    CV
   <chr>      <dbl> <dbl> <dbl>
 1 Africa      2000    67    67
 2 Africa      2001     3    70
 3 Africa      2002     2    72
 4 Asia        2000    30    30
 5 Asia        2001     4    34
 6 Asia        2002     9    43
 7 Europe      2000    10    10
 8 Europe      2001     3    13
 9 Europe      2002     3    16
10 N. America  2000    23    23
11 N. America  2001     0    23
12 N. America  2002     4    27
13 S. America  2000    19    19
14 S. America  2001     0    19
15 S. America  2002    90   109

Answer 2

这里有一个 tidyverse 选项：

library(tidyverse)

df %>% 
  complete(Continent, Year) %>% 
  replace_na(list(Value = 0)) %>% 
  fill(Cumulative) 

# A tibble: 15 x 4
   Continent   Year Value Cumulative
   <chr>      <int> <dbl>      <int>
 1 Africa      2000    67         67
 2 Africa      2001     3         70
 3 Africa      2002     2         72
 4 Asia        2000    30         30
 5 Asia        2001     4         34
 6 Asia        2002     9         43
 7 Europe      2000    10         10
 8 Europe      2001     3         13
 9 Europe      2002     3         16
10 N. America  2000    23         23
11 N. America  2001     0         23
12 N. America  2002     4         27
13 S. America  2000    19         19
14 S. America  2001     0         19
15 S. America  2002    90        109

用缺失数据填充行

Filling in Rows with Missing Data

r

missing-data