计算事故的发生直到下一次事故

Question

我有以下数据框，我想创建“OUTPUT_COLUMN”。

列说明：

ID是保单的识别号
ID_REG_YEAR 是每个注册年份的身份证号码
CALENDAR_YEAR是保单曝光的年份
NUMBER_OF_RENEWALS是保单更新的号码数
ACCIDENT 是事故发生

数据集的关键： ID_REG_YEAR 和 CALENDAR_YEAR

基本上，如果列 NUMBER_OF_RENEWALS = 0，则 OUTPUT_COLUMN = 100。之前未发生事故的任何行都应包含 100（例如第 13、16、17 行）。如果发生事故，我想计算续订次数，直到下一次事故发生。


   ID ID_REG_YEAR CALENDAR_YEAR NUMBER_OF_RENEWALS ACCIDENT OUTPUT_COLUMN
1   A      A_2015          2015                  0      YES           100
2   A      A_2015          2016                  0      YES           100
3   A      A_2016          2016                  1      YES             0
4   A      A_2016          2017                  1      YES             0
5   A      A_2017          2017                  2       NO             1
6   A      A_2017          2018                  2       NO             1
7   A      A_2018          2018                  3       NO             2
8   A      A_2018          2019                  3       NO             2
9   A      A_2019          2019                  4      YES             0
10  A      A_2019          2020                  4      YES             0
11  B      B_2015          2015                  0       NO           100
12  B      B_2015          2016                  0       NO           100
13  B      B_2016          2016                  1       NO           100
14  C      C_2013          2013                  0       NO           100
15  C      C_2013          2014                  0       NO           100
16  C      C_2014          2014                  1       NO           100
17  C      C_2014          2015                  1       NO           100
18  C      C_2015          2015                  2      YES             0
19  C      C_2015          2016                  2      YES             0
20  C      C_2016          2016                  3       NO             1
21  C      C_2016          2017                  3       NO             1
22  C      C_2017          2017                  4       NO             2
23  C      C_2017          2018                  4       NO             2
24  C      C_2018          2018                  5      YES             0
25  C      C_2018          2019                  5      YES             0
26  C      C_2019          2019                  6       NO             1
27  C      C_2019          2020                  6       NO             1
28  C      C_2020          2020                  7       NO             2

Answer 1

这是一个dplyr解决方案。首先，获取注册年份的单独一栏，该栏将用于计算自上次事故以来的更新（假设这是自上次事故以来的年数）。然后，在按 ID 分组后创建一个列以包含最后一次事故的年份。使用 fill 将传播此值。最终结果列将设置为 100（如果之前没有事故，或者 NUMBER_OF_RENEWALS 为零）与注册年份 - 上次事故年份。

library(dplyr)

df %>%
  separate(ID_REG_YEAR, into = c("ID_REG", "REG_YEAR"), convert = T) %>%
  group_by(ID) %>%
  mutate(LAST_ACCIDENT = ifelse(ACCIDENT == "YES", REG_YEAR, NA_integer_)) %>%
  fill(LAST_ACCIDENT, .direction = "down") %>%
  mutate(OUTPUT_COLUMN_2 = ifelse(
    is.na(LAST_ACCIDENT) | NUMBER_OF_RENEWALS == 0, 100, REG_YEAR - LAST_ACCIDENT
  ))

输出

   ID    ID_REG REG_YEAR CALENDAR_YEAR NUMBER_OF_RENEWALS ACCIDENT OUTPUT_COLUMN LAST_ACCIDENT OUTPUT_COLUMN_2
   <chr> <chr>     <int>         <int>              <int> <chr>            <int>         <int>           <dbl>
 1 A     A          2015          2015                  0 YES                100          2015             100
 2 A     A          2015          2016                  0 YES                100          2015             100
 3 A     A          2016          2016                  1 YES                  0          2016               0
 4 A     A          2016          2017                  1 YES                  0          2016               0
 5 A     A          2017          2017                  2 NO                   1          2016               1
 6 A     A          2017          2018                  2 NO                   1          2016               1
 7 A     A          2018          2018                  3 NO                   2          2016               2
 8 A     A          2018          2019                  3 NO                   2          2016               2
 9 A     A          2019          2019                  4 YES                  0          2019               0
10 A     A          2019          2020                  4 YES                  0          2019               0
# … with 18 more rows

注意：如果您想使用您的保单号码 (NUMBER_OF_RENEWALS) 而不是按年份计算，您可以做类似的事情。您可以包括最后一次事故政策，而不是添加包含最后一次事故年份的列。然后，您的输出列可以反映保单编号而不是年份（考虑到可以跳过一年或多年的可能性）。

df %>%
  separate(ID_REG_YEAR, into = c("ID_REG", "REG_YEAR"), convert = T) %>%
  group_by(ID) %>%
  mutate(LAST_ACCIDENT_POLICY = ifelse(ACCIDENT == "YES", NUMBER_OF_RENEWALS, NA_integer_)) %>%
  fill(LAST_ACCIDENT_POLICY, .direction = "down") %>%
  mutate(OUTPUT_COLUMN_2 = ifelse(
    is.na(LAST_ACCIDENT_POLICY) | NUMBER_OF_RENEWALS == 0, 100, NUMBER_OF_RENEWALS - LAST_ACCIDENT_POLICY
  ))

计算事故的发生直到下一次事故

Count the occurences of accidents until the next accidents

r

dataframe

dplyr

data.table