用 dplyr 填充缺失的序列值
Fill missing sequence values with dplyr
我有一个缺少 "SNAP_ID" 值的数据框。我想根据前一个非缺失值(lag()?)的序列用浮点值填充缺失值。如果可能的话,我真的很想只使用 dplyr 来实现这一点。
假设:
- 第一行或最后一行永远不会丢失数据我根据数据集的最小值和最大值之间的缺失天数生成缺失日期
- 数据集中可以有多个间隙
当前数据:
end SNAP_ID
1 2015-06-26 12:59:00 365
2 2015-06-26 13:59:00 366
3 2015-06-27 00:01:00 NA
4 2015-06-27 23:00:00 NA
5 2015-06-28 00:01:00 NA
6 2015-06-28 23:00:00 NA
7 2015-06-29 09:00:00 367
8 2015-06-29 09:59:00 368
我想达到的目标:
end SNAP_ID
1 2015-06-26 12:59:00 365.0
2 2015-06-26 13:59:00 366.0
3 2015-06-27 00:01:00 366.1
4 2015-06-27 23:00:00 366.2
5 2015-06-28 00:01:00 366.3
6 2015-06-28 23:00:00 366.4
7 2015-06-29 09:00:00 367.0
8 2015-06-29 09:59:00 368.0
作为数据框:
df <- structure(list(end = structure(c(1435323540, 1435327140, 1435363260,
1435446000, 1435449660, 1435532400, 1435568400, 1435571940), tzone = "UTC", class = c("POSIXct",
"POSIXt")), SNAP_ID = c(365, 366, NA, NA, NA, NA, 367, 368)), .Names = c("end",
"SNAP_ID"), row.names = c(NA, -8L), class = "data.frame")
这是我实现此目标的尝试,但它仅适用于第一个缺失值:
df %>%
arrange(end) %>%
mutate(SNAP_ID=ifelse(is.na(SNAP_ID),lag(SNAP_ID)+0.1,SNAP_ID))
end SNAP_ID
1 2015-06-26 12:59:00 365.0
2 2015-06-26 13:59:00 366.0
3 2015-06-27 00:01:00 366.1
4 2015-06-27 23:00:00 NA
5 2015-06-28 00:01:00 NA
6 2015-06-28 23:00:00 NA
7 2015-06-29 09:00:00 367.0
8 2015-06-29 09:59:00 368.0
下面来自@mathematical.coffee的优秀回答:
df %>%
arrange(end) %>%
group_by(tmp=cumsum(!is.na(SNAP_ID))) %>%
mutate(SNAP_ID=SNAP_ID[1] + 0.1*(0:(length(SNAP_ID)-1))) %>%
ungroup() %>%
select(-tmp)
编辑:新版本适用于任意数量的 NA 运行。
这个也不需要zoo
。
首先,请注意 tmp=cumsum(!is.na(SNAP_ID))
对 SNAP_ID
进行了分组,这些相同 tmp
的分组由一个非 NA 值和后跟 运行 个 NA 值组成.
然后按此变量分组,只需将 .1 添加到第一个 SNAP_ID 以填写 NAs:
df %>%
arrange(end) %>%
group_by(tmp=cumsum(!is.na(SNAP_ID))) %>%
mutate(SNAP_ID=SNAP_ID[1] + 0.1*(0:(length(SNAP_ID)-1)))
end SNAP_ID tmp
1 2015-06-26 12:59:00 365.0 1
2 2015-06-26 13:59:00 366.0 2
3 2015-06-27 00:01:00 366.1 2
4 2015-06-27 23:00:00 366.2 2
5 2015-06-28 00:01:00 366.3 2
6 2015-06-28 23:00:00 366.4 2
7 2015-06-29 09:00:00 367.0 3
8 2015-06-29 09:59:00 368.0 4
然后您可以删除 tmp
列(在末尾添加 %>% select(-tmp)
)。
编辑:这是 旧版本 ,不适用于 NA
的后续 运行。
如果您的目标是用前一个值 + 0.1 填充每个 NA,您可以使用 zoo
的 na.locf
(用前一个值填充每个 NA
),与 cumsum(is.na(SNAP_ID))*0.1
一起添加额外的 0.1.
library(zoo)
df %>%
arrange(end) %>%
mutate(SNAP_ID=ifelse(is.na(SNAP_ID),
na.locf(SNAP_ID) + cumsum(is.na(SNAP_ID))*0.1,
SNAP_ID))
我有一个缺少 "SNAP_ID" 值的数据框。我想根据前一个非缺失值(lag()?)的序列用浮点值填充缺失值。如果可能的话,我真的很想只使用 dplyr 来实现这一点。
假设:
- 第一行或最后一行永远不会丢失数据我根据数据集的最小值和最大值之间的缺失天数生成缺失日期
- 数据集中可以有多个间隙
当前数据:
end SNAP_ID
1 2015-06-26 12:59:00 365
2 2015-06-26 13:59:00 366
3 2015-06-27 00:01:00 NA
4 2015-06-27 23:00:00 NA
5 2015-06-28 00:01:00 NA
6 2015-06-28 23:00:00 NA
7 2015-06-29 09:00:00 367
8 2015-06-29 09:59:00 368
我想达到的目标:
end SNAP_ID
1 2015-06-26 12:59:00 365.0
2 2015-06-26 13:59:00 366.0
3 2015-06-27 00:01:00 366.1
4 2015-06-27 23:00:00 366.2
5 2015-06-28 00:01:00 366.3
6 2015-06-28 23:00:00 366.4
7 2015-06-29 09:00:00 367.0
8 2015-06-29 09:59:00 368.0
作为数据框:
df <- structure(list(end = structure(c(1435323540, 1435327140, 1435363260,
1435446000, 1435449660, 1435532400, 1435568400, 1435571940), tzone = "UTC", class = c("POSIXct",
"POSIXt")), SNAP_ID = c(365, 366, NA, NA, NA, NA, 367, 368)), .Names = c("end",
"SNAP_ID"), row.names = c(NA, -8L), class = "data.frame")
这是我实现此目标的尝试,但它仅适用于第一个缺失值:
df %>%
arrange(end) %>%
mutate(SNAP_ID=ifelse(is.na(SNAP_ID),lag(SNAP_ID)+0.1,SNAP_ID))
end SNAP_ID
1 2015-06-26 12:59:00 365.0
2 2015-06-26 13:59:00 366.0
3 2015-06-27 00:01:00 366.1
4 2015-06-27 23:00:00 NA
5 2015-06-28 00:01:00 NA
6 2015-06-28 23:00:00 NA
7 2015-06-29 09:00:00 367.0
8 2015-06-29 09:59:00 368.0
下面来自@mathematical.coffee的优秀回答:
df %>%
arrange(end) %>%
group_by(tmp=cumsum(!is.na(SNAP_ID))) %>%
mutate(SNAP_ID=SNAP_ID[1] + 0.1*(0:(length(SNAP_ID)-1))) %>%
ungroup() %>%
select(-tmp)
编辑:新版本适用于任意数量的 NA 运行。
这个也不需要zoo
。
首先,请注意 tmp=cumsum(!is.na(SNAP_ID))
对 SNAP_ID
进行了分组,这些相同 tmp
的分组由一个非 NA 值和后跟 运行 个 NA 值组成.
然后按此变量分组,只需将 .1 添加到第一个 SNAP_ID 以填写 NAs:
df %>%
arrange(end) %>%
group_by(tmp=cumsum(!is.na(SNAP_ID))) %>%
mutate(SNAP_ID=SNAP_ID[1] + 0.1*(0:(length(SNAP_ID)-1)))
end SNAP_ID tmp
1 2015-06-26 12:59:00 365.0 1
2 2015-06-26 13:59:00 366.0 2
3 2015-06-27 00:01:00 366.1 2
4 2015-06-27 23:00:00 366.2 2
5 2015-06-28 00:01:00 366.3 2
6 2015-06-28 23:00:00 366.4 2
7 2015-06-29 09:00:00 367.0 3
8 2015-06-29 09:59:00 368.0 4
然后您可以删除 tmp
列(在末尾添加 %>% select(-tmp)
)。
编辑:这是 旧版本 ,不适用于 NA
的后续 运行。
如果您的目标是用前一个值 + 0.1 填充每个 NA,您可以使用 zoo
的 na.locf
(用前一个值填充每个 NA
),与 cumsum(is.na(SNAP_ID))*0.1
一起添加额外的 0.1.
library(zoo)
df %>%
arrange(end) %>%
mutate(SNAP_ID=ifelse(is.na(SNAP_ID),
na.locf(SNAP_ID) + cumsum(is.na(SNAP_ID))*0.1,
SNAP_ID))