dplyr: left_join 其中 df A 值位于 df B 值之间
dplyr: left_join where df A value lies between df B values
我想知道是否可以使用 dplyr 或一些 tidyverse 包实现以下目标...
上下文: 我无法将数据放入允许使用 geom_rect
的结构中。参见 的动机。
library(tis)
# Prepare NBER recession start end dates.
recessions <- data.frame(start = as.Date(as.character(nberDates()[,"Start"]),"%Y%m%d"),
end= as.Date(as.character(nberDates()[,"End"]),"%Y%m%d"))
dt <- tibble(date=c(as.Date('1983-01-01'),as.Date('1990-10-15'), as.Date('1993-01-01')))
期望的输出:
date start end
1983-01-01 NA NA
1990-10-15 1990-08-01 1991-03-31
1993-01-01 NA NA
感谢任何建议。
注意: 前面的问题表明 sqldf
是一种方法。但是这里的数据涉及到日期,我的理解日期不是SQLite中的数据类型。
本着'write the code you wish you had'的精神:
df <- dt %>%
left_join(x=., y=recessions, date >= start & date <= end)
以下仅使用 dplyr 并生成所需的数据帧结果。
注意: 在较大的数据集上,您可能 运行 会遇到内存问题,而 G. Grothendieck 提出的 sqldf
将起作用。
小提示:
@nick-criswell 将我带到@ian-gow
# Build data frame of dates within the interval [start, end]
df1 <- dt %>%
mutate(dummy=TRUE) %>%
left_join(recessions %>% mutate(dummy=TRUE)) %>%
filter(date >= start & date <= end) %>%
select(-dummy)
# Build data frame of all other dates with start=NA and end=NA
df2 <- dt %>%
mutate(dummy=TRUE) %>%
left_join(recessions %>% mutate(dummy=TRUE)) %>%
mutate(start=NA, end=NA) %>%
unique() %>%
select(-dummy)
# Now merge the two. Overwirte NA values with start and end dates
df <- df2 %>%
left_join(x=., y=df1, by="date") %>%
mutate(date, start = ifelse(is.na(start.y), as.character(start.x), as.character(start.y)),end = ifelse(is.na(end.y), as.character(end.x), as.character(end.y))) %>%
mutate(start=as.Date(start), end=as.Date(end) )
> df
# A tibble: 3 x 3
date start end
<date> <date> <date>
1 1983-01-01 NA NA
2 1990-10-15 1990-08-01 1991-03-31
3 1993-01-01 NA NA
"Date"
class R 中的对象在内部存储为自纪元(1970 年 1 月 1 日)以来的天数,并且该数字是发送到 SQLite 的天数,因此顺序仍然保持不变即使 class 不是;因此,我们可以使用 SQLite 后端来做到这一点:
sqldf("select * from dt left join recessions on date between start and end")
给予:
date start end
1 1983-01-01 <NA> <NA>
2 1990-10-15 1990-08-01 1991-03-31
3 1993-01-01 <NA> <NA>
另请注意,sqldf 可与其他几个完全支持日期的后端一起使用,因此您不限于 SQLite。建议您查看 https://github.com/ggrothendieck/sqldf 上的常见问题解答和示例。
我想知道是否可以使用 dplyr 或一些 tidyverse 包实现以下目标...
上下文: 我无法将数据放入允许使用 geom_rect
的结构中。参见
library(tis)
# Prepare NBER recession start end dates.
recessions <- data.frame(start = as.Date(as.character(nberDates()[,"Start"]),"%Y%m%d"),
end= as.Date(as.character(nberDates()[,"End"]),"%Y%m%d"))
dt <- tibble(date=c(as.Date('1983-01-01'),as.Date('1990-10-15'), as.Date('1993-01-01')))
期望的输出:
date start end
1983-01-01 NA NA
1990-10-15 1990-08-01 1991-03-31
1993-01-01 NA NA
感谢任何建议。
注意: 前面的问题表明 sqldf
是一种方法。但是这里的数据涉及到日期,我的理解日期不是SQLite中的数据类型。
本着'write the code you wish you had'的精神:
df <- dt %>%
left_join(x=., y=recessions, date >= start & date <= end)
以下仅使用 dplyr 并生成所需的数据帧结果。
注意: 在较大的数据集上,您可能 运行 会遇到内存问题,而 G. Grothendieck 提出的 sqldf
将起作用。
小提示:
@nick-criswell 将我带到@ian-gow
# Build data frame of dates within the interval [start, end]
df1 <- dt %>%
mutate(dummy=TRUE) %>%
left_join(recessions %>% mutate(dummy=TRUE)) %>%
filter(date >= start & date <= end) %>%
select(-dummy)
# Build data frame of all other dates with start=NA and end=NA
df2 <- dt %>%
mutate(dummy=TRUE) %>%
left_join(recessions %>% mutate(dummy=TRUE)) %>%
mutate(start=NA, end=NA) %>%
unique() %>%
select(-dummy)
# Now merge the two. Overwirte NA values with start and end dates
df <- df2 %>%
left_join(x=., y=df1, by="date") %>%
mutate(date, start = ifelse(is.na(start.y), as.character(start.x), as.character(start.y)),end = ifelse(is.na(end.y), as.character(end.x), as.character(end.y))) %>%
mutate(start=as.Date(start), end=as.Date(end) )
> df
# A tibble: 3 x 3
date start end
<date> <date> <date>
1 1983-01-01 NA NA
2 1990-10-15 1990-08-01 1991-03-31
3 1993-01-01 NA NA
"Date"
class R 中的对象在内部存储为自纪元(1970 年 1 月 1 日)以来的天数,并且该数字是发送到 SQLite 的天数,因此顺序仍然保持不变即使 class 不是;因此,我们可以使用 SQLite 后端来做到这一点:
sqldf("select * from dt left join recessions on date between start and end")
给予:
date start end
1 1983-01-01 <NA> <NA>
2 1990-10-15 1990-08-01 1991-03-31
3 1993-01-01 <NA> <NA>
另请注意,sqldf 可与其他几个完全支持日期的后端一起使用,因此您不限于 SQLite。建议您查看 https://github.com/ggrothendieck/sqldf 上的常见问题解答和示例。