如何删除或子集文本中的某些上下文？

Question

这是我的数据

data<- "line1\nline2\n\n\n\n\n         VICTIMS OF GUN VIOLENCE TO HOLD GUN TRAFFICKERS LIABLE\n\n  line3"

我想要五个连续的“\n”和两个连续的“\n”之间的文本：

“枪支暴力受害者追究枪支走私者的责任”

我试过了

text-<str_split(data,"\n") 
str_subset(text,".*\n{5}\s*(.*)\s*\n{2}.*")

我得到：警告信息：在 stri_subset_regex(string, pattern, omit_na = TRUE, negate = negate, : 参数不是原子向量；胁迫

Answer 1

一个基本的 R 选项使用 sub 来捕获 5 '\n' 和 2 '\n' 之间的文本。

sub('.*\n{5}\s*(.*)\s*\n{2}.*', '\1', data)
#[1] "VICTIMS OF GUN VIOLENCE TO HOLD GUN TRAFFICKERS LIABLE"

How can I remove or subset certain context in a text?