如何删除或子集文本中的某些上下文?
How can I remove or subset certain context in a text?
这是我的数据
data<- "line1\nline2\n\n\n\n\n VICTIMS OF GUN VIOLENCE TO HOLD GUN TRAFFICKERS LIABLE\n\n line3"
我想要五个连续的“\n”和两个连续的“\n”之间的文本:
“枪支暴力受害者追究枪支走私者的责任”
我试过了
text-<str_split(data,"\n")
str_subset(text,".*\n{5}\s*(.*)\s*\n{2}.*")
我得到:
警告信息:
在 stri_subset_regex(string, pattern, omit_na = TRUE, negate = negate, :
参数不是原子向量;胁迫
一个基本的 R 选项使用 sub
来捕获 5 '\n'
和 2 '\n'
之间的文本。
sub('.*\n{5}\s*(.*)\s*\n{2}.*', '\1', data)
#[1] "VICTIMS OF GUN VIOLENCE TO HOLD GUN TRAFFICKERS LIABLE"
这是我的数据
data<- "line1\nline2\n\n\n\n\n VICTIMS OF GUN VIOLENCE TO HOLD GUN TRAFFICKERS LIABLE\n\n line3"
我想要五个连续的“\n”和两个连续的“\n”之间的文本:
“枪支暴力受害者追究枪支走私者的责任”
我试过了
text-<str_split(data,"\n")
str_subset(text,".*\n{5}\s*(.*)\s*\n{2}.*")
我得到: 警告信息: 在 stri_subset_regex(string, pattern, omit_na = TRUE, negate = negate, : 参数不是原子向量;胁迫
一个基本的 R 选项使用 sub
来捕获 5 '\n'
和 2 '\n'
之间的文本。
sub('.*\n{5}\s*(.*)\s*\n{2}.*', '\1', data)
#[1] "VICTIMS OF GUN VIOLENCE TO HOLD GUN TRAFFICKERS LIABLE"