如何在R中的“”之间提取字符串？

Question

如何提取字符串“”之间的数据。

我有以下字符串数据作为示例：

x <- c('"Apr 21 2020 16:45        10894 <A HREF=\"D188_2020-03-30.csv\">D188_2020-03-30.csv</A>"')

想提取 D188_2020-03-30.csv\ 作为输出。

参考了各种gsub 例子，但无法理解。

感谢任何建议。

Answer 1

""之间有多个字符串，因此您需要一些其他标识符来提取您想要的内容。也许在 "HREF".

之后尝试 "" 之间的字符串

sub('.*HREF="(.*?)".*', '\1', x)
#[1] "D188_2020-03-30.csv"

Answer 2

这是另一个使用 stringr 包中的 str_extract 函数的替代方法。

str_extract(string = x, pattern = ("(?<=HREF=\").*(?=.>D188)"))

基本上 returns 文本通过向后看匹配 (?<=HREF=\") 并向前看与 (?=.>D188)") 匹配。

# [1] "D188_2020-03-30.csv"

How to extract string between " " in R?