如何使用 rvest 从 R 中的网页中抓取字符串

Question

我有一个包含 602 URLs 的向量，它的开头如下：

links <- c("URL1.com", "URL2.com", "URL3.com)

每个 URL 链接到一个网页。

每个网页上的某处都是 YYYY 格式的年份，与 2019 中的一样，但并不总是在同一个地方。

每个网页上只有一年，我希望 R 给我一个输出，在每个网页上提供年份。

我试过使用rvest，但我想我需要知道每个网页上的具体位置。

如何从网页上成功抓取年份？

Answer 1

由于要提取的号码是页面上唯一的4位数字，我们可以读取HTML的内容，提取4位号码。

library(rvest)

sapply(links, function(x) 
       x %>% read_html %>% html_text %>% stringr::str_extract("\d{4}"))

How to scrape a string from webpage in R using rvest