如何使用 rvest 从 R 中的网页中抓取字符串

How to scrape a string from webpage in R using rvest

我有一个包含 602 URLs 的向量,它的开头如下:

links <- c("URL1.com", "URL2.com", "URL3.com)

每个 URL 链接到一个网页。

每个网页上的某处都是 YYYY 格式的年份,与 2019 中的一样,但并不总是在同一个地方。

每个网页上只有一年,我希望 R 给我一个输出,在每个网页上提供年份。

我试过使用rvest,但我想我需要知道每个网页上的具体位置。

如何从网页上成功抓取年份?

由于要提取的号码是页面上唯一的4位数字,我们可以读取HTML的内容,提取4位号码。

library(rvest)

sapply(links, function(x) 
       x %>% read_html %>% html_text %>% stringr::str_extract("\d{4}"))