如何使用 rvest 从 R 中的网页中抓取字符串
How to scrape a string from webpage in R using rvest
我有一个包含 602 URLs 的向量,它的开头如下:
links <- c("URL1.com", "URL2.com", "URL3.com)
每个 URL 链接到一个网页。
每个网页上的某处都是 YYYY
格式的年份,与 2019
中的一样,但并不总是在同一个地方。
每个网页上只有一年,我希望 R 给我一个输出,在每个网页上提供年份。
我试过使用rvest
,但我想我需要知道每个网页上的具体位置。
如何从网页上成功抓取年份?
由于要提取的号码是页面上唯一的4位数字,我们可以读取HTML的内容,提取4位号码。
library(rvest)
sapply(links, function(x)
x %>% read_html %>% html_text %>% stringr::str_extract("\d{4}"))
我有一个包含 602 URLs 的向量,它的开头如下:
links <- c("URL1.com", "URL2.com", "URL3.com)
每个 URL 链接到一个网页。
每个网页上的某处都是 YYYY
格式的年份,与 2019
中的一样,但并不总是在同一个地方。
每个网页上只有一年,我希望 R 给我一个输出,在每个网页上提供年份。
我试过使用rvest
,但我想我需要知道每个网页上的具体位置。
如何从网页上成功抓取年份?
由于要提取的号码是页面上唯一的4位数字,我们可以读取HTML的内容,提取4位号码。
library(rvest)
sapply(links, function(x)
x %>% read_html %>% html_text %>% stringr::str_extract("\d{4}"))