具有多个问题的网络抓取循环

Question

我在使用 R 代码从网站下载 box 乐谱时遇到问题。

for (i in Sites) {
try({log("a")}, silent=TRUE)
webpage_url <- i
webpage <- xml2::read_html(webpage_url)

table <- rvest::html_table(webpage, fill=TRUE)[[1]]
  
}
#Here's an example url
"https://www.baseball-almanac.com/box-scores/boxscore.php?boxid=202007310COL"

站点数据框包含我需要删除的URL。我试图制作一个循环来替换 URL 的最后 8 位左右的数字，但我也无法让它工作。任何帮助将不胜感激。

Answer 1

您可以将每个 url 的数据存储在一个列表中。

extract_table <- function(webpage_url) {
  webpage <- xml2::read_html(webpage_url)  
  rvest::html_table(webpage, fill=TRUE)[[1]] 
}

list_data <- lapply(Sites, extract_table)

list_data 有一个数据框列表，如果你想将它们组合成一个数据框使用

data <- do.call(rbind, list_data)

具有多个问题的网络抓取循环

Loop for web scraping having multiple issues

r

web-scraping

rvest