具有多个问题的网络抓取循环
Loop for web scraping having multiple issues
我在使用 R 代码从网站下载 box 乐谱时遇到问题。
for (i in Sites) {
try({log("a")}, silent=TRUE)
webpage_url <- i
webpage <- xml2::read_html(webpage_url)
table <- rvest::html_table(webpage, fill=TRUE)[[1]]
}
#Here's an example url
"https://www.baseball-almanac.com/box-scores/boxscore.php?boxid=202007310COL"
站点数据框包含我需要删除的URL。我试图制作一个循环来替换 URL 的最后 8 位左右的数字,但我也无法让它工作。任何帮助将不胜感激。
您可以将每个 url 的数据存储在一个列表中。
extract_table <- function(webpage_url) {
webpage <- xml2::read_html(webpage_url)
rvest::html_table(webpage, fill=TRUE)[[1]]
}
list_data <- lapply(Sites, extract_table)
list_data
有一个数据框列表,如果你想将它们组合成一个数据框使用
data <- do.call(rbind, list_data)
我在使用 R 代码从网站下载 box 乐谱时遇到问题。
for (i in Sites) {
try({log("a")}, silent=TRUE)
webpage_url <- i
webpage <- xml2::read_html(webpage_url)
table <- rvest::html_table(webpage, fill=TRUE)[[1]]
}
#Here's an example url
"https://www.baseball-almanac.com/box-scores/boxscore.php?boxid=202007310COL"
站点数据框包含我需要删除的URL。我试图制作一个循环来替换 URL 的最后 8 位左右的数字,但我也无法让它工作。任何帮助将不胜感激。
您可以将每个 url 的数据存储在一个列表中。
extract_table <- function(webpage_url) {
webpage <- xml2::read_html(webpage_url)
rvest::html_table(webpage, fill=TRUE)[[1]]
}
list_data <- lapply(Sites, extract_table)
list_data
有一个数据框列表,如果你想将它们组合成一个数据框使用
data <- do.call(rbind, list_data)