抓取 excel 个文件

Question

我正在尝试下载此网页上 link 后面的一系列 excel 文件：https://www.grants.gov.au/reports/gaweeklyexport

当我按照在线教程进行操作时，我能够获得列表中第一个 link 的文本，但没有更多。任何人都可以帮助我编写将列出 excel 文件的每个地址的代码吗？

例如；第一个 link 的成功看起来像这样：https://www.grants.gov.au/Reports/GaWeeklyExportDownload?GaWeeklyExportUuid=0db183a2-11c6-42f8-bf52-379aafe0d21b

但我还需要该列表中的其他 link。

我的尝试，只找到列表中的第一项：

library(tidyverse)
library(rvest)

url <- "https://www.grants.gov.au/reports/gaweeklyexport"

webpage <- read_html(url)

html_text(html_node(webpage, '.u'))

Answer 1

您将希望使用 html_nodes() 而不是 html_node() 来获取所有匹配元素。

您可能还想使用 html_attr() 而不是 html_text() 来获取 URL 而不是 link 中的文本，如：

html_attr(html_nodes(webpage, '.u'), "href")

抓取 excel 个文件

Scrape excel files

r

rvest