抓取 excel 个文件
Scrape excel files
我正在尝试下载此网页上 link 后面的一系列 excel 文件:https://www.grants.gov.au/reports/gaweeklyexport
当我按照在线教程进行操作时,我能够获得列表中第一个 link 的文本,但没有更多。任何人都可以帮助我编写将列出 excel 文件的每个地址的代码吗?
例如;第一个 link 的成功看起来像这样:https://www.grants.gov.au/Reports/GaWeeklyExportDownload?GaWeeklyExportUuid=0db183a2-11c6-42f8-bf52-379aafe0d21b
但我还需要该列表中的其他 link。
我的尝试,只找到列表中的第一项:
library(tidyverse)
library(rvest)
url <- "https://www.grants.gov.au/reports/gaweeklyexport"
webpage <- read_html(url)
html_text(html_node(webpage, '.u'))
您将希望使用 html_nodes()
而不是 html_node()
来获取所有匹配元素。
您可能还想使用 html_attr()
而不是 html_text()
来获取 URL 而不是 link 中的文本,如:
html_attr(html_nodes(webpage, '.u'), "href")
我正在尝试下载此网页上 link 后面的一系列 excel 文件:https://www.grants.gov.au/reports/gaweeklyexport
当我按照在线教程进行操作时,我能够获得列表中第一个 link 的文本,但没有更多。任何人都可以帮助我编写将列出 excel 文件的每个地址的代码吗?
例如;第一个 link 的成功看起来像这样:https://www.grants.gov.au/Reports/GaWeeklyExportDownload?GaWeeklyExportUuid=0db183a2-11c6-42f8-bf52-379aafe0d21b
但我还需要该列表中的其他 link。
我的尝试,只找到列表中的第一项:
library(tidyverse)
library(rvest)
url <- "https://www.grants.gov.au/reports/gaweeklyexport"
webpage <- read_html(url)
html_text(html_node(webpage, '.u'))
您将希望使用 html_nodes()
而不是 html_node()
来获取所有匹配元素。
您可能还想使用 html_attr()
而不是 html_text()
来获取 URL 而不是 link 中的文本,如:
html_attr(html_nodes(webpage, '.u'), "href")