在 R 中使用超链接将 HTML Table 读入数据框

Question

我正在尝试将 HTML table 从可公开访问的网站读取到 R 中的数据框中。table 的最后一列包含超链接，我会喜欢将这些超链接读入 table 而不是网页上显示的文本。我已经在 Whosebug 和其他网站上查看了几篇文章，并且几乎已经到了那里，但是我自己无法阅读超链接。

我正在尝试阅读的 table 在这里：http://mis.ercot.com/misapp/GetReports.do?reportTypeId=12300&reportTitle=LMPs%20by%20Resource%20Nodes,%20Load%20Zones%20and%20Trading%20Hubs&showHTMLView=&mimicKey。

最后一列包含指向 *.ZIP 文件格式的实际数据以供下载的超链接。我已经设法将 table 作为文本读入 R，但我不知道如何解析最后一列中的超链接。

这是我目前的情况：

library(XML)
webURL <- 'http://mis.ercot.com/misapp/GetReports.do?reportTypeId=12300&reportTitle=LMPs%20by%20Resource%20Nodes,%20Load%20Zones%20and%20Trading%20Hubs&showHTMLView=&mimicKey'
page <- htmlParse( webURL )
tableNodes <- getNodeSet( sitePage, "//table" )
myTable <- readHTMLTable( tableNodes[[3]] )

但是，这包含最后一列中的文本，而不是超链接。如何用每行中相应超链接的值替换 R 中此 table 最后一列中的单词 "zip"？

Answer 1

我发现使用 rvest 包比 XML 更容易。

这是获取链接列表的解决方案：

webURL <- 'http://mis.ercot.com/misapp/GetReports.do?reportTypeId=12300&reportTitle=LMPs%20by%20Resource%20Nodes,%20Load%20Zones%20and%20Trading%20Hubs&showHTMLView=&mimicKey'

library(rvest)

page<-read_html(webURL)
links<-page %>% html_nodes("a") %>% html_attr("href")

Answer 2

此代码可让您定位 XML 文件或 CSV 文件，并获得文件名和 URL，这样您就可以遍历 URLs和文件名，并使用您稍后会识别的名称保存它们。

library(rvest)
library(dplyr)

pg <- read_html("http://mis.ercot.com/misapp/GetReports.do?reportTypeId=12300&reportTitle=LMPs%20by%20Resource%20Nodes,%20Load%20Zones%20and%20Trading%20Hubs&showHTMLView=&mimicKey")

csv_fils <- html_nodes(pg, xpath=".//td[contains(@class, 'labelOptional_ind') and contains(., 'csv')]/..")

data_frame(
  fil_name = html_nodes(csv_fils, "td.labelOptional_ind") %>% html_text(),
  url = html_nodes(csv_fils, xpath=".//td[4]/div/a") %>% html_attr("href")
) -> csv_df

glimpse(csv_df)
## Observations: 1,560
## Variables: 2
## $ fil_name <chr> "cdr.00012300.0000000000000000.20170729.094015151.LMPSROSNODENP6788_20170729_094011_csv.zip", "cdr...
## $ url      <chr> "/misdownload/servlets/mirDownload?mimic_duns=&doclookupId=572923018", "/misdownload/servlets/mirD...

xml_fils <- html_nodes(pg, xpath=".//td[contains(@class, 'labelOptional_ind') and contains(., 'xml')]/..")

data_frame(
  fil_name = html_nodes(xml_fils, "td.labelOptional_ind") %>% html_text(),
  url = html_nodes(xml_fils, xpath=".//td[4]/div/a") %>% html_attr("href")
) -> xml_df

glimpse(xml_df)
## Observations: 1,560
## Variables: 2
## $ fil_name <chr> "cdr.00012300.0000000000000000.20170729.094015016.LMPSROSNODENP6788_20170729_094011_xml.zip", "cdr...
## $ url      <chr> "/misdownload/servlets/mirDownload?mimic_duns=&doclookupId=572923015", "/misdownload/servlets/mirD...

在 R 中使用超链接将 HTML Table 读入数据框

Read HTML Table Into Data Frame with Hyperlinks in R

html

xml

r

hyperlink

rvest