从一个网页上抓取所有表格？

Question

对于第一个站点，数据被抓取到 reservoirs data.frame 中，只需要一些整理，但对于第二个站点，有两组 table，一个上部和一个下部，我不知道如何获得较低的。

站点：

1) http://cdec.water.ca.gov/reportapp/javareports?name=RES

2) http://cdec.water.ca.gov/reportapp/javareports?name=FNF

library(tidyverse)
library(XML)

reservoirs <-  "http://cdec.water.ca.gov/reportapp/javareports?name=RES" %>% 
               readHTMLTable() %>% 
               data.frame()  

flows_part1 <- "http://cdec.water.ca.gov/reportapp/javareports?name=FNF" %>% 
               readHTMLTable() %>% 
               data.frame()


#flows_part2 <- ??

关于如何从第二个站点获取第二个 table 的任何想法（或者最初获取所有内容的更好方法？）

谢谢！

Answer 1

readHTMLTable 函数会将所有表格存储到一个列表中，然后可以从每个列表元素中提取该列表。

flows <-  readHTMLTable("http://cdec.water.ca.gov/reportapp/javareports?name=FNF", as.data.frame = TRUE)

flows_part1 <- flows[[1]]
flows_part2 <- flows[[2]]

从一个网页上抓取所有表格？

scraping all tables from a single webpage?

xml

r

rselenium