用 R 抓取 HTML table

Question

我正在尝试使用 rvest 包从这个 URL 中删除 11 列 table：https://www.iexindia.com/marketdata/rtm_market_snapshot.aspx

到目前为止，我一直在尝试使用以下代码：

mrkt_snpshot <- read_html("https://www.iexindia.com/marketdata/rtm_market_snapshot.aspx")

my_data <- mrkt_snpshot %>%
  html_nodes("table") %>%
  html_table(fill=T)

这将返回 URL 上 27 HTML table 的列表作为数据框，其中一些有多达 831 个变量。我也用过这个：

my_data <- mrkt_snpshot %>%
  html_node("table.Ab7d468cb4fc14dedb1fcfeae435d33ac132") %>%
  html_table()

但这只是 returns 一个空列表。

我需要帮助来提取 table 数据可用的每个日期的 11 列。如果可能的话，我还需要在每天结束时自动执行此操作以提取数据。

谢谢！

Answer 1

这将为您提供 table 您正在寻找的：

library(rvest)
mrkt_snpshot %>%
  html_nodes("table") %>%
  html_table(fill=T) %>% 
  .[[24]]

用 R 抓取 HTML table

Scrape HTML table with R

r

web-scraping

rvest