网页抓取 - Table 名称

Question

网络抓取新手。

我正在尝试抓取网站。我最近学习了如何从table中获取信息，但我想知道如何获取table名称。（我相信 table 名字在这里可能是错误的，但请耐心等待）

例如 - https://www.msc.com/che/about-us/our-fleet?page=1

MSC 是一家航运公司，我需要获得他们的船队名单和每艘船的信息。我编写了以下代码来检索每艘船的 table 数据。

df <- MSCwp[i,1] %>% 
    read_html() %>% html_table()

MSCwp 是列表 url。此代码为我提供了我需要的关于网页中所列船只的所有信息，除了它的名字。

有什么方法可以检索名称以及 table？

例如 - 上述网站的 df 将 return 10 tables。（对应网页中的船只）。 df[1] 将包含有关 Agamemnon 船的信息，但我不确定如何检索船名以及 table。

Answer 1

您需要从主页中拉出名称。

library(rvest)
library(dplyr) 

url <- "https://www.msc.com/che/about-us/our-fleet?page=1"
page <- read_html(url)

names <- page %>% html_elements("dd a") %>% html_text()  
names

[1] "AGAMEMNON"       "AGIOS DIMITRIOS" "ALABAMA"         "ALLEGRO"         "AMALTHEA"        "AMERICA"         "ANASTASIA"      
[8] "ANTWERP TRADER"  "ARCHIMIDIS"      "ARIES"

在这种情况下，我正在寻找“dd”节点的“a”子节点中的文本。

网页抓取 - Table 名称

Web Scraping - Table Name

r

web-scraping