网页抓取 - Table 名称
Web Scraping - Table Name
网络抓取新手。
我正在尝试抓取网站。我最近学习了如何从table中获取信息,但我想知道如何获取table名称。 (我相信 table 名字在这里可能是错误的,但请耐心等待)
例如 - https://www.msc.com/che/about-us/our-fleet?page=1
MSC 是一家航运公司,我需要获得他们的船队名单和每艘船的信息。
我编写了以下代码来检索每艘船的 table 数据。
df <- MSCwp[i,1] %>%
read_html() %>% html_table()
MSCwp 是列表 url。此代码为我提供了我需要的关于网页中所列船只的所有信息,除了它的名字。
有什么方法可以检索名称以及 table?
例如 - 上述网站的 df 将 return 10 tables。 (对应网页中的船只)。 df[1] 将包含有关 Agamemnon 船的信息,但我不确定如何检索船名以及 table。
您需要从主页中拉出名称。
library(rvest)
library(dplyr)
url <- "https://www.msc.com/che/about-us/our-fleet?page=1"
page <- read_html(url)
names <- page %>% html_elements("dd a") %>% html_text()
names
[1] "AGAMEMNON" "AGIOS DIMITRIOS" "ALABAMA" "ALLEGRO" "AMALTHEA" "AMERICA" "ANASTASIA"
[8] "ANTWERP TRADER" "ARCHIMIDIS" "ARIES"
在这种情况下,我正在寻找“dd”节点的“a”子节点中的文本。
网络抓取新手。
我正在尝试抓取网站。我最近学习了如何从table中获取信息,但我想知道如何获取table名称。 (我相信 table 名字在这里可能是错误的,但请耐心等待)
例如 - https://www.msc.com/che/about-us/our-fleet?page=1
MSC 是一家航运公司,我需要获得他们的船队名单和每艘船的信息。 我编写了以下代码来检索每艘船的 table 数据。
df <- MSCwp[i,1] %>%
read_html() %>% html_table()
MSCwp 是列表 url。此代码为我提供了我需要的关于网页中所列船只的所有信息,除了它的名字。
有什么方法可以检索名称以及 table?
例如 - 上述网站的 df 将 return 10 tables。 (对应网页中的船只)。 df[1] 将包含有关 Agamemnon 船的信息,但我不确定如何检索船名以及 table。
您需要从主页中拉出名称。
library(rvest)
library(dplyr)
url <- "https://www.msc.com/che/about-us/our-fleet?page=1"
page <- read_html(url)
names <- page %>% html_elements("dd a") %>% html_text()
names
[1] "AGAMEMNON" "AGIOS DIMITRIOS" "ALABAMA" "ALLEGRO" "AMALTHEA" "AMERICA" "ANASTASIA"
[8] "ANTWERP TRADER" "ARCHIMIDIS" "ARIES"
在这种情况下,我正在寻找“dd”节点的“a”子节点中的文本。