rvest:如何找到 HTML 页面中使用的所有 类?
rvest: how to find all classes used in an HTML page?
我想找到下面网页中使用的所有 classes。这对 rvest 来说可能吗?还是我需要一些 regex/grepl?
一旦我知道 class 的名称,我就可以抓取信息,但是对于具有动态构建的 class 名称的页面,对使用的 class es 进行概述会很方便。
library(rvest)
doc_url<-"http://curia.europa.eu/juris/document/document.jsf?text=&docid=160583&pageIndex=0&doclang=fr&mode=req&dir=&occ=first&part=1&cid=676771"
page<-read_html(doc_url)
language<- page%>%html_nodes(".C49FootnoteLangue")%>%html_text()
将@hadley 的评论转换为 CW 答案,您可以使用 *
通配符获得所有 类 的向量。
因此,该方法看起来像:
page <- read_html(doc_url)
page %>%
html_nodes("*") %>%
html_attr("class") %>%
unique()
# [1] NA "component" "waitBlock"
# [4] "waitBlockContainer" "toggle_img" "btn_impression"
# [7] "document_language" "outputEcli" "C19Centre"
# [10] "C71Indicateur" "C02AlineaAltA" "C72Alineadroite"
# [13] "C75Debutdesmotifs" "C01PointnumeroteAltN" "C04Titre1"
# [16] "C03Tiretlong" "C05Titre2" "C06Titre3"
# [19] "C07Titre4" "C48DispositifIntroduction" "C08Dispositif"
# [22] "C77Signatures" "C49FootnoteLangue"
我想找到下面网页中使用的所有 classes。这对 rvest 来说可能吗?还是我需要一些 regex/grepl? 一旦我知道 class 的名称,我就可以抓取信息,但是对于具有动态构建的 class 名称的页面,对使用的 class es 进行概述会很方便。
library(rvest)
doc_url<-"http://curia.europa.eu/juris/document/document.jsf?text=&docid=160583&pageIndex=0&doclang=fr&mode=req&dir=&occ=first&part=1&cid=676771"
page<-read_html(doc_url)
language<- page%>%html_nodes(".C49FootnoteLangue")%>%html_text()
将@hadley 的评论转换为 CW 答案,您可以使用 *
通配符获得所有 类 的向量。
因此,该方法看起来像:
page <- read_html(doc_url)
page %>%
html_nodes("*") %>%
html_attr("class") %>%
unique()
# [1] NA "component" "waitBlock"
# [4] "waitBlockContainer" "toggle_img" "btn_impression"
# [7] "document_language" "outputEcli" "C19Centre"
# [10] "C71Indicateur" "C02AlineaAltA" "C72Alineadroite"
# [13] "C75Debutdesmotifs" "C01PointnumeroteAltN" "C04Titre1"
# [16] "C03Tiretlong" "C05Titre2" "C06Titre3"
# [19] "C07Titre4" "C48DispositifIntroduction" "C08Dispositif"
# [22] "C77Signatures" "C49FootnoteLangue"