使用 R 和 Rvest 抓取和提取 XML 个站点地图元素
Scraping and extracting XML sitemap elements using R and Rvest
我需要使用 Rvest 从多个 xml 文件中提取大量 XML 站点地图元素。我已经能够使用 xpaths 从网页中提取 html_nodes,但是对于 xml 文件,这对我来说是新的。
而且,我找不到让我解析 xml 文件地址而不是解析 XML 的大文本块的 Whosebug 问题。
我用于 html 的示例:
library(dplyr)
library(rvest)
webpage <- "https://www.example.co.uk/"
data <- webpage %>%
read_html() %>%
html_nodes("any given node goes here") %>%
html_text()
我如何调整它以从 XML 文件(解析地址)中获取 "loc" XML 文件元素,如下所示:
<urlset>
<url>
<loc>https://www.example.co.uk/</loc>
<lastmod>2020-05-01</lastmod>
<changefreq>always</changefreq>
<priority>0.8</priority>
</url>
<url>
<loc>https://www.example.co.uk/news</loc>
<changefreq>always</changefreq>
<priority>0.6</priority>
</url>
<url>
<loc>https://www.example.co.uk/news/uk</loc>
<changefreq>always</changefreq>
<priority>0.5</priority>
</url>
<url>
<loc>https://www.example.co.uk/news/weather</loc>
<changefreq>always</changefreq>
<priority>0.5</priority>
</url>
<url>
<loc>https://www.example.co.uk/news/world</loc>
<changefreq>always</changefreq>
<priority>0.5</priority>
</url>
这是我在 Dave 提供的脚本中所做的更改:
library(xml2)
#list of files to process
fnames<-c("xml1.xml")
dfs<-lapply(fnames, function(fname) {
doc<-read_xml(fname)
#find loc and lastmod
loc<-trimws(xml_text(xml_find_all(doc, ".//loc")))
lastmod<-trimws(xml_text(xml_find_all(doc, ".//last")))
#find all of the nodes/records under the urlset node
nodes<-xml_children(xml_find_all(doc, ".//urlset"))
#find the sub nodes names and values
nodenames<-xml_name(nodes)
nodevalues<-trimws(xml_text(nodes))
#make data frame of all the values
df<-data.frame(file=fname, loc=loc, lastmod=lastmod, node.names=nodenames,
values=nodevalues, stringsAsFactors = FALSE, nrow(0))
})
#Make one long df
longdf<-do.call(rbind, dfs)
#make into a wide format
library(tidyr)
finalanswer<-spread(longdf, key=node.names, value=values)
由于每个 url 节点的 children 数量不同是一种工作方法:
file<-read_xml(text)
library(dplyr)
#find parent nodes
parents <-xml_find_all(file, ".//url")
#parse each child
dfs<-lapply(parents, function(node){
#Find all children
nodes <- xml_children(node)
#get node name and value
nodenames<- xml_name(nodes)
values <- xml_text(nodes)
#made data frame with results
df<- as.data.frame(t(values), stringsAsFactors=FALSE)
names(df)<-nodenames
df
})
#Make find answer
answer<-bind_rows(dfs)
由于您有多个文件,您可以将脚本包含在一个外部循环中以在文件列表中循环。当然是循环中的循环,因此如果每个文件中有大量文件和大量 parent 节点,性能将会受到影响。
备选方案:如果children个节点数量少那么最好直接解析,避免上面的lapply循环
loc <- xml_find_first(parents, ".//loc") %>% xml_text()
lastmod <- xml_find_first(parents, ".//lastmod") %>% xml_text()
changefreq <- xml_find_first(parents, ".//changefreq") %>% xml_text()
priority <- xml_find_first(parents, ".//priority") %>% xml_text()
answer<-data.frame(loc, lastmod, chargefreq, priority)
我有一段前段时间写的代码,用于检查文件中的所有 XML 并收集 XML 模式的特定节点,稍微调整一下,您也许可以使用一些东西。
library("xml2")
library("XML")
setwd("/xml")
dir <- dir()
tabela=matrix(NA,nrow=length(a),ncol=1)
for(i in 1:length(dir)){
visitNode <- function(node) {#Recursive Function to visit the XML tree (depth first)
if (is.null(node)) {#leaf node reached. Turn back
return()
}
print(paste("Node: ", xmlName(node)))
num.children = xmlSize(node)
if(num.children == 0 ) {# Add your code to process the leaf node here
print( paste(" ", xmlValue(node)))
}
if (num.children > 0){#Go one level deeper
for (i in 1 : num.children) {
visitNode(node[[i]][["NFe"]]) #the i-th child of node
}
}
}
xmlfile <- dir[i]
xtree <- xmlInternalTreeParse(xmlfile)
root <- xmlRoot(xtree)
dataxml <- visitNode(root)
dataxml <- xmlToList(root)
df<- as.data.frame(matrix(unlist(dataxml$NFe$infNFe$infAdic$infCpl), nrow=length(dataxml$NFe$infNFe$infAdic$infCpl),byrow=TRUE))
我需要使用 Rvest 从多个 xml 文件中提取大量 XML 站点地图元素。我已经能够使用 xpaths 从网页中提取 html_nodes,但是对于 xml 文件,这对我来说是新的。
而且,我找不到让我解析 xml 文件地址而不是解析 XML 的大文本块的 Whosebug 问题。
我用于 html 的示例:
library(dplyr)
library(rvest)
webpage <- "https://www.example.co.uk/"
data <- webpage %>%
read_html() %>%
html_nodes("any given node goes here") %>%
html_text()
我如何调整它以从 XML 文件(解析地址)中获取 "loc" XML 文件元素,如下所示:
<urlset>
<url>
<loc>https://www.example.co.uk/</loc>
<lastmod>2020-05-01</lastmod>
<changefreq>always</changefreq>
<priority>0.8</priority>
</url>
<url>
<loc>https://www.example.co.uk/news</loc>
<changefreq>always</changefreq>
<priority>0.6</priority>
</url>
<url>
<loc>https://www.example.co.uk/news/uk</loc>
<changefreq>always</changefreq>
<priority>0.5</priority>
</url>
<url>
<loc>https://www.example.co.uk/news/weather</loc>
<changefreq>always</changefreq>
<priority>0.5</priority>
</url>
<url>
<loc>https://www.example.co.uk/news/world</loc>
<changefreq>always</changefreq>
<priority>0.5</priority>
</url>
这是我在 Dave 提供的脚本中所做的更改:
library(xml2)
#list of files to process
fnames<-c("xml1.xml")
dfs<-lapply(fnames, function(fname) {
doc<-read_xml(fname)
#find loc and lastmod
loc<-trimws(xml_text(xml_find_all(doc, ".//loc")))
lastmod<-trimws(xml_text(xml_find_all(doc, ".//last")))
#find all of the nodes/records under the urlset node
nodes<-xml_children(xml_find_all(doc, ".//urlset"))
#find the sub nodes names and values
nodenames<-xml_name(nodes)
nodevalues<-trimws(xml_text(nodes))
#make data frame of all the values
df<-data.frame(file=fname, loc=loc, lastmod=lastmod, node.names=nodenames,
values=nodevalues, stringsAsFactors = FALSE, nrow(0))
})
#Make one long df
longdf<-do.call(rbind, dfs)
#make into a wide format
library(tidyr)
finalanswer<-spread(longdf, key=node.names, value=values)
由于每个 url 节点的 children 数量不同是一种工作方法:
file<-read_xml(text)
library(dplyr)
#find parent nodes
parents <-xml_find_all(file, ".//url")
#parse each child
dfs<-lapply(parents, function(node){
#Find all children
nodes <- xml_children(node)
#get node name and value
nodenames<- xml_name(nodes)
values <- xml_text(nodes)
#made data frame with results
df<- as.data.frame(t(values), stringsAsFactors=FALSE)
names(df)<-nodenames
df
})
#Make find answer
answer<-bind_rows(dfs)
由于您有多个文件,您可以将脚本包含在一个外部循环中以在文件列表中循环。当然是循环中的循环,因此如果每个文件中有大量文件和大量 parent 节点,性能将会受到影响。
备选方案:如果children个节点数量少那么最好直接解析,避免上面的lapply循环
loc <- xml_find_first(parents, ".//loc") %>% xml_text()
lastmod <- xml_find_first(parents, ".//lastmod") %>% xml_text()
changefreq <- xml_find_first(parents, ".//changefreq") %>% xml_text()
priority <- xml_find_first(parents, ".//priority") %>% xml_text()
answer<-data.frame(loc, lastmod, chargefreq, priority)
我有一段前段时间写的代码,用于检查文件中的所有 XML 并收集 XML 模式的特定节点,稍微调整一下,您也许可以使用一些东西。
library("xml2")
library("XML")
setwd("/xml")
dir <- dir()
tabela=matrix(NA,nrow=length(a),ncol=1)
for(i in 1:length(dir)){
visitNode <- function(node) {#Recursive Function to visit the XML tree (depth first)
if (is.null(node)) {#leaf node reached. Turn back
return()
}
print(paste("Node: ", xmlName(node)))
num.children = xmlSize(node)
if(num.children == 0 ) {# Add your code to process the leaf node here
print( paste(" ", xmlValue(node)))
}
if (num.children > 0){#Go one level deeper
for (i in 1 : num.children) {
visitNode(node[[i]][["NFe"]]) #the i-th child of node
}
}
}
xmlfile <- dir[i]
xtree <- xmlInternalTreeParse(xmlfile)
root <- xmlRoot(xtree)
dataxml <- visitNode(root)
dataxml <- xmlToList(root)
df<- as.data.frame(matrix(unlist(dataxml$NFe$infNFe$infAdic$infCpl), nrow=length(dataxml$NFe$infNFe$infAdic$infCpl),byrow=TRUE))