Web 抓取:使用 RVEST 在 R 中提取文本
Web scraping: Extract text in R using RVEST
我正在使用 R 为大学工作,如何使用 RVEST 包提取信息“| 20 de Novembro de 2015”?我试图获得 class "widget-info" 但也带来了 "widget-author" class
<div class="home-list-content">
<span class="widget-info">
<span class="widget-author">
Rúben Campanacho
</span>
| 20 de Novembro de 2015
</span>
<h2>
LG Pay é o sistema de pagamentos móveis da LG
</h2>
</div>
我的代码:
pagina <- read_html("http://www.tecnologia.com.pt")
data <- pagina %>%
html_nodes(".widget-info") %>%
html_text() %>%
as.data.frame()
结果:
Rúben Campanacho | 20 de Novembro de 2015
我只想要 | 2015 年 11 月 20 日
txt <- 'Rúben Campanacho | 20 de Novembro de 2015'
gsub('^((\w+)[[:space:]]){2}', '', txt)
Returns:
"| 20 de Novembro de 2015"
我正在使用 R 为大学工作,如何使用 RVEST 包提取信息“| 20 de Novembro de 2015”?我试图获得 class "widget-info" 但也带来了 "widget-author" class
<div class="home-list-content">
<span class="widget-info">
<span class="widget-author">
Rúben Campanacho
</span>
| 20 de Novembro de 2015
</span>
<h2>
LG Pay é o sistema de pagamentos móveis da LG
</h2>
</div>
我的代码:
pagina <- read_html("http://www.tecnologia.com.pt")
data <- pagina %>%
html_nodes(".widget-info") %>%
html_text() %>%
as.data.frame()
结果:
Rúben Campanacho | 20 de Novembro de 2015
我只想要 | 2015 年 11 月 20 日
txt <- 'Rúben Campanacho | 20 de Novembro de 2015'
gsub('^((\w+)[[:space:]]){2}', '', txt)
Returns:
"| 20 de Novembro de 2015"