Web 抓取：使用 RVEST 在 R 中提取文本

Question

我正在使用 R 为大学工作，如何使用 RVEST 包提取信息“| 20 de Novembro de 2015”？我试图获得 class "widget-info" 但也带来了 "widget-author" class

<div class="home-list-content">
            <span class="widget-info">
                <span class="widget-author">
                    Rúben Campanacho
                </span> 
                | 20 de Novembro de 2015
            </span>
            <h2>
                LG Pay é o sistema de pagamentos móveis da LG
            </h2>
        </div>

我的代码：

pagina <- read_html("http://www.tecnologia.com.pt")
    data <- pagina %>% 
      html_nodes(".widget-info") %>%
      html_text() %>%
      as.data.frame()

结果：

Rúben Campanacho | 20 de Novembro de 2015

我只想要 | 2015 年 11 月 20 日

Answer 1

txt <- 'Rúben Campanacho | 20 de Novembro de 2015'

gsub('^((\w+)[[:space:]]){2}', '', txt)

Returns:

"| 20 de Novembro de 2015"

Web 抓取：使用 RVEST 在 R 中提取文本

Web scraping: Extract text in R using RVEST

r

web-scraping

rvest