抓取网站特定部分的问题

Question

我正在查看此网站 https://www.bcassessment.ca//Property/Info/QTAwMDAwMVYyUA== 并正在寻找网站上列出的最新价格。我想使用 rvest 包从网站正文中提取这个价格。为此，我查看了网站的 html 代码：

按照我看到的 rvest 包的说明，我使用了如下所示的代码：

library(rvest)
a <- read_html('https://www.bcassessment.ca//Property/Info/QTAwMDAwMVYyUA==')
b <- a %>% html_nodes('div class="total-value"') %>% 
  html_text()
b

但是，这会导致错误：Error in parse_simple_selector(stream) : Expected selector, got <DELIM '=' at 10>。我也试过这段代码：

library(rvest)
a <- read_html('https://www.bcassessment.ca//Property/Info/QTAwMDAwMVYyUA==')
b <- a %>% html_nodes("span") %>% 
  html_text()
b

但是，这给了我 50 多个结果，我可以在其中找到总价。具体如何选择总价？

Answer 1

您可以定位存储值的标签。

library(rvest)

url <- 'https://www.bcassessment.ca//Property/Info/QTAwMDAwMVYyUA=='
url %>%
  read_html %>%
  html_nodes('span#lblTotalAssessedValue') %>%
  html_text()

#[1] "0,900"

您可以使用readr::parse_number()将以上值更改为数字。

抓取网站特定部分的问题

Problem in scraping specific part of a website

html

r

web-scraping

rvest