抓取网站特定部分的问题
Problem in scraping specific part of a website
我正在查看此网站 https://www.bcassessment.ca//Property/Info/QTAwMDAwMVYyUA== 并正在寻找网站上列出的最新价格。我想使用 rvest
包从网站正文中提取这个价格。为此,我查看了网站的 html 代码:
按照我看到的 rvest
包的说明,我使用了如下所示的代码:
library(rvest)
a <- read_html('https://www.bcassessment.ca//Property/Info/QTAwMDAwMVYyUA==')
b <- a %>% html_nodes('div class="total-value"') %>%
html_text()
b
但是,这会导致错误:Error in parse_simple_selector(stream) : Expected selector, got <DELIM '=' at 10>
。我也试过这段代码:
library(rvest)
a <- read_html('https://www.bcassessment.ca//Property/Info/QTAwMDAwMVYyUA==')
b <- a %>% html_nodes("span") %>%
html_text()
b
但是,这给了我 50 多个结果,我可以在其中找到总价。具体如何选择总价?
您可以定位存储值的标签。
library(rvest)
url <- 'https://www.bcassessment.ca//Property/Info/QTAwMDAwMVYyUA=='
url %>%
read_html %>%
html_nodes('span#lblTotalAssessedValue') %>%
html_text()
#[1] "0,900"
您可以使用readr::parse_number()
将以上值更改为数字。
我正在查看此网站 https://www.bcassessment.ca//Property/Info/QTAwMDAwMVYyUA== 并正在寻找网站上列出的最新价格。我想使用 rvest
包从网站正文中提取这个价格。为此,我查看了网站的 html 代码:
按照我看到的 rvest
包的说明,我使用了如下所示的代码:
library(rvest)
a <- read_html('https://www.bcassessment.ca//Property/Info/QTAwMDAwMVYyUA==')
b <- a %>% html_nodes('div class="total-value"') %>%
html_text()
b
但是,这会导致错误:Error in parse_simple_selector(stream) : Expected selector, got <DELIM '=' at 10>
。我也试过这段代码:
library(rvest)
a <- read_html('https://www.bcassessment.ca//Property/Info/QTAwMDAwMVYyUA==')
b <- a %>% html_nodes("span") %>%
html_text()
b
但是,这给了我 50 多个结果,我可以在其中找到总价。具体如何选择总价?
您可以定位存储值的标签。
library(rvest)
url <- 'https://www.bcassessment.ca//Property/Info/QTAwMDAwMVYyUA=='
url %>%
read_html %>%
html_nodes('span#lblTotalAssessedValue') %>%
html_text()
#[1] "0,900"
您可以使用readr::parse_number()
将以上值更改为数字。