如何在 R 中用不变的 url 抓取多个页面?

How to scrape multiple pages with an unchanging url in R?

也就是url

我的目标是抓取评论部分。但是 url 没有改变。代码如下:

url <- "https://www.n11.com/magaza/thbilisim/magaza-yorumlari"

getreviews <- function(master_df){
  as.data.frame(
    read_html(master_df) %>% 
      html_nodes("div.commentContainer p") %>% 
      html_text()
  )
}

reviews <- url %>% 
  map(getreviews) %>%  
  bind_rows()

如何抓取具有相同 url 的多个页面? 提前致谢。

例如,如果您使用的是 Chrome 浏览器,您可以通过转至 Chrome 开发工具(按 F12)并查找来计算每页请求的 URL在“网络”窗格中。

在上面的示例中,您会看到对于每个页面,请求的 URL 是 https://www.n11.com/component/render/sellerShopFeedbacks?page=page number&sellerId=2145005,其中 page number 是 1、2、3,...

当您单击原始 URL 底部的相关页码时,请求的 URL 会在“网络”选项卡上弹出。

因此您只需在 R 代码中增加页码即可查看后续页面。