如何在 R 中用不变的 url 抓取多个页面？

Question

也就是url

我的目标是抓取评论部分。但是 url 没有改变。代码如下：

url <- "https://www.n11.com/magaza/thbilisim/magaza-yorumlari"

getreviews <- function(master_df){
  as.data.frame(
    read_html(master_df) %>% 
      html_nodes("div.commentContainer p") %>% 
      html_text()
  )
}

reviews <- url %>% 
  map(getreviews) %>%  
  bind_rows()

如何抓取具有相同 url 的多个页面？提前致谢。

Answer 1

例如，如果您使用的是 Chrome 浏览器，您可以通过转至 Chrome 开发工具（按 F12）并查找来计算每页请求的 URL在“网络”窗格中。

在上面的示例中，您会看到对于每个页面，请求的 URL 是 https://www.n11.com/component/render/sellerShopFeedbacks?page=page number&sellerId=2145005，其中 page number 是 1、2、3，...

当您单击原始 URL 底部的相关页码时，请求的 URL 会在“网络”选项卡上弹出。

因此您只需在 R 代码中增加页码即可查看后续页面。

如何在 R 中用不变的 url 抓取多个页面？

How to scrape multiple pages with an unchanging url in R?

r

rvest