R 没有将 URL 从数据读入网络爬虫

Question

各位专业人士大家好，

我创建了一个 csv，其中包含城市和相应的 Tripadvisor_Urls。如果我现在在我的列表中搜索特定的 link，例如这里到慕尼黑，子集函数会弹出 URL。现在我尝试使用 read_html 读取存储在 search_url 下的 URL。可惜没有成功。

我的代码的相关部分如下。

search_url <- subset(data, city %in% "München", select = url)
pages <- read_html(search_url)

pages <- pages %>% 
  html_nodes("._15_ydu6b") %>% 
  html_attr('href')

当我运行 search_url 我得到以下输出：

https://www.tripadvisor.de/Restaurants-g187323-Berlin.html

但是当我使用上面的代码，想执行read_html的时候，出现如下错误：

Error in UseMethod("read_xml") : 
  no applicable method for 'read_xml' applied to an object of class "data.frame"

我现在已经花了几个小时在上面，但不幸的是我没有在任何地方收到合适的小费。如果你能在这里帮助我，那就太好了。

Answer 1

那是因为subset()的结果在这里是一个数据框，虽然真正的结果只是一个字符串。用 mtcars:

检查这个简单的例子

# this will be data.frame although the result is one numeric value 21.4
class(subset(mtcars, disp == 258, select = mpg))
# [1] "data.frame"

所以你可能可以使用

pages <- read_html(as.character(search_url))

如果你确定你的子集returns只有1个字符值，否则

pages <- read_html(search_url[1, 1])

对于子集的第一个结果也应该有效。

R 没有将 URL 从数据读入网络爬虫

R doesn't read in URL from data into Web-Crawler

r

web-crawler

web-scraping