如何使用 rvest 从 div 中提取 <b> 标签?

How do I extract <b> tag from a div using rvest?

我有这个html:

<div class="monty">album: <b>And Now For Something Completely Different</b> (1998)</div>

我目前正在使用这个 xpath 来查找它:

    for_monty <- rvest::html_node(for_html_code, xpath = "/html/body/div[2]/div/div[2]/div[11]/div[1]/b")

但并非所有页面都有此 div 编号,因此有时它不会抓取任何内容。唯一永久的 class 是 monty,我只想从 div.

中拉出 <b> 标签

听起来你的 xpath 应该是 //div[@class='monty']/b

我们可以尝试将其作为您自己代码段的完整代表:

library(rvest)
#> Loading required package: xml2

html <- "<div class=\"monty\">album: <b>And Now For Something Completely Different</b> (1998)</div>"

read_html(html) %>% 
  html_nodes(xpath = "//div[@class='monty']/b")
#> {xml_nodeset (1)}
#> [1] <b>And Now For Something Completely Different</b>

reprex package (v0.3.0)

于 2020-12-14 创建