Rvest:获取节点文本而不是其子文本
Rvest: getting node text and not its childen's text
方法html_text()
(来自 R Package rvest)连接节点的文本和它的所有子节点。我只想提取 父亲的文本 。
对于以下示例,html_text()
给出 HELLO GOODBYE。
我只想再见。我怎样才能得到它?
<div class="joke">
<div class="div_inside">
<div class="title_inside">
<a class="link" href="sompage.htm">HELLO</a>
</div>
</div>
GOODBYE
</div>
尝试使用 xpath class
"joke" 获取主 div
标签,而不获取其子标签:
library(rvest)
read_html('your_html_script') %>%
html_nodes(xpath = '//div[@class="joke"]/node()[not(self::div)]') %>%
html_text()
谢谢!
方法html_text()
(来自 R Package rvest)连接节点的文本和它的所有子节点。我只想提取 父亲的文本 。
对于以下示例,html_text()
给出 HELLO GOODBYE。
我只想再见。我怎样才能得到它?
<div class="joke">
<div class="div_inside">
<div class="title_inside">
<a class="link" href="sompage.htm">HELLO</a>
</div>
</div>
GOODBYE
</div>
尝试使用 xpath class
"joke" 获取主 div
标签,而不获取其子标签:
library(rvest)
read_html('your_html_script') %>%
html_nodes(xpath = '//div[@class="joke"]/node()[not(self::div)]') %>%
html_text()
谢谢!