R:使用 RSelenium 捕获删除线文本

R: Capturing Strike-Through Text Using RSelenium

我正在使用 RSelenium 从网站抓取数据 table。使用循环遍历许多页面。

下面的代码成功地抓取了有问题的 table(虽然失去了 UTFC 格式),但是在某些情况下 table 中的条目有一个“删除线”,在这种情况下忽略删除线并执行操作的代码(如果不存在)。

示例:

but records in R as

谁能帮助我在抓取 table 时如何保留删除线信息?

我的代码抓取 table:

Data_table_html <- remDr$getPageSource()[[1]] %>% 
                                  read_html() %>%
                                  html_table(header = FALSE, fill = TRUE)

我在这上面花了好几个小时,所以任何帮助或指点都会非常有帮助,

我想在下面分享我找到的解决方案。简而言之,识别 HTML 中具有 html_attr 作为“样式”的节点就可以了:

saving <- html_nodes((remDr$getPageSource()[[1]]), xpath='your xpath') %>% html_attr("style") %>% gsub("text-decoration:line-through;", "0", .) #%>% html_table(fill=TRUE)