R:使用 RSelenium 捕获删除线文本
R: Capturing Strike-Through Text Using RSelenium
我正在使用 RSelenium 从网站抓取数据 table。使用循环遍历许多页面。
下面的代码成功地抓取了有问题的 table(虽然失去了 UTFC 格式),但是在某些情况下 table 中的条目有一个“删除线”,在这种情况下忽略删除线并执行操作的代码(如果不存在)。
示例:
but records in R as
谁能帮助我在抓取 table 时如何保留删除线信息?
我的代码抓取 table:
Data_table_html <- remDr$getPageSource()[[1]] %>%
read_html() %>%
html_table(header = FALSE, fill = TRUE)
我在这上面花了好几个小时,所以任何帮助或指点都会非常有帮助,
我想在下面分享我找到的解决方案。简而言之,识别 HTML 中具有 html_attr 作为“样式”的节点就可以了:
saving <- html_nodes((remDr$getPageSource()[[1]]), xpath='your xpath') %>% html_attr("style") %>% gsub("text-decoration:line-through;", "0", .) #%>% html_table(fill=TRUE)
我正在使用 RSelenium 从网站抓取数据 table。使用循环遍历许多页面。
下面的代码成功地抓取了有问题的 table(虽然失去了 UTFC 格式),但是在某些情况下 table 中的条目有一个“删除线”,在这种情况下忽略删除线并执行操作的代码(如果不存在)。
示例:
谁能帮助我在抓取 table 时如何保留删除线信息?
我的代码抓取 table:
Data_table_html <- remDr$getPageSource()[[1]] %>%
read_html() %>%
html_table(header = FALSE, fill = TRUE)
我在这上面花了好几个小时,所以任何帮助或指点都会非常有帮助,
我想在下面分享我找到的解决方案。简而言之,识别 HTML 中具有 html_attr 作为“样式”的节点就可以了:
saving <- html_nodes((remDr$getPageSource()[[1]]), xpath='your xpath') %>% html_attr("style") %>% gsub("text-decoration:line-through;", "0", .) #%>% html_table(fill=TRUE)