硒 |获取网页的文本
rselenium | get the text of the webpage
有没有办法从 RSelenium 中的 remoteDriver 获取纯文本?
类似于:remDr$getPlainText()
等同于 remDr$getPageSource()
.
解决方法:
我设法将 phantomJS 的 plainText 保存到一个文件中,如下所示:
require(RSelenium)
pJS <- phantom()
Sys.sleep(5) # give the binary a moment
remDr = remoteDriver(browserName = 'phantomjs')
remDr$open()
remDr$phantomExecute('var page = this;
var fs = require(\"fs\");
page.onLoadFinished = function(status) {
var txtFile = fs.open(\"url.txt\", \"w\");
txtFile.write(page.plainText);
txtFile.close();
};')
remDr$navigate(some_url)
但是我必须在后记中阅读文件...
我的解决方法类似于 https://cran.r-project.org/web/packages/RSelenium/vignettes/RSelenium-headless.html#id3b
不知道能不能解决问题
library(RSelenium)
checkForServer()
startServer()
re<-remoteDriver()
re$open()
re$navigate("link")
txt<-re$findElement(using='css selector',"body")$getElementText()
有没有办法从 RSelenium 中的 remoteDriver 获取纯文本?
类似于:remDr$getPlainText()
等同于 remDr$getPageSource()
.
解决方法:
我设法将 phantomJS 的 plainText 保存到一个文件中,如下所示:
require(RSelenium)
pJS <- phantom()
Sys.sleep(5) # give the binary a moment
remDr = remoteDriver(browserName = 'phantomjs')
remDr$open()
remDr$phantomExecute('var page = this;
var fs = require(\"fs\");
page.onLoadFinished = function(status) {
var txtFile = fs.open(\"url.txt\", \"w\");
txtFile.write(page.plainText);
txtFile.close();
};')
remDr$navigate(some_url)
但是我必须在后记中阅读文件...
我的解决方法类似于 https://cran.r-project.org/web/packages/RSelenium/vignettes/RSelenium-headless.html#id3b
不知道能不能解决问题
library(RSelenium)
checkForServer()
startServer()
re<-remoteDriver()
re$open()
re$navigate("link")
txt<-re$findElement(using='css selector',"body")$getElementText()