运行在 React / Node 中效率最高的网络抓取工具

Run a web scraper most efficient in React / Node

我正在运行我的 React (MERN STACK) 网络应用程序中安装网络抓取工具。我正在使用请求承诺 (rp) 和 cheerio 库来获取 url/html.

每次用户进入 X 页面时，我都会在 componentWillMount() 中使用此方法运行。它获取的数组大约有 80-150 个元素长，有 4-5 个对象。但是每次用户进入该 X 页面时运行它似乎并不是很有效。那么有没有更好的方法呢？有时在数组 "loads" / 从 5 秒到最多 30-40 秒之前需要一段时间。

我想知道是否可行的一个选项是每 15 分钟左右（对于整个服务器）获取方法运行ning 并将其发布到我的 MongoDB，然后在用户输入时检索X 页面代替。这有可能吗？就像没有人在页面上的外部方法？

或者是否有任何脚本可以运行在您的桌面上运行每 15 分钟将数据推送到数据库？

最终使用 Heroku Scheduler 设置了一个 cron 作业，效果很好。

运行在 React / Node 中效率最高的网络抓取工具

Run a web scraper most efficient in React / Node

node.js

web-scraping

express

reactjs

mern

运行 在 React / Node 中效率最高的网络抓取工具

Run a web scraper most efficient in React / Node

node.js

web-scraping

express

reactjs

mern

运行在 React / Node 中效率最高的网络抓取工具