正在抓取url\如何获取node.js中的动态链接

crawling url \ how to get dynamic links in node.js

web-crawler
node.js

我正在使用 js-crawler 来抓取网站，现在遇到了 CNN，its landing page links are inside 的那部分（出于某种原因动态生成的 url）。问题是爬虫并没有真正接触脚本——我应该如何解决它？除了 node.js 爬虫之外，我还应该编写自己的代码吗？是否有高级爬虫知道如何处理这种动态行为？

将我的评论变成答案：

抓取客户端生成的内容 Javascript 是一个复杂的问题，甚至 Google 都没有完全解决。

真正做到这一点的唯一方法是使用某种无头浏览器，该浏览器在您的服务器上被安全地沙盒化，页面被加载到类似浏览器的环境中，在那里它可以运行它自己的脚本并生成自己的内容，然后您可以检查结果 DOM。

即便如此，它也不一定会生成需要用户交互的内容（例如单击选项卡以显示某些内容）。

正在抓取url\如何获取node.js中的动态链接

crawling url \ how to get dynamic links in node.js

web-crawler

node.js