正在抓取url\如何获取node.js中的动态链接
crawling url \ how to get dynamic links in node.js
我正在使用 js-crawler 来抓取网站,现在遇到了 CNN,its landing page links are inside 的那部分(出于某种原因动态生成的 url)。
问题是爬虫并没有真正接触脚本——我应该如何解决它?除了 node.js 爬虫之外,我还应该编写自己的代码吗?是否有高级爬虫知道如何处理这种动态行为?
将我的评论变成答案:
抓取客户端生成的内容 Javascript 是一个复杂的问题,甚至 Google 都没有完全解决。
真正做到这一点的唯一方法是使用某种无头浏览器,该浏览器在您的服务器上被安全地沙盒化,页面被加载到类似浏览器的环境中,在那里它可以 运行 它自己的脚本并生成自己的内容,然后您可以检查结果 DOM。
即便如此,它也不一定会生成需要用户交互的内容(例如单击选项卡以显示某些内容)。
我正在使用 js-crawler 来抓取网站,现在遇到了 CNN,its landing page links are inside 的那部分(出于某种原因动态生成的 url)。 问题是爬虫并没有真正接触脚本——我应该如何解决它?除了 node.js 爬虫之外,我还应该编写自己的代码吗?是否有高级爬虫知道如何处理这种动态行为?
将我的评论变成答案:
抓取客户端生成的内容 Javascript 是一个复杂的问题,甚至 Google 都没有完全解决。
真正做到这一点的唯一方法是使用某种无头浏览器,该浏览器在您的服务器上被安全地沙盒化,页面被加载到类似浏览器的环境中,在那里它可以 运行 它自己的脚本并生成自己的内容,然后您可以检查结果 DOM。
即便如此,它也不一定会生成需要用户交互的内容(例如单击选项卡以显示某些内容)。