是否可以抓取暗网页面?

Is it Possible to Crawl Dark Web pages ?

到目前为止,我正在抓取来自不同来源的数据,例如直播 Twitter 和 Facebook API,并将其存储在单独的数据库中。之后,我正在使用这些大数据来了解用户行为和其他一些分析。

我想做的是相同的,但在 Dark Web Pages,我想抓取 TOR 浏览器可以访问的所有网页。我在几个博客中搜索过这样的东西,但我发现它们都是只抓取日志文件。

是否可以像我们使用社交媒体平台 API 一样抓取暗网页面?

是的,这是可能的 - 我们已经这样做了很多年。我们使用 Ubuntu 所以我们在我们的爬虫上安装了 tor:

apt get install tor

和我们的 python 脚本 运行 urllib 通过端口 9050 请求针对服务的 .onion 链接。

如果您不想开发自己的爬虫,欢迎在 https://webhose.io

上试用我们的爬虫