是否可以抓取暗网页面？

Is it Possible to Crawl Dark Web pages ?

到目前为止，我正在抓取来自不同来源的数据，例如直播 Twitter 和 Facebook API，并将其存储在单独的数据库中。之后，我正在使用这些大数据来了解用户行为和其他一些分析。

我想做的是相同的，但在 Dark Web Pages，我想抓取 TOR 浏览器可以访问的所有网页。我在几个博客中搜索过这样的东西，但我发现它们都是只抓取日志文件。

是否可以像我们使用社交媒体平台 API 一样抓取暗网页面？

是的，这是可能的 - 我们已经这样做了很多年。我们使用 Ubuntu 所以我们在我们的爬虫上安装了 tor:

apt get install tor

和我们的 python 脚本运行 urllib 通过端口 9050 请求针对服务的 .onion 链接。

如果您不想开发自己的爬虫，欢迎在 https://webhose.io

上试用我们的爬虫