是否可以抓取暗网页面?
Is it Possible to Crawl Dark Web pages ?
到目前为止,我正在抓取来自不同来源的数据,例如直播 Twitter 和 Facebook API,并将其存储在单独的数据库中。之后,我正在使用这些大数据来了解用户行为和其他一些分析。
我想做的是相同的,但在 Dark Web Pages,我想抓取 TOR 浏览器可以访问的所有网页。我在几个博客中搜索过这样的东西,但我发现它们都是只抓取日志文件。
是否可以像我们使用社交媒体平台 API 一样抓取暗网页面?
是的,这是可能的 - 我们已经这样做了很多年。我们使用 Ubuntu 所以我们在我们的爬虫上安装了 tor:
apt get install tor
和我们的 python 脚本 运行 urllib
通过端口 9050 请求针对服务的 .onion 链接。
如果您不想开发自己的爬虫,欢迎在 https://webhose.io
上试用我们的爬虫
到目前为止,我正在抓取来自不同来源的数据,例如直播 Twitter 和 Facebook API,并将其存储在单独的数据库中。之后,我正在使用这些大数据来了解用户行为和其他一些分析。
我想做的是相同的,但在 Dark Web Pages,我想抓取 TOR 浏览器可以访问的所有网页。我在几个博客中搜索过这样的东西,但我发现它们都是只抓取日志文件。
是否可以像我们使用社交媒体平台 API 一样抓取暗网页面?
是的,这是可能的 - 我们已经这样做了很多年。我们使用 Ubuntu 所以我们在我们的爬虫上安装了 tor:
apt get install tor
和我们的 python 脚本 运行 urllib
通过端口 9050 请求针对服务的 .onion 链接。
如果您不想开发自己的爬虫,欢迎在 https://webhose.io
上试用我们的爬虫