如何创建一个搜索引擎,没有任何开始 URL
How to create a search engine, without any starting URL
我正在学习 scrapy 来创建一个搜索引擎。根据我的理解,如果我想创建一个搜索引擎,那么我需要做的第一件事就是抓取 Internet 并将其缓存到我的服务器。现在为了抓取,我需要一个 URL,通过它我将转到下一个,下一个等等。
但是如果我没有起始 URL 并且我想搜索我想要的内容怎么办?
如果您没有首发URL,一个想法可能是选择一个。对我来说,这听起来像是你迷路了。
要抓取您需要向其他网站发出 HTTP 请求的内容,如果您没有 URL,则无法向其他网站发出 HTTP 请求。
这就像试图绘制物理世界中您周围的每条道路。如果你不指定起点,你能期待什么?
和this question I found that You can't hide your IP address on the internet. They aren't secret.
我编写了一个脚本并循环遍历 IP 地址,找到要传递给 Scrapy 的网站名称。这就是我需要的。
我正在学习 scrapy 来创建一个搜索引擎。根据我的理解,如果我想创建一个搜索引擎,那么我需要做的第一件事就是抓取 Internet 并将其缓存到我的服务器。现在为了抓取,我需要一个 URL,通过它我将转到下一个,下一个等等。 但是如果我没有起始 URL 并且我想搜索我想要的内容怎么办?
如果您没有首发URL,一个想法可能是选择一个。对我来说,这听起来像是你迷路了。
要抓取您需要向其他网站发出 HTTP 请求的内容,如果您没有 URL,则无法向其他网站发出 HTTP 请求。
这就像试图绘制物理世界中您周围的每条道路。如果你不指定起点,你能期待什么?
和this question I found that You can't hide your IP address on the internet. They aren't secret.
我编写了一个脚本并循环遍历 IP 地址,找到要传递给 Scrapy 的网站名称。这就是我需要的。