Stormcrawler / Elasticsearch 并跟踪页面的入站链接

Stormcrawler / Elasticsearch and keeping track of inbound links to a page

当我们在 Elasticsearch 索引中搜索 Stormcrawler 爬取的结果时,人们不可避免地会将结果与 Google 进行比较,而搜索到的结果与 google 的搜索相比是不利的同一个话题。 Google 帮助确定各种页面排名的方法之一是跟踪到任何给定页面的入站链接。

在考虑我们页面上的搜索结果并查看状态索引时,我遇到了字段 url.path。 url.path 似乎包含通向当前页面的整个路径。

是否可以在索引中创建一个多值字段,该字段仅填充来自 bolt/function 生成 url.path 的最后一个 url。这样,该字段最终将成为直接链接到当前文档的所有页面的数组。

有了这些信息,您就可以计算这些值,并了解当前文档在链接到它的所有页面中的相对受欢迎程度。

Stormcrawler 可以实现类似的功能吗?

这可以通过对代码进行一些修改来实现。默认情况下,我们保留有关已发现的 URL 的信息,包括导致它的路径,仅针对被发现的 URL 的第一个实例。可能有多种实现方式,例如使用自定义螺栓将链接累积到 Redis 或图形数据库中。

您的基本问题是关于 Elasticsearch 的相关性调优。这当然取决于爬虫发送的字段,但不仅限于此。我知道一些 StormCrawler 用户将其与 ES 一起用作 Google Search Appliance 的替代品并取得了巨大成功。有关内链的信息可能会有所帮助,但没有它您应该也能获得不错的结果。