Apache solr：新 schema.xml 或单一预定义 xml 数据格式

Question

我正在尝试使用 solr.For 创建一个搜索引擎，我首先从维基百科页面文章转储开始。

现在我浏览了 solrs 文档将近一半，但无法回答我下面的几个疑问？

1- 我发现我需要创建 schema.xml，使用它来执行数据的标记化和提取。对于一个数据源，它似乎很好，但是我是否应该在每次添加新数据源时都写这个schema.xml。

2- 如果 1 的答案是肯定的（即您每次都需要单独编写 schema.xml），那么每当我添加新的数据源时我都必须添加新的核心 impractical.So我的问题是 Google、Bing 和其他搜索引擎如何实现它。

3- 如果 1 的答案是否定的，那么我认为可能的方法是我可以将来自不同来源的信息隐藏为一种通用格式，我将发送该格式以供索引到 Sorl？

请告诉我搜索引擎是如何构建的？应该采用什么方法？

我一直在寻找一些文章来解决我的问题，但没有获得有关该方法的相关信息。

Answer 1

在搜索世界中，大多数数据都是非结构化或半结构化的。因此，定义一个单一的通用模式将非常困难。我假设您必须清楚地知道您将索引到 solr 的所有不同类型的数据集。这将使您对可以在 solr 架构配置中声明的 basic/common 字段有所了解。

Solr 为使用 Dynamic Fields 定义未知字段的模式提供了很大的灵活性。 Dynamic Fields 除了名称以通配符结尾外，在所有方面都与常规字段相同。因此，它们可以容纳我们目前不知道的传入数据中的大量未知字段。以下可以索引任何以 t.

结尾的内容

<dynamicField name="*_t" type="text_general" indexed="true" stored="true" />

另一种方法是使用 solr 的 Schema-less 模式。在这种模式下，solr 会不断猜测字段类型并将它们添加到托管架构文件中。您甚至可以使用这种方法来了解不同数据集的性质（模式），然后使用这些见解，为产品的最终版本创建接近稳定的模式。这可以帮助您在数据集中发现更多未知数。

Apache solr: new schema.xml or single predefined xml data format