cosmos 数据库以拉取方式+文件索引

cosmos database to be indexed in pull approach + files

我有项目和文件。项目和文件之间存在 1:m 关系。项目存储在关系数据库中，文件存储在文件夹中。项目和文件之间的关联存储在关系数据库中。文件可以是 pdf、word 文档、电子邮件等。我打算进行 POC 认知搜索，以便能够搜索项目和相关文档。

我目前的理解是，与使用认知搜索的推送方法相比，拉式方法可能更便宜（延迟要求不严格，最终一致性还可以）。因此，我打算将数据移动到 cosmos 数据库中，然后可以通过 pull 方法对其进行索引。很好奇，这如何与文档一起使用？我需要在 prem 上破解它们吗？

还有文档的附件和 blob 存储选项。后者很可能更适合未来。我会想，如果我将文档放入blob存储，认知搜索索引还需要破解文档和应用技巧吗？

这听起来是个不错的方法。在数据源方面，Cognitive Search 支持 CosmosDB 和 blob 存储以及一些关系数据库。我可能会：

在 Azure portal 中创建新的认知搜索资源。
在该认知搜索资源中，单击“导入数据”以创建新索引器（这是您在上面提到的“拉取”选项）。您可能想要执行两次，假设您的项目在 CosmosDB 或关系数据库中，并且您的文档单独存储在 blob 存储中。
第一个索引器有一个数据源，它指向您的 items/relationship 数据，无论您决定将它们放在哪个数据库中，应用您想要的任何技能，并将所有内容放入索引中。
第二个索引器有一个不同的数据源，它指向您在 blob 存储中的文档，应用您想要的任何技能，并将所有内容放在同一个索引中。

如果您使用索引器，它们将负责文档破解。如果直接把数据压入索引，需要自己破解文档

这给出了使用门户创建索引器的简单演练（技能集是可选的，并将数据源更改为您自己的数据）：https://docs.microsoft.com/en-us/azure/search/cognitive-search-quickstart-blob