cosmos 数据库以拉取方式+文件索引
cosmos database to be indexed in pull approach + files
我有项目和文件。项目和文件之间存在 1:m 关系。项目存储在关系数据库中,文件存储在文件夹中。项目和文件之间的关联存储在关系数据库中。文件可以是 pdf、word 文档、电子邮件等。我打算进行 POC 认知搜索,以便能够搜索项目和相关文档。
我目前的理解是,与使用认知搜索的推送方法相比,拉式方法可能更便宜(延迟要求不严格,最终一致性还可以)。因此,我打算将数据移动到 cosmos 数据库中,然后可以通过 pull 方法对其进行索引。很好奇,这如何与文档一起使用?我需要在 prem 上破解它们吗?
还有文档的附件和 blob 存储选项。后者很可能更适合未来。我会想,如果我将文档放入blob存储,认知搜索索引还需要破解文档和应用技巧吗?
这听起来是个不错的方法。在数据源方面,Cognitive Search 支持 CosmosDB 和 blob 存储以及一些关系数据库。我可能会:
- 在 Azure portal 中创建新的认知搜索资源。
- 在该认知搜索资源中,单击“导入数据”以创建新索引器(这是您在上面提到的“拉取”选项)。您可能想要执行两次,假设您的项目在 CosmosDB 或关系数据库中,并且您的文档单独存储在 blob 存储中。
- 第一个索引器有一个数据源,它指向您的 items/relationship 数据,无论您决定将它们放在哪个数据库中,应用您想要的任何技能,并将所有内容放入索引中。
- 第二个索引器有一个不同的数据源,它指向您在 blob 存储中的文档,应用您想要的任何技能,并将所有内容放在同一个索引中。
如果您使用索引器,它们将负责文档破解。如果直接把数据压入索引,需要自己破解文档
这给出了使用门户创建索引器的简单演练(技能集是可选的,并将数据源更改为您自己的数据):https://docs.microsoft.com/en-us/azure/search/cognitive-search-quickstart-blob
我有项目和文件。项目和文件之间存在 1:m 关系。项目存储在关系数据库中,文件存储在文件夹中。项目和文件之间的关联存储在关系数据库中。文件可以是 pdf、word 文档、电子邮件等。我打算进行 POC 认知搜索,以便能够搜索项目和相关文档。
我目前的理解是,与使用认知搜索的推送方法相比,拉式方法可能更便宜(延迟要求不严格,最终一致性还可以)。因此,我打算将数据移动到 cosmos 数据库中,然后可以通过 pull 方法对其进行索引。很好奇,这如何与文档一起使用?我需要在 prem 上破解它们吗?
还有文档的附件和 blob 存储选项。后者很可能更适合未来。我会想,如果我将文档放入blob存储,认知搜索索引还需要破解文档和应用技巧吗?
这听起来是个不错的方法。在数据源方面,Cognitive Search 支持 CosmosDB 和 blob 存储以及一些关系数据库。我可能会:
- 在 Azure portal 中创建新的认知搜索资源。
- 在该认知搜索资源中,单击“导入数据”以创建新索引器(这是您在上面提到的“拉取”选项)。您可能想要执行两次,假设您的项目在 CosmosDB 或关系数据库中,并且您的文档单独存储在 blob 存储中。
- 第一个索引器有一个数据源,它指向您的 items/relationship 数据,无论您决定将它们放在哪个数据库中,应用您想要的任何技能,并将所有内容放入索引中。
- 第二个索引器有一个不同的数据源,它指向您在 blob 存储中的文档,应用您想要的任何技能,并将所有内容放在同一个索引中。
如果您使用索引器,它们将负责文档破解。如果直接把数据压入索引,需要自己破解文档
这给出了使用门户创建索引器的简单演练(技能集是可选的,并将数据源更改为您自己的数据):https://docs.microsoft.com/en-us/azure/search/cognitive-search-quickstart-blob