如何使用 Blob 存储按需进行 Azure 搜索 运行

How to make Azure Search run on demand with Blob Storage

我正在使用 Azure 搜索自动为上传到 Blob 存储的 word 文档建立索引。我使用搜索的唯一原因是从 Word 或 PDF 文档中提取文本 (it's free and works well) - 从那时起,我从索引中读取它并将其删除。

我遇到的问题是搜索索引只能 运行 每 5 分钟 - 我需要它在 blob 上传后尽快 运行。所以我要么需要按需 运行 它(每次添加新 blob 时触发),要么弄清楚如何将 Word/PDF 文档插入索引(或如何从中提取文本)

因此流程是:

  1. 将文档上传到 blob(Azure 函数)
  2. 索引 运行s 并从文档(搜索索引器)中提取文本
  3. 定期阅读索引并提取该文本以供在其他地方使用(Azure 函数)

所以我的问题是:

一个。有没有更好的方法可以使用 Azure 从 word/pdf 文档中本地提取文本? (在这种情况下,问题 2 无效) B. 我如何使用 .NET SDK 调用 运行 的索引(我找不到 运行 方法 here),尽管有几个地方提到你可以 运行按需使用 SDK。

如果您需要 Azure Search 进行文件破解,而不需要其余的搜索和扩充功能,直接在蔚蓝函数。有许多用于文档解析的 OSS 和商业库,例如Apache Tika

example 从 Azure Functions 中使用 Tika,由我们的一位团队成员编写。