在 PDF blob 中搜索关键字 - Azure 搜索

Search keywords in PDF blob - Azure Search

我正在尝试搜索 PDF 文档元数据中包含的关键字。我不确定这是否可能。任何指导将不胜感激!

这是我所指的 PDF 中 keywords/tags 的示例

我知道可以将字段添加到搜索索引,但不确定如何映射它。我尝试了以下但没有用。

关键字标签不是我们通过 metadata_ 格式支持的标签之一(已列出 here)。如果你在索引中添加一个名为 "Keywords" 的字段,它会提取它吗?另外,如果你在 Azure 存储资源管理器之类的东西中查看 PDF 的属性,我假设这个关键字元数据仍然存在并且它被称为 "Keywords"。如果没有,这可能会提供一些额外的见解。

关键字元数据的工作方式如下 -

  1. 向 pdf 文件添加关键字(元数据)将不起作用,因为 pdf 仅支持 selected 自定义元数据标签。 请参阅此文档 - https://docs.microsoft.com/en-us/azure/search/search-howto-indexing-azure-blob-storage

  2. 解决此问题的方法是将元数据标记添加到 pdf 文件 blob 本身。

  3. 我们在 azure 中为 ("All Metadata"/Storage Metadata) 创建索引后,该键开始出现在字段名称列表下方 select(search/retrieve/filter ETC。)。

  4. 现在终于可以搜索自定义关键字了。