使用包含图像文件的 blob 存储在 Azure 搜索中出现内容提取问题

Content extract issue in Azure search with blob storage containing image files

我的要求是搜索 "Content inside images" 和 pdf 中的图像内容。

我选择了 blob 存储来保存所有文件。我由 pdf、xml、text、png、jpeg 等文件类型组成。

我应该能够搜索图片中的内容(即使图片在 pdf 中)。我看到 blob 存储不支持提取图像文件内容的 Microsoft 文档。

我遇到了选项 "AzureSearch_SkipContent",它将允许搜索图像(不受支持的)文件的元数据。

我的问题是,搜索图像文件的内容是不可能的,只有 blob 存储或者它甚至不可能在下面的所有存储选项中。 • Azure SQL 数据库 • SQL Azure VM 上的服务器关系数据 • Azure Cosmos 数据库 • Azure Blob 存储 • Azure Table 存储

提前致谢。

更新 2018 年 5 月 21 日

此功能现在作为 Azure 搜索的认知搜索功能的一部分提供给所有客户。

原回复:

A​​zure 搜索开始对 Azure blob 存储中的图像文件以及 PDF/扫描的 PDF 中的图像提供 OCR 支持的私人预览。 如果您想参加,请与我们联系。我将在下面添加联系信息作为评论。