使用 Azure 搜索 blob 提取器处理大文件

Handling large files with Azure search blob extractor

从 Blob 提取器接收到文件对于当前层来说太大的错误,这是基本的。我将升级到更高级别,但我注意到当前最大大小为 256MB。

当我有主要是视频和音频的 PPTX 文件,但有我感兴趣的文本时,有没有办法为这些文件编制索引? blob 提取器最大文件大小的实际含义是什么?

我可以告诉提取器只提取前 X MB 或字符然后停止吗?

blob 索引器中有两个相关的限制:

  1. 您达到的最大文件大小限制。如果文件大小超过该限制,索引器不会尝试下载它并产生错误以确保您了解该问题。我们不只取前 N 个字节的原因是因为要正确解析许多格式,需要整个文件。如果您希望它在遇到太大的 blob 时继续前进,您可以将 blob 标记为可跳过或配置索引器以忽略许多错误。

  2. 提取文本的最大大小。如果文件包含的文本多于此,索引器会将 N 个字符带入限制并包含警告,以便您了解该问题。当然,未提取的内容(例如视频,至少在今天是这样)不会影响此限制。

您需要编制索引的 PPTX 有多大?我会在评论中添加我的联系信息。