无法使用 iText 阅读 PDF 文档的某些部分

Unable to read some parts of the PDF document using iText

我有一堆 PDF 文档,我通常可以使用 iText.Kernel.Pdf.Canvas.Parser.PdfTextExtractor.GetTextFromPage

的方法阅读所有文档

有些文件有一段文字没有被阅读。 例如。在附图中,我无法阅读黄色圈出的区域中的文字。

我猜,这是实体不是图片,因为我无法使用鼠标复制粘贴。此外,我可以通过在自定义策略对象中处理 EventType.RENDER_IMAGE 来读取文档中的图像。并且,圈出的区域不会被提取为图像。

有什么关于如何阅读的建议吗?

谢谢, 秀

如果该内容既没有 RENDER_TEXT 也没有 RENDER_IMAGE 事件,则很可能是使用矢量图形指令绘制的。

您也可以检索此类指令,但您得到的是一系列路径定义(移动到、直线到、曲线到...)和路径渲染(描边、填充...)信息作为 RENDER_PATH 个事件。