无法使用 iText 阅读 PDF 文档的某些部分
Unable to read some parts of the PDF document using iText
我有一堆 PDF 文档,我通常可以使用 iText.Kernel.Pdf.Canvas.Parser.PdfTextExtractor.GetTextFromPage
的方法阅读所有文档
有些文件有一段文字没有被阅读。
例如。在附图中,我无法阅读黄色圈出的区域中的文字。
我猜,这是实体不是图片,因为我无法使用鼠标复制粘贴。此外,我可以通过在自定义策略对象中处理 EventType.RENDER_IMAGE
来读取文档中的图像。并且,圈出的区域不会被提取为图像。
有什么关于如何阅读的建议吗?
谢谢,
秀
如果该内容既没有 RENDER_TEXT
也没有 RENDER_IMAGE
事件,则很可能是使用矢量图形指令绘制的。
您也可以检索此类指令,但您得到的是一系列路径定义(移动到、直线到、曲线到...)和路径渲染(描边、填充...)信息作为 RENDER_PATH
个事件。
我有一堆 PDF 文档,我通常可以使用 iText.Kernel.Pdf.Canvas.Parser.PdfTextExtractor.GetTextFromPage
有些文件有一段文字没有被阅读。 例如。在附图中,我无法阅读黄色圈出的区域中的文字。
我猜,这是实体不是图片,因为我无法使用鼠标复制粘贴。此外,我可以通过在自定义策略对象中处理 EventType.RENDER_IMAGE
来读取文档中的图像。并且,圈出的区域不会被提取为图像。
有什么关于如何阅读的建议吗?
谢谢,
秀
如果该内容既没有 RENDER_TEXT
也没有 RENDER_IMAGE
事件,则很可能是使用矢量图形指令绘制的。
您也可以检索此类指令,但您得到的是一系列路径定义(移动到、直线到、曲线到...)和路径渲染(描边、填充...)信息作为 RENDER_PATH
个事件。