itext从pdf中获取特殊字母

Question

我正在尝试从 pdf 电子书中提取带重音的单词。使用 itext 库时会产生最好的结果，但我无法从单词中获取重音。示例：

побеђивање - 应该是 - побеђи́ва̄ње（缺少口音）

这些字母是西里尔塞尔维亚语。我尝试了许多 ocr 解决方案，但它们都给出了不好的结果。有没有办法让我使用 itext 提取所有这些 pdf 数据，就像它们在 pdf 中一样。我知道这与 pdf 的工作方式有很大关系，而且很难获得，但我真的需要它，另一种方法是重新输入所有数据。 pdf 文件 pdf example file

Answer 1

示例文档实际上包含一个大图像、一个扫描的页面和在扫描的打印字母顶部的不可见文本信息。此文本信息很可能是某些 OCR 过程的结果。

很遗憾，此文本信息已经缺少相关重音。例如。第一个条目的文本

添加为

(0120375)Tj 0 Tc (6)Tj
...

如您所见，位置 1 和 4 使用了相同的字母 0，而根据扫描的页面，匹配的印刷字母中有一个有重音符号，而另一个没有。

整个页面都会出现这种情况。

因此，任何常规文本提取的尝试都将无法 return 有问题的重音。您唯一的机会就是使用 OCR。

你说你

tried many of the ocr solutions but they all give bad results

可能您将 OCR 应用程序应用于 PDF 或其渲染版本。我建议您提取扫描的图像；这样你就可以获得所有的质量。 iText 可以帮助您进行图像提取。

itext从pdf中获取特殊字母

Itext get special letters from pdf

java

pdf

itext