itext从pdf中获取特殊字母

Itext get special letters from pdf

我正在尝试从 pdf 电子书中提取带重音的单词。使用 itext 库时会产生最好的结果,但我无法从单词中获取重音。 示例:

побеђивање - 应该是 - побеђи́ва̄ње(缺少口音)

这些字母是西里尔塞尔维亚语。 我尝试了许多 ocr 解决方案,但它们都给出了不好的结果。有没有办法让我使用 itext 提取所有这些 pdf 数据,就像它们在 pdf 中一样。我知道这与 pdf 的工作方式有很大关系,而且很难获得,但我真的需要它,另一种方法是重新输入所有数据。 pdf 文件 pdf example file

示例文档实际上包含一个大图像、一个扫描的页面和在扫描的打印字母顶部的不可见文本信息。此文本信息很可能是某些 OCR 过程的结果。

很遗憾,此文本信息已经缺少相关重音。例如。第一个条目的文本

添加为

(0120375)Tj 0 Tc (6)Tj
...

如您所见,位置 1 和 4 使用了相同的字母 0,而根据扫描的页面,匹配的印刷字母中有一个有重音符号,而另一个没有。

整个页面都会出现这种情况。

因此,任何常规文本提取的尝试都将无法 return 有问题的重音。您唯一的机会就是使用 OCR。

你说你

tried many of the ocr solutions but they all give bad results

可能您将 OCR 应用程序应用于 PDF 或其渲染版本。我建议您 提取 扫描的图像;这样你就可以获得所有的质量。 iText 可以帮助您进行图像提取。