带有矢量图形的 pdf 的 Azure Computer Vision returns 垃圾

Azure Computer Vision returns garbage for a pdf with vector graphics

Azure 计算机视觉 (OCR) API returns 发送的 pdf 片段垃圾。 Pdf 有一个可见的文本,比方说:4893759678 但实际上它是矢量图形(不是文本)。

当我select图形时,将其复制并粘贴到记事本中,它类似于:(85;9r?A>?EV。 对于 pdf 的某些部分,其中有带数字的图像(光栅图形),它确实可以分析;它 returns ocr 文本。

如何修复它或如何指示 Azure 对矢量图形执行 ocr。我自己不能轻易更改 pdf。

顺便说一句,我正在找一份 Azure 开发人员 (.NET) 的工作:)

谢谢K J。将您的建议作为答案发布以帮助其他社区成员。

You can not normally cut and paste bits of pdf especially binary ones, the whole file must be decrypted disassembled decoded reconstructed as objects and those reassembled into pages then you can copy parts of the page. OCR is pixel dissection analysis and reconstruction thus should be a non lossy (not jpg) pixel image of the vectors

可以参考Azure Read API for Vector PDFs, Optical character recognition Read API and How to extract images from PDF files using c# and itextsharp