Alfresco 简单的 OCR。从 PDF 文件中提取文本并使用它来启动工作流程

Alfresco simple OCR. Extract text from PDF file and use it to start workflow


我将 alfresco-simple-ocr 与 pdfsandwich 和 tesseract OCR 结合使用。我想从插入文件夹的文档中获取文本,然后在新的工作流程中使用该文本和 pdf 文件。

我已经设法进行 OCR 提取以及如何开始将文件插入目录的工作流程, 但我无法从文件中获取文本并在工作流程中使用它。
是否可以这样做?
我可以从哪里开始实施该功能?

你好,拉法尔

您不需要任何延期。 Alfresco 已经集成了 PDfBox,可以为您完成这些工作。之后,它取决于您的 PDF 是包含图像的 PDF(扫描文档)还是包含内部文本的 PDF。 如果你想对一些图像进行 OCR,你也有这个模块: https://github.com/bchevallereau/alfresco-tesseract

当您知道要转换什么时,可以查看此页面,其中有一个 javascript 示例,说明如何调用转换器: http://docs.alfresco.com/5.2/references/dev-extension-points-content-transformer.html 如果需要,您也可以在 Java 中执行此操作。