Alfresco 简单的 OCR。从 PDF 文件中提取文本并使用它来启动工作流程

Alfresco simple OCR. Extract text from PDF file and use it to start workflow

ocr
alfresco

我将 alfresco-simple-ocr 与 pdfsandwich 和 tesseract OCR 结合使用。我想从插入文件夹的文档中获取文本，然后在新的工作流程中使用该文本和 pdf 文件。

我已经设法进行 OCR 提取以及如何开始将文件插入目录的工作流程，但我无法从文件中获取文本并在工作流程中使用它。
是否可以这样做？
我可以从哪里开始实施该功能？

你好，拉法尔

您不需要任何延期。 Alfresco 已经集成了 PDfBox，可以为您完成这些工作。之后，它取决于您的 PDF 是包含图像的 PDF（扫描文档）还是包含内部文本的 PDF。如果你想对一些图像进行 OCR，你也有这个模块： https://github.com/bchevallereau/alfresco-tesseract

当您知道要转换什么时，可以查看此页面，其中有一个 javascript 示例，说明如何调用转换器： http://docs.alfresco.com/5.2/references/dev-extension-points-content-transformer.html 如果需要，您也可以在 Java 中执行此操作。