如何在数千个 PDF 文件中验证 text/content

How to verify text/content in thousands of PDF files

我想 verify/assert 每个 PDF 文件中的特定文本或句子集自动。我有 1000 多个 PDF 文件,需要验证其中是否存在特定的 text/sentence。

您可以使用 Apache Lucene 和 Apache pdfbox 来完成此操作。 请参考这个post:http://www.programming-free.com/2012/11/simple-word-search-in-pdf-files-using.html