索引 PDF 文件并生成关键字摘要

Index PDF files and generate keywords summary

我的本地文件系统中有大量 PDF 文件用作文档库，我想为这些文件创建索引。我想：

我的问题是：

鉴于第 2 点和第 3 点似乎是自定义的，我建议您拥有自己的脚本，使用其中的工具来解析 pdf，随意处理其输出，然后编写 HTML（也许使用另一个工具）。

Perl 非常适合这一点，因为它擅长处理您需要的内容，并且还通过模块提供对处理各种文件格式的支持。

至于阅读 pdf，如果您的需求不是太复杂，这里有一些选择

最后两个是外部工具，您可以通过 Perl 的内置函数使用它们，例如 system。

以下文本处理，以构建您的摘要和设计输出，正是 Perl 等语言的用途。提到的两个任务需要几行代码。

然后写出HTML，简单直接或者使用合适的模块。鉴于您的目的，您可能需要查看 HTML::Template. Also see this post，例如。

完整解析 PDF 可能不可行，但如果文件不太复杂，应该可以。

如果您选择关键字和构建统计数据的过程相当普遍，那么可以使用集成的文档管理工具（搜索书目管理器）。但是，我认为他们中的大多数人都求助于外部工具来解析 pdf 所以您仍然可以使用自己的脚本更好。