索引 PDF 文件并生成关键字摘要
Index PDF files and generate keywords summary
我的本地文件系统中有大量 PDF 文件用作文档库,我想为这些文件创建索引。
我想:
- 解析 PDF 文件的内容以获取关键字。
- Select最相关的关键词做一个总结。
- 为一些关键字创建静态 HTML 页面,并将条目链接到适当的文件。
我的问题是:
- 是否有现成的工具来完成整个工作?
- 解析 PDF 文件内容、过滤(按字数大小)和计算字数的最合适工具是什么?
- 我考虑用
Perl
、swish-e
、pdfgrep
做脚本。您知道其他有用的工具吗?
鉴于第 2 点和第 3 点似乎是自定义的,我建议您拥有自己的脚本,使用其中的工具来解析 pdf,随意处理其输出,然后编写 HTML(也许使用另一个工具)。
Perl 非常适合这一点,因为它擅长处理您需要的内容,并且还通过模块提供对处理各种文件格式的支持。
至于阅读 pdf
,如果您的需求不是太复杂,这里有一些选择
使用 CAM::PDF
(and CAM::PDF::PageText
) or PDF-API2
个模块
使用 poppler
库中的 pdftotext
(可能在 poppler-utils
包中)
使用 pdftohtml
和 -xml
选项,读取生成的简单 XML 文件 XML::libXML
or XML::Twig
最后两个是外部工具,您可以通过 Perl 的内置函数使用它们,例如 system
。
以下文本处理,以构建您的摘要和设计输出,正是 Perl 等语言的用途。提到的两个任务需要几行代码。
然后写出HTML,简单直接或者使用合适的模块。鉴于您的目的,您可能需要查看 HTML::Template
. Also see this post
,例如。
完整解析 PDF 可能不可行,但如果文件不太复杂,应该可以。
如果您选择关键字和构建统计数据的过程相当普遍,那么可以使用集成的文档管理工具(搜索书目管理器)。但是,我认为他们中的大多数人都求助于外部工具来解析 pdf
所以您仍然可以使用自己的脚本更好。
我的本地文件系统中有大量 PDF 文件用作文档库,我想为这些文件创建索引。 我想:
- 解析 PDF 文件的内容以获取关键字。
- Select最相关的关键词做一个总结。
- 为一些关键字创建静态 HTML 页面,并将条目链接到适当的文件。
我的问题是:
- 是否有现成的工具来完成整个工作?
- 解析 PDF 文件内容、过滤(按字数大小)和计算字数的最合适工具是什么?
- 我考虑用
Perl
、swish-e
、pdfgrep
做脚本。您知道其他有用的工具吗?
鉴于第 2 点和第 3 点似乎是自定义的,我建议您拥有自己的脚本,使用其中的工具来解析 pdf,随意处理其输出,然后编写 HTML(也许使用另一个工具)。
Perl 非常适合这一点,因为它擅长处理您需要的内容,并且还通过模块提供对处理各种文件格式的支持。
至于阅读 pdf
,如果您的需求不是太复杂,这里有一些选择
使用
CAM::PDF
(andCAM::PDF::PageText
) orPDF-API2
个模块使用
poppler
库中的pdftotext
(可能在poppler-utils
包中)使用
pdftohtml
和-xml
选项,读取生成的简单 XML 文件XML::libXML
orXML::Twig
最后两个是外部工具,您可以通过 Perl 的内置函数使用它们,例如 system
。
以下文本处理,以构建您的摘要和设计输出,正是 Perl 等语言的用途。提到的两个任务需要几行代码。
然后写出HTML,简单直接或者使用合适的模块。鉴于您的目的,您可能需要查看 HTML::Template
. Also see this post
,例如。
完整解析 PDF 可能不可行,但如果文件不太复杂,应该可以。
如果您选择关键字和构建统计数据的过程相当普遍,那么可以使用集成的文档管理工具(搜索书目管理器)。但是,我认为他们中的大多数人都求助于外部工具来解析 pdf
所以您仍然可以使用自己的脚本更好。