如何使用pdfminer.six

Question

我正在尝试使用 python 3.x 中的 pdfminer 从 pdf 中提取文本。我已经使用以下命令安装了它

pip3 install pdfminer.six

当我尝试使用以下命令提取文本时，出现错误

pdf2txt.py sample.pdf

Error: pdf2txt.py: command not found

我已经阅读了官方文档，他们展示了我在上面遵循的相同步骤，但仍然不起作用。

Answer 1

official documentation 假定 .py 脚本可以自动运行。但并非所有操作系统都是如此（如果可能的话，您的本地系统无需设置即可运行）。

要从命令行手动启动 PDFminer，请使用启动 Python 脚本的常规方式：

python pdf2txt.py sample.pdf

它将运行脚本并在完成后退出回到命令行。如果你在某处出错或出于某种原因想留在Python，你可以使用

python -i pdf2txt.py sample.pdf

Answer 2

已经很晚了，但如果对您有帮助，请在终端中执行以下操作：

How to use pdfminer.six