如何使用pdfminer.six

How to use pdfminer.six

我正在尝试使用 python 3.x 中的 pdfminer 从 pdf 中提取文本。我已经使用以下命令安装了它

pip3 install pdfminer.six

当我尝试使用以下命令提取文本时,出现错误

pdf2txt.py sample.pdf

Error: pdf2txt.py: command not found

我已经阅读了官方文档,他们展示了我在上面遵循的相同步骤,但仍然不起作用。

official documentation 假定 .py 脚本可以自动 运行。但并非所有操作系统都是如此(如果可能的话,您的本地系统无需设置即可运行)。

要从命令行手动启动 PDFminer,请使用启动 Python 脚本的常规方式:

python pdf2txt.py sample.pdf

它将 运行 脚本并在完成后退出回到命令行。如果你在某处出错或出于某种原因想留在Python,你可以使用

python -i pdf2txt.py sample.pdf

已经很晚了,但如果对您有帮助,请在终端中执行以下操作:

  1. 在终端中键入 ls,它将 return 一个文件列表。检查 pdf2text.py 是否存在于该列表中并且 sample.pdf 也应该存在。

  2. 如果这 2 个文件没有显示在列表中,则意味着您在不同的目录中,因此您必须导航到这两个文件都存在的正确目录,或者您'必须给出文件名及其路径。

  3. 进入正确目录后,只需输入命令:

    python pdf2text.py sample.pdf
    

    如果参数解析器不需要标识符,它应该可以工作。

    或者,提供每个的完整路径:

     python /home/you/downloads/something/pdf2text.py /home/you/downloads/something/sample.pdf
    

    ... 当然,将 /home/you/downloads/something 替换为您拥有这些文件的实际路径。