如何从PDF中提取数字？

How to extract numbers from PDF?

我想从 PDF 文件中提取数字。我想创建一个直方图来描述获得大学批准的学生的分数；这些分数存储在 PDF 文件中。我可以通过哪些方式提取它们？

您首先需要一个 PDF 解析器，因为 Python 默认情况下无法读取它。此处发布了一个 SO 答案 Python module for converting PDF to text suggested to use PDFMINER for it - http://www.unixuser.org/~euske/python/pdfminer/index.html

但是您没有提供任何数字表示方式的示例。您需要使用 regex/patterns 制作某种自定义行解析器来定义如何提取这些数字的规则。难点主要看PDF是否只包含原始统计数据，如果不是，你也需要注意不要把所有的数字都拿进去，也就是那些实际上没有引用任何统计数据而只是在一个句子中的数字。

您可以从此处 https://docs.python.org/3/library/re.html

了解有关 python 中正则表达式的更多信息

如果您不熟悉正则表达式，可以在这里学习和试验 http://regexr.com/.

如何从PDF中提取数字？

How to extract numbers from PDF?

python

pdf

extract

python-3.4