pdfminer pdf2text 输出 'FF'

Question

我有一个pdf。在我的win 10、python 3.6环境下安装pdfminer.six后，我运行:

$ pdf2txt.py -o test1 download.pdf

给我截图输出。当我运行:

$ dumppdf.py -o test2 download.pdf

我得到：

<trailer>
<dict size="4">
<key>Info</key>
<value><ref id="47" /></value>
<key>ID</key>
<value><list size="2">
<string size="16">+&#13;N&#158;&#213;&#233;&#197;&#176;&#8;&#207;&#15;&#60;&#133;M&#140;&#4;</string>
<string size="16">&#34;&#179;&#255;&#28;&#221;&#234;&#177;&#39;&#166;&#133;&#15;&#214;&#237;&#25;&#196;&#205;</string>
</list></value>
<key>Root</key>
<value><ref id="46" /></value>
<key>Size</key>
<value><number>48</number></value>
</dict>
</trailer>

<trailer>
<dict size="4">
<key>Info</key>
<value><ref id="47" /></value>
<key>ID</key>
<value><list size="2">
<string size="16">+&#13;N&#158;&#213;&#233;&#197;&#176;&#8;&#207;&#15;&#60;&#133;M&#140;&#4;</string>
<string size="16">&#34;&#179;&#255;&#28;&#221;&#234;&#177;&#39;&#166;&#133;&#15;&#214;&#237;&#25;&#196;&#205;</string>
</list></value>
<key>Root</key>
<value><ref id="46" /></value>
<key>Size</key>
<value><number>48</number></value>
</dict>
</trailer>

接下来我该做什么？我怎样才能让它工作？

Answer 1

pdfminer 无法从相关文档中提取任何可用文本的原因是该文档不包含文本！

更确切地说，Worksheet PDF 不包含 文本绘图说明，仅包含 图形绘图说明（其结果看起来像文本).另一方面，PDF 文本提取器（如 pdfminer）仅检查 文本绘制指令 ，因此它们不会 return 任何内容。

因此，要从此类文档中挖掘数据，最好使用 OCR 而不是文本提取。

在您提问的评论中

how do you know that only graphic instructions are contained? What tools do you use?

您需要一个 PDF 浏览器应用程序和一些 PDF 内部知识。

作为PDF浏览器，我通常使用iText RUPS or PDFBox PDF Debugger。但是也有其他好的浏览器，例如Adobe Preflight 中包含一个。

使用这样的 PDF 浏览器，您可以检查 PDF 的内容流，其中包含绘制页面的说明。在您的情况下，这些内容流不包含任何文本绘制指令，仅包含图形绘制指令。

通过研究 PDF 规范 ISO 32000-2（旧的前身规范 ISO 32000-1 也是一个很好的起点，如果手头没有新规范）和分析，可以获得 PDF 内部知识许多真实的PDF。

pdfminer pdf2text 输出 'FF'

pdfminer pdf2text outputs 'FF'

python

pdf

pdf-parsing

pdfminer