从 PDF 获取树木文件（最好使用 Python）

Getting files of trees from PDF (preferably using Python)

我想制作一系列包含此 PDF 中的树木的文件 (http://mica.lif.univ-mrs.fr/d6.clean2-backup.pdf)。文件的名称将是左侧相应的树编号（t0、t1 等）。

我试过使用python来提取相关信息和树，但是我遇到了麻烦。具体来说，当我尝试将树提取为图像时（使用 https://nedbatchelder.com/blog/200712/extracting_jpgs_from_pdfs.html), none of the trees showed up (presumably because the trees aren't the right format). However, when I try extracting it all as text (as https://www.geeksforgeeks.org/working-with-pdf-files-in-python/），树会丢失所有格式（我认为还有一些信息）。我怎样才能从这个 PDF 中获取我想要的文件？可以在 Python 内完成吗？还有其他更简单的方法吗？

或者，我从中获得 PDF 的网站 (http://mica.lif.univ-mrs.fr/) 有另一种形式的树（例如：t27 S##1#l# NP#0#2#l#s NP# 0#2#r#s VP##3#l# V##4#l#h V##4#r#h NP#1#5#l#s NP#1#5#r#s VP# #3#r# S##1#r#）。有没有什么好的方法可以把这种形式转换成树木形式的好看的视觉效果？

任何对这些方法（或其他方法，如果人们有想法）的帮助将不胜感激。谢谢！

如果您查看 PDF 文件的元数据，您会发现它是 TeX (LaTeX) 创建的文件。我建议您从创建此文档的人那里获取原始 LaTeX 源文件（而不是 PDF），而不是尝试对 PDF 中的图表进行 OCR。

基本上，由于 PDF 的创建方式，将此 LaTeX PDF 转换回文档是不可能的（无需大量工作）。您可以考虑尝试将 PDF 转换回文档，就像对软件进行逆向工程一样（就像其他 Stack Overflow 成员在此处提到的关于从 PDF 转换回 LaTeX 文档的话题）：

有时，如果我尝试对 PDF 进行一些简单的光学字符识别 (OCR)，我会尝试将它们上传到 Google Docs，以查看他们的 OCR 引擎如何从 PDF 文档中提取文本。 GDocs OCR 适用于以标准方式格式化的 PDF，但它往往会破坏表格、图表等内容。

如果您有兴趣将数学方程式的图片转换为 LaTeX，您可能想看看这个 neat tool that some researchers at Harvard created as part of OpenAI's Call for Research 它会将数学方程式的图像转换为 LaTeX notation.

从 PDF 获取树木文件（最好使用 Python）

Getting files of trees from PDF (preferably using Python)

python

pdf

tree

nlp

extraction