PDFBox 2 Column Issue 如何检查珠子
PDFBox 2 Column Issue How To Check Beads
我有 http://laws-lois.justice.gc.ca/PDF/A-8.8.pdf 正在尝试使用具有 2 列的 PDFBox 进行解析。我希望对文本进行解析,以便将列分开,但是当我通过 PDFBox 运行 时,它不会将 2 列分开,而是将两列的行连接在一起。
我读过 https://issues.apache.org/jira/browse/PDFBOX-448,它说有些 PDF 没有可以使用的 article/beads,因此解析总是错误的。我试过使用 stripper.setShouldSeparateByBeads(true)
如何检查它是否有珠子?除了关于 PDFBox 的列解析的问题,我还没有找到关于这个概念的任何阅读 material。
您可以检查珠子是否在 PDPage.getThreadBeads()
的页面中。如果没有线珠,这将 return 一个空列表。
剧透警告:您的文档没有任何内容。
有关如何使用它们的示例可以在源代码下载的 DrawPrintTextLocations.java
示例中找到。带有珠子的 PDF 文件示例可以在文件 PDFBOX-3110-003422-p1-beads.pdf
和 PDFBOX-3110-poems-beads.pdf
中找到,也可以在源代码下载中找到。
额外提示:查看 ExtractTextByArea.java
示例,这应该可以帮助您提取 PDF 文件。
我有 http://laws-lois.justice.gc.ca/PDF/A-8.8.pdf 正在尝试使用具有 2 列的 PDFBox 进行解析。我希望对文本进行解析,以便将列分开,但是当我通过 PDFBox 运行 时,它不会将 2 列分开,而是将两列的行连接在一起。
我读过 https://issues.apache.org/jira/browse/PDFBOX-448,它说有些 PDF 没有可以使用的 article/beads,因此解析总是错误的。我试过使用 stripper.setShouldSeparateByBeads(true)
如何检查它是否有珠子?除了关于 PDFBox 的列解析的问题,我还没有找到关于这个概念的任何阅读 material。
您可以检查珠子是否在 PDPage.getThreadBeads()
的页面中。如果没有线珠,这将 return 一个空列表。
剧透警告:您的文档没有任何内容。
有关如何使用它们的示例可以在源代码下载的 DrawPrintTextLocations.java
示例中找到。带有珠子的 PDF 文件示例可以在文件 PDFBOX-3110-003422-p1-beads.pdf
和 PDFBOX-3110-poems-beads.pdf
中找到,也可以在源代码下载中找到。
额外提示:查看 ExtractTextByArea.java
示例,这应该可以帮助您提取 PDF 文件。