读取 MS Office 生成的 PDF 文件时出错

Question

每当我尝试阅读 Office 生成的 PDF 文件时，似乎出现错误：

com.itextpdf.kernel.PdfException: Append mode requires a document without errors, even if recovery is possible.
    at com.itextpdf.kernel.pdf.PdfDocument.open

相关文件示例：https://drive.google.com/open?id=1fnwtXfEGg6BIeVuAi-l28Ol_dxbCd12F 以及我用来打开它的代码片段。我的目标是做一个分离的签名，只要它不是由 MS Office 生成的，这对每个文件都适用。

PdfReader reader = new PdfReader(docPath);
StampingProperties properties = new StampingProperties();
        properties.useAppendMode();

//This is where the error is thrown.
PdfSigner signer = new PdfSigner(reader, new FileOutputStream(outputPath), properties);

我读过这个问题，它基本上是同一个问题：，尝试了 Lowagie 关于删除字节的建议

xref
0 24
0000000000 65535 f 
0000011981 00000 n 
0000000239 00000 n 
0000003212 00000 n 
0000000022 00000 n 
0000000220 00000 n 
0000000343 00000 n 
0000003176 00000 n 
0000000000 00000 n 
0000003345 00000 n 
0000000440 00000 n 
0000003155 00000 n 
0000003295 00000 n 
0000003863 00000 n 
0000003519 00000 n 
0000003843 00000 n 
0000004099 00000 n 
0000011737 00000 n 
0000011758 00000 n 
0000011803 00000 n 
0000011877 00000 n 
0000011900 00000 n 
0000011942 00000 n 
0000011961 00000 n 
trailer
<< /Size 24 /Root 12 0 R /Info 1 0 R /ID [ <8e4b8658dd1d1f745bdf99a0eb05bb97>
<8e4b8658dd1d1f745bdf99a0eb05bb97> ] >>
startxref
12125
%%EOF

但是我的 PDF 抱怨并停止工作，也尝试保留 %%EOF 但得到了相同的结果。

所以有两件事：

1) Lowagie 和 MKL 讨论的错误是否有修复？

2) 有什么方法可以解决此问题？

Answer 1

首先，question you refer to不是，基本上是同一个问题，你只是得到了相同的错误信息.有问题的 PDF 有一个混合参考 PDF，而您的文件不是：您的文件只有一个交叉参考 table 和一个预告片，而混合参考 PDF 有（至少）两个交叉参考 tables 每个后跟一个预告片，后面的预告片有一个 XRefStm 入口指向交叉引用流。混合参考 PDF 是有效的，iText 7 曾经遇到过此类 PDF 的问题，那是一个错误。

另一方面，您的 PDF 文件本身实际上有一个错误：交叉引用 table 声称 object 8 位于文件偏移量 0

xref
0 24
...
0000000000 00000 n

这不可能是真的，因为在文件开头有 PDF header。此外，此后出现的第一个 object 是 object 4，因此不能说偏移量后的第一个 object 是...

iText 7 仅在未在源文件中发现问题时才允许追加模式。这是有道理的。

因此，如果您以可重现的方式遇到该错误，您应该向 PDF 制作者提交错误。

您声称 PDF 文件 是由 MS Office 生成的。另一方面，PDF 的元数据表明，虽然 MS Word 是文档的创建者，但 PDF 的实际制作者是石英 PDFContext。您可能想为 Quartz PDFContext 提交问题。

A work-around 对你来说是捕获这个异常并在没有追加模式的情况下重试。

或者，如果你真的真的真的需要在追加模式下处理这些损坏的文件，你可以通过覆盖 hasRebuiltXref 的方法总是 returns false，例如通过替换

PdfReader reader = new PdfReader(SOURCE);

来自

PdfReader reader = new PdfReader(SOURCE) { @Override public boolean hasRebuiltXref() { return false; } };

(StampNoChange 测试 testAppendTest)

但请注意，结果 PDF 仍然包含原始文件中标识的错误 iText。因此，任何进一步处理您的 PDF 的 PDF 处理器也可能会遇到问题，无论是与 iText 最初所做的方式相同，还是以其他一些可能非常壮观的方式。

读取 MS Office 生成的 PDF 文件时出错

Error when reading PDF file generated by MS Office

pdf

itext

ms-office

itext7