批量导出 PDF 属性
Batch Export PDF Properties
TL;DR
我希望将一个充满 PDF 文件的文件目录和 "export" 它们的属性(特别是页码)保存到一个 .CSV 文件中。
研究
我发现有许多程序可以让我批量导出 PDF 的元数据,但这通常与源信息有关,而不是有关 PDF 本身的可用信息。
详情
我需要页码才能推断出页面的顺序。我正在使用一个索引系统,该系统将允许两方查找和交流文档。我计划创建一个 Excel 文档,其中包含文档标题和唯一 ID,这些 ID 需要与 PDF 上的连续贝茨编号相对应。
我不介意编码或对此进行广泛的创意,但它必须是可以批量完成的事情,因为有很多文件。
提前感谢您提供的任何帮助。
你说你不介意编码,所以这里有一个简短的 Python 脚本,它可以做你想做的事(据我所知)。
#!python3.6
import csv
import os
import fitz # http://pymupdf.readthedocs.io/en/latest/
def main():
""" Place script in same directory as PDFs. """
script_dir = os.path.dirname(os.path.abspath(__file__))
csv_filename = os.path.join(script_dir, 'pdf_information.csv')
with open(csv_filename, mode='w', newline='') as f:
writer = csv.writer(f)
writer.writerow([
'Filename',
'Page Count',
])
for basename in os.listdir(script_dir):
if basename.upper().endswith('.PDF'):
filename = os.path.join(script_dir, basename)
pdf = fitz.open(filename)
writer.writerow([
basename,
pdf.pageCount,
])
pdf.close()
if __name__ == '__main__':
main()
TL;DR
我希望将一个充满 PDF 文件的文件目录和 "export" 它们的属性(特别是页码)保存到一个 .CSV 文件中。
研究
我发现有许多程序可以让我批量导出 PDF 的元数据,但这通常与源信息有关,而不是有关 PDF 本身的可用信息。
详情
我需要页码才能推断出页面的顺序。我正在使用一个索引系统,该系统将允许两方查找和交流文档。我计划创建一个 Excel 文档,其中包含文档标题和唯一 ID,这些 ID 需要与 PDF 上的连续贝茨编号相对应。
我不介意编码或对此进行广泛的创意,但它必须是可以批量完成的事情,因为有很多文件。
提前感谢您提供的任何帮助。
你说你不介意编码,所以这里有一个简短的 Python 脚本,它可以做你想做的事(据我所知)。
#!python3.6
import csv
import os
import fitz # http://pymupdf.readthedocs.io/en/latest/
def main():
""" Place script in same directory as PDFs. """
script_dir = os.path.dirname(os.path.abspath(__file__))
csv_filename = os.path.join(script_dir, 'pdf_information.csv')
with open(csv_filename, mode='w', newline='') as f:
writer = csv.writer(f)
writer.writerow([
'Filename',
'Page Count',
])
for basename in os.listdir(script_dir):
if basename.upper().endswith('.PDF'):
filename = os.path.join(script_dir, basename)
pdf = fitz.open(filename)
writer.writerow([
basename,
pdf.pageCount,
])
pdf.close()
if __name__ == '__main__':
main()