如何在 Python 中抓取此 PDF?
How to scrape this PDF in Python?
我想在 python 中抓取此 PDF 的信息。我不确定从哪里开始,因为它根本没有组织。我习惯了HTML。我尝试将其转换为 HTML,但这并没有真正帮助。
您将如何尝试抓取此 PDF?这是 PDF 的 link(任何一个都可以,它们都很相似):http://www.snco.us/doc/booking/(S(mgv3bhohvbweq0rj4wsq3puo))/inmate/DailyBookingArchive?Length=0
感谢您的帮助:D
这是我的做法,然后根据需要从这里构建。
import PyPDF2 as p2
import xlsxwriter
pdfFileName = "NAME OF PDF HERE.pdf"
pdfFile = open(pdfFileName, 'rb')
pdfread = p2.PdfFileReader(pdfFile)
pageinfo = pdfread.getPage(0)
rawInfo = pageinfo.extractText().split('\n')
row = 0
column = 0
workbook = xlsxwriter.Workbook('Workbook_Name.xlsx')
worksheet = workbook.add_worksheet('Sheet1')
for line in rawInfo:
worksheet.write(row, column, line)
row += 1
workbook.close()
我想在 python 中抓取此 PDF 的信息。我不确定从哪里开始,因为它根本没有组织。我习惯了HTML。我尝试将其转换为 HTML,但这并没有真正帮助。
您将如何尝试抓取此 PDF?这是 PDF 的 link(任何一个都可以,它们都很相似):http://www.snco.us/doc/booking/(S(mgv3bhohvbweq0rj4wsq3puo))/inmate/DailyBookingArchive?Length=0
感谢您的帮助:D
这是我的做法,然后根据需要从这里构建。
import PyPDF2 as p2
import xlsxwriter
pdfFileName = "NAME OF PDF HERE.pdf"
pdfFile = open(pdfFileName, 'rb')
pdfread = p2.PdfFileReader(pdfFile)
pageinfo = pdfread.getPage(0)
rawInfo = pageinfo.extractText().split('\n')
row = 0
column = 0
workbook = xlsxwriter.Workbook('Workbook_Name.xlsx')
worksheet = workbook.add_worksheet('Sheet1')
for line in rawInfo:
worksheet.write(row, column, line)
row += 1
workbook.close()