文章詳情頁

python解析PDF程序代碼

瀏覽：25日期：2022-06-16 11:18:41

說在前面

和word的文本相比PDF更類似于一張張圖片，圖上放著一個個文字。對其的解析是將圖片上的文字提取到text文件中，方便之后的分析。

添加依賴

在python的環(huán)境中安裝PDFminer3k，不要裝錯了，一開始我裝的是PDFminer，結(jié)果有幾個包不能用pip install pdfminer3k

源程序代碼

#!/usr/bin/env python3# -*- coding:utf-8 -*-# pip3 install pdfminer3kimport osfrom pdfminer.converter import PDFPageAggregatorfrom pdfminer.layout import LAParams, LTTextBoxHorizontalfrom pdfminer.pdfparser import PDFParser, PDFDocumentfrom pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter, PDFTextExtractionNotAllowedfrom pdfminer.pdfdevice import PDFDevicedef read_pdf(pdf_name, result_name): # 以二進制讀模式打開 fp = open(pdf_name, ’rb’) # 用文件對象來創(chuàng)建一個pdf文檔分析器 parser = PDFParser(fp) # 創(chuàng)建一個pdf文檔 doc = PDFDocument() # 連接分析器與文檔對象 parser.set_document(doc) doc.set_parser(parser) # 提供初始密碼，如果沒有密碼就創(chuàng)建一個空的字符串 doc.initialize(’’) # 檢測文檔是否提供txt轉(zhuǎn)換，不提供就拋出異常 if not doc.is_extractable:raise PDFTextExtractionNotAllowed # 創(chuàng)建PDf 資源管理器來管理共享資源 rsrcmgr = PDFResourceManager() # 創(chuàng)建一個PDF設(shè)備對象 laparams = LAParams() device = PDFPageAggregator(rsrcmgr, laparams=laparams) # 創(chuàng)建一個PDF解釋器對象 interpreter = PDFPageInterpreter(rsrcmgr, device) with open(result_name, 'w', encoding='u8') as fd_out:# 循環(huán)遍歷列表，每次處理一個page的內(nèi)容for i, page in enumerate(doc.get_pages(), 1): index = '===========《第{}頁》==========='.format(i) print(index) fd_out.write(index + 'n') interpreter.process_page(page) # 接受該頁面的LTPage對象 layout = device.get_result() for x in layout:# 這里layout是一個LTPage對象里面存放著這個page解析出的各種對象一般包括LTTextBox,# LTFigure, LTImage, LTTextBoxHorizontal 等等想要獲取文本就獲得對象的text屬性if not isinstance(x, LTTextBoxHorizontal): continueresults = x.get_text()print(results)fd_out.write(results)if __name__ == ’__main__’: # 獲取讀取文件夾 filePath = ’../PDFfile’ #遍歷文件夾 for i,j,k in os.walk(filePath):for m in k: # 格式化輸出的名稱和地址 result = ’../TextFile/’ + m[:-4] + ’.txt’ # 格式化源文件路徑 fileName = i + ’/’ + m # 調(diào)用函數(shù)解析 read_pdf(fileName, result)

參考以下代碼內(nèi)容：python 讀取pdf文本內(nèi)容

#!/usr/bin/env python3#-*- coding:utf-8 -*-# pip3 install pdfminer3k from pdfminer.converter import PDFPageAggregatorfrom pdfminer.layout import LAParams, LTTextBoxHorizontalfrom pdfminer.pdfparser import PDFParser, PDFDocumentfrom pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter, PDFTextExtractionNotAllowedfrom pdfminer.pdfdevice import PDFDevice def read_pdf(pdf_name, result_name): # 以二進制讀模式打開 fp = open(pdf_name, ’rb’) # 用文件對象來創(chuàng)建一個pdf文檔分析器 parser = PDFParser(fp) # 創(chuàng)建一個pdf文檔 doc = PDFDocument() # 連接分析器與文檔對象 parser.set_document(doc) doc.set_parser(parser) # 提供初始密碼，如果沒有密碼就創(chuàng)建一個空的字符串 doc.initialize(’’) # 檢測文檔是否提供txt轉(zhuǎn)換，不提供就拋出異常 if not doc.is_extractable:raise PDFTextExtractionNotAllowed # 創(chuàng)建PDf 資源管理器來管理共享資源 rsrcmgr = PDFResourceManager() # 創(chuàng)建一個PDF設(shè)備對象 laparams = LAParams() device = PDFPageAggregator(rsrcmgr, laparams=laparams) # 創(chuàng)建一個PDF解釋器對象 interpreter = PDFPageInterpreter(rsrcmgr, device) with open(result_name,'w',encoding='u8') as fd_out:# 循環(huán)遍歷列表，每次處理一個page的內(nèi)容for i,page in enumerate(doc.get_pages(),1): index = '===========《第{}頁》==========='.format(i) print(index) fd_out.write(index + 'n') interpreter.process_page(page) # 接受該頁面的LTPage對象 layout = device.get_result() for x in layout:# 這里layout是一個LTPage對象里面存放著這個page解析出的各種對象一般包括LTTextBox,# LTFigure, LTImage, LTTextBoxHorizontal 等等想要獲取文本就獲得對象的text屬性if not isinstance(x, LTTextBoxHorizontal): continueresults = x.get_text()print(results)fd_out.write(results) if __name__ == ’__main__’: pdf_name = ’test.pdf’ result = ’test.txt’ read_pdf(pdf_name, result)

以上就是python解析PDF的詳細內(nèi)容，更多關(guān)于python解析PDF的資料請關(guān)注好吧啦網(wǎng)其它相關(guān)文章！

Python 編程

上一條：用python搭建一個花卉識別系統(tǒng)下一條：如何用Pythony驗證萬物歸一(考拉咨猜想)

相關(guān)文章：

1. ASP新手必備的基礎(chǔ)知識2. asp文件用什么軟件編輯3. CentOS郵箱服務(wù)器搭建系列——SMTP服務(wù)器的構(gòu)建（ Postfix ）4. js實現(xiàn)計算器功能5. golang中json小談之字符串轉(zhuǎn)浮點數(shù)的操作6. 通過IEAD+Maven快速搭建SSM項目的過程(Spring + Spring MVC + Mybatis)7. 利用CSS制作3D動畫8. IDEA 2020.1.2 安裝教程附破解教程詳解9. Vue axios獲取token臨時令牌封裝案例10. JS中6個對象數(shù)組去重的方法

排行榜

					
					ASP新手必備的基礎(chǔ)知識
asp文件用什么軟件編輯
CentOS郵箱服務(wù)器搭建系列——SMTP服務(wù)器的構(gòu)建（ Postfix ）
JS中6個對象數(shù)組去重的方法
IDEA 2020.1.2 安裝教程附破解教程詳解
js實現(xiàn)計算器功能
通過IEAD+Maven快速搭建SSM項目的過程(Spring + Spring MVC + Mybatis)
golang中json小談之字符串轉(zhuǎn)浮點數(shù)的操作
Vue axios獲取token臨時令牌封裝案例
利用CSS制作3D動畫
CSS單標簽實現(xiàn)復(fù)雜的棋盤布局