文章詳情頁

python利用pytesseract 實現本地識別圖片文字

瀏覽：16日期：2022-07-02 10:45:07

#!/usr/bin/env python3# -*- coding: utf-8 -*-import globfrom os import pathimport osimport pytesseractfrom PIL import Imagefrom queue import Queueimport threadingimport datetimeimport cv2def convertimg(picfile,outdir): ’調整圖片大小，對于過大的圖片進行壓縮 picfile: 圖片路徑 outdir： 圖片輸出路徑 ’ img = Image.open(picfile)  width, height = img.size  while (width * height 4000000): # 該數值壓縮后的圖片大約 兩百多k width = width / 2 height = height / 2  new_img = img.resize((width,height), Image.BILINEAR) new_img.save(path.join(outdir, os.path.basename(picfile)))def baiduOCR(ts_queue): while not ts_queue.empty(): picfile = ts_queue.get() filename = path.basename(picfile) outfile = ’D:StudypythonProjectscrapyIpProxyport_zidian.txt’ img = cv2.imread(picfile, cv2.IMREAD_COLOR) print('正在識別圖片：t' + filename) message = pytesseract.image_to_string(img,lang = ’eng’) message = message.replace(’’, ’’) message = message.replace(’’, ’’) # message = client.basicAccurate(img)  # 通用文字高精度識別，每天 800 次免費 #print('識別成功！') try: filename1 = filename.split(’.’)[0] filename1 = ’’.join(filename1) with open(outfile, ’a+’) as fo: fo.writelines(’’ + filename1 + ’’ + ’:’ + message + ’,’) fo.writelines(’n’) # fo.writelines('+' * 60 + ’n’) # fo.writelines('識別圖片：t' + filename + 'n' * 2) # fo.writelines('文本內容：n') # 輸出文本內容 # for text in message.get(’words_result’): # fo.writelines(text.get(’words’) + ’n’) # fo.writelines(’n’ * 2) os.remove(filename) print('識別成功！') except: print(’識別失敗’) print('文本導出成功！') print()def duqu_tupian(dir): ts_queue = Queue(10000) outdir = dir # if path.exists(outfile): # os.remove(outfile) if not path.exists(outdir): os.mkdir(outdir)  print('壓縮過大的圖片...') # 首先對過大的圖片進行壓縮，以提高識別速度，將壓縮的圖片保存與臨時文件夾中 try: for picfile in glob.glob(r'D:StudypythonProjectscrapyIpProxytmp*'): convertimg(picfile, outdir) print('圖片識別...') for picfile in glob.glob('tmp1/*'): ts_queue.put(picfile) #baiduOCR(picfile, outfile) #os.remove(picfile) print(’圖片文本提取結束！文本輸出結果位于文件中。’) #os.removedirs(outdir) return ts_queue except: print(’失敗’)if __name__ == '__main__': start = datetime.datetime.now().replace(microsecond=0) t = ’tmp1’ s = duqu_tupian(t) threads = [] try: for i in range(100): t = threading.Thread(target=baiduOCR, name=’th-’ + str(i), kwargs=[’ts_queue’: s]) threads.append(t) for t in threads: t.start() for t in threads: t.join() end = datetime.datetime.now().replace(microsecond=0) print(’刪除耗時：’ + str(end - start)) except: print(’識別失敗’)實測速度慢，但用了多線程明顯提高了速度，但準確度稍低，同樣高清圖片，90百分識別率。還時不時出現亂碼文字，亂空格，這里展現不了，自己實踐吧，重點免費的，隨便識別，通向100張圖片，用時快6分鐘了，速度慢了一倍，但是是免費的，挺不錯的了。
以上就是python利用pytesseract 實現本地識別圖片文字的詳細內容，更多關于python 識別圖片文字的資料請關注好吧啦網其它相關文章！

Python 編程

上一條：Python獲取指定網段正在使用的IP下一條：python 利用百度API識別圖片文字（多線程版）

相關文章：

1. IntelliJ IDEA安裝插件的方法步驟2. php模擬實現斗地主發牌3. 理解PHP5中static和const關鍵字4. spring acegi security 1.0.0 發布5. vue 使用localstorage實現面包屑的操作6. MyBatis中的JdbcType映射使用詳解7. Vuex localStorage的具體使用8. Python random庫使用方法及異常處理方案9. .Net Core使用Coravel實現任務調度的完整步驟10. Vue封裝一個TodoList的案例與瀏覽器本地緩存的應用實現

排行榜

					
					php模擬實現斗地主發牌
理解PHP5中static和const關鍵字
IntelliJ IDEA安裝插件的方法步驟
Docker 容器健康檢查機制
Python random庫使用方法及異常處理方案
Android table布局開發實現簡單計算器
.Net Core使用Coravel實現任務調度的完整步驟
Vuex localStorage的具體使用
jQuery 實現DOM元素拖拽交換位置的實例代碼
Vue封裝一個TodoList的案例與瀏覽器本地緩存的應用實現
MyBatis中的JdbcType映射使用詳解