文章詳情頁

python 爬取百度文庫并下載(免費文章限定)

瀏覽：124日期：2022-07-03 13:33:25

import requestsimport reimport jsonimport ossession = requests.session()def fetch_url(url): return session.get(url).content.decode(’gbk’)def get_doc_id(url): return re.findall(’view/(.*).html’, url)[0]def parse_type(content): return re.findall(r'docType.*?:.*?’(.*?)’,', content)[0]def parse_title(content): return re.findall(r'title.*?:.*?’(.*?)’,', content)[0]def parse_doc(content): result = ’’ url_list = re.findall(’(https.*?0.json.*?)x22}’, content) url_list = [addr.replace('/', '/') for addr in url_list] for url in url_list[:-5]: content = fetch_url(url) y = 0 txtlists = re.findall(’'c':'(.*?)'.*?'y':(.*?),’, content) for item in txtlists: if not y == item[1]:y = item[1]n = ’n’ else:n = ’’ result += n result += item[0].encode(’utf-8’).decode(’unicode_escape’, ’ignore’) return resultdef parse_txt(doc_id): content_url = ’https://wenku.baidu.com/api/doc/getdocinfo?callback=cb&doc_id=’ + doc_id content = fetch_url(content_url) md5 = re.findall(’'md5sum':'(.*?)'’, content)[0] pn = re.findall(’'totalPageNum':'(.*?)'’, content)[0] rsign = re.findall(’'rsign':'(.*?)'’, content)[0] content_url = ’https://wkretype.bdimg.com/retype/text/’ + doc_id + ’?rn=’ + pn + ’&type=txt’ + md5 + ’&rsign=’ + rsign content = json.loads(fetch_url(content_url)) result = ’’ for item in content: for i in item[’parags’]: result += i[’c’].replace(’r’, ’r’).replace(’n’, ’n’) return resultdef parse_other(doc_id): content_url = 'https://wenku.baidu.com/browse/getbcsurl?doc_id=' + doc_id + '&pn=1&rn=99999&type=ppt' content = fetch_url(content_url) url_list = re.findall(’{'zoom':'(.*?)','page'’, content) url_list = [item.replace('', ’’) for item in url_list] if not os.path.exists(doc_id): os.mkdir(doc_id) for index, url in enumerate(url_list): content = session.get(url).content path = os.path.join(doc_id, str(index) + ’.jpg’) with open(path, ’wb’) as f: f.write(content) print('圖片保存在' + doc_id + '文件夾')def save_file(filename, content): with open(filename, ’w’, encoding=’utf8’) as f: f.write(content) print(’已保存為:’ + filename)# test_txt_url = ’https://wenku.baidu.com/view/cbb4af8b783e0912a3162a89.html?from=search’# test_ppt_url = ’https://wenku.baidu.com/view/2b7046e3f78a6529657d5376.html?from=search’# test_pdf_url = ’https://wenku.baidu.com/view/dd6e15c1227916888586d795.html?from=search’# test_xls_url = ’https://wenku.baidu.com/view/eb4a5bb7312b3169a551a481.html?from=search’def main(): url = input(’請輸入要下載的文庫URL地址’) content = fetch_url(url) doc_id = get_doc_id(url) type = parse_type(content) title = parse_title(content) if type == ’doc’: result = parse_doc(content) save_file(title + ’.txt’, result) elif type == ’txt’: result = parse_txt(doc_id) save_file(title + ’.txt’, result) else: parse_other(doc_id)if __name__ == '__main__': main()

爬取結果

以上就是python 爬取百度文庫并以圖片方式下載(vip文章也可以爬)的詳細內容，更多關于python 爬取百度文庫的資料請關注好吧啦網其它相關文章！

百度 Python

上一條：python 根據列表批量下載網易云音樂的免費音樂下一條：python判斷all函數輸出結果是否為true的方法

相關文章：

1. 編程語言PHP在Web開發領域的優勢在哪？2. 基于android studio的layout的xml文件的創建方式3. 什么是python的自省4. Android如何加載Base64編碼格式圖片5. 詳解Android studio 動態fragment的用法6. .Net Core使用Coravel實現任務調度的完整步驟7. Vuex localStorage的具體使用8. 圖文詳解vue中proto文件的函數調用9. 解決Android studio xml界面無法預覽問題10. 在IDEA中實現同時運行2個相同的java程序

排行榜

					
					編程語言PHP在Web開發領域的優勢在哪？
基于android studio的layout的xml文件的創建方式
什么是python的自省
詳解Android studio 動態fragment的用法
Android如何加載Base64編碼格式圖片
圖文詳解vue中proto文件的函數調用
解決Android studio xml界面無法預覽問題
.Net Core使用Coravel實現任務調度的完整步驟
Vuex localStorage的具體使用
在IDEA中實現同時運行2個相同的java程序
vue 使用localstorage實現面包屑的操作