午夜剧场伦理_日本一道高清_国产又黄又硬_91黄色网战_女同久久另类69精品国产_妹妹的朋友在线

您的位置:首頁技術文章
文章詳情頁

python - 大文本數據合并問題思路

瀏覽:158日期:2022-08-12 15:46:37

問題描述

背景:

我有三個csv文件,分別如下:

afile: userid, username, ....bfile: postid, userid, postname, ...cfile: postid, postnum, ...

afile = 10Gbfile = 150Gcfile = 20G

注:各個field的分隔符并不是單個字符(例如逗號),而是一串特殊符號,因為部分field可能會包含某些單字符分隔符,鍵盤上的單字符都試過了,都有包含,所以用了一串幾個字符組成的特殊字符串來分隔,所以并不是嚴格的csv,這是最蛋疼的地方

目的:

我想合并這三個文件,bfile和cfile根據postid列合并,合并后再根據userid列合并afile,最終大概是postid, userid, postname, postnum, username這樣的形式。

目前我的偽代碼如下:

import pandas as pdchunksize = 1000000 # 100W 目前看沒問題 try:resultchunktotal = []bfilereader = pd.read_csv(bfile, iterator=True, engine=’python’, sep=’##’)goon_1 = Truewhile goon_1: try:# 分塊讀取 bfilebfilechunk = bfilereader.get_chunk(chunksize)if not bfilechunk.empty: cfilereader = pd.read_csv(cfile, iterator=True, engine=’python’, sep=’##’) goon_2 = True while goon_2:try: # 分塊讀取 cfile cfilechunk = cfilereader.get_chunk(chunksize) if not cfilechunk.empty:bfilecfilechunk = pd.merge(bfilechunk, cfilechunk, on=’postid’)# 不為空代表 bfile cfile有共同的postidif not bfilecfilechunk.empty: afilereader = pd.read_csv(afile, iterator=True, engine=’python’, sep=’##’) goon_3 = True while goon_3:try: # 分塊讀取afile afilechunk = afilereader.get_chunk(chunksize) if not afilechunk.empty:chunkresult = pd.merge(bfilecfilechunk, afilechunk, on=’’)# 不為空表示有共同的useridif not chunkresult.empty:resultchunktotal.append(chunkresult)except StopIteration: goon_3 = Falseexcept StopIteration: goon_2 = False except StopIteration:goon_1 = Falseif len(resultchunktotal) > 0: pd.concat(resultchunktotal).to_csv(’result.csv’, index=False) except Exception as e:print(e)

但是感覺這樣,很低效,所以跪求各位大神好的思路以及好的工具方法

ps: 這是一道“大數據”的偽命題,無非數據稍大了點

問題解答

回答1:

別寫代碼啦。看起來是一行 shell 腳本的事情,用 xsv join 子命令。

標簽: Python 編程
相關文章:
主站蜘蛛池模板: 成人毛片视频免费看 | 欧美视频网站 | 懂色av中文字幕 | 在线播放成人av | 中文字幕精 | av中文网站 | 人人插人人舔 | www成人免费视频 | 五月综合久久 | 久草福利在线视频 | 欧美aaaaaa| 午夜精品福利视频 | 中文字幕永久免费 | 老司机福利精品 | 97黄色| 日韩激情在线播放 | 国产suv精品一区 | av手机| 黄色在线一区 | 国产精品美女网站 | 欧美三级美国一级 | 成人午夜一区 | 青青草免费在线视频观看 | 欧美日韩大片 | 成人18视频| 国产精品xxxx喷水欧美 | 国产一区黄色 | 亚洲免费二区 | 亚洲国产综合在线 | 中国女人一级一次看片 | 欧美在线综合 | 日韩欧美中文字幕一区二区三区 | 91视频一区二区三区 | 久久精品国产一区二区三区 | 国产日韩欧美视频 | 狠狠久| 精品美女一区二区三区 | 亚洲午夜精品一区二区三区他趣 | 国产五月天婷婷 | www性| 成人手机av |