文章詳情頁

算法 - python ahocorasick 從本地文件讀取文本，進行關鍵字匹配，匹配失敗

瀏覽：172日期：2022-07-23 09:06:00

問題描述

使用Python+pyahocorasick，匹配關鍵字，關鍵字大概在10-20個漢字之間。

構建ahocorasick的文本，是從本地文件key_word的讀入。格式如下：

母嬰專區(qū)<輔食<面仔/面條:嬰幼兒,幼兒,嬰兒,兒童,寶寶面條,細面,粗面,手工面,蔬菜面,營養(yǎng)面,碎面,掛面,面仔

匹配結果為空。

代碼如下：

import ahocorasickA = ahocorasick.Automaton()title = ’Hello Kitty3色蔬菜細面300克嬰兒幼兒營養(yǎng)面條寶寶輔食面條’with open(’key_word’, ’r’) as f: for line in f.readlines():line = line.strip()line = str(line.split(’<’)) A.add_word(line, line)A.make_automaton()aa = A.iter(title)for item in aa: print(item) # 打印為空值

請有操作過這種問題的大大，幫忙看看，能提供示例代碼，或者提供處理思路，謝謝！

問題解答

回答1：

研究了兩天，自己實現(xiàn)了這個功能

本地文件有太多重復關鍵字，匹配并不是100%，供參考

參考代碼如下：

import ahocorasickA = ahocorasick.Automaton()titles = [’Hello Kitty3色蔬菜細面300克嬰兒幼兒營養(yǎng)面條寶寶輔食面條’]word_dict = {}with open(’categories.csv’, ’r’) as f: for line in f.readlines():line = line.strip()word_key = line.split(’:’)[0]word_value = list(line.split(’:’)[1].split(’|’))word_dict[word_key] = word_valueline = (line.split(’:’)[1].split(’|’))for word in line: if word == '':continue A.add_word(word, word)A.make_automaton()for title in titles: category = [] aa = A.iter(title) ret = [] matches = {} for (k,v) in aa:matches[v] = 1 for (k,v) in matches.items():ret.append(k) for value in word_dict.items():if ret[0] in value[1]: category.append(value[0]) #關鍵字太多，所以寫死了一個keyword匹配的結果 #print(ret[0], value[0], value[1]) print(category[0])

打印結果：母嬰專區(qū)<輔食<面仔/面條

Python 編程

上一條：python bytes怎么分割成若干個bytes下一條：python - scrapy 爬取pages比實際進入items的多得多？

排行榜

					
					golang - 用IDE看docker源碼時的小問題
html - css氣泡，實現(xiàn)“倒三角（不知道算不算三角了）”可透明的。
javascript - 請指條明路，angular的$event，在select中卻是undefined？
關于docker下的nginx壓力測試
Docker for Mac 創(chuàng)建的dnsmasq容器連不上/不工作的問題
docker - 如何修改運行中容器的配置
關docker hub上有些鏡像的tag被標記““This image has vulnerabilities””
docker鏡像push報錯
docker-machine添加一個已有的docker主機問題
angular.js - angularjs的自定義過濾器如何給文字加顏色？
運行python程序時出現(xiàn)“應用程序發(fā)生異常”的內存錯誤？
				

熱門標簽

午夜剧场伦理_日本一道高清_国产又黄又硬_91黄色网战_女同久久另类69精品国产_妹妹的朋友在线

算法 - python ahocorasick 從本地文件讀取文本，進行關鍵字匹配，匹配失敗