一種對(duì)搜索關(guān)鍵詞進(jìn)行語(yǔ)義分析的方法和系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及信息檢索技術(shù),尤其涉及一種對(duì)搜索關(guān)鍵詞進(jìn)行語(yǔ)義分析的方法和系 統(tǒng)。
【背景技術(shù)】
[0002] 計(jì)算機(jī)科學(xué)領(lǐng)域的一個(gè)重要分支就是"人工智能",它企圖了解智能的實(shí)質(zhì),并生 產(chǎn)出一種新的能以人類智能相似的方式做出反應(yīng)的智能機(jī)器,該領(lǐng)域的研究包括機(jī)器人、 語(yǔ)言識(shí)別、圖像識(shí)別、自然語(yǔ)言處理和專家系統(tǒng)等。
[0003] 在自然語(yǔ)言處理方面,如何讓計(jì)算機(jī)識(shí)別和理解人類的語(yǔ)言,并且模擬人類思維 方式去思考、推理問(wèn)題,是完成"人工智能"這個(gè)人類偉大理想的重要舉措。不管是中文,英 文語(yǔ)言環(huán)境中,除了"你""我""他"等這類個(gè)別的例外以外,詞組才是人類表達(dá)語(yǔ)義的最小 單位。
[0004] 中文由于其深厚而且博大精深的文化底蘊(yùn),"長(zhǎng)字符串"形式的書(shū)寫方式使得計(jì)算 機(jī)在理解中文方面遠(yuǎn)比理解英文要困難很多。因?yàn)橛⑽谋旧砭褪且?詞"為最小的存在單 位,書(shū)寫方式是以空格區(qū)分每個(gè)詞分割,所以計(jì)算機(jī)能通過(guò)空格來(lái)很好的識(shí)別英文的一個(gè) 最小語(yǔ)義表達(dá)。
[0005] 中文的復(fù)雜程度、表達(dá)語(yǔ)義的能力遠(yuǎn)遠(yuǎn)高于英文,同樣一個(gè)詞在不同的語(yǔ)用、語(yǔ)境 下表達(dá)的意思是完全不同的。比如"乒乓球拍賣完了",可以理解為"乒乓球_拍賣完了"、也 可以是"乒乓球拍_賣完了",再比如"XXX行賄中國(guó)石油公司"和"中國(guó)石油公司行賄XXX"。 同樣的內(nèi)容不同的分割、不同的順序,表達(dá)的意思就完全不一樣。所以若想讓計(jì)算機(jī)識(shí)別中 文文本,第一步要做的就是告訴計(jì)算機(jī)在一句話中,哪幾個(gè)字是一個(gè)詞組。而這就是分詞的 過(guò)程。而由于中文具有非常強(qiáng)的歧義性,所以準(zhǔn)確分詞技術(shù)是一項(xiàng)非常復(fù)雜和具有挑戰(zhàn)性 的工作。
[0006] 常見(jiàn)的中文歧義類型有:
[0007] 1、組合歧義:在分詞過(guò)程中是最常遇到的,比如:"美國(guó)花旗銀行"中的"國(guó)花", "蘇聯(lián)想從邊境撤軍"中的"聯(lián)想","技術(shù)和服務(wù)"中的"和服"等等非常多。
[0008] 2、人名歧義:"寧?kù)o"、"楊柳"、"黎明"等等,語(yǔ)境歧義
[0009] 3、語(yǔ)用歧義:"牦牛肉不好吃",其中的"好"有兩種意思,a) "味道不好吃"的意思; b) "不容易吃"的意思;
[0010] 4、語(yǔ)境歧義:兩米二六個(gè)頭的姚明。并不是說(shuō)姚明有"26個(gè)腦袋"
[0011] 5、真歧義:真歧義是最難以區(qū)分的,包括我們?nèi)祟惾魶](méi)有上下文語(yǔ)境的判斷和知 識(shí)積累,也很難正確的分詞。例如"武漢市長(zhǎng)江大橋"就可以分為"武漢_市長(zhǎng)_江大橋"或 者"武漢市_長(zhǎng)江大橋"。
[0012] 6、分詞顆粒問(wèn)題:"中國(guó)人民解放軍"可以是一個(gè)詞,也可以是"中國(guó)人民解放軍" 在不同的應(yīng)用情景下,分詞顆粒度是完全不同的。分詞顆粒度的不同,造成語(yǔ)義的完全不 同。
[0013] 7、分詞具有領(lǐng)域性:在醫(yī)藥、化工領(lǐng)域的中文表達(dá)方式和文字特點(diǎn)與其他領(lǐng)域完 全不同,互聯(lián)網(wǎng)網(wǎng)友的用詞方式跟其他領(lǐng)域完全不同。
[0014] 這類歧義在中文中還有更多更多,若不能正確的分詞,計(jì)算機(jī)就無(wú)法正確識(shí)別中 文文本的內(nèi)容。但能正確的分詞僅僅是中文語(yǔ)義識(shí)別的第一步,必須還要能準(zhǔn)確的對(duì)詞義 進(jìn)行解析,讓計(jì)算機(jī)"懂得"詞的意義。
[0015] 現(xiàn)有技術(shù)方案中的關(guān)鍵字檢索運(yùn)用最常見(jiàn)的地方是基于關(guān)鍵字檢索的客戶 問(wèn)答系統(tǒng),在很多門戶網(wǎng)站上均部署有此類機(jī)器問(wèn)答系統(tǒng),其實(shí)此類系統(tǒng)就是傳統(tǒng) FAQ(Frequently Asked Questions)的升級(jí),當(dāng)FAQ過(guò)多時(shí)用戶可能不方便查找自己關(guān)心的 信息,于是有了這種升級(jí)和改進(jìn),專注于用戶"問(wèn)什么,答什么"。例如,用戶提問(wèn):密碼忘了 怎么辦?機(jī)器人回復(fù):
[0016] 尊敬的用戶早上好!
[0017] 如果您忘記了密碼可使用保密郵箱重置密碼,請(qǐng)點(diǎn)擊以下鏈接并輸入您注冊(cè)時(shí)填 寫的保密郵箱地址:
[0018] www. XXX. com/pass ? type = rest
[0019] 上述例子中,系統(tǒng)接收到問(wèn)本"密碼忘了怎么辦?",首先將文本拆分為:"密碼"、 "忘了"、"怎么辦? ",然后對(duì)拆分后的詞進(jìn)行關(guān)鍵字檢索,最后判斷出用戶是想知道忘記密 碼后怎么登陸系統(tǒng),于是就將預(yù)先準(zhǔn)備好的回復(fù)語(yǔ)返回給客戶。
[0020] 這種識(shí)別方法比較簡(jiǎn)單,成本低見(jiàn)效快,但是準(zhǔn)確度不高。如果用戶提問(wèn)為"我的 密碼是什么?",系統(tǒng)估計(jì)就識(shí)別不出來(lái)是什么意思了。為了解決這類問(wèn)題可以使用海量詞 庫(kù)來(lái)解決。
[0021] 當(dāng)根據(jù)根據(jù)搜到詞識(shí)別用戶意圖時(shí),遇到的麻煩更多,見(jiàn)以下場(chǎng)景:l、"iph〇ne5 什么時(shí)候降價(jià)"2、"iphone6什么時(shí)候上市"3、"三星合約機(jī)"〇6"5、"安卓手機(jī)數(shù)據(jù)線"6、 "蘋果5手機(jī)殼"7、"榮耀6白屏"。
[0022] 在場(chǎng)景1中,不僅是要識(shí)別出用戶對(duì)iphone5感興趣,更要識(shí)別出用戶希望以優(yōu)惠 的價(jià)格購(gòu)機(jī)。在場(chǎng)景2中,用戶表現(xiàn)出了對(duì)iphone6的關(guān)心,但是用戶不一定想購(gòu)買。在場(chǎng) 景3中,用戶表現(xiàn)出了對(duì)三星手機(jī)的興趣,但是必須是合約機(jī)。在場(chǎng)景4中,用戶究竟是搜 索"Ipv6(Internet Protocol Version 6)"還是iphone6。在場(chǎng)景5中,用戶是想購(gòu)買安卓 手機(jī)的數(shù)據(jù)線而不是手機(jī)。在場(chǎng)景6中,用戶是想買iphone5的手機(jī)殼而不是手機(jī)。在場(chǎng) 景7中,用戶的榮耀6手機(jī)發(fā)生了白屏故障,而不是想買白色的榮耀6。因此單單使用傳統(tǒng) 的關(guān)鍵字檢索技術(shù)是無(wú)法滿足要求的。
【發(fā)明內(nèi)容】
[0023] 本發(fā)明所要解決的技術(shù)問(wèn)題是提供一種通過(guò)綜合語(yǔ)義判斷,識(shí)別用戶搜索意愿的 語(yǔ)義分析方法和系統(tǒng)。
[0024] 本發(fā)明解決上述技術(shù)問(wèn)題的技術(shù)方案如下:一種對(duì)搜索關(guān)鍵詞進(jìn)行語(yǔ)義分析的 系統(tǒng),包括搜索詞接收模塊、詞典索引庫(kù)、分詞模塊、語(yǔ)義分析模塊、評(píng)估模塊和結(jié)果組裝模 塊;
[0025] 所述搜索詞接收模塊,用于接收用戶輸入的搜索詞,并將所述搜索詞發(fā)送至分詞 模塊;
[0026] 所述詞典索引庫(kù),用于存儲(chǔ)停用詞典、基礎(chǔ)詞典、正向詞典、反向詞典和核心詞 血. ,、,
[0027] 所述分詞模塊,用于通過(guò)匹配引擎調(diào)取詞典索引庫(kù)中的詞語(yǔ),對(duì)搜索詞進(jìn)行中文 分詞和去除停用詞得到關(guān)鍵詞語(yǔ)組,并將所述關(guān)鍵詞語(yǔ)組發(fā)送至語(yǔ)義分析模塊;
[0028] 所述語(yǔ)義分析模塊,用于接收關(guān)鍵詞語(yǔ)組,并通過(guò)匹配引擎調(diào)取詞典索引庫(kù)中的 詞語(yǔ),采用預(yù)設(shè)算法對(duì)關(guān)鍵詞語(yǔ)組進(jìn)行匹配,得到匹配結(jié)果;
[0029] 所述評(píng)估模塊,用于通過(guò)匹配引擎再次調(diào)取詞典索引庫(kù)中的詞語(yǔ),對(duì)匹配結(jié)果進(jìn) 行評(píng)分;
[0030] 所述結(jié)果組裝模塊,用于對(duì)評(píng)分后的匹配結(jié)果進(jìn)行格式化組合。
[0031] 本發(fā)明的有益效果是:本發(fā)明對(duì)關(guān)鍵字檢索切分成三個(gè)部分:關(guān)鍵檢索、正向檢 索、反向檢索,并輔以語(yǔ)義算法和評(píng)分體系,進(jìn)行綜合語(yǔ)義判斷,有效識(shí)別用戶搜索意愿,從 而為有效的指導(dǎo)終端營(yíng)銷。
[0032] 本發(fā)明還提供一種對(duì)搜索關(guān)鍵詞進(jìn)行語(yǔ)義分析的方法,包括以下步驟,接收用戶 輸入的搜索詞;
[0033] 對(duì)搜索詞進(jìn)行中文分詞和去除停用詞得到關(guān)鍵詞語(yǔ)組;
[0034] 通過(guò)匹配引擎調(diào)取詞典索引庫(kù)中的詞語(yǔ),采用預(yù)設(shè)算法對(duì)關(guān)鍵詞語(yǔ)組進(jìn)行匹配, 得到匹配結(jié)果;
[0035] 通過(guò)匹配引擎再次調(diào)取詞典索引庫(kù)中的詞語(yǔ),對(duì)匹配結(jié)果進(jìn)行評(píng)分;
[0036] 對(duì)評(píng)分后的匹配結(jié)果進(jìn)行格式化組合。
【附圖說(shuō)明】
[0037] 圖1為本發(fā)明一種對(duì)搜索關(guān)鍵詞進(jìn)行語(yǔ)義分析的系統(tǒng)模塊關(guān)系示意圖;
[0038] 圖2為本發(fā)明一種對(duì)搜索關(guān)鍵詞進(jìn)行語(yǔ)義分析的方法步驟流程圖。
【具體實(shí)施方式】
[0039] 以下結(jié)合附圖對(duì)本發(fā)明的原理和特征進(jìn)行描述,所舉實(shí)例只用于解釋本發(fā)明,并 非用于限定本發(fā)明的范圍。
[0040] 如圖1所示,一種對(duì)搜索關(guān)鍵詞進(jìn)行語(yǔ)義分析的系統(tǒng),包括搜索詞接收模塊、分詞 模塊、語(yǔ)義分析模塊、評(píng)估模塊和結(jié)果組裝模塊。搜索詞接收模塊,用于接收用戶輸入的搜 索詞,并將搜索詞發(fā)送至分詞模塊。分詞模塊,用于對(duì)搜索詞進(jìn)行中文分詞和去除停用詞得 到關(guān)鍵詞語(yǔ)組,并將關(guān)鍵詞語(yǔ)組發(fā)送至語(yǔ)義分析模塊。本發(fā)明的分詞模塊選用了開(kāi)源的分 詞工具IKAnalyzer對(duì)搜索詞進(jìn)行分詞,得到分詞結(jié)果。語(yǔ)義分析模塊,用于接收關(guān)鍵詞語(yǔ) 組,并通過(guò)匹配引擎調(diào)取詞典索引庫(kù)中的詞語(yǔ),采用預(yù)設(shè)算法對(duì)關(guān)鍵詞語(yǔ)組進(jìn)行匹配,得到 匹配結(jié)果。評(píng)估模塊,用于通過(guò)匹配引擎再次調(diào)取詞典索引庫(kù)中的詞語(yǔ),對(duì)匹配結(jié)果進(jìn)行評(píng) 分。結(jié)果組裝模塊,用