亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

檢索關(guān)鍵詞糾錯(cuò)方法及裝置制造方法

文檔序號(hào):6511399閱讀:316來源:國(guó)知局
檢索關(guān)鍵詞糾錯(cuò)方法及裝置制造方法
【專利摘要】本申請(qǐng)公開了一種檢索關(guān)鍵詞糾錯(cuò)方法及裝置,其中,該方法包括:對(duì)待糾錯(cuò)語句進(jìn)行分詞得到一個(gè)或多個(gè)關(guān)鍵詞;對(duì)一個(gè)或多個(gè)關(guān)鍵詞進(jìn)行倒排索引得到語句集合;將待糾錯(cuò)語句與語句集合中的每個(gè)語句進(jìn)行相似度比較;將語句集合中與待糾錯(cuò)語句相似度最高的語句作為糾錯(cuò)完成的語句。本申請(qǐng)解決了用戶在搜索引擎中提交無意的錯(cuò)誤輸入,導(dǎo)致用戶不能正確搜索的問題,提高了用戶的搜索體驗(yàn)。
【專利說明】檢索關(guān)鍵詞糾錯(cuò)方法及裝置

【技術(shù)領(lǐng)域】
[0001]本申請(qǐng)涉及檢索領(lǐng)域,具體而言,涉及一種檢索關(guān)鍵詞糾錯(cuò)方法及裝置。

【背景技術(shù)】
[0002]目前,隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,通過互聯(lián)網(wǎng)的手段來獲取各種信息日益成為人們獲取時(shí)信息和知識(shí)的主要途徑。在通過互聯(lián)網(wǎng)獲取信息時(shí),會(huì)使用搜索引擎。
[0003]在使用搜索引擎的時(shí)候,用戶會(huì)輸入關(guān)鍵詞,在輸入關(guān)鍵詞的時(shí)候,一般是使用輸入法,這有可能會(huì)導(dǎo)致輸入的關(guān)鍵詞中出現(xiàn)錯(cuò)別字。例如,用戶希望搜索達(dá)芬奇密碼,但是由于使用的漢語拼音作為輸入法,用戶錯(cuò)誤的輸入成了大分歧密碼。對(duì)于這種錯(cuò)誤,搜索引擎可能無法搜索到相關(guān)的結(jié)果,此時(shí),用戶可能會(huì)發(fā)現(xiàn)自己輸入錯(cuò)了,然后重新輸入正確的達(dá)芬奇密碼。還有另外一種情況,用戶希望搜索莫名其妙,但是,其在輸入關(guān)鍵詞的時(shí)候輸入錯(cuò)誤,輸入成了莫明其妙,此時(shí)搜索引擎可能也無法搜索到結(jié)果,但是,用戶無法意識(shí)到其輸入的莫明其妙是錯(cuò)誤的,這時(shí)候用戶會(huì)以為是搜索引擎的提供商的問題。從而降低了用戶體驗(yàn)。
[0004]針對(duì)相關(guān)技術(shù)中的用戶在搜索引擎中提交無意的錯(cuò)誤輸入導(dǎo)致用戶不能正確搜索的問題,尚未提出解決方案。


【發(fā)明內(nèi)容】

[0005]本申請(qǐng)?zhí)峁┝艘环N檢索關(guān)鍵詞糾錯(cuò)方法及裝置,以至少解決用戶在搜索引擎中提交無意的錯(cuò)誤輸入,導(dǎo)致用戶不能正確搜索的問題。
[0006]根據(jù)本申請(qǐng)的一個(gè)方面,提供了一種檢索關(guān)鍵詞糾錯(cuò)方法,該方法包括:對(duì)待糾錯(cuò)語句進(jìn)行分詞得到一個(gè)或多個(gè)關(guān)鍵詞;對(duì)所述一個(gè)或多個(gè)關(guān)鍵詞進(jìn)行倒排索引得到語句集合;將所述待糾錯(cuò)語句與所述語句集合中的每個(gè)語句進(jìn)行相似度比較;將所述語句集合中與所述待糾錯(cuò)語句相似度最高的語句作為糾錯(cuò)完成的語句。
[0007]根據(jù)本申請(qǐng)的另一個(gè)方面,還提供了一種檢索關(guān)鍵詞糾錯(cuò)裝置,該裝置包括:分詞模塊,用于對(duì)待糾錯(cuò)語句進(jìn)行分詞得到一個(gè)或多個(gè)關(guān)鍵詞;索引模塊,用于對(duì)所述一個(gè)或多個(gè)關(guān)鍵詞進(jìn)行倒排索引得到語句集合;比較模塊,用于將所述待糾錯(cuò)語句與所述語句集合中的每個(gè)語句進(jìn)行相似度比較;處理模塊,用于將所述語句集合中與所述待糾錯(cuò)語句相似度最高的語句作為糾錯(cuò)完成的語句。
[0008]通過本申請(qǐng),對(duì)待糾錯(cuò)語句進(jìn)行分詞得到一個(gè)或多個(gè)關(guān)鍵詞;對(duì)該一個(gè)或多個(gè)關(guān)鍵詞進(jìn)行倒排索引得到語句集合;將待糾錯(cuò)語句與語句集合中的每個(gè)語句進(jìn)行相似度比較;將語句集合中與待糾錯(cuò)語句相似度最高的語句作為糾錯(cuò)完成的語句,解決了用戶在搜索引擎中提交無意的錯(cuò)誤輸入導(dǎo)致用戶不能正確搜索的問題,提高了用戶的搜索體驗(yàn)。

【專利附圖】

【附圖說明】
[0009]此處所說明的附圖用來提供對(duì)本申請(qǐng)的進(jìn)一步理解,構(gòu)成本申請(qǐng)的一部分,本申請(qǐng)的示意性實(shí)施例及其說明用于解釋本申請(qǐng),并不構(gòu)成對(duì)本申請(qǐng)的不當(dāng)限定。在附圖中:
[0010]圖1是根據(jù)本申請(qǐng)實(shí)施例的檢索關(guān)鍵詞糾錯(cuò)方法的流程圖;
[0011]圖2是根據(jù)本申請(qǐng)實(shí)施例的使用了倒排索引的優(yōu)選流程圖;
[0012]圖3是根據(jù)本申請(qǐng)實(shí)施例的采用了距離比較的檢索關(guān)鍵詞糾錯(cuò)方法的流程圖;
[0013]圖4是根據(jù)本申請(qǐng)實(shí)施例的提取關(guān)鍵詞之后檢索關(guān)鍵詞糾錯(cuò)方法的流程圖;
[0014]圖5是根據(jù)本申請(qǐng)實(shí)施例的檢索關(guān)鍵詞糾錯(cuò)裝置的結(jié)構(gòu)圖;
[0015]圖6是根據(jù)本申請(qǐng)實(shí)施例的搜索引擎的查詢糾錯(cuò)產(chǎn)品的示意圖;
[0016]圖7是根據(jù)本申請(qǐng)實(shí)施例的搜索引擎的查詢糾錯(cuò)產(chǎn)品的架構(gòu)圖。

【具體實(shí)施方式】
[0017]需要說明的是,在不沖突的情況下,本申請(qǐng)中的實(shí)施例及實(shí)施例中的特征可以相互組合。下面將參考附圖并結(jié)合實(shí)施例來詳細(xì)說明本申請(qǐng)。
[0018]需要說明的是,在附圖的流程示意圖示出的步驟可以在諸如一組計(jì)算機(jī)可執(zhí)行指令的計(jì)算機(jī)系統(tǒng)中執(zhí)行,并且,雖然在流程示意圖中示出了邏輯順序,但是在某些情況下,可以以不同于此處的順序執(zhí)行所示出或描述的步驟。
[0019]在以下描述中,除非另外指明,否則將參考由一個(gè)或多個(gè)計(jì)算機(jī)執(zhí)行的動(dòng)作和操作的符號(hào)表示來描述本申請(qǐng)的各實(shí)施例。其中,計(jì)算機(jī)可以包括個(gè)人計(jì)算機(jī)、服務(wù)器、移動(dòng)終端等各種產(chǎn)品,在以下實(shí)施例中,使用了 CPU、單片機(jī)、DSP等具有處理芯片的設(shè)備均可以稱為計(jì)算機(jī)。由此,可以理解,有時(shí)被稱為計(jì)算機(jī)執(zhí)行的這類動(dòng)作和操作包括計(jì)算機(jī)的處理單元對(duì)以結(jié)構(gòu)化形式表示數(shù)據(jù)的電信號(hào)的操縱。這一操縱轉(zhuǎn)換了數(shù)據(jù)或在計(jì)算機(jī)的存儲(chǔ)器系統(tǒng)中的位置上維護(hù)它,這以本領(lǐng)域的技術(shù)人員都理解的方式重配置或改變了計(jì)算機(jī)的操作。維護(hù)數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)是具有數(shù)據(jù)的格式所定義的特定屬性的存儲(chǔ)器的物理位置。然而,盡管在上述上下文中描述本申請(qǐng),但它并不意味著限制性的,如本領(lǐng)域的技術(shù)人員所理解的,后文所描述的動(dòng)作和操作的各方面也可用硬件來實(shí)現(xiàn)。
[0020]轉(zhuǎn)向附圖,其中相同的參考標(biāo)號(hào)指代相同的元素,本申請(qǐng)的原理被示為在合適的計(jì)算環(huán)境中實(shí)現(xiàn)。以下描述基于所述的本申請(qǐng)的實(shí)施例,并且不應(yīng)認(rèn)為是關(guān)于此處未明確描述的替換實(shí)施例而限制本申請(qǐng)。
[0021]優(yōu)選地,本申請(qǐng)實(shí)施例可以提供一個(gè)其上存儲(chǔ)有本申請(qǐng)實(shí)施例的機(jī)器可讀媒體。需要說明的是,任一適合存儲(chǔ)設(shè)計(jì)關(guān)于本申請(qǐng)的指令的媒體都在本申請(qǐng)的范圍以內(nèi)。例如,這樣的媒體可以采用磁性媒體、光學(xué)媒體或半導(dǎo)體媒體的形式。
[0022]在本實(shí)施例中,提供了一種檢索關(guān)鍵詞糾錯(cuò)方法,圖1是根據(jù)本申請(qǐng)實(shí)施例的檢索關(guān)鍵詞糾錯(cuò)方法的流程圖,如圖1所示,該流程包括如下步驟:
[0023]步驟S102,對(duì)待糾錯(cuò)語句進(jìn)行分詞得到一個(gè)或多個(gè)關(guān)鍵詞;
[0024]步驟S104,對(duì)一個(gè)或多個(gè)關(guān)鍵詞進(jìn)行倒排索引得到語句集合;
[0025]步驟S106,將待糾錯(cuò)語句與語句集合中的每個(gè)語句進(jìn)行相似度比較;
[0026]步驟S108,將語句集合中與待糾錯(cuò)語句相似度最高的語句作為糾錯(cuò)完成的語句。
[0027]通過上述步驟,提供了一種糾錯(cuò)的方法,在該糾錯(cuò)方法中采用了對(duì)整個(gè)待糾錯(cuò)語句進(jìn)行糾錯(cuò)的方式,從而可以提高糾錯(cuò)的準(zhǔn)確性,提高了搜索引擎對(duì)用戶檢索意圖的識(shí)別能力。在上述步驟中,還采用了倒排索引的方式,這種索引方式執(zhí)行效率比較高。
[0028]下面對(duì)倒排索引的方式進(jìn)行說明。
[0029]倒排索引源于實(shí)際應(yīng)用中需要根據(jù)屬性的值來查找記錄。這種索引表中的每一項(xiàng)都包括一個(gè)屬性值和具有該屬性值的各記錄的地址。由于不是由記錄來確定屬性值,而是由屬性值來確定記錄的位置,因而稱為倒排索引(inverted index)。帶有倒排索引的文件稱為倒排索引文件,可以簡(jiǎn)稱為倒排文件(inverted file)。
[0030]倒排文件(倒排索引)索引對(duì)象是文檔或者文檔集合中的單詞等,搜索引擎的關(guān)鍵步驟就是建立倒排索引,倒排索引一般表示為一個(gè)關(guān)鍵詞,然后,還可以統(tǒng)計(jì)關(guān)鍵詞的頻度(出現(xiàn)的次數(shù))、位置(出現(xiàn)在哪一篇文章或網(wǎng)頁中,及有關(guān)的日期,作者等信息)等排文件索引結(jié)構(gòu)。
[0031]倒排索引有很多種實(shí)現(xiàn)方法,在本實(shí)施例中提供了一種比較容易實(shí)現(xiàn)的一種方法,圖2是根據(jù)本申請(qǐng)實(shí)施例的使用了倒排索引的優(yōu)選流程圖,如圖2所示,該流程包括如下步驟:
[0032]步驟S200,從數(shù)據(jù)庫中對(duì)一個(gè)或多個(gè)關(guān)鍵詞進(jìn)行倒排索引得到關(guān)鍵詞與語句的對(duì)應(yīng)關(guān)系,將來用于得到步驟S204中的語句集合,其中,該數(shù)據(jù)庫中保存有語句和該語句對(duì)應(yīng)的關(guān)鍵詞之間的關(guān)聯(lián)關(guān)系,該語句對(duì)應(yīng)的關(guān)鍵詞是對(duì)該語句進(jìn)行分詞得到的;
[0033]步驟S202,對(duì)待糾錯(cuò)語句進(jìn)行分詞得到一個(gè)或多個(gè)關(guān)鍵詞;
[0034]步驟S204,對(duì)一個(gè)或多個(gè)關(guān)鍵詞進(jìn)行倒排索引得到語句集合;
[0035]步驟S206,將待糾錯(cuò)語句與語句集合中的每個(gè)語句進(jìn)行相似度比較;
[0036]步驟S208,將語句集合中與待糾錯(cuò)語句相似度最高的語句作為糾錯(cuò)完成的語句。
[0037]相比于圖1中示出的步驟,該圖2中增加了步驟S200,該步驟200是一種優(yōu)選的倒排索引的建立方式,即對(duì)于某個(gè)語句,先進(jìn)行分詞得到該語句的關(guān)鍵詞,通過這樣的方式建立起關(guān)鍵詞與該語句的倒排索引。
[0038]例如,對(duì)于語句“生命不能承受之輕”,可以采用最簡(jiǎn)單的二元分詞法,對(duì)該語句分完得到的關(guān)鍵詞有:“生命” “命不” “不能” “能承” “承受” “受之” “之輕”。該語句還可以拆分得到如下關(guān)鍵詞:“生命不” “命不能” “不能承” “能承受” “承受之” “受之輕”。該語句還可以拆分得到如下關(guān)鍵詞:“生命不能” “命不能承” “不能承受” “能承受之” “承受之輕”。這些關(guān)鍵字均可以作為該語句的關(guān)鍵字,或者可以只保留兩個(gè)字的關(guān)鍵字作為關(guān)鍵字,或者只保留三個(gè)字的關(guān)鍵字作為關(guān)鍵字,或者可以只保留四個(gè)字的關(guān)鍵字作為關(guān)鍵字。
[0039]如果用戶輸入的語句是“聲明不能承受之情”,那么,對(duì)于該語句中進(jìn)行分詞可以得到關(guān)鍵詞,得到的關(guān)鍵詞可以有很多,以“聲明” “不能” “承受之情”為例進(jìn)行說明。通過“聲明”是無法檢索到正確的“生命不能承受之輕”的,通過“承受之情”也是無法檢索到正確的“生命不能承受之輕”的。但是通過“不能”是可以檢索到該“生命不能承受之輕”的,通過“不能”還可以檢索到多個(gè)詞語,例如,“不能消失的電波” “不能忽略的愛戀” “愛情不能是生命的全部” “生命不能承受之輕”等,通過相似度比較,確認(rèn)“聲明不能承受之情”與“生命不能承受之輕”是最接近的。因此,使用“生命不能承受之輕”對(duì)用戶的輸入的語句進(jìn)行修正。
[0040]在上個(gè)例子,還可以引入位置的概念。例如,如果采用二元分詞法的話,“不能”是位于第二個(gè)位置的,此時(shí),倒排索引檢索到的語句中不能也應(yīng)該是在第二個(gè)位置的,此時(shí),就可以忽略“不能消失的電波” “不能忽略的愛戀”,僅將用戶輸入的“聲明不能承受之情”與“愛情不能是生命的全部” “生命不能承受之輕”進(jìn)行比較即可。這樣可以減少相似度比較的工作量,從而提高比較的效率。
[0041]對(duì)于相似度比較,也可以采用多種方法來進(jìn)行,在本實(shí)施例中選擇了一個(gè)實(shí)現(xiàn)速度比較快的方式。圖3是根據(jù)本申請(qǐng)實(shí)施例的采用了距離比較的檢索關(guān)鍵詞糾錯(cuò)方法的流程圖,如圖3所示,該流程包括如下步驟:
[0042]步驟S302,對(duì)待糾錯(cuò)語句進(jìn)行分詞得到一個(gè)或多個(gè)關(guān)鍵詞;
[0043]步驟S304,對(duì)一個(gè)或多個(gè)關(guān)鍵詞進(jìn)行倒排索引得到語句集合;
[0044]步驟S306-1,將待糾錯(cuò)語句與語句集合中的每個(gè)語句進(jìn)行編輯距離計(jì)算,其中,編輯距離是指將待糾錯(cuò)語句轉(zhuǎn)換成語句集合中的語句需要的最小編輯操作次數(shù);
[0045]步驟S306-2,將語句集合中編輯距離最短的語句作為與待糾錯(cuò)語句相似度最高的語句;
[0046]步驟S308,將語句集合中與待糾錯(cuò)語句相似度最高的語句作為糾錯(cuò)完成的語句。
[0047]上述步驟S306-1中涉及到編輯操作,該編輯操作可以包括:字符替換操作、字符插入操作、字符刪除操作等。例如,將“聲明不能承受之情”變換成“生命不能承受之輕”只需要三個(gè)步驟:將“聲”替換為“生”,將“明”替換為“命”,將“情”替換為“輕”。因此,將“生命不能承受之輕”作為“聲明不能承受之情”的相似度最高的詞語。
[0048]上述實(shí)施例中,用戶輸入的詞語認(rèn)為是需要進(jìn)行檢索的詞語,但是,有時(shí)候,用戶還會(huì)輸入一些非關(guān)鍵的詞,例如,用戶輸入的是“最新版聲明不能承受之情”,此時(shí),“最新版”就是一個(gè)不需要進(jìn)行糾錯(cuò)的詞語,這些詞語具有通過的特點(diǎn),就是均是一種修飾詞,對(duì)于存在修飾詞的情況,在本實(shí)施例中還提供了一種優(yōu)選的實(shí)施方式,圖4是根據(jù)本申請(qǐng)實(shí)施例的提取關(guān)鍵詞之后檢索關(guān)鍵詞糾錯(cuò)方法的流程圖,如圖4所示,該流程包括如下步驟:
[0049]步驟S400,從用戶輸入的檢索串中提取出待糾錯(cuò)語句;
[0050]步驟S402,對(duì)待糾錯(cuò)語句進(jìn)行分詞得到一個(gè)或多個(gè)關(guān)鍵詞;
[0051]步驟S404,對(duì)一個(gè)或多個(gè)關(guān)鍵詞進(jìn)行倒排索引得到語句集合;
[0052]步驟S406,將待糾錯(cuò)語句與語句集合中的每個(gè)語句進(jìn)行相似度比較;
[0053]步驟S408,將語句集合中與待糾錯(cuò)語句相似度最高的語句作為糾錯(cuò)完成的語句;
[0054]步驟S410,將所檢索串中的待糾錯(cuò)語句替換成糾錯(cuò)完成的語句,使用替換完成的檢索串進(jìn)行搜索。
[0055]通過上述步驟,并不是對(duì)用戶輸入的檢索串的所有內(nèi)容進(jìn)行糾錯(cuò),而是僅僅對(duì)提取出來的待糾錯(cuò)語句進(jìn)行糾錯(cuò),這樣可以減少計(jì)算的工作量。
[0056]上述步驟S400中,涉及到提取出待糾錯(cuò)語句,這種提取方式可能有可能中,在本實(shí)施例中提供了一種優(yōu)選的方式。在本優(yōu)選方式中使用預(yù)先設(shè)置的信息從該檢索串中進(jìn)行匹配;前綴、后綴、文字描述模板,將匹配到的信息從該檢索串中刪除得到所述待糾錯(cuò)語句。前綴可以是“最新” “最熱”等,文字描述模板可以是“第*集”,其中的*可以是任何字。即文字描述模板是具有一個(gè)或多個(gè)通配符的字符串。
[0057]在本實(shí)施例中,還提供了一種檢索關(guān)鍵詞糾錯(cuò)裝置,該檢索關(guān)鍵詞糾錯(cuò)裝置用于實(shí)現(xiàn)上述的方法,在上述實(shí)施例及優(yōu)選實(shí)施方式中已經(jīng)進(jìn)行過說明的,在此不再贅述。需要說明的是,下述裝置中的模塊的名稱并不構(gòu)成對(duì)該模塊的實(shí)際限定,例如,分詞模塊可以表述為“用于對(duì)待糾錯(cuò)語句進(jìn)行分詞得到一個(gè)或多個(gè)關(guān)鍵詞”,以下的模塊均可以在處理器中實(shí)現(xiàn),例如,分詞模塊可以表述為“一種處理器,用于對(duì)待糾錯(cuò)語句進(jìn)行分詞得到一個(gè)或多個(gè)關(guān)鍵詞”,或者,“一種處理器,包括分詞模塊”等。
[0058]圖5是根據(jù)本申請(qǐng)實(shí)施例的檢索關(guān)鍵詞糾錯(cuò)裝置的結(jié)構(gòu)圖,如圖5所示,該裝置50包括:分詞模塊52,索引模塊54,比較模塊56和處理模塊58下面對(duì)該裝置進(jìn)行說明。
[0059]分詞模塊52,用于對(duì)待糾錯(cuò)語句進(jìn)行分詞得到一個(gè)或多個(gè)關(guān)鍵詞;
[0060]索引模塊54,用于對(duì)一個(gè)或多個(gè)關(guān)鍵詞進(jìn)行倒排索引得到語句集合;
[0061]比較模塊56,用于將待糾錯(cuò)語句與語句集合中的每個(gè)語句進(jìn)行相似度比較;
[0062]處理模塊58,用于將語句集合中與待糾錯(cuò)語句相似度最高的語句作為糾錯(cuò)完成的語句。
[0063]通過上述步驟,提供了一種糾錯(cuò)的方法,在該糾錯(cuò)方法中采用了對(duì)整個(gè)待糾錯(cuò)語句進(jìn)行糾錯(cuò)的方式,從而可以提高糾錯(cuò)的準(zhǔn)確性,提高了搜索引擎對(duì)用戶檢索意圖的識(shí)別能力。在上述步驟中,還采用了倒排索引的方式,這種索引方式執(zhí)行效率比較高。
[0064]優(yōu)選的,比較模塊56,用于將待糾錯(cuò)語句與語句集合中的每個(gè)語句進(jìn)行編輯距離計(jì)算,其中,編輯距離是指將待糾錯(cuò)語句轉(zhuǎn)換成語句集合中的語句需要的最小編輯操作次數(shù),該語句集合中編輯距離最短的語句是與待糾錯(cuò)語句相似度最高的語句。
[0065]優(yōu)選地,檢索關(guān)鍵詞糾錯(cuò)裝置還可以包括:提取模塊,用于從用戶輸入的檢索串中提取出待糾錯(cuò)語句,檢索模塊,用于將檢索串中的待糾錯(cuò)語句替換成糾錯(cuò)完成的語句,并使用替換完成的檢索串進(jìn)行搜索。
[0066]在本實(shí)施例中,提取模塊用于使用預(yù)先設(shè)置的信息從檢索串中進(jìn)行匹配,其中,預(yù)先設(shè)置的信息包括以下至少之一:前綴、后綴、文字描述模板,并將匹配到的信息從檢索串中刪除得到待糾錯(cuò)語句。
[0067]上述的實(shí)施例可以用在多個(gè)領(lǐng)域的搜索中,以下以視頻領(lǐng)域的搜索為例進(jìn)行說明。
[0068]本優(yōu)選實(shí)施例提出了一種服務(wù)于搜索引擎的查詢糾錯(cuò)方案,在用戶往搜索引擎提交檢索串之時(shí),基于領(lǐng)域特定的詞表對(duì)用戶無意的錯(cuò)誤輸入進(jìn)行糾錯(cuò),并提示用戶。圖6是根據(jù)本申請(qǐng)實(shí)施例的搜索引擎的查詢糾錯(cuò)產(chǎn)品的示意圖,如圖6所示,圖6中搜索框是應(yīng)用本申請(qǐng)的一個(gè)產(chǎn)品設(shè)計(jì);用戶在搜索引擎中提交了無意的錯(cuò)誤輸入,搜索引擎面對(duì)無意義的檢索串,將其糾正成為用戶原意輸入的檢索串。
[0069]圖7是根據(jù)本申請(qǐng)實(shí)施例的搜索引擎的查詢糾錯(cuò)產(chǎn)品的架構(gòu)圖,如圖7所示,該架構(gòu)包括:詞干提取模塊,該模塊提取的詞干就是上述帶糾錯(cuò)語句;詞表檢索模塊;距離編輯模塊;詞表索引模塊。下面對(duì)這些模塊進(jìn)行說明。
[0070]詞干提取模塊:從檢索串中剔除用戶對(duì)檢索目標(biāo)的各種功能詞,得到詞干。以視頻搜索領(lǐng)域?yàn)槔?,用戶在搜索一部影片《精忠岳父》的時(shí)候,往往會(huì)攜帶“最新”、“湖南衛(wèi)視”、“熱播”、“電視劇”等詞來加以描述,此類詞語對(duì)視頻搜索領(lǐng)域而言有極強(qiáng)的規(guī)律性,本優(yōu)選實(shí)施例稱之為描述詞,將其存放在架構(gòu)圖中所示意的《描述詞匯表》文件中。除了描述詞外,還有“83版”、“第三部”、“第九集”等描述影片的信息,這些定語與前面的描述詞一起,統(tǒng)稱為功能詞。本模塊負(fù)責(zé)提出功能詞,得到詞干,作為后續(xù)的糾錯(cuò)對(duì)象。經(jīng)過這一個(gè)環(huán)節(jié),檢索串“最新精忠岳父電視劇第五集”的詞干將被提取出來,為“精忠岳父”。(實(shí)現(xiàn)了上述提取模塊的功能,還可以實(shí)現(xiàn)上述分詞模塊的功能)。
[0071]詞表檢索模塊:基于已有的領(lǐng)域特定詞表,對(duì)敬重岳飛,在倒排索引中初步檢索出所有相關(guān)的詞表作為糾錯(cuò)的候選對(duì)象。在倒排索引的構(gòu)建很很多方法,這里舉例一種二元分詞的索引方案。仍以前面的舉例作為例子,已有一部片名叫“精忠岳父”,要建立倒排索弓I,本優(yōu)選實(shí)施例視這個(gè)片名為一篇文章(只不過這篇文章極短,只有4個(gè)漢字而已),分配一個(gè)docid來唯一標(biāo)識(shí)這個(gè)片名,那么這篇文章包含有如下詞匯:精忠、中岳、岳父,即相鄰的漢字兩兩作為一個(gè)詞匯,每一個(gè)詞匯也分配一個(gè)wordid作為唯一標(biāo)識(shí),那么本優(yōu)選實(shí)施例就可以建立wordid與docid之間的關(guān)聯(lián)關(guān)系,通過wordid就可以尋找到包含該詞的所有docid,這就是倒排索引文件。在倒排索引文件中查找速度極快,對(duì)前面的“精中岳飛”用二元分詞切分得到詞匯,進(jìn)一步取得包含這些詞匯的所有文檔的并集,作為糾錯(cuò)的候選對(duì)象,比如可能的文檔有:岳父大人、精忠岳飛、精忠報(bào)國(guó)、岳父的幸福生活、岳父也是爹。(實(shí)現(xiàn)了上述索引模塊的功能)。
[0072]編輯距離模塊:對(duì)詞表檢索模塊提供的糾錯(cuò)候選文檔進(jìn)行編輯距離計(jì)算,即檢索串與糾錯(cuò)串之間,由一個(gè)轉(zhuǎn)成另一個(gè)所需的最小編輯操作次數(shù),編輯操作包括將一個(gè)字符替換成另一個(gè)字符、插入一個(gè)字符、刪除一個(gè)字符。本優(yōu)選實(shí)施例使用編輯距離來衡量?jī)蓚€(gè)字符串的相似度,編輯距離越短兩個(gè)待比較的字符串越相似。以前面的例子,“精忠岳飛”與“精中岳飛”的編輯距離是I個(gè)漢字,即還有3個(gè)漢字相同,相似度達(dá)到75%,與其他候選串相比相似度更高,作為糾錯(cuò)結(jié)果。(實(shí)現(xiàn)了上述比較模塊的功能)
[0073]詞干還原模塊:在糾錯(cuò)完成之后,本優(yōu)選實(shí)施例需要把在詞干提取模塊去掉的各種功能詞重新補(bǔ)齊回來,仍以前面的例子,將糾錯(cuò)后的“精忠岳飛”還原成為“最新精忠岳飛電視劇第五集”,作為完整的糾錯(cuò)結(jié)果。(實(shí)現(xiàn)了上述檢索模塊的部分功能)。
[0074]詞表索引模塊:本模塊用于將領(lǐng)域特定詞表(是這個(gè)領(lǐng)域特有的詞表,糾錯(cuò)就是要把疑似錯(cuò)誤的檢錯(cuò)串往這上面去糾)轉(zhuǎn)換成倒排索引,倒排索引是一種高效的數(shù)據(jù)結(jié)構(gòu),給定一個(gè)詞匯,就能快速找出包含這個(gè)詞匯的所有文檔。倒排索引將被詞表檢索模塊所使用。
[0075]其中,詞干提取模塊的一種優(yōu)選實(shí)現(xiàn)方案簡(jiǎn)述如下:
[0076]準(zhǔn)備好描述詞匯表文件,這些詞是對(duì)影片的描述,可能是前綴,也可能是后綴,一般是人工編輯,比如“最新”、“經(jīng)典”,或者“全集”、“集錦”等詞,一行一個(gè);詞干提取算法載入詞表,按正向最大匹配方法,將匹配到的詞匯從原檢索串中刪除,去掉前綴詞,再按逆向最大匹配方法,將匹配到的詞匯從原檢索串中刪除,去掉后綴詞,再按“第幾季”、“第幾集”等文字描述的模板,將匹配到的片段從原檢索串中刪除,對(duì)上述三點(diǎn)反復(fù)多次操作,直到無可刪除。至此,剩下來的就是詞干
[0077]另一個(gè)需要指出的問題是領(lǐng)域特定詞表,這個(gè)詞表一般是提前準(zhǔn)備,對(duì)視頻領(lǐng)域來說,它一般就是所有視頻節(jié)目的名稱,對(duì)音樂領(lǐng)域來說,它一般就是所有的歌曲名稱。通過技術(shù)手段自動(dòng)更新或者人工維護(hù),定期更新到系統(tǒng)中都是可以的。
[0078]本優(yōu)選實(shí)施例從用戶的檢索串中提取詞干,在特定的詞表中按照編輯距離算法進(jìn)行相似度匹配,挑選相似度超過了一定閥值的詞作為糾錯(cuò)結(jié)果,替換掉原檢索串中有錯(cuò)誤的詞干,得到的糾錯(cuò)串用于提示用戶進(jìn)行糾正,從而提高搜索引擎對(duì)用戶檢索意圖的識(shí)別能力。
[0079]上述優(yōu)選的實(shí)施方式是可以結(jié)合使用的。另外,如本申請(qǐng)所使用的,術(shù)語“模塊”或“單元”可以指在上述裝置上執(zhí)行的軟件對(duì)象或例程。此處所描述的不同模塊和單元可被實(shí)現(xiàn)為在上述裝置上執(zhí)行(例如,作為單獨(dú)的線程)的對(duì)象或進(jìn)程,同時(shí),上述裝置使用硬件或軟件和硬件的組合的實(shí)現(xiàn)也是可能并被構(gòu)想的。
[0080]顯然,本領(lǐng)域的技術(shù)人員應(yīng)該明白,上述的本申請(qǐng)的各模塊或各步驟可以用通用的計(jì)算裝置來實(shí)現(xiàn),它們可以集中在單個(gè)的計(jì)算裝置上,或者分布在多個(gè)計(jì)算裝置所組成的網(wǎng)絡(luò)上,可選地,它們可以用計(jì)算裝置可執(zhí)行的程序代碼來實(shí)現(xiàn),從而,可以將它們存儲(chǔ)在存儲(chǔ)裝置中由計(jì)算裝置來執(zhí)行,或者將它們分別制作成各個(gè)集成電路模塊,或者將它們中的多個(gè)模塊或步驟制作成單個(gè)集成電路模塊來實(shí)現(xiàn)。這樣,本申請(qǐng)不限制于任何特定的硬件和軟件結(jié)合。
[0081]以上所述僅為本申請(qǐng)的優(yōu)選實(shí)施例而已,并不用于限制本申請(qǐng),對(duì)于本領(lǐng)域的技術(shù)人員來說,本申請(qǐng)可以有各種更改和變化。凡在本申請(qǐng)的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本申請(qǐng)的保護(hù)范圍之內(nèi)。
【權(quán)利要求】
1.一種檢索關(guān)鍵詞糾錯(cuò)方法,其特征在于包括: 對(duì)待糾錯(cuò)語句進(jìn)行分詞得到一個(gè)或多個(gè)關(guān)鍵詞; 對(duì)所述一個(gè)或多個(gè)關(guān)鍵詞進(jìn)行倒排索引得到語句集合; 將所述待糾錯(cuò)語句與所述語句集合中的每個(gè)語句進(jìn)行相似度比較; 將所述語句集合中與所述待糾錯(cuò)語句相似度最高的語句作為糾錯(cuò)完成的語句。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,將所述待糾錯(cuò)語句與所述語句集合中的每個(gè)語句進(jìn)行相似度比較包括: 將所述待糾錯(cuò)語句與所述語句集合中的所述每個(gè)語句進(jìn)行編輯距離計(jì)算,其中,編輯距離是指將所述待糾錯(cuò)語句轉(zhuǎn)換成所述語句集合中的語句需要的最小編輯操作次數(shù),所述語句集合中編輯距離最短的語句是與所述待糾錯(cuò)語句相似度最高的語句。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述編輯操作包括:字符替換操作、字符插入操作、字符刪除操作。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,對(duì)所述一個(gè)或多個(gè)關(guān)鍵詞進(jìn)行倒排索引得到所述語句集合包括: 從數(shù)據(jù)庫中對(duì)所述一個(gè)或多個(gè)所述關(guān)鍵詞進(jìn)行倒排索引得到所述語句集合,其中,所述數(shù)據(jù)庫中保存有語句和所述語句對(duì)應(yīng)的關(guān)鍵詞之間的關(guān)聯(lián)關(guān)系,所述語句對(duì)應(yīng)的關(guān)鍵詞是對(duì)所述語句進(jìn)行分詞得到的。
5.根據(jù)權(quán)利要求1至4中任一項(xiàng)所述的方法,其特征在于, 在對(duì)所述待糾錯(cuò)語句進(jìn)行分詞得到所述一個(gè)或多個(gè)關(guān)鍵詞之前,所述方法還包括:從用戶輸入的檢索串中提取出所述待糾錯(cuò)語句; 在將所述語句集合中與所述待糾錯(cuò)語句相似度最高的語句作為糾錯(cuò)完成的語句之后,所述方法還包括:將所述檢索串中的所述待糾錯(cuò)語句替換成所述糾錯(cuò)完成的語句;使用替換完成的檢索串進(jìn)行搜索。
6.根據(jù)權(quán)利要求1至4中任一項(xiàng)所述的方法,其特征在于,從所述檢索串中提取出所述待糾錯(cuò)語句包括:使用預(yù)先設(shè)置的信息從所述檢索串中進(jìn)行匹配;前綴、后綴、文字描述模板,將匹配到的信息從所述檢索串中刪除得到所述待糾錯(cuò)語句。
7.一種檢索關(guān)鍵詞糾錯(cuò)裝置,其特征在于包括: 分詞模塊,用于對(duì)待糾錯(cuò)語句進(jìn)行分詞得到一個(gè)或多個(gè)關(guān)鍵詞; 索引模塊,用于對(duì)所述一個(gè)或多個(gè)關(guān)鍵詞進(jìn)行倒排索引得到語句集合; 比較模塊,用于將所述待糾錯(cuò)語句與所述語句集合中的每個(gè)語句進(jìn)行相似度比較; 處理模塊,用于將所述語句集合中與所述待糾錯(cuò)語句相似度最高的語句作為糾錯(cuò)完成的語句。
8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述比較模塊,用于將所述待糾錯(cuò)語句與所述語句集合中的所述每個(gè)語句進(jìn)行編輯距離計(jì)算,其中,編輯距離是指將所述待糾錯(cuò)語句轉(zhuǎn)換成所述語句集合中的語句需要的最小編輯操作次數(shù),所述語句集合中編輯距離最短的語句是與所述待糾錯(cuò)語句相似度最高的語句。
9.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述編輯操作包括:字符替換操作、字符插入操作、字符刪除操作。
10.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述索引模塊用于從數(shù)據(jù)庫中對(duì)所述一個(gè)或多個(gè)所述關(guān)鍵詞進(jìn)行倒排索引得到所述語句集合,其中,所述數(shù)據(jù)庫中保存有語句和該語句對(duì)應(yīng)的關(guān)鍵詞之間的關(guān)聯(lián)關(guān)系,該語句對(duì)應(yīng)的關(guān)鍵詞是對(duì)該語句進(jìn)行分詞得到的。
11.根據(jù)權(quán)利要求7至10任一項(xiàng)所述的裝置,其特征在于,所述裝置還包括: 提取模塊,用于從用戶輸入的檢索串中提取出所述待糾錯(cuò)語句; 檢索模塊,用于將所述檢索串中的所述待糾錯(cuò)語句替換成所述糾錯(cuò)完成的語句,并使用替換完成的檢索串進(jìn)行搜索。
12.根據(jù)權(quán)利要求11所述的裝置,其特征在于,所述提取模塊用于使用預(yù)先設(shè)置的信息從所述檢索串中進(jìn)行匹配,其中,所述預(yù)先設(shè)置的信息包括以下至少之一:前綴、后綴、文字描述模板,并將匹配到的信息從所述檢索串中刪除得到所述待糾錯(cuò)語句。
【文檔編號(hào)】G06F17/30GK104462085SQ201310416495
【公開日】2015年3月25日 申請(qǐng)日期:2013年9月12日 優(yōu)先權(quán)日:2013年9月12日
【發(fā)明者】覃武權(quán), 柳陽, 李強(qiáng), 林松 申請(qǐng)人:騰訊科技(深圳)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1