亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種查詢糾錯(cuò)方法、裝置和計(jì)算設(shè)備的制造方法

文檔序號(hào):9708417閱讀:402來(lái)源:國(guó)知局
一種查詢糾錯(cuò)方法、裝置和計(jì)算設(shè)備的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及網(wǎng)絡(luò)文本信息的智能處理領(lǐng)域,尤其涉及一種查詢糾錯(cuò)方法、裝置和 計(jì)算設(shè)備。
【背景技術(shù)】
[0002] 在用戶使用搜索引擎進(jìn)行查詢時(shí),由于用戶本身知識(shí)的限制或者誤操作等原因, 造成輸入的查詢?cè)~錯(cuò)誤,通過(guò)錯(cuò)誤的查詢?cè)~得到的查詢結(jié)果往往較差,這就需要一種能夠 自動(dòng)糾正用戶錯(cuò)誤輸入的技術(shù)來(lái)解決這一難題?,F(xiàn)在比較常用的方法是計(jì)算查詢?cè)~與背景 詞典中的詞條的編輯距離,將背景詞典中與查詢?cè)~的編輯距離最小的詞條作為糾錯(cuò)結(jié)果推 送給用戶。但是,由于背景詞典一般都比較大,計(jì)算查詢?cè)~與背景詞典中每一個(gè)詞條的編輯 距離將耗費(fèi)大量時(shí)間,很不現(xiàn)實(shí)。

【發(fā)明內(nèi)容】

[0003] 為此,本發(fā)明提供一種查詢糾錯(cuò)方法、裝置和計(jì)算設(shè)備,以力圖解決或者至少緩解 上面存在的問(wèn)題。
[0004] 根據(jù)本發(fā)明的一個(gè)方面,提供一種查詢糾錯(cuò)方法,在計(jì)算設(shè)備中執(zhí)行,該方法包括 以下步驟:根據(jù)查詢?cè)~Q的長(zhǎng)度|Q|確定索引元的長(zhǎng)度N1,將所有由查詢?cè)~Q中的連續(xù)N1個(gè)字 符組成的字符串作為索引元,并將背景詞典的上述索引元的倒排索引鏈中的詞條加入第一 匹配集合,其中背景詞典中存有用戶的歷史查詢?cè)~;分別計(jì)算查詢?cè)~Q與第一匹配集合中的 每一個(gè)詞條的編輯距離,將第一匹配集合中與查詢?cè)~Q的編輯距離小于等于編輯距離閾值k 的詞條加入第二匹配集合;輸出第二匹配集合中的詞條,作為查詢?cè)~Q的糾錯(cuò)結(jié)果。
[0005] 可選地,在根據(jù)本發(fā)明的查詢糾錯(cuò)方法中,索引元的長(zhǎng)度N1按如下公式確定: Ni=['|Q|/(k+l)l0
[0006] 可選地,在根據(jù)本發(fā)明的查詢糾錯(cuò)方法中,將背景詞典的上述索引元的倒排索引 鏈中的詞條加入第一匹配集合為:將背景詞典的上述索引元的倒排索引鏈中長(zhǎng)度大于等于 (IQI -k)且小于等于(IQI +k)的詞條加入第一匹配集合。
[0007] 可選地,在根據(jù)本發(fā)明的查詢糾錯(cuò)方法中,在根據(jù)查詢?cè)~Q的長(zhǎng)度|Q|確定索引元 的長(zhǎng)度N1之前,還包括:判斷查詢?cè)~Q的長(zhǎng)度I QI是否小于等于編輯距離閾值k,若是,則將背 景詞典中長(zhǎng)度小于等于k的詞條加入第二匹配集合。
[0008] 可選地,在根據(jù)本發(fā)明的查詢糾錯(cuò)方法中,還包括對(duì)背景詞典建立多重索引,具體 包括以下步驟:將背景詞典D劃分為若干個(gè)子詞典,D = {Dl,D2,…,Di,…,Dn},子詞典Di中 的詞條長(zhǎng)度均為i,l < i <n,n為背景詞典D中最長(zhǎng)的詞條的長(zhǎng)度;對(duì)每一個(gè)子詞典Di,根據(jù)i 的值確定子詞典Di的最小索引元長(zhǎng)度N2;對(duì)Di中的每一個(gè)詞條w,將由w中的連續(xù)X個(gè)字符組 成的字符串作為索引元,N2<x<N3,N3為最大索引元長(zhǎng)度,并在該索引元的倒排索引鏈追 加詞條w。
[0009] 可選地,在根據(jù)本發(fā)明的查詢糾錯(cuò)方法中,子詞典Di的最小索引元長(zhǎng)度N2按如下 公式確定:N2=l|i|/(k_M)J。
[0010]可選地,在根據(jù)本發(fā)明的查詢糾錯(cuò)方法中,最大索引元長(zhǎng)度N3取值為4。
[0011]可選地,在根據(jù)本發(fā)明的查詢糾錯(cuò)方法中,背景詞典中還存有查詢?cè)~的查詢頻次; 在輸出第二匹配集合中的詞條之前,還包括步驟:獲取第二匹配集合中的每一個(gè)詞條的查 詢頻次,將查詢頻次小于查詢頻次閾值的詞條從第二匹配集合中刪除。
[0012] 可選地,在根據(jù)本發(fā)明的查詢糾錯(cuò)方法中,背景詞典包括中文全拼音詞典、英文詞 典和中文詞典;對(duì)背景詞典建立多重索引包括,對(duì)中文全拼音詞典、英文詞典和中文詞典分 別建立多重索引。
[0013] 可選地,在根據(jù)本發(fā)明的查詢糾錯(cuò)方法中,在根據(jù)查詢?cè)~Q的長(zhǎng)度|Q|確定索引元 的長(zhǎng)度N1之前,還包括:刪除查詢?cè)~Q中的空格;若查詢?cè)~Q是中文詞條,則選擇中文詞典作 為背景詞典;若查詢?cè)~Q不是中文詞條,則對(duì)查詢?cè)~Q進(jìn)行拼音切分,若切分成功,則選擇中 文全拼音詞典作為背景詞典;若切分不成功,則選擇英文詞典作為背景詞典。
[0014]根據(jù)本發(fā)明的一個(gè)方面,提供一種查詢糾錯(cuò)裝置,駐留在計(jì)算設(shè)備中,該裝置包 括:輸入模塊,適于獲取用戶輸入的查詢?cè)~Q;存儲(chǔ)模塊,適于存儲(chǔ)背景詞典,背景詞典中包 括用戶的歷史查詢?cè)~;第一匹配模塊,適于根據(jù)查詢?cè)~Q的長(zhǎng)度|Q|確定索引元的長(zhǎng)度N1,將 所有由查詢?cè)~Q中的連續(xù)N1個(gè)字符組成的字符串作為索引元,并將背景詞典的上述索引元 的倒排索引鏈中的詞條加入第一匹配集合;第二匹配模塊,適于分別計(jì)算查詢?cè)~Q與第一匹 配集合中的每一個(gè)詞條的編輯距離,將第一匹配集合中與查詢?cè)~Q的編輯距離小于等于編 輯距離閾值k的詞條加入第二匹配集合;和輸出模塊,適于輸出第二匹配集合中的詞條,作 為查詢?cè)~Q的糾錯(cuò)結(jié)果。
[0015]可選地,在根據(jù)本發(fā)明的查詢糾錯(cuò)裝置中,第一匹配模塊還適于按公式 Nl=|]Q|/(k+l)l確定索引元的長(zhǎng)度N1。
[0016]可選地,在根據(jù)本發(fā)明的查詢糾錯(cuò)裝置中,第一匹配模塊進(jìn)一步適于將背景詞典 的上述索引元的倒排索引鏈中長(zhǎng)度大于等于(|Q|-k)且小于等于(|Q|+k)的詞條加入第一 匹配集合。
[0017] 可選地,在根據(jù)本發(fā)明的查詢糾錯(cuò)裝置中,第一匹配模塊在根據(jù)查詢?cè)~Q的長(zhǎng)度IQ 確定索引元的長(zhǎng)度N1之前,還適于:判斷查詢?cè)~Q的長(zhǎng)度|Q|是否小于等于編輯距離閾值k, 若是,則將背景詞典中長(zhǎng)度小于等于k的詞條加入第二匹配集合。
[0018] 可選地,在根據(jù)本發(fā)明的查詢糾錯(cuò)裝置中,還包括索引模塊,索引模塊適于對(duì)存儲(chǔ) 模塊中的背景詞典按照如下方式建立多重索引:將背景詞典D劃分為若干個(gè)子詞典,D = {D1,D2,…,Di,'",Dn},子詞典Di中的詞條長(zhǎng)度均為i,l < i <n,n為背景詞典D中最長(zhǎng)的詞 條的長(zhǎng)度;對(duì)每一個(gè)子詞典Di,根據(jù)i的值確定子詞典Di的最小索引元長(zhǎng)度N2;對(duì)Di中的每 一個(gè)詞條w,將由w中的連續(xù)X個(gè)字符組成的字符串作為索引元,N2<x<N3,N3為最大索引元 長(zhǎng)度,并在該索引元的倒排索引鏈追加詞條w。
[0019] 可選地,在根據(jù)本發(fā)明的查詢糾錯(cuò)裝置中,索引模塊還適于按公式 N.2=i|i|/(k+1 )j確定子詞典Di的最小索引元長(zhǎng)度N2。
[0020] 可選地,在根據(jù)本發(fā)明的查詢糾錯(cuò)裝置中,最大索引元長(zhǎng)度N3取值為4。
[0021] 可選地,在根據(jù)本發(fā)明的查詢糾錯(cuò)裝置中,存儲(chǔ)模塊存儲(chǔ)的背景詞典中還存有查 詢?cè)~的查詢頻次;第二匹配模塊還適于,在輸出模塊輸出第二匹配集合中的詞條之前,獲取 第二匹配集合中的每一個(gè)詞條的查詢頻次,將查詢頻次小于查詢頻次閾值的詞條從第二匹 配集合中刪除。
[0022] 可選地,在根據(jù)本發(fā)明的查詢糾錯(cuò)裝置中,存儲(chǔ)模塊中存儲(chǔ)的背景詞典包括中文 全拼音詞典、英文詞典和中文詞典;索引模塊進(jìn)一步適于對(duì)上述中文全拼音詞典、英文詞典 和中文詞典分別建立多重索引。
[0023] 可選地,在根據(jù)本發(fā)明的查詢糾錯(cuò)裝置中,第一匹配模塊在根據(jù)查詢?cè)~Q的長(zhǎng)度|Q 確定索引元的長(zhǎng)度N1之前,還適于:刪除查詢?cè)~Q中的空格;若查詢?cè)~Q是中文詞條,則選擇 中文詞典作為背景詞典;若查詢?cè)~Q不是中文詞條,則對(duì)查詢?cè)~Q進(jìn)行拼音切分,若切分成 功,則選擇中文全拼音詞典作為背景詞典;若切分不成功,則選擇英文詞典作為背景詞典。
[0024] 根據(jù)本發(fā)明的一個(gè)方面,提供一種計(jì)算設(shè)備,包括如上查詢糾錯(cuò)裝置。
[0025] 根據(jù)本發(fā)明提供的技術(shù)方案,對(duì)查詢?cè)~的糾錯(cuò)過(guò)程主要分為兩個(gè)階段,在第一階 段,根據(jù)用戶輸入的查詢?cè)~的長(zhǎng)度確定索引元的長(zhǎng)度,并將背景詞典的上述索引元的倒排 索引鏈中的詞條加入第一匹配集合;在第二階段,分別計(jì)算用戶輸入的查詢?cè)~與第一匹配 集合中的每一個(gè)詞條的編輯距離,將第一匹配集合中與查詢?cè)~的編輯距離小于等于編輯距 離閾值k的詞條加入第二匹配集合,第二匹配集合中的詞條即為查詢?cè)~的糾錯(cuò)結(jié)果。通過(guò)第 一階段,從背景詞典中過(guò)濾掉了大部分不可能成為匹配結(jié)果的詞條,僅保留與查詢?cè)~相關(guān) 的詞條,極大地減少了后續(xù)第二階段中編輯距離的計(jì)算次數(shù),從而提高了整個(gè)查詢糾錯(cuò)過(guò) 程的運(yùn)行速度。
[0026] 此外,由于對(duì)背景詞典建立了多重索引,通過(guò)索引元的倒排索引鏈即可獲取包含 該索引元的詞條,使得第一階段背景詞典的選擇過(guò)濾過(guò)程更加方便、快捷,提高了第一階段 的運(yùn)行速度。
【附圖說(shuō)明】
[0027] 為了實(shí)現(xiàn)上述以及相關(guān)目的,本文結(jié)合下面的描述和附圖來(lái)描述某些說(shuō)明性方 面,這些方面指示了可以實(shí)踐本文所公開的原理的各種方式,并且所有方面及其等效方面 旨在落入所要求保護(hù)的主題的范圍內(nèi)。通過(guò)結(jié)合附圖閱讀下面的詳細(xì)描述,本公開的上述 以及其它目的、特征和優(yōu)勢(shì)將變得更加明顯。遍及本公開,相同的附圖標(biāo)記通常指代相同的 部件或元素。
[0028] 圖1示出了為實(shí)現(xiàn)根據(jù)本發(fā)明的查詢糾錯(cuò)裝置的示例計(jì)算設(shè)備100的框圖;
[0029] 圖2示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的查詢糾錯(cuò)裝置200的結(jié)構(gòu)圖;
[0030] 圖3A示出了根據(jù)本發(fā)明一個(gè)實(shí)施例中的中文詞典的數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)的示意圖,圖3B 示出了根據(jù)本發(fā)明一個(gè)實(shí)施例中的中文全拼音詞典的數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)的示意圖,圖3C示出了 根據(jù)本發(fā)明一個(gè)實(shí)施例中的英文詞典的數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)的示意圖;
[0031] 圖4示出了根據(jù)本發(fā)明一個(gè)實(shí)施例中的中文全拼音詞典構(gòu)建多重索引的示意圖;
[0032] 圖5示出了根據(jù)本發(fā)明一個(gè)實(shí)施例中的中文全拼音詞典的倒排索引鏈的示意圖; 以及
[0033]圖6示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的查詢糾錯(cuò)方法300的流程圖。
【具體實(shí)施方式】
[0034] 下面將參照附圖更詳細(xì)地描述本公開的示例性實(shí)施例。雖然附圖中顯示了本公開 的示例性實(shí)施例,然而應(yīng)當(dāng)理解,可以
當(dāng)前第1頁(yè)1 2 3 4 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1