一種查詢糾錯(cuò)方法、裝置和計(jì)算設(shè)備的制造方法

文檔序號(hào)：9708417閱讀：402來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種查詢糾錯(cuò)方法、裝置和計(jì)算設(shè)備的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及網(wǎng)絡(luò)文本信息的智能處理領(lǐng)域，尤其涉及一種查詢糾錯(cuò)方法、裝置和計(jì)算設(shè)備。
【背景技術(shù)】
[0002] 在用戶使用搜索引擎進(jìn)行查詢時(shí)，由于用戶本身知識(shí)的限制或者誤操作等原因，造成輸入的查詢?cè)~錯(cuò)誤，通過(guò)錯(cuò)誤的查詢?cè)~得到的查詢結(jié)果往往較差，這就需要一種能夠自動(dòng)糾正用戶錯(cuò)誤輸入的技術(shù)來(lái)解決這一難題?，F(xiàn)在比較常用的方法是計(jì)算查詢?cè)~與背景詞典中的詞條的編輯距離，將背景詞典中與查詢?cè)~的編輯距離最小的詞條作為糾錯(cuò)結(jié)果推送給用戶。但是，由于背景詞典一般都比較大，計(jì)算查詢?cè)~與背景詞典中每一個(gè)詞條的編輯距離將耗費(fèi)大量時(shí)間，很不現(xiàn)實(shí)。

【發(fā)明內(nèi)容】

[0003] 為此，本發(fā)明提供一種查詢糾錯(cuò)方法、裝置和計(jì)算設(shè)備，以力圖解決或者至少緩解上面存在的問(wèn)題。
[0004] 根據(jù)本發(fā)明的一個(gè)方面，提供一種查詢糾錯(cuò)方法，在計(jì)算設(shè)備中執(zhí)行，該方法包括以下步驟:根據(jù)查詢?cè)~Q的長(zhǎng)度|Q|確定索引元的長(zhǎng)度N1，將所有由查詢?cè)~Q中的連續(xù)N1個(gè)字符組成的字符串作為索引元，并將背景詞典的上述索引元的倒排索引鏈中的詞條加入第一匹配集合，其中背景詞典中存有用戶的歷史查詢?cè)~;分別計(jì)算查詢?cè)~Q與第一匹配集合中的每一個(gè)詞條的編輯距離，將第一匹配集合中與查詢?cè)~Q的編輯距離小于等于編輯距離閾值k 的詞條加入第二匹配集合;輸出第二匹配集合中的詞條，作為查詢?cè)~Q的糾錯(cuò)結(jié)果。
[0005] 可選地，在根據(jù)本發(fā)明的查詢糾錯(cuò)方法中，索引元的長(zhǎng)度N1按如下公式確定： Ni=['|Q|/(k+l)l0
[0006] 可選地，在根據(jù)本發(fā)明的查詢糾錯(cuò)方法中，將背景詞典的上述索引元的倒排索引鏈中的詞條加入第一匹配集合為:將背景詞典的上述索引元的倒排索引鏈中長(zhǎng)度大于等于 (IQI -k)且小于等于（IQI +k)的詞條加入第一匹配集合。
[0007] 可選地，在根據(jù)本發(fā)明的查詢糾錯(cuò)方法中，在根據(jù)查詢?cè)~Q的長(zhǎng)度|Q|確定索引元的長(zhǎng)度N1之前，還包括:判斷查詢?cè)~Q的長(zhǎng)度I QI是否小于等于編輯距離閾值k，若是，則將背景詞典中長(zhǎng)度小于等于k的詞條加入第二匹配集合。
[0008] 可選地，在根據(jù)本發(fā)明的查詢糾錯(cuò)方法中，還包括對(duì)背景詞典建立多重索引，具體包括以下步驟:將背景詞典D劃分為若干個(gè)子詞典，D = {Dl，D2，…，Di，…，Dn}，子詞典Di中的詞條長(zhǎng)度均為i，l < i <n，n為背景詞典D中最長(zhǎng)的詞條的長(zhǎng)度;對(duì)每一個(gè)子詞典Di，根據(jù)i 的值確定子詞典Di的最小索引元長(zhǎng)度N2;對(duì)Di中的每一個(gè)詞條w，將由w中的連續(xù)X個(gè)字符組成的字符串作為索引元，N2<x<N3，N3為最大索引元長(zhǎng)度，并在該索引元的倒排索引鏈追加詞條w。
[0009] 可選地，在根據(jù)本發(fā)明的查詢糾錯(cuò)方法中，子詞典Di的最小索引元長(zhǎng)度N2按如下公式確定：N2=l|i|/(k_M)J。
[0010]可選地，在根據(jù)本發(fā)明的查詢糾錯(cuò)方法中，最大索引元長(zhǎng)度N3取值為4。
[0011]可選地，在根據(jù)本發(fā)明的查詢糾錯(cuò)方法中，背景詞典中還存有查詢?cè)~的查詢頻次；在輸出第二匹配集合中的詞條之前，還包括步驟:獲取第二匹配集合中的每一個(gè)詞條的查詢頻次，將查詢頻次小于查詢頻次閾值的詞條從第二匹配集合中刪除。
[0012] 可選地，在根據(jù)本發(fā)明的查詢糾錯(cuò)方法中，背景詞典包括中文全拼音詞典、英文詞典和中文詞典;對(duì)背景詞典建立多重索引包括，對(duì)中文全拼音詞典、英文詞典和中文詞典分別建立多重索引。
[0013] 可選地，在根據(jù)本發(fā)明的查詢糾錯(cuò)方法中，在根據(jù)查詢?cè)~Q的長(zhǎng)度|Q|確定索引元的長(zhǎng)度N1之前，還包括:刪除查詢?cè)~Q中的空格;若查詢?cè)~Q是中文詞條，則選擇中文詞典作為背景詞典;若查詢?cè)~Q不是中文詞條，則對(duì)查詢?cè)~Q進(jìn)行拼音切分，若切分成功，則選擇中文全拼音詞典作為背景詞典;若切分不成功，則選擇英文詞典作為背景詞典。
[0014]根據(jù)本發(fā)明的一個(gè)方面，提供一種查詢糾錯(cuò)裝置，駐留在計(jì)算設(shè)備中，該裝置包括:輸入模塊，適于獲取用戶輸入的查詢?cè)~Q;存儲(chǔ)模塊，適于存儲(chǔ)背景詞典，背景詞典中包括用戶的歷史查詢?cè)~;第一匹配模塊，適于根據(jù)查詢?cè)~Q的長(zhǎng)度|Q|確定索引元的長(zhǎng)度N1，將所有由查詢?cè)~Q中的連續(xù)N1個(gè)字符組成的字符串作為索引元，并將背景詞典的上述索引元的倒排索引鏈中的詞條加入第一匹配集合;第二匹配模塊，適于分別計(jì)算查詢?cè)~Q與第一匹配集合中的每一個(gè)詞條的編輯距離，將第一匹配集合中與查詢?cè)~Q的編輯距離小于等于編輯距離閾值k的詞條加入第二匹配集合;和輸出模塊，適于輸出第二匹配集合中的詞條，作為查詢?cè)~Q的糾錯(cuò)結(jié)果。
[0015]可選地，在根據(jù)本發(fā)明的查詢糾錯(cuò)裝置中，第一匹配模塊還適于按公式 Nl=|]Q|/(k+l)l確定索引元的長(zhǎng)度N1。
[0016]可選地，在根據(jù)本發(fā)明的查詢糾錯(cuò)裝置中，第一匹配模塊進(jìn)一步適于將背景詞典的上述索引元的倒排索引鏈中長(zhǎng)度大于等于（|Q|-k)且小于等于（|Q|+k)的詞條加入第一匹配集合。
[0017] 可選地，在根據(jù)本發(fā)明的查詢糾錯(cuò)裝置中，第一匹配模塊在根據(jù)查詢?cè)~Q的長(zhǎng)度IQ 確定索引元的長(zhǎng)度N1之前，還適于:判斷查詢?cè)~Q的長(zhǎng)度|Q|是否小于等于編輯距離閾值k，若是，則將背景詞典中長(zhǎng)度小于等于k的詞條加入第二匹配集合。
[0018] 可選地，在根據(jù)本發(fā)明的查詢糾錯(cuò)裝置中，還包括索引模塊，索引模塊適于對(duì)存儲(chǔ) 模塊中的背景詞典按照如下方式建立多重索引：將背景詞典D劃分為若干個(gè)子詞典，D = {D1，D2,…，Di，'"，Dn}，子詞典Di中的詞條長(zhǎng)度均為i，l < i <n，n為背景詞典D中最長(zhǎng)的詞條的長(zhǎng)度;對(duì)每一個(gè)子詞典Di，根據(jù)i的值確定子詞典Di的最小索引元長(zhǎng)度N2;對(duì)Di中的每一個(gè)詞條w，將由w中的連續(xù)X個(gè)字符組成的字符串作為索引元，N2<x<N3，N3為最大索引元長(zhǎng)度，并在該索引元的倒排索引鏈追加詞條w。
[0019] 可選地，在根據(jù)本發(fā)明的查詢糾錯(cuò)裝置中，索引模塊還適于按公式 N.2=i|i|/(k+1 )j確定子詞典Di的最小索引元長(zhǎng)度N2。
[0020] 可選地，在根據(jù)本發(fā)明的查詢糾錯(cuò)裝置中，最大索引元長(zhǎng)度N3取值為4。
[0021] 可選地，在根據(jù)本發(fā)明的查詢糾錯(cuò)裝置中，存儲(chǔ)模塊存儲(chǔ)的背景詞典中還存有查詢?cè)~的查詢頻次;第二匹配模塊還適于，在輸出模塊輸出第二匹配集合中的詞條之前，獲取第二匹配集合中的每一個(gè)詞條的查詢頻次，將查詢頻次小于查詢頻次閾值的詞條從第二匹配集合中刪除。
[0022] 可選地，在根據(jù)本發(fā)明的查詢糾錯(cuò)裝置中，存儲(chǔ)模塊中存儲(chǔ)的背景詞典包括中文全拼音詞典、英文詞典和中文詞典;索引模塊進(jìn)一步適于對(duì)上述中文全拼音詞典、英文詞典和中文詞典分別建立多重索引。
[0023] 可選地，在根據(jù)本發(fā)明的查詢糾錯(cuò)裝置中，第一匹配模塊在根據(jù)查詢?cè)~Q的長(zhǎng)度|Q 確定索引元的長(zhǎng)度N1之前，還適于:刪除查詢?cè)~Q中的空格;若查詢?cè)~Q是中文詞條，則選擇中文詞典作為背景詞典;若查詢?cè)~Q不是中文詞條，則對(duì)查詢?cè)~Q進(jìn)行拼音切分，若切分成功，則選擇中文全拼音詞典作為背景詞典;若切分不成功，則選擇英文詞典作為背景詞典。
[0024] 根據(jù)本發(fā)明的一個(gè)方面，提供一種計(jì)算設(shè)備，包括如上查詢糾錯(cuò)裝置。
[0025] 根據(jù)本發(fā)明提供的技術(shù)方案，對(duì)查詢?cè)~的糾錯(cuò)過(guò)程主要分為兩個(gè)階段，在第一階段，根據(jù)用戶輸入的查詢?cè)~的長(zhǎng)度確定索引元的長(zhǎng)度，并將背景詞典的上述索引元的倒排索引鏈中的詞條加入第一匹配集合;在第二階段，分別計(jì)算用戶輸入的查詢?cè)~與第一匹配集合中的每一個(gè)詞條的編輯距離，將第一匹配集合中與查詢?cè)~的編輯距離小于等于編輯距離閾值k的詞條加入第二匹配集合，第二匹配集合中的詞條即為查詢?cè)~的糾錯(cuò)結(jié)果。通過(guò)第一階段，從背景詞典中過(guò)濾掉了大部分不可能成為匹配結(jié)果的詞條，僅保留與查詢?cè)~相關(guān) 的詞條，極大地減少了后續(xù)第二階段中編輯距離的計(jì)算次數(shù)，從而提高了整個(gè)查詢糾錯(cuò)過(guò) 程的運(yùn)行速度。
[0026] 此外，由于對(duì)背景詞典建立了多重索引，通過(guò)索引元的倒排索引鏈即可獲取包含該索引元的詞條，使得第一階段背景詞典的選擇過(guò)濾過(guò)程更加方便、快捷，提高了第一階段的運(yùn)行速度。
【附圖說(shuō)明】
[0027] 為了實(shí)現(xiàn)上述以及相關(guān)目的，本文結(jié)合下面的描述和附圖來(lái)描述某些說(shuō)明性方面，這些方面指示了可以實(shí)踐本文所公開的原理的各種方式，并且所有方面及其等效方面旨在落入所要求保護(hù)的主題的范圍內(nèi)。通過(guò)結(jié)合附圖閱讀下面的詳細(xì)描述，本公開的上述以及其它目的、特征和優(yōu)勢(shì)將變得更加明顯。遍及本公開，相同的附圖標(biāo)記通常指代相同的部件或元素。
[0028] 圖1示出了為實(shí)現(xiàn)根據(jù)本發(fā)明的查詢糾錯(cuò)裝置的示例計(jì)算設(shè)備100的框圖；
[0029] 圖2示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的查詢糾錯(cuò)裝置200的結(jié)構(gòu)圖；
[0030] 圖3A示出了根據(jù)本發(fā)明一個(gè)實(shí)施例中的中文詞典的數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)的示意圖，圖3B 示出了根據(jù)本發(fā)明一個(gè)實(shí)施例中的中文全拼音詞典的數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)的示意圖，圖3C示出了根據(jù)本發(fā)明一個(gè)實(shí)施例中的英文詞典的數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)的示意圖；
[0031] 圖4示出了根據(jù)本發(fā)明一個(gè)實(shí)施例中的中文全拼音詞典構(gòu)建多重索引的示意圖；
[0032] 圖5示出了根據(jù)本發(fā)明一個(gè)實(shí)施例中的中文全拼音詞典的倒排索引鏈的示意圖；以及
[0033]圖6示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的查詢糾錯(cuò)方法300的流程圖。
【具體實(shí)施方式】
[0034] 下面將參照附圖更詳細(xì)地描述本公開的示例性實(shí)施例。雖然附圖中顯示了本公開的示例性實(shí)施例，然而應(yīng)當(dāng)理解，可以

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2 3 4

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：張平;
技術(shù)所有人：北京齊爾布萊特科技有限公司;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

攪拌裝置設(shè)備相關(guān)技術(shù)

廚房設(shè)備滅火裝置相關(guān)技術(shù)

裝置和設(shè)備的區(qū)別相關(guān)技術(shù)

機(jī)械設(shè)備安全防護(hù)裝置相關(guān)技術(shù)

防雷裝置檢測(cè)專業(yè)設(shè)備相關(guān)技術(shù)

設(shè)備安全防護(hù)裝置相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種查詢糾錯(cuò)方法、裝置和計(jì)算設(shè)備的制造方法

一種查詢糾錯(cuò)方法、裝置和計(jì)算設(shè)備的制造方法