亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

機構(gòu)名稱檢索方法及系統(tǒng)的制作方法

文檔序號:7705147閱讀:370來源:國知局
專利名稱:機構(gòu)名稱檢索方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及一種檢索方法,特別是涉及一種機構(gòu)名稱檢索方法及系統(tǒng)。背景技術(shù)
海量機構(gòu)名稱快速查詢技術(shù)是在語音服務(wù)中話務(wù)員賴以提升工作質(zhì)量、提高工作 效率的重要工具。目前該類工具廣泛應(yīng)用于電信114查號臺和移動12580信息服務(wù)平臺。 在號碼百事通后臺龐大業(yè)務(wù)數(shù)據(jù)的基礎(chǔ)上,話務(wù)員必須在最短的時間內(nèi)為用戶提供最準確的信息,但沒有一個話務(wù)員能掌握 浩瀚無邊的業(yè)務(wù)數(shù)據(jù)。因此,機構(gòu)名稱快速查詢系統(tǒng)是話務(wù)員向用戶提供服務(wù)的必不可少 工具。目前的查詢系統(tǒng)大多基于拼音編碼規(guī)范進行擴展,操作員按照編碼規(guī)范的要求輸入 拼音字母,系統(tǒng)以操作員的輸入為查詢依據(jù)從數(shù)據(jù)庫中匹配相關(guān)信息。目前的信息查詢系 統(tǒng)存在如下問題(1)編碼死板,容錯性差。由于話務(wù)員無法掌握所有信息,因此他們無法判別查詢 客戶說出的機構(gòu)名稱是否錯誤或不完整。目前系統(tǒng)不能針對話務(wù)員輸入的“錯誤”查詢指 令提供模糊處理,最終造成“查無此人”的服務(wù)結(jié)果。實際上,查詢客戶非常容易在機構(gòu)名 稱正確性和完整性上出現(xiàn)小小差錯,而這些小差錯會嚴重降低話務(wù)員的服務(wù)質(zhì)量。(2)不具備學(xué)習(xí)和適應(yīng)能力。多數(shù)查詢系統(tǒng)需要事先對海量數(shù)據(jù)進行人工編碼,工 作量巨大。同時,在業(yè)務(wù)數(shù)據(jù)發(fā)生變化時,系統(tǒng)無法自動進行必要的編碼適應(yīng),給系統(tǒng)維護 帶來巨大困難。

發(fā)明內(nèi)容有鑒于此,有必要針對上述問題,提供一種容錯能力強、具有自動學(xué)習(xí)能力的機構(gòu) 名稱檢索方法。一種機構(gòu)名稱檢索方法,包括如下步驟Sll 將業(yè)務(wù)數(shù)據(jù)中所有機構(gòu)名稱自動切分為地名R、標識I、類型T和后綴S四部 分;S12 將業(yè)務(wù)數(shù)據(jù)中所有機構(gòu)名稱轉(zhuǎn)換為縮寫字母;S13 建立對所有標識I所對應(yīng)字母縮寫的全文索引;S14 建立標識I字母語言模型;S15 建立地名詞典、類型同義詞詞典和后綴同義詞詞典。S16 建立用戶檢索界面,接收輸入字母串并切分出各部分,得出標識I全文檢索, 得出候選檢索結(jié)果和檢索分數(shù);S17 檢索地名R、類型T和后綴S,縮小候選檢索結(jié)果范圍;S18 對候選檢索結(jié)果進行排序并輸出。優(yōu)選的,所述步驟Sll中,地名R(regi0n)是指出現(xiàn)在機構(gòu)名稱中的地理名稱,標 識I (identifier)是指標識機構(gòu)名稱的核心詞匯,類型T (type)指區(qū)分機構(gòu)類型中詞匯,后綴S(SUfTix)指出現(xiàn)在機構(gòu)名稱匯總的后綴詞匯。優(yōu)選的,所述步驟S11,切分時,詞典優(yōu)先識別地名R、類型T和后綴S從而確定標 識I邊界,準確獲得標示I。優(yōu)選的,所述步驟S12中,先將中文機構(gòu)名稱的漢字轉(zhuǎn)換為拼音,再提取漢語拼音 首字母或英文單詞首字母以形成機構(gòu)名稱的縮寫字母。優(yōu)選的,所述步驟S12將漢字轉(zhuǎn)換為拼音時采取上下文拼音相關(guān)算法消除多音字 的歧義問題。優(yōu)選的,所述步驟S13采用倒排索引算法建立全文索引。優(yōu)選的,在建立全文索引時以所有標識I所對應(yīng)字母縮寫為元素。優(yōu)選的,所述步驟S14中,針對所有標識I所對應(yīng)字母縮寫建立標識I字母語言模型。優(yōu)選的,在建立標識I字母語言模型時以字母為元素,并采用了最大似然估計 (Maximum Likelihood Estimation)方法。優(yōu)選的,在建立標示I字母語言模型時采取二元字母語言模型,降低計算負責度。優(yōu)選的,所述步驟S15在建立地名詞典、類型同義詞詞典和后綴同義詞詞典時采 用步驟Sll所產(chǎn)生的切分結(jié)果。優(yōu)選的,所述步驟S16中,從輸入字母串中識別標識I,采用了如下規(guī)則所有機構(gòu)名稱全稱都包含地點(R)、機構(gòu)名稱標識詞(I)、機構(gòu)類型(T)和名稱后 綴⑶;即使在機構(gòu)名稱的最強省略情況下都不會丟失標識詞I,且出現(xiàn)在輸入字母串靠 前的位置;機構(gòu)名稱中的不同部分的輸入可以顛倒順序,但各部分內(nèi)部漢字的順序不可顛 倒;在任何狀態(tài)下的輸入字母串應(yīng)包含機構(gòu)名稱標識I或地名R。優(yōu)選的,所述步驟S17中,以字典匹配的方法識別輸入字母中可能存在的地名R、 類型T和后綴S。優(yōu)選的,在進行字典匹配時采用了步驟S15產(chǎn)生的地名詞典、類型同義詞詞典和 后綴同義詞詞典。優(yōu)選的,在步驟S18中,以全文檢索分數(shù)結(jié)合步驟S14產(chǎn)生的標識I字母語言模型 對所有候選檢索結(jié)果進行排序。優(yōu)選的,在對候選檢索結(jié)果排序時采用了以下計算公式 其中I為輸入字母串,L為候選檢索結(jié)果w對應(yīng)的字母串,SIR(L,I)為L的全文 檢索分數(shù),SLM (L,I)為L的語言模型分數(shù),巧和問分別為全文檢索分數(shù)和語言模型分數(shù)的權(quán) 重;全文檢索分數(shù)SIR(L,I)的計算公式如下
其中,CMN(x,y)返回兩字母串的共同字母串,Len(.)返回字母串的長度,ED(I,L) 用于計算輸入字母串I與檢索結(jié)果對應(yīng)字母串L的編輯距離;語言模型分數(shù)SLM (L,I)的計算公式如下
Slm (L, I) = ?v(L 11) 二 Pr(L) χ Pr(/ 丨 L) 其中,L=(Li)i = Ojl,...,^一種機構(gòu)名稱檢索系統(tǒng),包括離線學(xué)習(xí)模塊、全文索引數(shù)據(jù)庫、語言模型、詞典、 實時檢索模塊;所述離線學(xué)習(xí)模塊,用于自動從海量業(yè)務(wù)數(shù)據(jù)中的機構(gòu)名稱中產(chǎn)生全文索引數(shù)據(jù) 庫、語言模型和詞典;所述全文索引數(shù)據(jù)庫,用于存放機構(gòu)名稱中標識I部分的字母全文索引;所述語言模型,用于管理機構(gòu)名稱中標識I部分的字母分布概率;所述詞典,用于存放業(yè)務(wù)數(shù)據(jù)中機構(gòu)名稱所涉及的地名、機構(gòu)類型和名稱后綴;所述實時檢索模塊,用于接收用戶輸入的字母串切分出各部分得出標示I,全文索 弓丨,產(chǎn)生包含標識I的多種切分方式的候選結(jié)果,并產(chǎn)生檢索分數(shù),得出查詢詞典將候選檢 索結(jié)果縮小到更小的范圍,并根據(jù)檢索分數(shù)和語言模型對候選檢索結(jié)果進行排序,最后輸 出檢索結(jié)果。上述機構(gòu)名稱檢索方法及系統(tǒng)自動對機構(gòu)名稱進行自動處理,構(gòu)建全文索引和語 言模型,在系統(tǒng)業(yè)務(wù)數(shù)據(jù)發(fā)生變化時,具有自動學(xué)習(xí)能力。將輸入的字母串自動切分出標識 I進行檢索,得出多種候選檢索結(jié)果,并根據(jù)檢索分數(shù)和語言模型對候選檢索結(jié)果進行排 序,實現(xiàn)了對用戶輸入最大限度地容錯,從而準確、快速地以字母檢索中西文機構(gòu)名稱,在 不損失準確率的前提下縮短信息搜索時間,極大的提高檢索的工作效率,提升檢索質(zhì)量。

圖1是機構(gòu)名稱檢索方法流程示意圖。圖2是機構(gòu)名稱檢索系統(tǒng)示意圖。
具體實施方式下面結(jié)合附圖和實施例,對本發(fā)明的具體實施方式
作進一步詳細描述。以下實施 例用于說明本發(fā)明,但不用來限制本發(fā)明的范圍。圖1是機構(gòu)名稱檢索方法流程示意圖。該機構(gòu)名稱檢索方法包括Sll 將業(yè)務(wù)數(shù)據(jù)中所有機構(gòu)名稱自動切分為地名R、標識I、類型T和后綴S四部 分。地名R(regi0n)是指出現(xiàn)在機構(gòu)名稱中的地理名稱;標識I (identifier)是指標 識機構(gòu)名稱的核心詞匯;類型T(type)指區(qū)分機構(gòu)類型中詞匯;后綴S(suffix)指出現(xiàn)在機構(gòu)名稱匯總的后綴詞匯。以“深圳市華為技術(shù)有限公司”為例,“深圳市”是地名,“華為” 為標識,“技術(shù)”為類型,“有限公司”為后綴。機構(gòu)名稱切分即實現(xiàn)將“深圳市華為技術(shù)有限 公司”切分為“深圳市(R)華為⑴技術(shù)⑴有限公司(S)”。本發(fā)明優(yōu)選實施例的所有步 驟中,針對中西文機構(gòu)名稱,以漢語拼音首字母替代中文機構(gòu)名稱中的漢字,以西文單詞首 字母處理西文機構(gòu)名稱中的西文單詞。由于現(xiàn)有的地名、類型和后綴均可枚舉,切分中,詞典優(yōu)先識別機構(gòu)名稱中的地名 R、類型T和后綴S,從而確定標識I邊界,最終準確獲得標識I。S12 將業(yè)務(wù)數(shù)據(jù)中所有機構(gòu)名稱轉(zhuǎn)換為縮寫字母機構(gòu)名稱中的漢字轉(zhuǎn)換為漢語拼音,雙字節(jié)阿拉伯數(shù)字和標點符號也被轉(zhuǎn)換為對 應(yīng)的單字節(jié)字符,漢語拼音轉(zhuǎn)化時采取上下文拼音相關(guān)算法消除多音字的歧義問題,完成 上述轉(zhuǎn)換后,獲得由漢語拼音首字母和西文單詞首字母以及數(shù)字組成的機構(gòu)名稱縮寫,所 有機構(gòu)名稱由西文字母(大寫)、數(shù)字和標點符號組成。S13 建立對所有標識I所對應(yīng)的字母縮寫的全文索引。采用倒排索引算法,對機構(gòu)名稱的標識I所對應(yīng)的字母縮寫建立全文索引。S14 建立標示I字母語言模型以字母為元素,采用最大似然估計(MLE,Maximum Likelihood Estimation)方法, 建立標識I字母語言模型,為降低計算負責度,采取二元字母語言模型。以現(xiàn)有機構(gòu)名稱縮 寫為依據(jù),以MLE算法計算所有觀察概率值方法如下(1)枚舉26個英文字母、10個數(shù)字和 16個主要標點符號;(2)枚舉所有字符的兩兩有序組合(包含重復(fù))。(3)以如下公式(MLE 算法)計算二元字母概率 其中,Count (li+1, Ii)代表二元字母li+1,Ii在機構(gòu)名稱集合中出現(xiàn)的次數(shù), Count (bigram)代表所有可能二元字母的總數(shù)。S15 建立地名詞典、類型同義詞詞典和后綴同義詞詞典根據(jù)步驟Sll產(chǎn)生的切分結(jié)果建立地名詞典、類型同義詞詞典和后綴同義詞詞 典。上述詞典均采取漢語拼音首字母排序,以便快速查詢。S16:建立用戶檢索界面,接收輸入字母串并切分出各部分,得出標識I,全文檢 索,得出候選檢索結(jié)果和檢索分數(shù)建立用戶可以操作的檢索界面,允許用戶輸入字母串,接收字母串,根據(jù)用戶輸入 的字母串,采用步驟S11,切分各部分得出標示I ;采取步驟S13,對切分出的標識I所對應(yīng) 的縮寫字母進行全文索引,產(chǎn)生包含標識I的多種切分方式的候選檢索結(jié)果,并產(chǎn)生檢索 分數(shù)。從輸入字母串中識別標識I,采用了如下規(guī)則(1)所有機構(gòu)名稱全稱都包含地點(R)、機構(gòu)名稱標識詞⑴、機構(gòu)類型⑴和名稱
后綴(S) O(2)即使在機構(gòu)名稱的最強省略情況下都不會丟失標識詞I,且出現(xiàn)在輸入字母 串靠前的位置。(3)機構(gòu)名稱中的不同部分的輸入可以顛倒順序,但各部分內(nèi)部漢字的順序不可顛倒。(4)在任何狀態(tài)下的輸入字母串應(yīng)包含機構(gòu)名稱標識I或地名R。基于上述規(guī)則,本發(fā)明可優(yōu)選地以標識I或地名匹配輸入字母串,從而產(chǎn)生N個候 選檢索結(jié)果,并自然產(chǎn)生了候選檢索結(jié)果所對應(yīng)的輸入字母串切分方法。結(jié)合該字母串切 分方法和標識I,輸出全文檢索分數(shù)的方法如下 其中,CMN(x,y)返回兩字母串的共同字母串,Len(.)返回字母串的長度,ED(I,L) 用于計算輸入字母串I與檢索結(jié)果對應(yīng)字母串L的編輯距離。S17 檢索字母串中的地名R、類型T和后綴S基于步驟S15產(chǎn)生的地名詞典、類型同義詞詞典和后綴同義詞詞典,以字典匹配 的方法識別輸入字母串中可能存在的地名R、類型T和后綴S,從而將候選檢索結(jié)果縮小到 更小的范圍。S18 對候選結(jié)果進行排序并輸出以全文檢索分數(shù)結(jié)合步驟S14建立的標識I字母語言模型對所有候選檢索結(jié)果進
行排序,采用了以下計算公式 其中I為輸入字母串,L為候選檢索結(jié)果w對應(yīng)的字母串,Sik (L,I)為L的全文檢 索分數(shù),SLff (L, I)為L的語言模型分數(shù),巧和巧分別為全文檢索分數(shù)和語言模型分數(shù)的權(quán)重。語言模型分數(shù)Sui (L,I)的計算公式如下 其中,L= {^^...^是字母串L中的字母。得出排序結(jié)果然后輸出。圖2是機構(gòu)名稱檢索系統(tǒng)示意圖。機構(gòu)名稱檢索系統(tǒng)包括離線學(xué)習(xí)模塊110,全 文索引數(shù)據(jù)庫120,語言模型30,詞典140,實時檢索模塊150。離線學(xué)習(xí)模塊110,用于自動從海量業(yè)務(wù)數(shù)據(jù)中的機構(gòu)名稱中產(chǎn)生全文索引數(shù)據(jù) 庫120、語言模型130和詞典140 ;產(chǎn)生全文索引數(shù)據(jù)庫120、語言模型130和詞典140的方 法已經(jīng)在步驟Sll至S15中詳細描述,不再贅述。全文索引數(shù)據(jù)庫120,用于存放機構(gòu)名稱中標識I部分的字母全文索引。語言模型130,用于管理機構(gòu)名稱中標識I部分的字母分布概率。詞典140 (地名,類型,后綴),用于存放業(yè)務(wù)數(shù)據(jù)中機構(gòu)名稱所涉及的地名R、機構(gòu) 類型T和名稱后綴S。實時檢索模塊150,用于接收用戶輸入的字母串用于接收用戶輸入的字母串切分 出各部分得出標示I,全文索引,產(chǎn)生包含標識I的多種切分方式的候選結(jié)果,并產(chǎn)生檢索 分數(shù),得出查詢詞典140將候選檢索結(jié)果縮小到更小的范圍,并根據(jù)檢索分數(shù)和語言模型130對候選檢索結(jié)果進行排序,最后輸出檢索結(jié)果。 上述機構(gòu)名稱檢索方法及系統(tǒng)在系統(tǒng)業(yè)務(wù)數(shù)據(jù)發(fā)生變化時,可自動對機構(gòu)名稱進 行自動處理,構(gòu)建全文索引、語言模型和詞典,具有自動學(xué)習(xí)能力。將輸入的字母串自動切 分出標識I進行檢索,得出多種候選檢索結(jié)果,并根據(jù)檢索分數(shù)和語言模型對候選檢索結(jié) 果進行排序,同時可以根據(jù)服務(wù)現(xiàn)場實際情況靈活調(diào)整地名和標識的輸入先后順序,對輸 入的錯誤查詢指令提供模糊處理,最大限度地排除話務(wù)服務(wù)中不應(yīng)出現(xiàn)的“查無此人”情 況,實現(xiàn)了對用戶輸入的最大限度地容錯,從而準確、快速地以字母檢索中西文機構(gòu)名稱, 在不損失準確率的前提下縮短信息搜索時間,極大的提高檢索的工作效率,提升檢索質(zhì)量。
權(quán)利要求
一種機構(gòu)名稱檢索方法,包括如下步驟S11將業(yè)務(wù)數(shù)據(jù)中所有機構(gòu)名稱自動切分為地名R、標識I、類型T和后綴S四部分;S12將業(yè)務(wù)數(shù)據(jù)中所有機構(gòu)名稱轉(zhuǎn)換為縮寫字母;S13建立對所有標識I所對應(yīng)字母縮寫的全文索引;S14建立標識I字母語言模型;S15建立地名詞典、類型同義詞詞典和后綴同義詞詞典;S16建立用戶檢索界面,接收輸入字母串并切分出各部分,得出標識I全文檢索,得出候選檢索結(jié)果和檢索分數(shù);S17檢索地名R、類型T和后綴S,縮小候選檢索結(jié)果范圍;S18對候選檢索結(jié)果進行排序并輸出。
2.根據(jù)權(quán)利要求1所述的機構(gòu)名稱檢索方法,其特征在于,所述步驟Sll中,地名R是 指出現(xiàn)在機構(gòu)名稱中的地理名稱,標識I是指標識機構(gòu)名稱的核心詞匯,類型T指區(qū)分機構(gòu) 類型中詞匯,后綴S指出現(xiàn)在機構(gòu)名稱匯總的后綴詞匯。
3.根據(jù)權(quán)利要求1所述的機構(gòu)名稱檢索方法,其特征在于所述步驟S11,切分時,詞典 優(yōu)先識別地名R、類型T和后綴S從而確定標識I邊界,準確獲得標示I。
4.根據(jù)權(quán)利要求1所述的機構(gòu)名稱檢索方法,其特征在于所述步驟S12中,先將中文 機構(gòu)名稱的漢字轉(zhuǎn)換為拼音,再提取漢語拼音首字母或英文單詞首字母以形成機構(gòu)名稱的 縮寫字母。
5.根據(jù)權(quán)利要求4所述的機構(gòu)名稱檢索方法,其特征在于所述步驟S12將漢字轉(zhuǎn)換 為拼音時采取上下文拼音相關(guān)算法消除多音字的歧義問題。
6.根據(jù)權(quán)利要求1所述的機構(gòu)名稱檢索方法,其特征在于所述步驟S13采用倒排索 引算法建立全文索引。
7.根據(jù)權(quán)利要求6所述的機構(gòu)名稱檢索方法,其特征在于在建立全文索引時以所有 標識I所對應(yīng)字母縮寫為元素。
8.根據(jù)權(quán)利要求1所述的機構(gòu)名稱檢索方法,其特征在于所述步驟S14中,針對所有 標識I所對應(yīng)字母縮寫建立標識I字母語言模型。
9.根據(jù)權(quán)利要求8所述的機構(gòu)名稱檢索方法,其特征在于在建立標識I字母語言模 型時以字母為元素,并采用了最大似然估計方法。
10.根據(jù)權(quán)利要求9所述的機構(gòu)名稱檢索方法,其特征在于在建立標示I字母語言模 型時采取二元字母語言模型,降低計算負責度。
11.根據(jù)權(quán)利要求1所述的機構(gòu)名稱檢索方法,其特征在于所述步驟S15在建立地名 詞典、類型同義詞詞典和后綴同義詞詞典時采用步驟Sll所產(chǎn)生的切分結(jié)果。
12.根據(jù)權(quán)利要求1所述的機構(gòu)名稱檢索方法,其特征在于所述步驟S16中,從輸入 字母串中識別標識I,采用了如下規(guī)則所有機構(gòu)名稱全稱都包含地點R、機構(gòu)名稱標識詞I、機構(gòu)類型T和名稱后綴S ;即使在機構(gòu)名稱的最強省略情況下都不會丟失標識詞I,且出現(xiàn)在輸入字母串靠前的 位置;機構(gòu)名稱中的不同部分的輸入可以顛倒順序,但各部分內(nèi)部漢字的順序不可顛倒;在任何狀態(tài)下的輸入字母串應(yīng)包含機構(gòu)名稱標識I或地名R。
13.根據(jù)權(quán)利要求1所述的機構(gòu)名稱檢索方法,其特征在于所述步驟S17中,以字典 匹配的方法識別輸入字母中可能存在的地名R、類型T和后綴S。
14.根據(jù)權(quán)利要求13所述的機構(gòu)名稱檢索方法,其特征在于在進行字典匹配時采用 了步驟S15產(chǎn)生的地名詞典、類型同義詞詞典和后綴同義詞詞典。
15.根據(jù)權(quán)利要求1所述的機構(gòu)名稱檢索方法,其特征在于在步驟S18中,以全文檢 索分數(shù)結(jié)合步驟S14產(chǎn)生的標識I字母語言模型對所有候選檢索結(jié)果進行排序。
16.根據(jù)權(quán)利要求15所述的機構(gòu)名稱檢索方法,其特征在于在對候選檢索結(jié)果排序 時采用了以下計算公式CT1 X Sm (L,I) + m2x Slm {L, I)其中I為輸入字母串,L為候選檢索結(jié)果W對應(yīng)的字母串,SIR(L,I)為L的全文檢索分 數(shù),SLM(L,I)為L的語言模型分數(shù),巧和巧.分別為全文檢索分數(shù)和語言模型分數(shù)的權(quán)重;全文檢索分數(shù)SIR(L,I)的計算公式如下 LenjCMN (I, L)) Len(I)+ED{I,L)其中,CMN(χ, y)返回兩字母串的共同字母串,LenC )返回字母串的長度,ED(I, L)用 于計算輸入字母串I與檢索結(jié)果對應(yīng)字母串L的編輯距離;語言模型分數(shù)SLM (L,I)的計算公式如下Slm (L, I) = Pr(Z 11) = Pr(Z) χ Pr(/ | L)二 Π" Pr仏+丨 |Z.)x-!-丄丄‘=0、’+'丨l + ED(I,L)其中,L = {Lj i =(!,!,...,『
17.一種機構(gòu)名稱檢索系統(tǒng),包括離線學(xué)習(xí)模塊、全文索引數(shù)據(jù)庫、語言模型、詞典、 實時檢索模塊;所述離線學(xué)習(xí)模塊,用于自動從海量業(yè)務(wù)數(shù)據(jù)中的機構(gòu)名稱中產(chǎn)生全文索引數(shù)據(jù)庫、 語言模型和詞典;所述全文索引數(shù)據(jù)庫,用于存放機構(gòu)名稱中標識I部分的字母全文索引;所述語言模型,用于管理機構(gòu)名稱中標識I部分的字母分布概率;所述詞典,用于存放業(yè)務(wù)數(shù)據(jù)中機構(gòu)名稱所涉及的地名、機構(gòu)類型和名稱后綴;所述實時檢索模塊,用于接收用戶輸入的字母串切分出各部分得出標示I,全文索引, 產(chǎn)生包含標識I的多種切分方式的候選結(jié)果,并產(chǎn)生檢索分數(shù),得出查詢詞典將候選檢索 結(jié)果縮小到更小的范圍,并根據(jù)檢索分數(shù)和語言模型對候選檢索結(jié)果進行排序,最后輸出 檢索結(jié)果。
全文摘要
一種機構(gòu)名稱檢索方法和系統(tǒng),將所有機構(gòu)名稱自動切分為地名R、標識I、類型T和后綴S四部分,將所有機構(gòu)名稱轉(zhuǎn)換為縮寫字母,建立對所有標識I所對應(yīng)字母縮寫的全文索引以及語言模型,建立地名詞典、類型同義詞詞典和后綴同義詞詞典,接受輸入字母串并切分出標識I全文檢索,檢索地名R、類型T和后綴S,得出候選檢索結(jié)果進行排序并輸出。本發(fā)明可以準確、快速地以字母檢索中西文機構(gòu)名稱,實現(xiàn)對用戶輸入最大限度地容錯,在不損失準確率的前提下縮短信息搜索時間,同時具有自動學(xué)習(xí)功能。
文檔編號H04M3/51GK101930435SQ20091011037
公開日2010年12月29日 申請日期2009年10月27日 優(yōu)先權(quán)日2009年10月27日
發(fā)明者劉偉, 劉軼, 夏云慶, 程剛 申請人:深圳市北科瑞聲科技有限公司;深港產(chǎn)學(xué)研基地產(chǎn)業(yè)發(fā)展中心
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1