亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

數(shù)據(jù)查詢系統(tǒng)及方法

文檔序號(hào):6610714閱讀:259來源:國(guó)知局
專利名稱:數(shù)據(jù)查詢系統(tǒng)及方法
技術(shù)領(lǐng)域
本發(fā)明涉及搜索引擎領(lǐng)域,更具體地涉及一種數(shù)據(jù)查詢系統(tǒng)及方法。
背景技術(shù)
搜索引擎系統(tǒng)是一種對(duì)信息資源進(jìn)行搜集,并在對(duì)信息進(jìn)行處理和組織之后,為用戶提供信息查詢的系統(tǒng)。用戶可以輸入想要查詢的內(nèi)容,搜索引擎系統(tǒng)根據(jù)用戶的輸入在海量信息中快速準(zhǔn)確地定位用戶需要的信息,并將搜索結(jié)果返回給用戶。
目前,搜索引擎在進(jìn)行用戶輸入串的查詢分析時(shí),一般采取以下幾種方式目錄搜索方式,采用系統(tǒng)預(yù)置搜索詞的方式,用戶通過目錄分級(jí)選擇,選擇關(guān)鍵詞;直接將用戶輸入作為關(guān)鍵字進(jìn)行查詢;以及將用戶的查詢結(jié)果按照詞典進(jìn)行分詞后,將分詞結(jié)果作為關(guān)鍵字進(jìn)行查詢。
上述幾種方式存在以下缺陷1)如果由用戶選擇系統(tǒng)事先預(yù)置的關(guān)鍵詞,所選擇的內(nèi)容有限,不能滿足各種用戶需求。
2)如果采取目錄方式選擇關(guān)鍵詞,由于分類眾多、關(guān)鍵詞眾多,用戶選擇需要的關(guān)鍵詞比較費(fèi)時(shí)。
3)如果直接對(duì)用戶輸入關(guān)鍵字進(jìn)行查詢,則要求用戶描述特別簡(jiǎn)潔,清晰。而由于搜索引擎面對(duì)的是海量數(shù)據(jù),數(shù)據(jù)的來源眾多,結(jié)構(gòu)多樣,信息的描述可能與用戶輸入不盡相同。所以容易造成用戶無法得到真正需要的信息,搜索得到的信息相對(duì)較少的問題。若用戶輸入不準(zhǔn)確,甚至有可能無法得到搜索結(jié)果。
4)如果按照詞典進(jìn)行分詞,若用戶輸入錯(cuò)誤,可能造成分詞失敗,則搜索引擎系統(tǒng)會(huì)直接將該詞分為單字進(jìn)行查詢,這樣搜索結(jié)果眾多,且多數(shù)為垃圾結(jié)果,用戶無法從這些海量數(shù)據(jù)中找到自己真正想要的結(jié)果。

發(fā)明內(nèi)容
鑒于以上所述的一個(gè)或多個(gè)問題,本發(fā)明提供了一種數(shù)據(jù)查詢系統(tǒng)及方法。
根據(jù)本發(fā)明的數(shù)據(jù)查詢系統(tǒng)包括入口模塊,用于接收用戶欲查詢的查詢串;分詞模塊,用于對(duì)查詢串進(jìn)行初步分詞,判斷是否需要對(duì)初步分詞結(jié)果進(jìn)行同音詞搜索,并根據(jù)判斷結(jié)果對(duì)初步分詞結(jié)果進(jìn)行處理;以及查詢模塊,用于根據(jù)經(jīng)過處理的最終分詞結(jié)果進(jìn)行數(shù)據(jù)查詢。
其中,分詞模塊包括中文分詞模塊,用于根據(jù)特定規(guī)則對(duì)查詢串進(jìn)行初步分詞,以及在不需要對(duì)初步分詞結(jié)果進(jìn)行同音詞搜索的情況下,將初步分詞結(jié)果發(fā)送至入口模塊;搜索判斷模塊,用于判斷是否需要對(duì)初步分詞結(jié)果進(jìn)行同音詞搜索;以及同音詞處理模塊,用于在需要對(duì)初步分詞結(jié)果進(jìn)行同音詞搜索的情況下,對(duì)初步分詞結(jié)果進(jìn)行拼音標(biāo)注,并根據(jù)拼音標(biāo)注信息對(duì)初步分詞結(jié)果進(jìn)行同音詞搜索。
其中,同音詞處理模塊包括拼音標(biāo)注模塊,用于對(duì)初步分詞結(jié)果進(jìn)行拼音標(biāo)注;同音詞搜索模塊,用于根據(jù)拼音標(biāo)注信息在同音詞詞典中對(duì)初步分詞結(jié)果進(jìn)行同音詞搜索。
其中,查詢模塊包括數(shù)據(jù)查詢模塊,用于根據(jù)初步分詞結(jié)果或最終分詞結(jié)果進(jìn)行數(shù)據(jù)查詢;數(shù)據(jù)索引模塊,用于對(duì)需要查詢的資料建立索引,并對(duì)索引進(jìn)行維護(hù)。
根據(jù)本發(fā)明的數(shù)據(jù)查詢系統(tǒng)還可以包括同音詞詞典模塊,用于生成并存儲(chǔ)同音詞詞典,并對(duì)同音詞詞典進(jìn)行實(shí)時(shí)更新。
根據(jù)本發(fā)明的數(shù)據(jù)查詢方法,包括以下步驟S302,接收用戶欲查詢的查詢串;S304,對(duì)查詢串進(jìn)行初步分詞,判斷是否需要對(duì)初步分詞結(jié)果進(jìn)行同音詞搜索,并根據(jù)判斷結(jié)果對(duì)初步分詞結(jié)果進(jìn)行處理;以及S306,根據(jù)經(jīng)過處理的最終分詞結(jié)果進(jìn)行數(shù)據(jù)查詢。
其中,步驟S304包括以下步驟S3042-1,對(duì)查詢串進(jìn)行初步分詞;S3044-1,判斷是否需要對(duì)初步分詞結(jié)果進(jìn)行同音詞搜索;S3046-1,在不需要對(duì)初步分詞結(jié)果進(jìn)行同音詞搜索的情況下,直接進(jìn)行步驟S306。
其中,步驟S304包括以下步驟S3042-2,對(duì)查詢串進(jìn)行初步分詞;S3044-2,判斷是否需要對(duì)初步分詞結(jié)果進(jìn)行同音詞搜索;S3046-2,在需要對(duì)初步分詞結(jié)果進(jìn)行同音詞搜索的情況下,在同音詞詞典中對(duì)初步分詞結(jié)果進(jìn)行同音詞搜索,然后進(jìn)行步驟S306。
其中,在步驟S306中,還對(duì)需要查詢的資料建立索引,并對(duì)索引進(jìn)行維護(hù)。根據(jù)本發(fā)明的數(shù)據(jù)查詢方法還可以包括以下步驟生成并存儲(chǔ)同音詞詞典,并對(duì)同音詞詞典進(jìn)行實(shí)時(shí)更新。
在本發(fā)明中,用戶可以通過輸入準(zhǔn)確、簡(jiǎn)潔的關(guān)鍵字得到準(zhǔn)確率高的結(jié)果,并可以通過輸入拼音進(jìn)行搜索。并且在用戶輸入的信息中出現(xiàn)同音別字或模糊音(如前鼻音、后鼻音等)別字時(shí),本發(fā)明可以進(jìn)行自動(dòng)糾正,并得到正確的搜索結(jié)果。


此處所說明的附圖用來提供對(duì)本發(fā)明的進(jìn)一步理解,構(gòu)成本申請(qǐng)的一部分,本發(fā)明的示意性實(shí)施例及其說明用于解釋本發(fā)明,并不構(gòu)成對(duì)本發(fā)明的不當(dāng)限定。在附圖中圖1是根據(jù)本發(fā)明實(shí)施例的數(shù)據(jù)查詢系統(tǒng)的框圖;圖2是根據(jù)本發(fā)明另一實(shí)施例的數(shù)據(jù)查詢系統(tǒng)的框圖;以及圖3A至圖3C是圖1和圖2所示的系統(tǒng)完成的數(shù)據(jù)查詢方法及步驟的流程圖。
具體實(shí)施例方式
下面參考附圖,詳細(xì)說明本發(fā)明的具體實(shí)施方式

參考圖1,說明根據(jù)本發(fā)明實(shí)施例的數(shù)據(jù)查詢系統(tǒng)。如圖1所示,該數(shù)據(jù)查詢系統(tǒng)包括入口模塊102,用于接收用戶欲查詢的查詢串;分詞模塊104,用于對(duì)查詢串進(jìn)行初步分詞,判斷是否需要對(duì)初步分詞結(jié)果進(jìn)行同音詞搜索,并根據(jù)判斷結(jié)果對(duì)初步分詞結(jié)果進(jìn)行處理;以及查詢模塊106,用于根據(jù)經(jīng)過處理的最終分詞結(jié)果進(jìn)行數(shù)據(jù)查詢。
其中,分詞模塊104包括中文分詞模塊1042,用于根據(jù)特定規(guī)則對(duì)查詢串進(jìn)行初步分詞,以及在不需要對(duì)初步分詞結(jié)果進(jìn)行同音詞搜索的情況下,將初步分詞結(jié)果發(fā)送至入口模塊;搜索判斷模塊1044,用于判斷是否需要對(duì)初步分詞結(jié)果進(jìn)行同音詞搜索;以及同音詞處理模塊1046,用于在需要對(duì)初步分詞結(jié)果進(jìn)行同音詞搜索的情況下,對(duì)初步分詞結(jié)果進(jìn)行拼音標(biāo)注,并根據(jù)拼音標(biāo)注信息對(duì)初步分詞結(jié)果進(jìn)行同音詞搜索。
其中,同音詞處理模塊1046包括拼音標(biāo)注模塊,用于對(duì)初步分詞結(jié)果進(jìn)行拼音標(biāo)注;同音詞搜索模塊,用于根據(jù)拼音標(biāo)注信息在同音詞詞典中對(duì)初步分詞結(jié)果進(jìn)行同音詞搜索。
其中,查詢模塊106包括數(shù)據(jù)查詢模塊1062,用于根據(jù)初步分詞結(jié)果或最終分詞結(jié)果進(jìn)行數(shù)據(jù)查詢;數(shù)據(jù)索引模塊1064,用于對(duì)需要查詢的資料建立索引,并對(duì)索引進(jìn)行維護(hù)。
根據(jù)本發(fā)明的數(shù)據(jù)查詢系統(tǒng)還可以包括同音詞詞典模塊,用于生成并存儲(chǔ)同音詞詞典,并對(duì)同音詞詞典進(jìn)行實(shí)時(shí)更新。
參考圖2,說明根據(jù)本發(fā)明另一實(shí)施例的數(shù)據(jù)查詢系統(tǒng)。如圖2所示,該數(shù)據(jù)查詢系統(tǒng)包括以下幾個(gè)部分查詢?nèi)肟谀K202,用于通過與外部系統(tǒng)的交互完成對(duì)用戶輸入內(nèi)容的接收,并將接收到的文字內(nèi)容發(fā)送給分詞模塊,以及用于接收從分詞模塊返回的分詞信息,并將分詞信息作為關(guān)鍵字進(jìn)行搜索。
分詞模塊204,用于調(diào)用中文分詞模塊得到初步分詞結(jié)果,并根據(jù)初步分詞結(jié)果判斷是否需要進(jìn)行同音詞搜索。若需要對(duì)分詞信息進(jìn)行同音詞搜索,則將待處理信息發(fā)送給同音詞處理模塊,并接收從該模塊返回的同音詞信息。將同音詞信息與其他分詞信息一同返回給查詢?nèi)肟谀K。
中文分詞模塊206,用于根據(jù)不同的分詞策略對(duì)用戶的輸入信息進(jìn)行切分。
同音詞處理模塊208,用于接收來自分詞模塊的文字信息,將文字信息發(fā)送給拼音標(biāo)注模塊,并接收從拼音標(biāo)注模塊返回的拼音標(biāo)注信息。
拼音標(biāo)注模塊210,用于將文字信息轉(zhuǎn)換為對(duì)應(yīng)的拼音信息。在查詢流程中,將標(biāo)注結(jié)果發(fā)送給查詢?nèi)肟谀K,在同音詞詞典維護(hù)流程中,將標(biāo)注結(jié)果發(fā)送給同音詞典維護(hù)模塊。
同音詞查找模塊212,用于通過查找多音詞詞典的方式,提取出現(xiàn)頻率最高的同音詞,并將查找結(jié)果發(fā)送給同音詞處理模塊。
同音詞典維護(hù)模塊214,用于維護(hù)同音詞系統(tǒng)需要使用的同音詞詞典。通過調(diào)用拼音標(biāo)注模塊對(duì)詞典進(jìn)行逐詞標(biāo)注,形成同音詞詞典。并在詞典進(jìn)行更新的時(shí)候同步更新同音詞詞典。在拼音標(biāo)注過程中,多音字標(biāo)注多個(gè)拼音,形成多個(gè)詞條。同音詞詞典按照拼音順序進(jìn)行排序。
查詢模塊216,用于接收來自查詢?nèi)肟谀K的關(guān)鍵字,根據(jù)關(guān)鍵字形成查詢條件對(duì)索引文件進(jìn)行查詢,以得到匹配用戶查詢要求的結(jié)果,并將查詢結(jié)果返回給用戶索引模塊218,用于維護(hù)全文索引。索引模塊通過掃描需要搜索的信息中的每一個(gè)詞,對(duì)每一個(gè)詞建立索引,指明該詞在文章中出現(xiàn)的次數(shù)和位置。
在使用圖2所示的數(shù)據(jù)查詢系統(tǒng)進(jìn)行數(shù)據(jù)查詢時(shí),用戶與查詢?nèi)肟谀K進(jìn)行交互,向查詢?nèi)肟谀K提交查詢串。查詢?nèi)肟谀K將查詢串發(fā)送給分詞模塊,分詞模塊調(diào)用中文分詞模塊根據(jù)不同的分詞策略對(duì)用戶的查詢串進(jìn)行分詞,并根據(jù)分詞結(jié)果判斷是否需要進(jìn)行同音詞搜索。如果判斷不需進(jìn)行同音詞搜索,則直接返回分詞結(jié)果給查詢模塊,進(jìn)入數(shù)據(jù)搜索流程。如果判斷需要進(jìn)行同音詞搜索,則將待處理信息發(fā)送給同音詞處理模塊。同音詞處理模塊接收待處理信息并將之發(fā)送給拼音標(biāo)注模塊,拼音標(biāo)注模塊對(duì)文本信息進(jìn)行拼音標(biāo)注,并將標(biāo)注結(jié)果返回給同音詞處理模塊。同音詞處理模塊接收到拼音標(biāo)注信息后,調(diào)用同音詞查詢模塊在同音詞詞典中對(duì)拼音標(biāo)注信息進(jìn)行查找,得到查找結(jié)果后將信息返回給分詞模塊。分詞模塊整合從同音詞處理模塊返回的信息與其他分詞所得的關(guān)鍵詞信息,作為搜索的關(guān)鍵詞返回給查詢?nèi)肟谀K。查詢?nèi)肟谀K將關(guān)鍵詞發(fā)送給查詢模塊。查詢模塊利用得到的關(guān)鍵詞對(duì)索引庫(kù)進(jìn)行查找,并將索引庫(kù)中匹配的信息返回給查詢?nèi)肟谀K。由查詢?nèi)肟谀K對(duì)結(jié)果進(jìn)行調(diào)整,返回給用戶。另外,該數(shù)據(jù)查詢系統(tǒng)還可以利用索引模塊對(duì)需要搜索的資料建立索引,對(duì)索引進(jìn)行維護(hù),并且在源信息更新時(shí),同步更新索引庫(kù)信息。
參考圖3A至圖3C,說明圖1和圖2所示的系統(tǒng)完成的數(shù)據(jù)查詢方法。如圖3A所示,該數(shù)據(jù)查詢方法包括以下步驟S302,接收用戶欲查詢的查詢串;S304,對(duì)查詢串進(jìn)行初步分詞,判斷是否需要對(duì)初步分詞結(jié)果進(jìn)行同音詞搜索,并根據(jù)判斷結(jié)果對(duì)初步分詞結(jié)果進(jìn)行處理;以及S306,根據(jù)經(jīng)過處理的最終分詞結(jié)果進(jìn)行數(shù)據(jù)查詢。
其中,如圖3B所示,步驟S304包括以下步驟S3042-1,對(duì)查詢串進(jìn)行初步分詞;S3044-1,判斷是否需要對(duì)初步分詞結(jié)果進(jìn)行同音詞搜索;S3046-1,在不需要對(duì)初步分詞結(jié)果進(jìn)行同音詞搜索的情況下,直接進(jìn)行步驟S306。
其中,如圖3C所示,步驟S304包括以下步驟S3042-2,對(duì)查詢串進(jìn)行初步分詞;S3044-2,判斷是否需要對(duì)初步分詞結(jié)果進(jìn)行同音詞搜索;S3046-2,在需要對(duì)初步分詞結(jié)果進(jìn)行同音詞搜索的情況下,在同音詞詞典中對(duì)初步分詞結(jié)果進(jìn)行同音詞搜索,然后進(jìn)行步驟S306。
其中,在步驟S306中,還對(duì)需要查詢的資料建立索引,并對(duì)索引進(jìn)行維護(hù)。根據(jù)本發(fā)明的數(shù)據(jù)查詢方法還可以包括以下步驟生成并存儲(chǔ)同音詞詞典,并對(duì)同音詞詞典進(jìn)行實(shí)時(shí)更新。
本發(fā)明可以在對(duì)用戶輸入進(jìn)行分析的時(shí)候,對(duì)用戶輸入的諸如同音字、模糊音等錯(cuò)誤輸入進(jìn)行處理,將其自動(dòng)轉(zhuǎn)換為標(biāo)準(zhǔn)輸入,在搜索后,返回用戶查詢結(jié)果,并對(duì)用戶的錯(cuò)誤輸入進(jìn)行提示。通過本發(fā)明,用戶可以快捷方便地搜索到自己需要的信息,同時(shí)可以降低搜索引擎使用者的門檻。通過本發(fā)明,用戶甚至可以通過直接輸入拼音的形式對(duì)信息進(jìn)行查找。
以上所述僅為本發(fā)明的實(shí)施例而已,并不用于限制本發(fā)明,對(duì)于本領(lǐng)域的技術(shù)人員來說,本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的權(quán)利要求范圍之內(nèi)。
權(quán)利要求
1.一種數(shù)據(jù)查詢系統(tǒng),其特征在于,包括入口模塊,用于接收用戶欲查詢的查詢串;分詞模塊,用于對(duì)所述查詢串進(jìn)行初步分詞,判斷是否需要對(duì)初步分詞結(jié)果進(jìn)行同音詞搜索,并根據(jù)判斷結(jié)果對(duì)所述初步分詞結(jié)果進(jìn)行處理;以及查詢模塊,用于根據(jù)經(jīng)過處理的最終分詞結(jié)果進(jìn)行數(shù)據(jù)查詢。
2.根據(jù)權(quán)利要求1所述的數(shù)據(jù)查詢系統(tǒng),其特征在于,所述分詞模塊包括中文分詞模塊,用于根據(jù)特定規(guī)則對(duì)所述查詢串進(jìn)行初步分詞,以及在不需要對(duì)所述初步分詞結(jié)果進(jìn)行同音詞搜索的情況下,將所述初步分詞結(jié)果發(fā)送至所述入口模塊;搜索判斷模塊,用于判斷是否需要對(duì)所述初步分詞結(jié)果進(jìn)行同音詞搜索;以及同音詞處理模塊,用于在需要對(duì)所述初步分詞結(jié)果進(jìn)行同音詞搜索的情況下,對(duì)所述初步分詞結(jié)果進(jìn)行拼音標(biāo)注,并根據(jù)拼音標(biāo)注信息對(duì)所述初步分詞結(jié)果進(jìn)行同音詞搜索。
3.根據(jù)權(quán)利要求2所述的數(shù)據(jù)查詢系統(tǒng),其特征在于,所述同音詞處理模塊包括拼音標(biāo)注模塊,用于對(duì)所述初步分詞結(jié)果進(jìn)行拼音標(biāo)注;同音詞搜索模塊,用于根據(jù)所述拼音標(biāo)注信息在同音詞詞典中對(duì)所述初步分詞結(jié)果進(jìn)行同音詞搜索。
4.根據(jù)權(quán)利要求1至3中任一項(xiàng)所述的數(shù)據(jù)查詢系統(tǒng),其特征在于,所述查詢模塊包括數(shù)據(jù)查詢模塊,用于根據(jù)所述初步分詞結(jié)果或所述最終分詞結(jié)果進(jìn)行數(shù)據(jù)查詢;數(shù)據(jù)索引模塊,用于對(duì)需要查詢的資料建立索引,并對(duì)所述索引進(jìn)行維護(hù)。
5.根據(jù)權(quán)利要求4所述的數(shù)據(jù)查詢系統(tǒng),其特征在于,還包括同音詞詞典模塊,用于生成并存儲(chǔ)所述同音詞詞典,并對(duì)所述同音詞詞典進(jìn)行實(shí)時(shí)更新。
6.一種數(shù)據(jù)查詢方法,其特征在于,包括以下步驟S302,接收用戶欲查詢的查詢串;S304,對(duì)所述查詢串進(jìn)行初步分詞,判斷是否需要對(duì)初步分詞結(jié)果進(jìn)行同音詞搜索,并根據(jù)判斷結(jié)果對(duì)所述初步分詞結(jié)果進(jìn)行處理;以及S306,根據(jù)經(jīng)過處理的最終分詞結(jié)果進(jìn)行數(shù)據(jù)查詢。
7.根據(jù)權(quán)利要求6所述的數(shù)據(jù)查詢方法,其特征在于,所述步驟S304包括以下步驟S3042-1,對(duì)所述查詢串進(jìn)行初步分詞;S3044-1,判斷是否需要對(duì)所述初步分詞結(jié)果進(jìn)行同音詞搜索;S3046-1,在不需要對(duì)所述初步分詞結(jié)果進(jìn)行同音詞搜索的情況下,直接進(jìn)行所述步驟S306。
8.根據(jù)權(quán)利要求6所述的數(shù)據(jù)查詢方法,其特征在于,所述步驟S304包括以下步驟S3042-2,對(duì)所述查詢串進(jìn)行初步分詞;S3044-2,判斷是否需要對(duì)所述初步分詞結(jié)果進(jìn)行同音詞搜索;S3046-2,在需要對(duì)所述初步分詞結(jié)果進(jìn)行同音詞搜索的情況下,在同音詞詞典中對(duì)所述初步分詞結(jié)果進(jìn)行同音詞搜索,然后進(jìn)行所述步驟S306。
9.根據(jù)權(quán)利要求6至8中任一項(xiàng)所述的數(shù)據(jù)查詢方法,其特征在于,在所述步驟S306中,還對(duì)需要查詢的資料建立索引,并對(duì)所述索引進(jìn)行維護(hù)。
10.根據(jù)權(quán)利要求9所述的數(shù)據(jù)查詢方法,其特征在于,還包括以下步驟生成并存儲(chǔ)所述同音詞詞典,并對(duì)所述同音詞詞典進(jìn)行實(shí)時(shí)更新。
全文摘要
本發(fā)明公開了一種數(shù)據(jù)查詢系統(tǒng)及方法。其中,該數(shù)據(jù)查詢系統(tǒng)包括入口模塊,用于接收用戶欲查詢的查詢串;分詞模塊,用于對(duì)查詢串進(jìn)行初步分詞,判斷是否需要對(duì)初步分詞結(jié)果進(jìn)行同音詞搜索,并根據(jù)判斷結(jié)果對(duì)初步分詞結(jié)果進(jìn)行處理;以及查詢模塊,用于根據(jù)經(jīng)過處理的最終分詞結(jié)果進(jìn)行數(shù)據(jù)查詢。通過本發(fā)明,用戶可以快捷方便地搜索到自己需要的信息,同時(shí)可以降低搜索引擎使用者的門檻。
文檔編號(hào)G06F17/30GK101082936SQ20071012603
公開日2007年12月5日 申請(qǐng)日期2007年6月29日 優(yōu)先權(quán)日2007年6月29日
發(fā)明者劉麗麗, 陸強(qiáng), 游波 申請(qǐng)人:中興通訊股份有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1