亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

基于語義歸一化的檢索系統(tǒng)、檢索方法以及信息處理方法

文檔序號:6601748閱讀:1408來源:國知局
專利名稱:基于語義歸一化的檢索系統(tǒng)、檢索方法以及信息處理方法
技術(shù)領(lǐng)域
本發(fā)明涉及搜索引擎領(lǐng)域,尤其涉及一種基于語義歸一化的檢索系統(tǒng)、檢索方法, 以及基于語義歸一化的整合數(shù)據(jù)庫/分拆數(shù)據(jù)庫的信息處理方法。
背景技術(shù)
用戶使用搜索引擎時,通過query查詢承載其需求以便尋找所需資源。但是,用戶表達一種需求時可能存在很多種描述形式,例如“宮保雞丁怎么燒”,“宮保雞丁菜譜”;雖然二者在表述形式上存在差別,但是本領(lǐng)域技術(shù)人員知曉該用戶搜索所希望獲取的資源是一致的。如果只是對用戶錄入的關(guān)鍵詞進行傳統(tǒng)方式的搜索,如對“宮保雞丁怎么燒”進行主題詞檢索,而僅僅向用戶返回含有“宮保雞丁怎么燒”和“宮保雞丁菜譜”條目信息的網(wǎng)頁, 則可能遺漏相似或相關(guān)條目對應(yīng)的信息資源,如“宮保雞丁做法”、“宮保雞丁制作方法”和 “烹飪宮保雞丁”等。因此,為了滿足用戶更全面、更便捷地獲取相關(guān)檢索信息,有必要將不同表述方式且代表同一種含義的條目信息一并搜索出來,從而向用戶返回更全面的檢索信肩、ο

發(fā)明內(nèi)容
本發(fā)明要解決的一個技術(shù)問題是提供一種基于語義歸一化的檢索系統(tǒng)、檢索方法,以及基于語義歸一化的整合數(shù)據(jù)庫/分拆數(shù)據(jù)庫的信息處理方法,用以提高檢索的準(zhǔn)確性和全面性。本發(fā)明的一個方面提供了一種基于語義歸一化的檢索系統(tǒng),該系統(tǒng)包括歸一化模塊,用于對網(wǎng)頁中含有實體詞的條目信息進行語義歸一化變換,獲取條目信息的歸一化表述;以及對用戶輸入的含有實體詞的檢索式信息進行語義歸一化變換,獲取檢索式信息的歸一化表述;整合數(shù)據(jù)庫,用于根據(jù)歸一化模塊獲取的條目信息的歸一化表述,生成并保存條目信息的整合信息文件;第一索引庫,用于根據(jù)含有實體詞的條目信息和整合信息文件,生成并保存用于關(guān)聯(lián)條目信息和整合信息文件的索引目錄;搜索引擎,用于根據(jù)歸一化模塊獲取的檢索式信息的歸一化表述在第一索引庫中進行搜索,并根據(jù)索引目錄指示的路徑向用戶返回相應(yīng)的條目信息。本發(fā)明提供的基于語義歸一化的檢索系統(tǒng)的一個實施例中,該系統(tǒng)還包括分拆數(shù)據(jù)庫,用于根據(jù)歸一化模板獲取的條目信息的歸一化表述,生成并保存條目信息的分拆信息文件;第二索引庫,用于根據(jù)含有實體詞的條目信息和分拆信息文件,生成并保存用于關(guān)聯(lián)條目信息和分拆信息文件的索引目錄;搜索引擎,還用于根據(jù)歸一化模塊獲取的檢索式信息的歸一化表述在第一索引庫和第二索引庫中進行搜索,并根據(jù)索引目錄指示的路徑向用戶返回相應(yīng)的條目信息。本發(fā)明的另一個方面提供了一種基于語義歸一化的檢索方法,該方法包括歸一化模塊對網(wǎng)頁中含有實體詞的條目信息進行語義歸一化變換,獲取含有實體詞的條目信息的歸一化表述;整合數(shù)據(jù)庫根據(jù)歸一化模塊獲取的條目信息的歸一化表述,生成并保存條目信息的整合信息文件;第一索引庫根據(jù)含有實體詞的條目信息和整合信息文件,生成并保存用于關(guān)聯(lián)條目信息和整合信息文件的索引目錄;歸一化模塊對用戶輸入的含有實體詞的檢索式信息進行語義歸一化變換,獲取檢索式信息的歸一化表述;搜索引擎根據(jù)歸一化模塊獲取的檢索式信息的歸一化表述在第一索引庫中進行搜索,并根據(jù)索引目錄指示的路徑向用戶返回相應(yīng)的條目信息。本發(fā)明提供的基于語義歸一化的檢索方法的一個實施例中,該方法還包括在第一索引庫生成并保存用于關(guān)聯(lián)條目信息和整合信息文件的索引目錄之后,分拆數(shù)據(jù)庫根據(jù)歸一化模板獲取的條目信息的歸一化表述,生成并保存條目信息的分拆信息文件;第二索引庫根據(jù)含有實體詞的條目信息和分拆信息文件,生成并保存用于關(guān)聯(lián)條目信息和分拆信息文件的索引目錄;歸一化模塊對用戶輸入的含有實體詞的檢索式信息進行語義歸一化變換,獲取檢索式信息的歸一化表述;以及搜索引擎根據(jù)歸一化模塊獲取的檢索式信息的歸一化表述在第一索引庫和第二索引庫中進行搜索,并根據(jù)索引目錄指示的路徑向用戶返回相應(yīng)的條目信息。本發(fā)明的又一個方面提供了一種基于語義歸一化的整合數(shù)據(jù)庫的信息處理方法, 該方法包括根據(jù)整合數(shù)據(jù)庫中的模板文件和垃圾數(shù)據(jù)庫中的模板文件生成模板文件庫; 依據(jù)模板文件庫對當(dāng)前的查詢?nèi)罩疚募M行查詢過濾,去除查詢?nèi)罩疚募心軌虮荒0逦募炱ヅ涞牟樵?,形成待挖掘模板文件的查詢?nèi)罩敬?;從待挖掘模板文件的查詢?nèi)罩敬刂型诰蚍N子模板,統(tǒng)計種子模板的頻次并進行排序,生成種子模板文件;從種子模板文件中選取預(yù)定數(shù)量的種子模板,生成同義模板候選文件;對同義模板候選文件進行篩選,并將篩選得到的同義模板候選文件添加到整合數(shù)據(jù)庫的模板文件中。本發(fā)明提供的基于語義歸一化的整合數(shù)據(jù)庫的信息處理方法的一個實施例中,從待挖掘模板文件的查詢?nèi)罩敬刂型诰蚍N子模板,統(tǒng)計種子模板的頻次并進行排序,生成種子模板文件進一步包括從待挖掘模板文件的查詢?nèi)罩敬刂刑崛嶓w詞;根據(jù)實體詞獲取查詢?nèi)罩敬貙?yīng)的種子模板;統(tǒng)計具有相同屬性的種子模板的頻次,根據(jù)統(tǒng)計的頻次進行排序,并選取高于預(yù)定頻次的種子模板族生成種子模板文件。本發(fā)明提供的基于語義歸一化的整合數(shù)據(jù)庫的信息處理方法的一個實施例中,該方法還包括讀取整合數(shù)據(jù)庫中的模板文件和當(dāng)前的查詢?nèi)罩疚募?;從整合?shù)據(jù)庫中模板文件獲取每個模板文件相應(yīng)的實體詞,生成實體詞文件;依據(jù)實體詞文件對當(dāng)前的查詢?nèi)罩疚募M行實體詞增量挖掘,生成實體詞增量文件;根據(jù)整合數(shù)據(jù)庫中的模板文件和實體詞增量文件生成整合數(shù)據(jù)庫更新文件;根據(jù)整合數(shù)據(jù)庫的整合信息文件和整合數(shù)據(jù)庫更新文件,進行文件合并,并更新整合數(shù)據(jù)庫的整合信息文件。本發(fā)明的又一個方面提供了一種基于語義歸一化的分拆數(shù)據(jù)庫的信息處理方法, 該方法包括從整合數(shù)據(jù)庫中讀取整合信息文件,并從整合信息文件中獲取實體詞和模板文件;其中,整合數(shù)據(jù)庫是根據(jù)前述基于語義歸一化的整合數(shù)據(jù)庫的信息處理方法得到的整合數(shù)據(jù)庫;對整合數(shù)據(jù)庫中獲取的實體詞和實體詞文件中的實體詞進行上位概念的抽象化處理,生成實體詞對應(yīng)的實體詞抽象類,并根據(jù)實體詞和實體詞抽象類生成實體詞抽象信息文件;根據(jù)整合數(shù)據(jù)庫中獲取的模板文件和實體詞抽象類生成抽象規(guī)則信息文件;統(tǒng)計抽象規(guī)則信息文件出現(xiàn)的頻次,根據(jù)統(tǒng)計的頻次進行排序,選取高于預(yù)定頻次的抽象規(guī)則信息文件;并將所選取的抽象規(guī)則信息文件和對應(yīng)的實體詞抽象信息文件添加到分拆信息文件中;以及根據(jù)分拆信息文件生成分拆數(shù)據(jù)庫。本發(fā)明提供的基于語義歸一化的分拆數(shù)據(jù)庫的信息處理方法的一個實施例中,預(yù)定頻次的閾值選自統(tǒng)計的頻次的最大值的三次開平方根和2中的較大的一個。本發(fā)明提供的基于語義歸一化的分拆數(shù)據(jù)庫的信息處理方法的一個實施例中,該方法還包括對于整合數(shù)據(jù)庫中的模板文件,如果模板文件通過人工分析的方式就能夠獲知模板文件的應(yīng)用領(lǐng)域,則進行實體詞抽象類的人工添加,并生成抽象規(guī)則信息文件;以及將實體詞抽象信息文件和抽象規(guī)則信息文件直接存入分拆信息文件中。本發(fā)明提供一種基于語義歸一化的檢索系統(tǒng)、檢索方法,以及基于語義歸一化的整合數(shù)據(jù)庫/分拆數(shù)據(jù)庫的信息處理方法,通過對網(wǎng)頁信息條目和用戶檢索式信息條目進行語義歸一化轉(zhuǎn)換,利用整合數(shù)據(jù)庫和/或分拆數(shù)據(jù)庫進行信息比對,從而提高檢索的準(zhǔn)確性和全面性,為用戶提供更為全面準(zhǔn)確的信息搜索服務(wù)。


圖1示出本發(fā)明實施例提供的一種基于語義歸一化的檢索系統(tǒng)的結(jié)構(gòu)示意圖;圖2示出本發(fā)明提供的基于語義歸一化的檢索系統(tǒng)的另一個實施例的結(jié)構(gòu)示意圖;圖3示出本發(fā)明實施例提供的一種基于語義歸一化的檢索方法的流程圖;圖4示出本發(fā)明提供的基于語義歸一化的檢索方法的另一個實施例的結(jié)構(gòu)示意圖;圖5示出本發(fā)明提供的基于語義歸一化的檢索方法的另一個實施例的結(jié)構(gòu)示意圖;圖6示出本發(fā)明實施例提供的一種基于語義歸一化的整合數(shù)據(jù)庫的信息處理方法的流程圖;圖7示出本發(fā)明實施例提供的基于語義歸一化的整合數(shù)據(jù)庫的信息處理方法的另一個實施例的結(jié)構(gòu)示意圖;圖8示出本發(fā)明實施例提供的種子模板文件的挖掘算法示意圖;圖9示出本發(fā)明實施例提供的基于語義歸一化的整合數(shù)據(jù)庫的信息處理方法的另一個實施例的結(jié)構(gòu)示意圖;圖10示出本發(fā)明實施例提供的一種基于語義歸一化的分拆數(shù)據(jù)庫的信息處理方法的流程圖;圖11示出本發(fā)明實施例提供的基于語義歸一化的分拆數(shù)據(jù)庫的信息處理方法的另一個實施例的結(jié)構(gòu)示意圖。
具體實施例方式下面參照附圖對本發(fā)明進行更全面的描述,其中說明本發(fā)明的示例性實施例。本發(fā)明中涉及的術(shù)語較多,為便于理解,我方對本發(fā)明中所提及的術(shù)語進行解釋或示例說明;但本領(lǐng)域技術(shù)人員知曉所述解釋或示例說明僅僅是用于形象地理解該術(shù)語的含義,并不用來對相應(yīng)的術(shù)語起任何限制作用。具體來說“條目信息”可以是廣告商或用戶在網(wǎng)頁中發(fā)布的信息,例如網(wǎng)友上傳的標(biāo)題為“宮保雞丁怎么燒”的帖子?!皩嶓w詞”可以是具有實際含義的名稱或?qū)ο?,例如“宮保雞丁”就是一個實體詞?!澳0逶~”可以是與“實體詞”搭配,用來表示目的、方法操作的一類語句,例如“宮保雞丁怎么燒”中的“怎么燒”,“宮保雞丁菜譜”中的“菜譜”,“宮保雞丁做法”中的“做法”, “宮保雞丁制作方法”中的“制作方法”和“烹飪宮保雞丁”中的“烹飪”。“歸一詞”可以是用來表示一些相似描述的共同表現(xiàn)形式,例如模板詞“怎么燒”、 “菜譜”、“做法”、“制作方法”和“烹飪”都是關(guān)于如何制作宮保雞丁的,因此,可以約定以 “G_”開頭,例如使用歸一詞“G_菜譜”來表征做菜方法。“歸一化表述”可以是將條目信息中的模板詞使用歸一詞進行代替,以將不同語義相同的表述進行形式統(tǒng)一。由于單純利用模板詞進行語義歸一是存在風(fēng)險的,例如“石灰石怎么燒”中的模板詞“怎么燒”就不能歸一為“G_菜譜”;因此,在進行歸一化表述時需要實體詞與模板詞搭配以進行驗證,例如,條目信息“宮保雞丁怎么做好吃”、“宮保雞丁菜譜”可歸一化為“宮保雞丁 6_菜譜”。“整合數(shù)據(jù)庫”可以是用于存儲具有整合信息文件(如含有歸一化表述的信息條) 數(shù)據(jù)庫,例如,類似詞典收錄條目形式的整合詞典數(shù)據(jù)庫。此外,整合數(shù)據(jù)庫還可以配備同義模板文件,其用于存儲著該整合數(shù)據(jù)庫涉及的所有同義模板簇。“整合信息文件”作為整合數(shù)據(jù)庫中存儲的信息條,可以是整合詞典數(shù)據(jù)庫中存儲的規(guī)則文件,例如包含該格式{實體詞[\t]模板詞[\t]歸一詞[\t]標(biāo)記位}的信息條。 其中,“[\t]”當(dāng)前含義可以為分隔符“tab”或空格“blank space” ;標(biāo)記位為“ 1 ”或“2”。 標(biāo)記位“1”表示該條信息條中模板詞為口語化描述(例如多少錢),因此,依據(jù)該口語化的模板詞進行檢索,命中結(jié)果差的概率較高,因而進行歸一化后檢索的命中率高,相關(guān)性收益較大。標(biāo)記位“2”表示該條信息條中模板詞為正規(guī)描述(例如報價,價格),依據(jù)該正規(guī)的模板詞進行檢索,命中的結(jié)果通常較好,因而歸一化所帶來的相關(guān)性收益較小且轉(zhuǎn)義風(fēng)險較大?!胺植饠?shù)據(jù)庫”可以是用于存儲具有分拆信息文件(如含有歸一化表述的信息條) 數(shù)據(jù)庫,例如,類似詞典收錄條目形式的分拆詞典數(shù)據(jù)庫?!胺植鹦畔⑽募弊鳛榉植饠?shù)據(jù)庫中存儲的信息條,可以是分拆詞典數(shù)據(jù)庫中存儲的規(guī)則文件,例如,包含格式為{實體詞[\t]實體詞抽象類}的實體詞抽象信息文件和格式為{實體詞抽象類[\t]模板詞[\t]歸一詞[\t]標(biāo)記位}抽象規(guī)則信息文件組成的信息條。其相當(dāng)于對整合數(shù)據(jù)庫中有條理,有規(guī)律的整合信息文件按照類別進行管理,因而可控性更好,檢索結(jié)果的準(zhǔn)確率更高。其中,標(biāo)記位用到了整數(shù)的低16位=OxN1N2N3N4,每個標(biāo)記“N”為四位比特位來表征“0-15”,其分別代表的含義如下“N/’:當(dāng)其為“1”時表示實體詞在模板詞的左邊,當(dāng)其為“2”時表示實體詞在模板詞的右邊,當(dāng)其為“3”時表示實體詞在模板詞的左右均可;“隊”當(dāng)其為“2”時表示模板詞必須在句尾,當(dāng)其為“4”時則模板詞必須在句首, 當(dāng)其為“8”時則模板詞必須在句中;“N3” 沿襲了整合數(shù)據(jù)庫中整合信息文件有關(guān)標(biāo)記位的定制含義,“1”表示該條信息條中模板詞為口語化描述,“2”表示該條信息條中模板詞為正規(guī)描述;“N/’ 表征模板詞和實體詞之間的間距。
圖1示出本發(fā)明實施例提供的一種基于語義歸一化的檢索系統(tǒng)的結(jié)構(gòu)示意圖。如圖1所示,一種基于語義歸一化的檢索系統(tǒng)100包括歸一化模塊102、整合數(shù)據(jù)庫104、第一索引庫106和搜索引擎108。其中,歸一化模塊102,用于對網(wǎng)頁中含有實體詞的條目信息進行語義歸一化變換,獲取條目信息的歸一化表述;以及對用戶輸入的含有實體詞的檢索式信息進行語義歸一化變換,獲取檢索式信息的歸一化表述。例如,歸一化模塊對網(wǎng)頁中“宮保雞丁怎么燒”, “宮保雞丁菜譜”,“宮保雞丁做法”等信息條目進行語義歸一化變換,獲取歸一化表述“宮保雞丁 G_菜譜”;以及對用戶輸入的含有實體詞“宮保雞丁”的檢索式信息“宮保雞丁怎么做好吃”進行語義歸一化變換,獲取該檢索式信息的歸一化表述“宮保雞丁 G_菜譜”。整合數(shù)據(jù)庫104,用于根據(jù)歸一化模塊獲取的條目信息的歸一化表述,生成并保存條目信息的整合信息文件。例如,整合數(shù)據(jù)庫根據(jù)歸一化模塊獲取的條目信息的歸一化表述“宮保雞丁 G_菜譜”,生成并保存條目信息的整合信息文件{宮保雞丁怎么燒6_菜譜1}、 {宮保雞丁怎么做好吃G_菜譜1}、{宮保雞丁菜譜G_菜譜2}等。第一索引庫106,用于根據(jù)含有實體詞的條目信息和整合信息文件,生成并保存用于關(guān)聯(lián)條目信息和整合信息文件的索引目錄。例如,第一索引庫根據(jù)條目信息“宮保雞丁怎么燒”和整合信息文件“ {宮保雞丁怎么燒G_菜譜1} ”,條目信息“宮保雞丁怎么做好吃” 和整合信息文件“ {宮保雞丁怎么做好吃G_菜譜1} ”,條目信息“宮保雞丁菜譜”和整合信息文件“ {宮保雞丁菜譜G_菜譜2} ”生成相關(guān)聯(lián)的索引目錄以供搜索引擎進行檢索查找。搜索引擎108,用于根據(jù)歸一化模塊獲取的檢索式信息的歸一化表述在第一索引庫中進行搜索,并根據(jù)索引目錄指示的路徑向用戶返回相應(yīng)的條目信息。例如,歸一化模塊將用戶輸入的檢索式信息“宮保雞丁怎么做好吃”進行語義歸一化變換,獲取該檢索式信息的歸一化表述“宮保雞丁 G_菜譜”后,搜索引擎根據(jù)該歸一化表述“宮保雞丁 G_菜譜”所包含的信息,如實體詞“宮保雞丁”和歸一化詞“G_菜譜”,在第一索引庫中進行搜索,例如命中第一索引庫中的目錄信息“ {宮保雞丁怎么燒6_菜譜1}、{宮保雞丁怎么做好吃6_菜譜1}、{宮保雞丁菜譜G_菜譜幻,,等整合信息文件,根據(jù)索引目錄得到所述整合信息文件關(guān)聯(lián)的條目信息的路徑指示,進而向用戶返回相應(yīng)的條目信息供用戶查閱。本發(fā)明提供的基于語義歸一化的檢索系統(tǒng),通過歸一化模塊獲取條目信息及用戶輸入的檢索式信息的歸一化表述,根據(jù)條目信息的歸一化表述由整合數(shù)據(jù)庫生成條目信息的整合信息文件,搜索引擎利用索引目錄中的整合信息文件進行檢索,從而向用戶返回與所述檢索式信息的歸一化表述相同或相似語義的條目信息;解決了當(dāng)前進行語義檢索不全面不準(zhǔn)確的技術(shù)問題,從而有利于為用戶提供更加準(zhǔn)確可信的搜索結(jié)果。圖2示出本發(fā)明提供的基于語義歸一化的檢索系統(tǒng)的另一個實施例的結(jié)構(gòu)示意圖。如圖2所示,基于語義歸一化的檢索系統(tǒng)200包括歸一化模塊202、整合數(shù)據(jù)庫 204、分拆數(shù)據(jù)庫205、第一索引庫206、第二索引庫207和搜索引擎208 ;其中歸一化模塊 102、整合數(shù)據(jù)庫104和第一索引庫106可以分別具有與圖1所示的歸一化模塊102、整合數(shù)據(jù)庫104和第一索引庫106具有相同或相似的結(jié)構(gòu),為簡潔起見,這里不再贅述其技術(shù)內(nèi)容。如圖2所示,基于語義歸一化的檢索系統(tǒng)200中的分拆數(shù)據(jù)庫205,用于根據(jù)歸一化模板202獲取的條目信息的歸一化表述,生成并保存條目信息的分拆信息文件。例如,針對網(wǎng)頁的條目信息,如“怎么燒宮保雞丁”,“宮保雞丁怎么做好吃”,“宮保雞丁菜譜”,歸一化模塊202對其進行歸一化轉(zhuǎn)換從而獲得歸一化表述“宮保雞丁 G_菜譜”,分拆數(shù)據(jù)庫205 根據(jù)該些條目信息的歸一化表述“宮保雞丁 G_菜譜”,生成并保存各個條目信息的分拆信息文件,分拆信息文件具體可以包括一項實體詞抽象信息文件和一項相應(yīng)的抽象規(guī)則信息文件。具體來說,條目信息“怎么燒宮保雞丁”對應(yīng)的分拆信息文件包括實體詞抽象信息文件“ {宮保雞丁川菜類} ”和相應(yīng)的抽象規(guī)則信息文件“ {川菜類怎么燒G_菜譜0x2210},,; 條目信息“宮保雞丁怎么做好吃”對應(yīng)的分拆信息文件包括實體詞抽象信息文件“ {宮保雞丁川菜類} ”和相應(yīng)的抽象規(guī)則信息文件“ {川菜類怎么做好吃G_菜譜0x1210} ”;條目信息 “宮保雞丁菜譜”對應(yīng)的分拆信息文件包括實體詞抽象信息文件“ {宮保雞丁川菜類} ”和相應(yīng)的抽象規(guī)則信息文件“ {川菜類菜譜G_菜譜0x1212} ”?;谡Z義歸一化的檢索系統(tǒng)200中的第二索引庫207,用于根據(jù)含有實體詞的條目信息和分拆信息文件,生成并保存用于關(guān)聯(lián)條目信息和分拆信息文件的第二索引目錄。例如,第二索引庫根據(jù)條目信息“怎么燒宮保雞丁”和分拆信息文件(包括實體詞抽象信息文件“{宮保雞丁川菜類}”和相應(yīng)的抽象規(guī)則信息文件“{川菜類怎么燒6_菜譜0x2210} ”),條目信息“宮保雞丁怎么做好吃”和分拆信息文件(包括實體詞抽象信息文件“ {宮保雞丁川菜類},,和相應(yīng)的抽象規(guī)則信息文件“ {川菜類怎么做好吃G_菜譜 0x1210} ”),條目信息“宮保雞丁菜譜”和分拆信息文件(包括實體詞抽象信息文件“ {宮保雞丁川菜類} ”和相應(yīng)的抽象規(guī)則信息文件“ {川菜類菜譜G_菜譜0x1212} ”)生成相關(guān)聯(lián)的第二索引目錄以供搜索引擎進行檢索查找?;谡Z義歸一化的檢索系統(tǒng)200中的搜索引擎208,還用于根據(jù)歸一化模塊獲取的檢索式信息的歸一化表述在第一索引庫和第二索引庫中進行搜索,并根據(jù)第一索引目錄和第二索引目錄指示的路徑向用戶返回相應(yīng)的條目信息。例如,歸一化模塊將用戶輸入的檢索式信息“宮保雞丁怎么做好吃”進行語義歸一化變換,獲取該檢索式信息的歸一化表述 “宮保雞丁 G_菜譜”后,搜索引擎根據(jù)該歸一化表述“宮保雞丁 G_菜譜”所包含的信息(如實體詞“宮保雞丁”和歸一化詞“G_菜譜”)在第一索引庫中進行搜索,例如命中第一索引庫中的目錄信息“ {宮保雞丁怎么燒G_菜譜1}、{宮保雞丁怎么做好吃G_菜譜1}、{宮保雞丁菜譜G_菜譜幻”等整合信息文件,根據(jù)第一索引目錄得到所述整合信息文件關(guān)聯(lián)的條目信息的路徑指示;搜索引擎根據(jù)該歸一化表述“宮保雞丁G_菜譜”所包含的信息(如實體詞 “宮保雞丁”和歸一化詞“G_菜譜”)在第二索引庫中進行搜索,例如命中第二索引庫中的目錄信息“包括實體詞抽象信息文件{宮保雞丁川菜類}和相應(yīng)的抽象規(guī)則信息文件{川菜類怎么燒6_菜譜0x2210}”,“包括實體詞抽象信息文件{宮保雞丁川菜類}和相應(yīng)的抽象規(guī)則信息文件{川菜類怎么做好吃G_菜譜0x1210} ”,“包括實體詞抽象信息文件{宮保雞丁川菜類}和相應(yīng)的抽象規(guī)則信息文件{川菜類菜譜G_菜譜0x1212}”等分拆信息文件, 根據(jù)第二索引目錄得到所述分拆信息文件關(guān)聯(lián)的條目信息的路徑指示;進而向用戶返回相應(yīng)的條目信息供用戶查閱。本發(fā)明提供的基于語義歸一化的檢索系統(tǒng)的一個實施例中,搜索引擎可以依照先后順序在第一索引庫和第二索引庫里進行檢索,也可以同步并行檢索第一索引庫和第二索引庫。
本發(fā)明提供的基于語義歸一化的檢索系統(tǒng)的一個實施例中,第一索引庫和第二索引庫也可以合并為一個總索引庫,在該總索引庫中建立兩個不同的索引分區(qū),或者在該總索引庫中羅列詳細(xì)的索引項,從而為搜索引擎進行檢索查找。本發(fā)明提供的基于語義歸一化的檢索系統(tǒng),通過歸一化模塊獲取條目信息及用戶輸入的檢索式信息的歸一化表述,根據(jù)條目信息的歸一化表述由整合數(shù)據(jù)庫生成條目信息的整合信息文件,以及由分拆數(shù)據(jù)庫生成條目信息的分拆信息文件,搜索引擎利用索引目錄中的整合信息文件和分拆信息文件進行檢索,從而向用戶返回與所述檢索式信息的歸一化表述相同或相似語義的條目信息;解決了當(dāng)前進行語義檢索不全面不準(zhǔn)確的技術(shù)問題, 從而有利于為用戶提供更加準(zhǔn)確可信的搜索結(jié)果。圖3示出本發(fā)明實施例提供的一種基于語義歸一化的檢索方法的流程圖。如圖3所示,基于語義歸一化的檢索方法流程300包括步驟302,歸一化模塊對網(wǎng)頁中含有實體詞的條目信息進行語義歸一化變換,獲取含有實體詞的條目信息的歸一化表述。例如,歸一化模塊對網(wǎng)頁中“宮保雞丁怎么燒”,“宮保雞丁菜譜”,“宮保雞丁做法”等信息條目進行語義歸一化變換,獲取歸一化表述“宮保雞丁 G_菜譜”。步驟304,整合數(shù)據(jù)庫根據(jù)歸一化模塊獲取的條目信息的歸一化表述,生成并保存條目信息的整合信息文件。例如,整合數(shù)據(jù)庫根據(jù)歸一化模塊獲取的條目信息的歸一化表述“宮保雞丁 G_菜譜”,生成并保存條目信息的整合信息文件{宮保雞丁怎么燒6_菜譜1}、 {宮保雞丁怎么做好吃G_菜譜1}、{宮保雞丁菜譜G_菜譜2}等。步驟306,第一索引庫根據(jù)含有實體詞的條目信息和整合信息文件,生成并保存用于關(guān)聯(lián)條目信息和整合信息文件的索引目錄。例如,第一索引庫根據(jù)條目信息“宮保雞丁怎么燒”和整合信息文件“ {宮保雞丁怎么燒G_菜譜1} ”,條目信息“宮保雞丁怎么做好吃” 和整合信息文件“{宮保雞丁怎么做好吃G_菜譜1}”,條目信息“宮保雞丁菜譜”和整合信息文件“ {宮保雞丁菜譜G_菜譜2},,生成相關(guān)聯(lián)的索引目錄以供搜索引擎進行檢索查找。步驟308,歸一化模塊對用戶輸入的含有實體詞的檢索式信息進行語義歸一化變換,獲取檢索式信息的歸一化表述。例如,對用戶輸入的含有實體詞“宮保雞丁”的檢索式信息“宮保雞丁怎么做好吃”進行語義歸一化變換,獲取該檢索式信息的歸一化表述“宮保雞丁 6_菜譜”。步驟310,搜索引擎根據(jù)歸一化模塊獲取的檢索式信息的歸一化表述在第一索引庫中進行搜索,并根據(jù)索引目錄指示的路徑向用戶返回相應(yīng)的條目信息。例如,歸一化模塊將用戶輸入的檢索式信息“宮保雞丁怎么做好吃”進行語義歸一化變換,獲取該檢索式信息的歸一化表述“宮保雞丁 G_菜譜”后,搜索引擎根據(jù)該歸一化表述“宮保雞丁 G_菜譜”所包含的信息,如實體詞“宮保雞丁”和歸一化詞“G_菜譜”,在第一索引庫中進行搜索,例如命中第一索引庫中的目錄信息“ {宮保雞丁怎么燒G_菜譜1}、{宮保雞丁怎么做好吃G_菜譜1}、{宮保雞丁菜譜G_菜譜幻”等整合信息文件,根據(jù)索引目錄得到所述整合信息文件關(guān)聯(lián)的條目信息的路徑指示,進而向用戶返回相應(yīng)的條目信息供用戶查閱。本發(fā)明提供的基于語義歸一化的檢索方法,通過歸一化模塊獲取條目信息及用戶輸入的檢索式信息的歸一化表述,根據(jù)條目信息的歸一化表述由整合數(shù)據(jù)庫生成條目信息的整合信息文件,搜索引擎利用索引目錄中的整合信息文件進行檢索,從而向用戶返回與所述檢索式信息的歸一化表述相同或相似語義的條目信息;解決了當(dāng)前進行語義檢索不全面不準(zhǔn)確的技術(shù)問題,從而有利于為用戶提供更加準(zhǔn)確可信的搜索結(jié)果。圖4示出本發(fā)明提供的基于語義歸一化的檢索方法的另一個實施例的結(jié)構(gòu)示意圖。如圖4所示,基于語義歸一化的檢索方法流程400包括步驟402-414,其中步驟 402-406、412可以分別執(zhí)行與圖3所示的步驟302-306、308相同或相似的技術(shù)內(nèi)容,為簡潔起見,這里不再贅述其技術(shù)內(nèi)容。如圖4所示,在步驟406 “第一索引庫根據(jù)含有實體詞的條目信息和整合信息文件,生成并保存用于關(guān)聯(lián)條目信息和整合信息文件的索引目錄”之后,執(zhí)行步驟408,分拆數(shù)據(jù)庫根據(jù)歸一化模板獲取的條目信息的歸一化表述,生成并保存條目信息的分拆信息文件。例如,針對網(wǎng)頁的條目信息,如“怎么燒宮保雞丁”,“宮保雞丁怎么做好吃”,“宮保雞丁菜譜”,歸一化模塊202對其進行歸一化轉(zhuǎn)換從而獲得歸一化表述“宮保雞丁 G_菜譜”,分拆數(shù)據(jù)庫205根據(jù)該些條目信息的歸一化表述“宮保雞丁 G_菜譜”,生成并保存各個條目信息的分拆信息文件,分拆信息文件具體可以包括一項實體詞抽象信息文件和一項相應(yīng)的抽象規(guī)則信息文件。具體來說,條目信息“怎么燒宮保雞丁”對應(yīng)的分拆信息文件包括實體詞抽象信息文件“ {宮保雞丁川菜類} ”和相應(yīng)的抽象規(guī)則信息文件“ {川菜類怎么燒G_菜譜 0x2210} ”;條目信息“宮保雞丁怎么做好吃”對應(yīng)的分拆信息文件包括實體詞抽象信息文件 “ {宮保雞丁川菜類} ”和相應(yīng)的抽象規(guī)則信息文件“ {川菜類怎么做好吃G_菜譜0x1210} ”; 條目信息“宮保雞丁菜譜”對應(yīng)的分拆信息文件包括實體詞抽象信息文件“ {宮保雞丁川菜類} ”和相應(yīng)的抽象規(guī)則信息文件“ {川菜類菜譜G_菜譜0x1212} ”。步驟410,第二索引庫根據(jù)含有實體詞的條目信息和分拆信息文件,生成并保存用于關(guān)聯(lián)條目信息和分拆信息文件的索引目錄。例如,第二索引庫根據(jù)條目信息“怎么燒宮保雞丁”和分拆信息文件(包括實體詞抽象信息文件“{宮保雞丁川菜類}”和相應(yīng)的抽象規(guī)則信息文件“ {川菜類怎么燒G_菜譜0x2210},,),條目信息“宮保雞丁怎么做好吃”和分拆信息文件(包括實體詞抽象信息文件“ {宮保雞丁川菜類} ”和相應(yīng)的抽象規(guī)則信息文件 “ {川菜類怎么做好吃G_菜譜0x1210},,),條目信息“宮保雞丁菜譜”和分拆信息文件(包括實體詞抽象信息文件“ {宮保雞丁川菜類} ”和相應(yīng)的抽象規(guī)則信息文件“ {川菜類菜譜 G_菜譜0x1212}”)生成相關(guān)聯(lián)的第二索引目錄以供搜索引擎進行檢索查找。在步驟412 “歸一化模塊對用戶輸入的含有實體詞的檢索式信息進行語義歸一化變換,獲取檢索式信息的歸一化表述”后,執(zhí)行步驟414,搜索引擎根據(jù)歸一化模塊獲取的檢索式信息的歸一化表述在第一索引庫和第二索引庫中進行搜索,并根據(jù)索引目錄指示的路徑向用戶返回相應(yīng)的條目信息。例如,歸一化模塊將用戶輸入的檢索式信息“宮保雞丁怎么做好吃”進行語義歸一化變換,獲取該檢索式信息的歸一化表述“宮保雞丁 G_菜譜”后,搜索引擎根據(jù)該歸一化表述“宮保雞丁 G_菜譜”所包含的信息(如實體詞“宮保雞丁”和歸一化詞“G_菜譜”)在第一索引庫中進行搜索,例如命中第一索引庫中的目錄信息“{宮保雞丁怎么燒G_菜譜1}、{宮保雞丁怎么做好吃G_菜譜1}、{宮保雞丁菜譜G_菜譜2},,等整合信息文件,根據(jù)第一索引目錄得到所述整合信息文件關(guān)聯(lián)的條目信息的路徑指示;搜索引擎根據(jù)該歸一化表述“宮保雞丁 G_菜譜”所包含的信息(如實體詞“宮保雞丁”和歸一化詞“G_菜譜”)在第二索引庫中進行搜索,例如命中第二索引庫中的目錄信息“包括實體詞抽象信息文件{宮保雞丁川菜類}和相應(yīng)的抽象規(guī)則信息文件{川菜類怎么燒G_菜譜0x2210} ”,“包括實體詞抽象信息文件{宮保雞丁川菜類}和相應(yīng)的抽象規(guī)則信息文件{川菜類怎么做好吃6_菜譜0x1210}”,“包括實體詞抽象信息文件{宮保雞丁川菜類}和相應(yīng)的抽象規(guī)則信息文件{川菜類菜譜G_菜譜0x1212} ”等分拆信息文件,根據(jù)第二索引目錄得到所述分拆信息文件關(guān)聯(lián)的條目信息的路徑指示;進而向用戶返回相應(yīng)的條目信息供用戶查閱。本發(fā)明提供的基于語義歸一化的檢索方法的一個實施例中,步驟414可以進一步包括搜索引擎根據(jù)歸一化模塊獲取的檢索式信息的歸一化表述先在第一索引庫中進行搜索,再在第二索引庫中進行搜索,然后并根據(jù)索引目錄指示的路徑向用戶返回相應(yīng)的條目信息;或者搜索引擎根據(jù)歸一化模塊獲取的檢索式信息的歸一化表述同步并行地檢索第一索引庫和第二索引庫,然后并根據(jù)索引目錄指示的路徑向用戶返回相應(yīng)的條目信息。本發(fā)明提供的基于語義歸一化的檢索方法的一個實施例中,第一索引庫和第二索引庫也可以合并為一個總索引庫,在該總索引庫中建立兩個不同的索引分區(qū),或者在該總索引庫中羅列詳細(xì)的索引項,從而為搜索引擎進行檢索查找。本發(fā)明提供的基于語義歸一化的檢索方法,通過歸一化模塊獲取條目信息及用戶輸入的檢索式信息的歸一化表述,根據(jù)條目信息的歸一化表述由整合數(shù)據(jù)庫生成條目信息的整合信息文件,以及由分拆數(shù)據(jù)庫生成條目信息的分拆信息文件,搜索引擎利用索引目錄中的整合信息文件和分拆信息文件進行檢索,從而向用戶返回與所述檢索式信息的歸一化表述相同或相似語義的條目信息;解決了當(dāng)前進行語義檢索不全面不準(zhǔn)確的技術(shù)問題, 從而有利于為用戶提供更加準(zhǔn)確可信的搜索結(jié)果。圖5示出本發(fā)明提供的基于語義歸一化的檢索方法的另一個實施例的結(jié)構(gòu)示意圖。如圖5所示,基于語義歸一化的檢索方法流程500包括步驟502-514,其中步驟 502-5141可以分別執(zhí)行與圖4所示的步驟402-414相同或相似的技術(shù)內(nèi)容,為簡潔起見,這里不再贅述其技術(shù)內(nèi)容。如圖5所示,在步驟502之后,步驟504-506與步驟508-510同步并行的方式被檢索系統(tǒng)執(zhí)行,也就是說,同步并行地執(zhí)行方法流程中的“整合數(shù)據(jù)庫根據(jù)歸一化模塊獲取的條目信息的歸一化表述,生成并保存條目信息的整合信息文件;第一索引庫根據(jù)含有實體詞的條目信息和整合信息文件,生成并保存用于關(guān)聯(lián)條目信息和整合信息文件的索引目錄”與“分拆數(shù)據(jù)庫根據(jù)歸一化模板獲取的條目信息的歸一化表述,生成并保存條目信息的分拆信息文件;第二索引庫根據(jù)含有實體詞的條目信息和分拆信息文件,生成并保存用于關(guān)聯(lián)條目信息和分拆信息文件的索引目錄”。本發(fā)明提供的基于語義歸一化的檢索方法的一個實施例中,步驟514可以進一步包括搜索引擎根據(jù)歸一化模塊獲取的檢索式信息的歸一化表述先在第一索引庫中進行搜索,再在第二索引庫中進行搜索,然后并根據(jù)索引目錄指示的路徑向用戶返回相應(yīng)的條目信息;或者搜索引擎根據(jù)歸一化模塊獲取的檢索式信息的歸一化表述同步并行地檢索第一索引庫和第二索引庫,然后并根據(jù)索引目錄指示的路徑向用戶返回相應(yīng)的條目信息。本發(fā)明提供的基于語義歸一化的檢索方法,根據(jù)條目信息的歸一化表述,由整合數(shù)據(jù)庫和分拆數(shù)據(jù)庫同步并行的方式生成條目信息的整合信息文件以及分拆信息文件,隨后由搜索引擎利用索引目錄中的整合信息文件和分拆信息文件進行檢索,從而向用戶返回與所述檢索式信息的歸一化表述相同或相似語義的條目信息;解決了當(dāng)前進行語義檢索不全面不準(zhǔn)確的技術(shù)問題,提供了檢索效率,從而有利于快捷地為用戶提供更加準(zhǔn)確可信的搜索結(jié)果。圖6示出本發(fā)明實施例提供的一種基于語義歸一化的整合數(shù)據(jù)庫的信息處理方法的流程圖。如圖6所示,基于語義歸一化的整合數(shù)據(jù)庫的信息處理方法流程600包括步驟 602,根據(jù)整合數(shù)據(jù)庫中的模板文件和垃圾數(shù)據(jù)庫中的模板文件生成模板文件庫。例如,將整合數(shù)據(jù)庫中的模板詞(如“多大了”,“身高”)對應(yīng)的模板文件(如“XX多大了”,“XX身高”)和垃圾數(shù)據(jù)庫中的模板文件(如“宮保雞丁幾歲了”)合并起來,生成模板文件的集合,如模板文件庫。其中垃圾數(shù)據(jù)庫是用來存儲一些通過人工能夠明顯判定為錯誤的模板文件,如宮保雞丁幾歲了,從而在后續(xù)比對中,無需對相同的模板文件進行再次比對,有利于節(jié)約系統(tǒng)資源,加快信息處理速率。步驟604,依據(jù)模板文件庫對當(dāng)前的查詢?nèi)罩疚募M行查詢過濾,去除查詢?nèi)罩疚募心軌虮荒0逦募炱ヅ涞牟樵儯纬纱诰蚰0逦募牟樵內(nèi)罩敬亍@?,讀取當(dāng)前的查詢?nèi)罩?,獲取最新的查詢?nèi)罩拘畔?;根?jù)前述合并獲得的模板文件庫對最新的查詢?nèi)罩拘畔⑦M行過濾,去除最新查詢?nèi)罩局心軌虮荒0逦募熘心0逦募ヅ涞牟樵冃畔ⅲ瑥亩@得尚未被挖掘出相應(yīng)模板文件的查詢?nèi)罩?,形成待挖掘模板文件的查詢?nèi)罩敬亍I院髮Σ樵冞^濾技術(shù)作進一步的詳細(xì)介紹。步驟606,從待挖掘模板文件的查詢?nèi)罩敬刂型诰蚍N子模板,統(tǒng)計種子模板的頻次并進行排序,生成種子模板文件。例如,根據(jù)前述對查詢?nèi)罩疚募^濾形成的待挖掘模板文件的查詢?nèi)罩敬兀瑢γ總€查詢?nèi)罩具M行模版文件切詞,從而獲取多種查詢屬性,如“世博會門票價格”對應(yīng)的模板詞“價格”,“世博會門票轉(zhuǎn)讓”對應(yīng)的模板詞“轉(zhuǎn)讓”,“ Ipad價格”對應(yīng)的模板詞“價格”和“ Ipad樣式”對應(yīng)的模板詞“樣式”,所述查詢?nèi)罩痉謩e對應(yīng)于模板文件“XX價格”、“XX轉(zhuǎn)讓”、“XX價格”和“XX樣式”;隨后對所述模板文件進行統(tǒng)計排序,從而生成種子模板文件。步驟608,從種子模板文件中選取預(yù)定數(shù)量的種子模板,生成同義模板候選文件。 例如,根據(jù)預(yù)先設(shè)定的閾值,從前述統(tǒng)計排序所獲得的種子模板文件中選取符合篩選條件 (如排序前50個、前10個等,統(tǒng)計后排序在前的種子模板很有可能是所有實體詞的公共屬性)的種子模板文件作為同義模板候選文件。步驟610,對同義模板候選文件進行篩選,并將篩選得到的同義模板候選文件添加到整合數(shù)據(jù)庫的模板文件中。例如,根據(jù)前述預(yù)先設(shè)定的閾值,生成同義模板候選文件,隨后可以采用本領(lǐng)域通用的機器自動篩選的方式進行同義模板候選文件的選取,從而將其添加到整合數(shù)據(jù)庫的模板文件中。此外,對于一些能夠被模板覆蓋的查詢?nèi)罩?,人工能夠?qū)⑵涮鎿Q成一種具有相同表述含義的正規(guī)的模板的表述形式,可以采用人工篩選的方式進行輔助挑選,從而將其添加到整合數(shù)據(jù)庫的模板文件中?;陬愃频牟僮鳎瑢τ诓环铣R?guī)表述的查詢?nèi)罩?,可以將其添加到垃圾模板庫的模板文件中;從而進一步避免了對同樣的垃圾模板文件的再次挖掘,有利于提高對海量查詢?nèi)罩镜暮Y選效率。本發(fā)明中對查詢?nèi)罩具M行過濾可以采用“預(yù)判定”技術(shù)來提高比對效率。具體來說首先,將模板文件庫中的所有模版文件切詞,并建立實體詞與模版詞的對應(yīng)關(guān)系,如“世博會門票”-“多少錢”,“世博會門票”-“轉(zhuǎn)讓”等,一個實體詞可能會對應(yīng)多個模版文件, 從而建立實體詞與模板詞的多個對應(yīng)關(guān)系。其次,對于查詢?nèi)罩?querylog)中的每條查詢 (query)進行切詞,并查找query中所有實體詞所涉及的模版詞。然后,將query中的模板詞與模板文件庫中的模板詞進行比較,看能否匹配上;在進行比較時,“XX”可以匹配任何字符串,如“世博會門票價格”能夠與模板文件“XX價格”匹配上;也就是說,查詢?nèi)罩疚募笆啦T票價格”對應(yīng)的模板文件“XX價格”已經(jīng)被存儲在模板文件庫中了,該查詢?nèi)罩疚募o需再進行模板文件挖掘。圖7示出本發(fā)明實施例提供的基于語義歸一化的整合數(shù)據(jù)庫的信息處理方法的另一個實施例的結(jié)構(gòu)示意圖;圖8示出本發(fā)明實施例提供的種子模板文件的挖掘算法示意圖。如圖7所示,基于語義歸一化的整合數(shù)據(jù)庫的信息處理方法流程700包括步驟 702-710,其中步驟702、704、708、710可以分別執(zhí)行與圖6所示的步驟602、604、608、610相同或相似的技術(shù)內(nèi)容,為簡潔起見,這里不再贅述其技術(shù)內(nèi)容。如圖7所示,在步驟704之后,執(zhí)行步驟705,從待挖掘模板文件的查詢?nèi)罩敬刂刑崛嶓w詞。具體來說,如圖8所示,待挖掘模板文件的查詢?nèi)罩敬?02包括“Ipad多少錢, 世博會門票多少錢,宮保雞丁多少錢……XX多少錢”等等,利用一種查詢的屬性(如“XX多少錢”)對前述待挖掘模板文件的查詢?nèi)罩敬?02進行實體詞挖掘,從中分別提取出相應(yīng)的實體詞804,包括“Ipad、世博會門票、宮保雞丁”等等。步驟706,根據(jù)實體詞獲取查詢?nèi)罩敬貙?yīng)的種子模板。具體來說,如圖8所示,根據(jù)實體詞804,獲取所述實體詞對應(yīng)的查詢?nèi)罩敬刂兴械姆N子模板,如實體詞“ Ipad”對應(yīng)的所有種子模板806 “Ipad價格、Ipad樣式、Ipad怎么用”等等;實體詞“世博會門票” 對應(yīng)的所有種子模板808 “世博會門票哪里賣、世博會門票抽簽、世博會門票價格”等等;實體詞“宮保雞丁”對應(yīng)的所有種子模板810 “宮保雞丁價格、宮保雞丁怎么做、宮保雞丁哪里
頭寸寸。步驟707,統(tǒng)計具有相同屬性的種子模板的頻次,根據(jù)統(tǒng)計的頻次進行排序,并選取高于預(yù)定頻次的種子模板族生成種子模板文件。具體來說,如圖8所示,分別對前述獲取的種子模板806-810進行統(tǒng)計812,將具有相同查詢屬性的模板累加在一起,如匯總后的種子模板“XX價格”出現(xiàn)3次,種子模板“XX抽簽”出現(xiàn)1次,種子模板“XX怎么用”出現(xiàn)1次等等。根據(jù)預(yù)先設(shè)定的閾值,從前述統(tǒng)計排序所獲得的種子模板列表中選取符合篩選條件的種子模板作為種子模板文件;具體來說,閾值可以選自統(tǒng)計的頻次的最大值的三次開平方根和2中的較大的一個maX (2,sqrt (sqrt (sqrt (最大頻次)))),這樣不但能夠避免噪音影響,而且能夠以最大頻次作為參照篩選出較為頻繁的種子模板族(抽象規(guī)則信息文件), 覆蓋更多的查詢。隨后執(zhí)行步驟708、710,所述步驟可以分別執(zhí)行與圖6所示的步驟608、610相同或相似的技術(shù)內(nèi)容,為簡潔起見,這里不再贅述其技術(shù)內(nèi)容。圖9示出本發(fā)明實施例提供的基于語義歸一化的整合數(shù)據(jù)庫的信息處理方法的另一個實施例的結(jié)構(gòu)示意圖。如圖9所示,基于語義歸一化的整合數(shù)據(jù)庫的信息處理方法流程900包括步驟 902-920,其中步驟902-910可以分別執(zhí)行與圖7所示的步驟702-710相同或相似的技術(shù)內(nèi)容,為簡潔起見,這里不再贅述其技術(shù)內(nèi)容。如圖9所示,在步驟910之后,執(zhí)行步驟912,讀取整合數(shù)據(jù)庫中的模板文件和當(dāng)前的查詢?nèi)罩疚募?。例如,根?jù)前述實施例給出的方法對整合數(shù)據(jù)庫的模板文件進行了更新,在該步驟中分別讀取該更新后的整合數(shù)據(jù)庫中的模板文件,以及當(dāng)前最新的查詢?nèi)罩疚募2襟E914,從整合數(shù)據(jù)庫中模板文件獲取每個模板文件相應(yīng)的實體詞,生成實體詞文件。例如,從整合數(shù)據(jù)庫中的模板文件(如“XX多大了”,“yy身高”,“ZZ怎么做好吃”) 中獲取每個模板文件對應(yīng)的實體詞“XX”,“11”和“zz”,并生成實體詞文件。步驟916,依據(jù)實體詞文件對當(dāng)前的查詢?nèi)罩疚募M行實體詞增量挖掘,生成實體詞增量文件。例如,依據(jù)所獲取的實體詞文件對當(dāng)前的查詢?nèi)罩疚募械膶嶓w詞進行比對, 從而挖掘出新增加的實體詞“■”等,獲得實體詞增量文件。步驟918,根據(jù)整合數(shù)據(jù)庫中的模板文件和實體詞增量文件生成整合數(shù)據(jù)庫更新文件。例如,根據(jù)整合數(shù)據(jù)庫中的模板文件中的模板詞,如“多大了”,“身高”,“怎么做好吃” 和實體詞增量文件,如“■”,生成整合數(shù)據(jù)庫更新文件,如包括Iww多大了 G_年齡1},{ww 身高G_身高2}等信息條的信息文件。步驟920,根據(jù)整合數(shù)據(jù)庫的整合信息文件和整合數(shù)據(jù)庫更新文件,進行文件合并,并更新整合數(shù)據(jù)庫的整合信息文件。例如,根據(jù)整合數(shù)據(jù)庫中的原有整合信息文件和剛剛生成的數(shù)據(jù)庫更新文件(如包括{胃多大了 G_年齡1},{胃身高G_身高2}等信息條的信息文件)進行文件合并,并用合并后的整合信息文件來更新整合數(shù)據(jù)庫原有的整合信息文件。本發(fā)明中采用的文件合并方法可以利用“詞典Merge模塊”,具體來說,該模塊通過將整合數(shù)據(jù)庫中每一條整合信息文件作為一個字符串,并將該字符串插入到哈希辭典中,并將其映射值設(shè)置為1。對于整合數(shù)據(jù)庫更新文件中的每一條整合信息文件,查找該整合信息文件在哈希辭典中的映射值;如果其映射值為1,則說明該條整合信息文件已經(jīng)存在;反之,則會將該條整合信息文件添加到整合數(shù)據(jù)庫中;隨后將該條整合信息文件也添加到哈希辭典中,并將其映射值設(shè)置為1。本發(fā)明提供的基于語義歸一化的整合數(shù)據(jù)庫的信息處理方法,。圖10示出本發(fā)明實施例提供的一種基于語義歸一化的分拆數(shù)據(jù)庫的信息處理方法的流程圖。如圖10所示,基于語義歸一化的分拆數(shù)據(jù)庫的信息處理方法流程1000包括步驟 1002,從整合數(shù)據(jù)庫中讀取整合信息文件,并從整合信息文件中獲取實體詞和模板文件。例如,根據(jù)前述基于語義歸一化的整合數(shù)據(jù)庫的信息處理方法得到更新后的整合數(shù)據(jù)庫,從該整合數(shù)據(jù)庫中讀取整合文件信息,如{宮保雞丁怎么做6_菜譜1},{奧巴馬多大了 6_年齡1},{姚明身高6_身高2}等信息條的信息文件,從中獲取實體詞“宮保雞丁”、“奧巴馬” 和“姚明”以及相應(yīng)的模板文件“怎么做”,“多大了”和“年齡”。步驟1004,對整合數(shù)據(jù)庫中獲取的實體詞和實體詞文件中的實體詞進行上位概念的抽象化處理,生成實體詞對應(yīng)的實體詞抽象類,并根據(jù)實體詞和實體詞抽象類生成實體詞抽象信息文件。例如,對前述獲取的實體詞盡心上位概念的抽象化處理以生成抽象類,如 “宮保雞丁 - >川菜- >中國菜”,“奧巴馬- >美國總統(tǒng)- >人類”就是一個語義從下往上進行上位抽象的例子。隨后根據(jù)實體詞和實體詞抽象類生成實體詞抽象信息文件,如{宮保雞丁中國菜},{奧巴馬人類}。步驟1006,根據(jù)整合數(shù)據(jù)庫中獲取的模板文件和實體詞抽象類生成抽象規(guī)則信息文件。例如,根據(jù)模板文件“怎么做”,“多大了”和“年齡”和實體詞抽象類“中國菜”,“人類”,生成抽象規(guī)則信息文件,如包括{中國菜怎么做G_菜譜1},{人類多大了 G_年齡1} 的信息條。步驟1008,統(tǒng)計抽象規(guī)則信息文件出現(xiàn)的頻次,根據(jù)統(tǒng)計的頻次進行排序,選取高于預(yù)定頻次的抽象規(guī)則信息文件;并將所選取的抽象規(guī)則信息文件和對應(yīng)的實體詞抽象信息文件添加到分拆信息文件中。例如,統(tǒng)計抽象規(guī)則信息文件,將具有相同屬性的信息條累加在一起,根據(jù)預(yù)先設(shè)定的閾值(具體來說,閾值可以選自統(tǒng)計的頻次的最大值的三次開平方根和2中的較大的一個),選取高于閾值的抽象規(guī)則信息文件,如{中國菜怎么做6_菜譜1},確定與之對應(yīng)的實體詞抽象信息文件如{宮保雞丁中國菜};并將兩個信息條添加到分拆信息文件中。步驟1010,根據(jù)分拆信息文件生成分拆數(shù)據(jù)庫。例如,將前述獲得的分拆信息文件匯總形成分拆數(shù)據(jù)庫。圖11示出本發(fā)明實施例提供的基于語義歸一化的分拆數(shù)據(jù)庫的信息處理方法的另一個實施例的結(jié)構(gòu)示意圖。如圖11所示,基于語義歸一化的分拆數(shù)據(jù)庫的信息處理方法流程1100包括步驟 1102、1103、1104、1106、1108、1109、1110,其中步驟 1102、1104、1106、1108、1110 可以分別執(zhí)行與圖10所示的步驟1002-1010相同或相似的技術(shù)內(nèi)容,為簡潔起見,這里不再贅述其技術(shù)內(nèi)容。如圖11所示,在步驟1102之后,執(zhí)行步驟1103,對于整合數(shù)據(jù)庫中的模板文件,如果模板文件通過人工分析的方式就能夠獲知模板文件的應(yīng)用領(lǐng)域,則進行實體詞抽象類的人工添加,并生成抽象規(guī)則信息文件。步驟1109,將實體詞抽象信息文件和抽象規(guī)則信息文件直接存入分拆信息文件中。隨后再將前述直接獲得的分拆信息文件與步驟1110獲得的分拆信息文件匯總形成分拆數(shù)據(jù)庫。根據(jù)前述對于本發(fā)明提供的基于語義歸一化的整合數(shù)據(jù)庫/分拆數(shù)據(jù)庫的信息處理方法,接下來,將具體描述基于語義歸一化的檢索方法的一個實施方式。以用戶在檢索界面輸入“奧巴馬多大了”的查詢請求為例,在當(dāng)前的網(wǎng)絡(luò)系統(tǒng)中信息條目包括“奧巴馬年齡”,“奧巴馬多大了”和“奧巴馬歲數(shù)”等網(wǎng)頁。首先,根據(jù)網(wǎng)頁中的條目信息生成整合信息文件,如{奧巴馬多大了 G_年齡1}, {奧巴馬年齡G_年齡2},{奧巴馬步數(shù)G_年齡1}以匯總形成整合數(shù)據(jù)庫,并建立第一索引庫,例如對于字符串“奧巴馬歲數(shù)”,如果利用整合數(shù)據(jù)庫,由于存在“奧巴馬”和“步數(shù)”則在建立索引庫時除了建立“奧巴馬”和“歲數(shù)”的索引會擴展出“6_年齡”的索引。隨后,根據(jù)網(wǎng)頁中的條目信息生成分拆信息文件,包括如實體詞抽象信息文件 {奧巴馬人類}和抽象規(guī)則信息文件{人類多大了 G_年齡0x3E04}以匯總形成分拆數(shù)據(jù)庫,并建立第二索引庫,例如,如果利用分拆數(shù)據(jù)庫,由于“奧巴馬”是“人類”,且“奧巴馬” 在“年齡”左邊,且間距小于4,則除了建立索引庫時除了“奧巴馬”和“歲數(shù)”的索引會擴展出“6_年齡”的索引。在用戶輸入“奧巴馬多大了”進行信息檢索時,基于語義歸一化轉(zhuǎn)換,會生成新的查詢“奧巴馬G_年齡”在第一索引庫和第二索引庫中進行檢索,這樣不但可以召回含有“奧巴馬多大了”信息條目的網(wǎng)頁,也可以召回含有“奧巴馬歲數(shù)”和“奧巴馬年齡”信息條目的網(wǎng)頁。參考前述本發(fā)明示例性的描述,本領(lǐng)域技術(shù)人員可以清楚的知曉本發(fā)明具有以下優(yōu)點本發(fā)明提供一種基于語義歸一化的檢索系統(tǒng)、檢索方法,以及基于語義歸一化的整合數(shù)據(jù)庫/分拆數(shù)據(jù)庫的信息處理方法,通過對網(wǎng)頁信息條目和用戶檢索式信息條目進行語義歸一化轉(zhuǎn)換,利用整合數(shù)據(jù)庫和/或分拆數(shù)據(jù)庫進行信息比對,從而提高檢索的準(zhǔn)確性和全面性,為用戶提供更為全面準(zhǔn)確的信息搜索服務(wù)。本發(fā)明的描述是為了示例和描述起見而給出的,而并不是無遺漏的或者將本發(fā)明限于所公開的形式。很多修改和變化對于本領(lǐng)域的普通技術(shù)人員而言是顯然的。選擇和描述實施例是為了更好說明本發(fā)明的原理和實際應(yīng)用,并且使本領(lǐng)域的普通技術(shù)人員能夠理解本發(fā)明從而設(shè)計適于特定用途的帶有各種修改的各種實施例。
權(quán)利要求
1.一種基于語義歸一化的檢索系統(tǒng),其特征在于,所述系統(tǒng)包括歸一化模塊,用于對網(wǎng)頁中含有實體詞的條目信息進行語義歸一化變換,獲取所述條目信息的歸一化表述;以及對用戶輸入的含有實體詞的檢索式信息進行語義歸一化變換, 獲取所述檢索式信息的歸一化表述;整合數(shù)據(jù)庫,用于根據(jù)所述歸一化模塊獲取的所述條目信息的歸一化表述,生成并保存所述條目信息的整合信息文件;第一索引庫,用于根據(jù)所述含有實體詞的條目信息和所述整合信息文件,生成并保存用于關(guān)聯(lián)所述條目信息和所述整合信息文件的第一索引目錄;搜索引擎,用于根據(jù)所述歸一化模塊獲取的所述檢索式信息的歸一化表述在所述第一索引庫中進行搜索,并根據(jù)所述第一索引目錄指示的路徑向所述用戶返回相應(yīng)的條目信肩、ο
2.根據(jù)權(quán)利要求1所述的系統(tǒng),其特征在于,所述系統(tǒng)還包括分拆數(shù)據(jù)庫,用于根據(jù)所述歸一化模板獲取的所述條目信息的歸一化表述,生成并保存所述條目信息的分拆信息文件;第二索引庫,用于根據(jù)所述含有實體詞的條目信息和所述分拆信息文件,生成并保存用于關(guān)聯(lián)所述條目信息和所述分拆信息文件的第二索引目錄;所述搜索引擎,還用于根據(jù)所述歸一化模塊獲取的所述檢索式信息的歸一化表述在所述第一索引庫和第二索引庫中進行搜索,并根據(jù)所述第一索引目錄和第二索引目錄指示的路徑向所述用戶返回相應(yīng)的條目信息。
3.一種基于語義歸一化的檢索方法,其特征在于,所述方法包括歸一化模塊對網(wǎng)頁中含有實體詞的條目信息進行語義歸一化變換,獲取所述含有實體詞的條目信息的歸一化表述;整合數(shù)據(jù)庫根據(jù)所述歸一化模塊獲取的所述條目信息的歸一化表述,生成并保存所述條目信息的整合信息文件;第一索引庫根據(jù)所述含有實體詞的條目信息和所述整合信息文件,生成并保存用于關(guān)聯(lián)所述條目信息和所述整合信息文件的索引目錄;所述歸一化模塊對用戶輸入的含有實體詞的檢索式信息進行語義歸一化變換,獲取所述檢索式信息的歸一化表述;搜索引擎根據(jù)所述歸一化模塊獲取的所述檢索式信息的歸一化表述在所述第一索引庫中進行搜索,并根據(jù)所述索引目錄指示的路徑向所述用戶返回相應(yīng)的條目信息。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述方法還包括在所述第一索引庫生成并保存用于關(guān)聯(lián)所述條目信息和所述整合信息文件的索引目錄之后,分拆數(shù)據(jù)庫根據(jù)所述歸一化模板獲取的所述條目信息的歸一化表述,生成并保存所述條目信息的分拆信息文件;第二索引庫根據(jù)所述含有實體詞的條目信息和所述分拆信息文件,生成并保存用于關(guān)聯(lián)所述條目信息和所述分拆信息文件的索引目錄;所述歸一化模塊對用戶輸入的含有實體詞的檢索式信息進行語義歸一化變換,獲取所述檢索式信息的歸一化表述;以及所述搜索引擎根據(jù)所述歸一化模塊獲取的所述檢索式信息的歸一化表述在所述第一索引庫和第二索引庫中進行搜索,并根據(jù)所述索引目錄指示的路徑向所述用戶返回相應(yīng)的條目fn息。
5.一種基于語義歸一化的整合數(shù)據(jù)庫的信息處理方法,其特征在于,所述方法包括 根據(jù)整合數(shù)據(jù)庫中的模板文件和垃圾數(shù)據(jù)庫中的模板文件生成模板文件庫;依據(jù)所述模板文件庫對當(dāng)前的查詢?nèi)罩疚募M行查詢過濾,去除所述查詢?nèi)罩疚募心軌虮凰瞿0逦募炱ヅ涞牟樵?,形成待挖掘模板文件的查詢?nèi)罩敬?;從所述待挖掘模板文件的查詢?nèi)罩敬刂型诰蚍N子模板,統(tǒng)計所述種子模板的頻次并進行排序,生成種子模板文件;從所述種子模板文件中選取預(yù)定數(shù)量的所述種子模板,生成同義模板候選文件; 對所述同義模板候選文件進行篩選,并將篩選得到的同義模板候選文件添加到所述整合數(shù)據(jù)庫的模板文件中。
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述方法還包括 讀取所述整合數(shù)據(jù)庫中的模板文件和所述當(dāng)前的查詢?nèi)罩疚募粡乃稣蠑?shù)據(jù)庫中模板文件獲取每個模板文件相應(yīng)的實體詞,生成實體詞文件; 依據(jù)所述實體詞文件對所述當(dāng)前的查詢?nèi)罩疚募M行實體詞增量挖掘,生成實體詞增量文件;根據(jù)所述整合數(shù)據(jù)庫中的模板文件和所述實體詞增量文件生成整合數(shù)據(jù)庫更新文件;根據(jù)所述整合數(shù)據(jù)庫的整合信息文件和所述整合數(shù)據(jù)庫更新文件,進行文件合并,并更新所述整合數(shù)據(jù)庫的整合信息文件。
7.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述從所述待挖掘模板文件的查詢?nèi)罩敬刂型诰蚍N子模板,統(tǒng)計所述種子模板的頻次并進行排序,生成種子模板文件進一步包括從所述待挖掘模板文件的查詢?nèi)罩敬刂刑崛∷鰧嶓w詞; 根據(jù)所述實體詞獲取所述查詢?nèi)罩敬貙?yīng)的種子模板;統(tǒng)計具有相同屬性的種子模板的頻次,根據(jù)統(tǒng)計的頻次進行排序,并選取高于預(yù)定頻次的種子模板族生成所述種子模板文件。
8.一種基于語義歸一化的分拆數(shù)據(jù)庫的信息處理方法,其特征在于,所述方法包括 從整合數(shù)據(jù)庫中讀取整合信息文件,并從所述整合信息文件中獲取實體詞和模板文件;其中,所述整合數(shù)據(jù)庫是根據(jù)前述權(quán)利要求5或6所述的基于語義歸一化的整合數(shù)據(jù)庫的信息處理方法得到的整合數(shù)據(jù)庫;對所述整合數(shù)據(jù)庫中獲取的實體詞和實體詞文件中的實體詞進行上位概念的抽象化處理,生成所述實體詞對應(yīng)的實體詞抽象類,并根據(jù)所述實體詞和所述實體詞抽象類生成實體詞抽象信息文件;根據(jù)所述整合數(shù)據(jù)庫中獲取的所述模板文件和所述實體詞抽象類生成抽象規(guī)則信息文件;統(tǒng)計所述抽象規(guī)則信息文件出現(xiàn)的頻次,根據(jù)統(tǒng)計的頻次進行排序,選取高于預(yù)定頻次的抽象規(guī)則信息文件;并將所選取的抽象規(guī)則信息文件和對應(yīng)的實體詞抽象信息文件添加到分拆信息文件中;以及根據(jù)所述分拆信息文件生成分拆數(shù)據(jù)庫。
9.根據(jù)權(quán)利要求8所述的方法,其特征在于,所述預(yù)定頻次的閾值選自所述統(tǒng)計的頻次的最大值的三次開平方根和2中的較大的一個。
10.根據(jù)權(quán)利要求8所述的方法,其特征在于,所述方法還包括對于所述整合數(shù)據(jù)庫中的模板文件,如果所述模板文件通過人工分析的方式就能夠獲知所述模板文件的應(yīng)用領(lǐng)域,則進行所述實體詞抽象類的人工添加,并生成抽象規(guī)則信息文件;以及將所述實體詞抽象信息文件和所述抽象規(guī)則信息文件直接存入所述分拆信息文件中。
全文摘要
本發(fā)明公開了一種基于語義歸一化的檢索系統(tǒng)、檢索方法,以及基于語義歸一化的整合數(shù)據(jù)庫/分拆數(shù)據(jù)庫的信息處理方法。基于語義歸一化的檢索系統(tǒng)包括歸一化模塊,用于對條目信息以及用戶輸入的檢索式信息進行語義歸一化變換,獲取歸一化表述;整合數(shù)據(jù)庫,用于根據(jù)條目信息的歸一化表述,生成整合信息文件;第一索引庫,用于根據(jù)條目信息和整合信息文件,生成關(guān)聯(lián)條目信息和整合信息文件的索引目錄;搜索引擎,用于根據(jù)檢索式信息的歸一化表述在第一索引庫中進行搜索,并根據(jù)索引目錄指示的路徑向用戶返回相應(yīng)的條目信息。本發(fā)明通過語義歸一化轉(zhuǎn)換,利用整合數(shù)據(jù)庫和/或分拆數(shù)據(jù)庫進行信息比對,從而提高檢索的準(zhǔn)確性和全面性。
文檔編號G06F17/30GK102236664SQ20101016251
公開日2011年11月9日 申請日期2010年4月28日 優(yōu)先權(quán)日2010年4月28日
發(fā)明者吳雪軍, 呼大為 申請人:百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1