亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

用于索引和搜索數(shù)據(jù)庫(kù)的方法和裝置的制作方法

文檔序號(hào):6637201閱讀:249來(lái)源:國(guó)知局
專(zhuān)利名稱(chēng):用于索引和搜索數(shù)據(jù)庫(kù)的方法和裝置的制作方法
技術(shù)領(lǐng)域
所描述的技術(shù)通常涉及數(shù)據(jù)庫(kù)搜索,尤其涉及web數(shù)據(jù)庫(kù)搜索。
背景全球網(wǎng)(“web”)提供了大量可通過(guò)網(wǎng)頁(yè)訪問(wèn)的數(shù)據(jù)。網(wǎng)頁(yè)可包含靜態(tài)內(nèi)容或動(dòng)態(tài)內(nèi)容。靜態(tài)內(nèi)容通常指通過(guò)網(wǎng)頁(yè)的許多次訪問(wèn)能保持一樣的信息。動(dòng)態(tài)內(nèi)容通常指存儲(chǔ)在web數(shù)據(jù)庫(kù)中并響應(yīng)于搜索請(qǐng)求添加到網(wǎng)頁(yè)上的信息。動(dòng)態(tài)內(nèi)容表示所謂的深web或隱藏的web。
許多搜索引擎服務(wù)允許用戶(hù)查找web的靜態(tài)內(nèi)容。在用戶(hù)提交了包括搜索項(xiàng)的搜索請(qǐng)求或查詢(xún)之后,搜索引擎服務(wù)識(shí)別與那些搜索項(xiàng)相關(guān)的網(wǎng)頁(yè)。這些網(wǎng)頁(yè)是搜索結(jié)果。為了快速識(shí)別相關(guān)的網(wǎng)頁(yè),搜索引擎服務(wù)保持關(guān)鍵字到網(wǎng)頁(yè)的映射。通過(guò)“爬”網(wǎng)產(chǎn)生該映射來(lái)識(shí)別每個(gè)網(wǎng)頁(yè)的關(guān)鍵字。為了“爬”網(wǎng),搜索引擎服務(wù)可使用根網(wǎng)頁(yè)表來(lái)識(shí)別可通過(guò)那些根網(wǎng)頁(yè)訪問(wèn)的所有網(wǎng)頁(yè)。任何特定網(wǎng)頁(yè)的關(guān)鍵字都可使用各種公知的信息檢索技術(shù)來(lái)識(shí)別,比如識(shí)別標(biāo)題的字、網(wǎng)頁(yè)的元數(shù)據(jù)中提供的字、高亮的字等等。
然而,通常這些搜索引擎服務(wù)不能用來(lái)搜索動(dòng)態(tài)內(nèi)容,也認(rèn)為動(dòng)態(tài)內(nèi)容是不可“爬”內(nèi)容。搜索動(dòng)態(tài)內(nèi)容的一個(gè)問(wèn)題在于有幾個(gè)原因使得不能有效地檢索和索引web數(shù)據(jù)庫(kù)內(nèi)容。一個(gè)原因是多個(gè)web數(shù)據(jù)庫(kù)的內(nèi)容太大了,以至于不能檢索和索引。另一個(gè)原因是web數(shù)據(jù)庫(kù)的計(jì)劃隱藏在搜索界面后面,即只向用戶(hù)陳列搜索網(wǎng)頁(yè)(和結(jié)果網(wǎng)頁(yè))的屬性。搜索動(dòng)態(tài)內(nèi)容的另一個(gè)問(wèn)題在于,生成的索引需要支持結(jié)構(gòu)性查詢(xún)和非結(jié)構(gòu)性查詢(xún)。非結(jié)構(gòu)性查詢(xún)是在搜索文獻(xiàn)時(shí)通常使用的搜索項(xiàng)列表。例如,一個(gè)非結(jié)構(gòu)性查詢(xún)可以是“Harry PotterRowling”。一個(gè)結(jié)構(gòu)性查詢(xún)是在搜索數(shù)據(jù)庫(kù)時(shí)通常使用的屬性和屬性值列表。例如,一個(gè)結(jié)構(gòu)性查詢(xún)可以是“title=Harry Potter and author=Rowling”已經(jīng)進(jìn)行了相當(dāng)多的研究來(lái)開(kāi)發(fā)提供跨越多個(gè)web數(shù)據(jù)庫(kù)搜索的“元搜索器”。當(dāng)元搜索器收到一個(gè)查詢(xún)時(shí),它選擇最有可能包含相關(guān)內(nèi)容的web數(shù)據(jù)庫(kù),這被稱(chēng)為“源選擇”。元搜索器接著將查詢(xún)翻譯成合適的格式,用于每個(gè)識(shí)別的web數(shù)據(jù)庫(kù),這被稱(chēng)為“查詢(xún)翻譯”。例如,元搜索器需要懂得如何將元搜索器查詢(xún)的屬性映射到每個(gè)選擇的web數(shù)據(jù)庫(kù)的站點(diǎn)屬性。例如,元搜索器可使用名為“格式”的屬性來(lái)查閱介質(zhì)(例如,平裝書(shū)或精裝書(shū)),而web數(shù)據(jù)庫(kù)可使用名為“類(lèi)型”的屬性來(lái)查閱同一數(shù)據(jù)。查詢(xún)翻譯需要將元搜索器的格式屬性映射到web數(shù)據(jù)庫(kù)的類(lèi)型屬性。元搜索器將翻譯的查詢(xún)發(fā)送到選擇的web數(shù)據(jù)庫(kù),這被稱(chēng)為“調(diào)度”。當(dāng)元搜索器接收搜索結(jié)果時(shí),它將它們整合為總的結(jié)果,這被稱(chēng)為“結(jié)果整合”。
期望有一種用來(lái)有效地生成web數(shù)據(jù)庫(kù)索引的技術(shù),該技術(shù)允許使用非結(jié)構(gòu)性和結(jié)構(gòu)性查詢(xún)來(lái)有效地搜索。
發(fā)明概述提供了一種用來(lái)在一個(gè)域中索引和搜索web數(shù)據(jù)庫(kù)的方法和系統(tǒng)。在一個(gè)實(shí)施例中,搜索系統(tǒng)通過(guò)生成性地抽樣數(shù)據(jù)庫(kù)來(lái)為web數(shù)據(jù)庫(kù)生成一個(gè)索引,并使用那個(gè)索引來(lái)識(shí)別和設(shè)計(jì)用來(lái)搜索數(shù)據(jù)庫(kù)的查詢(xún)。生成的索引被稱(chēng)為域級(jí)屬性索引,并包含域級(jí)索引和用于每個(gè)數(shù)據(jù)庫(kù)的站點(diǎn)級(jí)索引。用于數(shù)據(jù)庫(kù)的站點(diǎn)級(jí)索引將站點(diǎn)屬性映射到數(shù)據(jù)庫(kù)中確定的屬性值。用于域的域級(jí)索引將屬性值映射到包含這些屬性值的數(shù)據(jù)庫(kù)和站點(diǎn)屬性對(duì)。為某個(gè)域中的數(shù)據(jù)庫(kù)生成站點(diǎn)級(jí)索引,所述搜索系統(tǒng)對(duì)那個(gè)域以最初的一組抽樣數(shù)據(jù)開(kāi)始。該搜索系統(tǒng)使用域-站點(diǎn)映射來(lái)選擇與域?qū)傩韵鄳?yīng)的數(shù)據(jù)庫(kù)站點(diǎn)屬性。該搜索系統(tǒng)從抽樣數(shù)據(jù)中為所述域?qū)傩赃x擇一個(gè)屬性值。該搜索系統(tǒng)接著生成并提交抽樣查詢(xún)至數(shù)據(jù)庫(kù)以搜索在已選擇站點(diǎn)屬性方面匹配選擇的屬性值的條目。一旦收到作為查詢(xún)結(jié)果的條目,搜索系統(tǒng)為所述數(shù)據(jù)庫(kù)生成站點(diǎn)級(jí)索引,它將站點(diǎn)級(jí)屬性映射到包含在那些站點(diǎn)屬性之中確定的屬性值。該搜索系統(tǒng)可以從各種站點(diǎn)級(jí)索引中生成域級(jí)索引。
在一個(gè)實(shí)施例中,在搜索多個(gè)數(shù)據(jù)庫(kù)時(shí),搜索系統(tǒng)允許用戶(hù)規(guī)定非結(jié)構(gòu)性查詢(xún)或結(jié)構(gòu)性查詢(xún)。該搜索系統(tǒng)通過(guò)基于域級(jí)索引首先識(shí)別非結(jié)構(gòu)性查詢(xún)的項(xiàng)是否代表屬性或?qū)傩灾刀鴮⒎墙Y(jié)構(gòu)性查詢(xún)映射到一系列結(jié)構(gòu)性查詢(xún)。在識(shí)別了一組屬性項(xiàng)和屬性值項(xiàng)(term)之后,搜索系統(tǒng)為屬性項(xiàng)和屬性值項(xiàng)的每個(gè)組合生成一個(gè)查詢(xún)。該搜索系統(tǒng)能夠直接使用結(jié)構(gòu)化查詢(xún)的屬性和屬性值對(duì),而不必執(zhí)行與用于非結(jié)構(gòu)化查詢(xún)相似的映射。該搜索系統(tǒng)使用域級(jí)索引來(lái)識(shí)別查詢(xún)應(yīng)提交到哪個(gè)數(shù)據(jù)庫(kù)。
附圖簡(jiǎn)述

圖1是說(shuō)明一個(gè)實(shí)施例中的搜索系統(tǒng)組件的框圖。
圖2說(shuō)明了一個(gè)實(shí)施例中的對(duì)應(yīng)表。
圖3說(shuō)明了在一個(gè)實(shí)施例中用于域?qū)傩运饕恼军c(diǎn)級(jí)索引。
圖4說(shuō)明了在一個(gè)實(shí)施例中用于域?qū)傩运饕挠蚣?jí)索引。
圖5是說(shuō)明在一個(gè)實(shí)施例中生成查詢(xún)組件處理過(guò)程的流程圖。
圖6是說(shuō)明在一個(gè)實(shí)施例中設(shè)計(jì)非結(jié)構(gòu)化查詢(xún)組件處理過(guò)程的流程圖。
圖7是說(shuō)明在一個(gè)實(shí)施例中識(shí)別一個(gè)查詢(xún)的屬性項(xiàng)和屬性值項(xiàng)的組件處理過(guò)程的流程圖。
圖8是說(shuō)明在一個(gè)實(shí)施例中組件選擇數(shù)據(jù)庫(kù)來(lái)提交查詢(xún)的處理過(guò)程的流程圖。
圖9是說(shuō)明在一個(gè)實(shí)施例中生成域?qū)傩运饕慕M件處理過(guò)程的流程圖。
圖10是說(shuō)明在一個(gè)實(shí)施例中更新站點(diǎn)級(jí)索引組件的處理過(guò)程的流程圖。
詳細(xì)描述提供一種用來(lái)索引和搜索web數(shù)據(jù)庫(kù)的方法和裝置。在一個(gè)實(shí)施例中,搜索系統(tǒng)通過(guò)生成性地抽樣數(shù)據(jù)庫(kù)來(lái)為web數(shù)據(jù)庫(kù)生成一個(gè)索引,并使用該索引來(lái)識(shí)別和設(shè)計(jì)用來(lái)搜索數(shù)據(jù)庫(kù)的查詢(xún)。該生成的索引被稱(chēng)為域-屬性索引,并包含一個(gè)域級(jí)索引和用于每個(gè)數(shù)據(jù)庫(kù)的站點(diǎn)級(jí)索引。域是針對(duì)特定主題(例如,書(shū)或汽車(chē))的數(shù)據(jù)庫(kù)集合。每個(gè)域具有一個(gè)域規(guī)劃(也被稱(chēng)為“全球規(guī)劃”),它定義了一組通常能在域數(shù)據(jù)庫(kù)的規(guī)劃中找到的域?qū)傩浴@?,?dāng)域涉及到書(shū)時(shí),域規(guī)劃包括作者屬性和書(shū)名屬性,因?yàn)榇蠖鄶?shù)書(shū)數(shù)據(jù)庫(kù)具有那些屬性。用于數(shù)據(jù)庫(kù)的站點(diǎn)級(jí)索引將站點(diǎn)屬性映射到數(shù)據(jù)庫(kù)之中的確定的屬性值。例如,如果數(shù)據(jù)庫(kù)包含一個(gè)帶有作者屬性的項(xiàng),作者屬性具有屬性值Tolkien,然后站點(diǎn)級(jí)索引將作者屬性映射到Tolkien。搜索系統(tǒng)通過(guò)如下所述抽樣數(shù)據(jù)庫(kù)來(lái)生成站點(diǎn)級(jí)索引。域級(jí)索引將屬性值映射到包含那些屬性值的數(shù)據(jù)庫(kù)和站點(diǎn)屬性對(duì)。例如,域級(jí)索引將包括屬性值Tolkien的項(xiàng),該屬性值項(xiàng)Tolkien被映射到包含Tolkien書(shū)籍項(xiàng)的數(shù)據(jù)庫(kù),并且還映射到那個(gè)數(shù)據(jù)庫(kù)的作者屬性。搜索系統(tǒng)可從站點(diǎn)級(jí)索引中生成域級(jí)索引。該域級(jí)索引是站點(diǎn)級(jí)索引的合并和轉(zhuǎn)置形式。為了處理一個(gè)查詢(xún),搜索系統(tǒng)使用域-屬性索引來(lái)選擇應(yīng)當(dāng)搜索哪個(gè)數(shù)據(jù)庫(kù),并使用域-站點(diǎn)屬性映射來(lái)將該查詢(xún)翻譯成適于每個(gè)選擇的數(shù)據(jù)庫(kù)的查詢(xún)。隨后搜索系統(tǒng)把翻譯的查詢(xún)提交到選擇的數(shù)據(jù)庫(kù)。搜索系統(tǒng)接著使用域-站點(diǎn)屬性映射整合查詢(xún)的結(jié)果以把結(jié)果從站點(diǎn)屬性映射到域?qū)傩浴?br> 為特定域中的數(shù)據(jù)庫(kù)生成站點(diǎn)級(jí)索引,所述搜索系統(tǒng)開(kāi)始于對(duì)那個(gè)域最初的一組抽樣數(shù)據(jù)。該抽樣數(shù)據(jù)為域中的數(shù)據(jù)庫(kù)提供抽樣項(xiàng)。所述項(xiàng)為域規(guī)劃的域?qū)傩蕴峁傩灾?。例如,?shū)籍域中的抽樣數(shù)據(jù)可包含一個(gè)項(xiàng)和另一個(gè)項(xiàng),所述第一項(xiàng)的書(shū)名屬性設(shè)置成“Harry Potter and the Order of the Phoenix”且作者屬性設(shè)置成“Rowling”,此外另一個(gè)項(xiàng)的書(shū)名屬性設(shè)置成“The Fellowship of theRing”且作者屬性設(shè)置成Tolkien。為了抽樣數(shù)據(jù)庫(kù),搜索系統(tǒng)使用域-站點(diǎn)映射來(lái)選擇與域?qū)傩韵鄳?yīng)的數(shù)據(jù)庫(kù)站點(diǎn)屬性。搜索系統(tǒng)從抽樣數(shù)據(jù)中為那個(gè)域?qū)傩赃x擇一個(gè)屬性值。搜索系統(tǒng)接著生成并提交抽樣查詢(xún)至數(shù)據(jù)庫(kù)以搜索在選擇的站點(diǎn)屬性方面匹配于選擇的屬性值的項(xiàng)。例如,如果選擇的站點(diǎn)屬性是作者,且選擇的屬性值是Tolkien,則查詢(xún)將搜索由Tolkien寫(xiě)的書(shū)的項(xiàng)。一旦收到作為查詢(xún)結(jié)果的項(xiàng),搜索系統(tǒng)為那個(gè)數(shù)據(jù)庫(kù)生成站點(diǎn)級(jí)索引,它將站點(diǎn)級(jí)屬性映射到包含在那些站點(diǎn)屬性之中的確定的屬性值。例如,結(jié)果可包括由Del Ray出版的Tolkien的書(shū)“Silmarillion”的項(xiàng),由Houghton Mifflin出版的Tolkien的書(shū)“Roverandom”的項(xiàng)和由Houghton Mifflin出版的Tolkien的書(shū)“The Hobbit”的項(xiàng)。如果這樣,那么站點(diǎn)級(jí)索引將把書(shū)名站點(diǎn)屬性映射到詞Silmarillion、Roverandom和Hobbit,并且將出版人的站點(diǎn)屬性映射到詞Del Ray、Houghton和Mifflin。搜索系統(tǒng)也跟蹤每個(gè)屬性值在抽樣結(jié)果中出現(xiàn)的次數(shù)。例如,出現(xiàn)計(jì)數(shù)為2將與Houghton的屬性值相關(guān),因?yàn)樗霈F(xiàn)在這個(gè)抽樣結(jié)果的兩個(gè)項(xiàng)中。為了增加數(shù)據(jù)庫(kù)的覆蓋,即增加被表示在站點(diǎn)級(jí)索引中的項(xiàng)數(shù),搜索系統(tǒng)使用抽樣結(jié)果的數(shù)據(jù)來(lái)為那個(gè)數(shù)據(jù)庫(kù)設(shè)計(jì)新的抽樣查詢(xún)。例如,該搜索系統(tǒng)用設(shè)置成Houghton的站點(diǎn)出版者屬性來(lái)設(shè)計(jì)抽樣查詢(xún),這將檢索由Houghton Mifflin出版的書(shū)籍的所有項(xiàng)。該搜索系統(tǒng)接著將更新站點(diǎn)級(jí)索引,以便它“覆蓋”數(shù)據(jù)庫(kù)的所有Houghton Mifflin書(shū)籍,從而增加了數(shù)據(jù)庫(kù)的覆蓋。該搜索系統(tǒng)可使用那個(gè)抽樣結(jié)果來(lái)進(jìn)一步生成抽樣查詢(xún)。因此該搜索系統(tǒng)基于抽樣搜索的以前的抽樣結(jié)果,再生性地?cái)U(kuò)展了數(shù)據(jù)庫(kù)的覆蓋。
在一個(gè)實(shí)施例中,搜索系統(tǒng)從各種站點(diǎn)級(jí)索引中生成域級(jí)索引。該搜索系統(tǒng)為站點(diǎn)級(jí)索引中的每個(gè)確定的屬性值添加一個(gè)域級(jí)索引項(xiàng)。例如,如果5個(gè)數(shù)據(jù)庫(kù)具有Tolkien的書(shū)的項(xiàng),那么域級(jí)索引將具有用于Tolkien的項(xiàng),它帶有至少5個(gè)子項(xiàng),每個(gè)子項(xiàng)識(shí)別5個(gè)數(shù)據(jù)庫(kù)之一和那個(gè)數(shù)據(jù)庫(kù)的作者站點(diǎn)屬性。當(dāng)所述數(shù)據(jù)庫(kù)之一包含書(shū)籍“J.R.R.TolkienArchitect of Middle EarthABiography”的項(xiàng)時(shí),用于Tolkien的域級(jí)索引項(xiàng)也包含用于那個(gè)數(shù)據(jù)庫(kù)的子項(xiàng),所述數(shù)據(jù)庫(kù)識(shí)別書(shū)名站點(diǎn)屬性。域級(jí)索引在每個(gè)子項(xiàng)中還包含頻率信息,所述頻率信息指示那個(gè)屬性值在每個(gè)數(shù)據(jù)庫(kù)中的頻率。該搜索系統(tǒng)在選擇數(shù)據(jù)庫(kù)來(lái)提交查詢(xún)時(shí),可使用所述頻率信息。在一個(gè)實(shí)施例中,該搜索系統(tǒng)可基于域?qū)傩詣澐只蚍侄斡蚣?jí)索引。例如,域級(jí)索引具有用于書(shū)名域?qū)傩缘淖铀饕?,以及用于作者域?qū)傩缘牧硪粋€(gè)子索引。每個(gè)子索引包括一個(gè)對(duì)于在數(shù)據(jù)庫(kù)中的那個(gè)屬性的每個(gè)確定屬性值的項(xiàng)。子索引的使用通過(guò)允許搜索系統(tǒng)首先為結(jié)構(gòu)式查詢(xún)的屬性選擇適當(dāng)?shù)淖铀饕筮x擇包含屬性值的項(xiàng)(包含了完全對(duì)應(yīng)于該屬性的子項(xiàng))而便于翻譯結(jié)構(gòu)式查詢(xún),而不是首先選擇屬性值,而后還必須搜索相應(yīng)于該屬性的子項(xiàng)。
在一個(gè)實(shí)施例中,在搜索多個(gè)數(shù)據(jù)庫(kù)時(shí),搜索系統(tǒng)允許用戶(hù)規(guī)定非結(jié)構(gòu)性查詢(xún)或結(jié)構(gòu)性查詢(xún)。該搜索系統(tǒng)通過(guò)基于域級(jí)索引首先識(shí)別非結(jié)構(gòu)性查詢(xún)的項(xiàng)是否代表屬性或?qū)傩灾刀鴮⒎墙Y(jié)構(gòu)性查詢(xún)映射到一系列結(jié)構(gòu)性查詢(xún)。例如,當(dāng)用戶(hù)想搜索作者Tolkien寫(xiě)的書(shū)時(shí),非結(jié)構(gòu)性查詢(xún)可以是“書(shū)名作者Tolkien”。該搜索系統(tǒng)識(shí)別出書(shū)名項(xiàng)和作者項(xiàng)都是域?qū)傩裕驗(yàn)樗鼈兪怯蛞?guī)劃之中的屬性名稱(chēng)。該搜索系統(tǒng)還識(shí)別出書(shū)名項(xiàng)、作者項(xiàng)和Tolkien項(xiàng)是屬性值,因?yàn)樗鼈兪菙?shù)據(jù)庫(kù)之中的屬性值。書(shū)名項(xiàng)和作者項(xiàng)可以是屬性值,因?yàn)閿?shù)據(jù)庫(kù)之一具有書(shū)“1997 Harvard Business School Core Collection作者、書(shū)名和主題指南”的項(xiàng)。在識(shí)別了一組屬性項(xiàng)和屬性值項(xiàng)(term)之后,搜索系統(tǒng)為屬性項(xiàng)和屬性值項(xiàng)的每個(gè)組合生成一個(gè)查詢(xún)。例如,該搜索系統(tǒng)將為具有書(shū)名、作者和Tolkien屬性值的書(shū)名屬性生成查詢(xún),并且為具有書(shū)名、作者和Tolkien屬性值的作者屬性生成查詢(xún)。該搜索系統(tǒng)能夠直接使用結(jié)構(gòu)化查詢(xún)的屬性和屬性值對(duì),而不必執(zhí)行與用于非結(jié)構(gòu)化查詢(xún)相似的映射。用非結(jié)構(gòu)化查詢(xún)或結(jié)構(gòu)化查詢(xún),該搜索系統(tǒng)將域?qū)傩苑g成所選擇數(shù)據(jù)庫(kù)的站點(diǎn)屬性。該搜索系統(tǒng)接著將那些查詢(xún)提交給基于域?qū)傩运饕x擇的數(shù)據(jù)庫(kù),例如,已知它們具有與查詢(xún)的屬性和屬性值相對(duì)應(yīng)的條目。該搜索系統(tǒng)也基于域?qū)傩运饕畔⒆R(shí)別查詢(xún)提交的順序。例如,該搜索系統(tǒng)基于域?qū)傩允欠裰甘舅鼈兛赡軙?huì)返回大量項(xiàng)(比如,頻率數(shù)指示將返回的大量項(xiàng))來(lái)決定對(duì)數(shù)據(jù)庫(kù)排序。
因?yàn)閿?shù)據(jù)庫(kù)抽樣將在數(shù)據(jù)庫(kù)上加上較重的負(fù)擔(dān),搜索系統(tǒng)可使用各種技術(shù),以確保以更少的抽樣來(lái)實(shí)現(xiàn)數(shù)據(jù)庫(kù)的更大覆蓋。該搜索系統(tǒng)可使用各種抽樣準(zhǔn)則,包括隨機(jī)抽樣、屬性自適應(yīng)抽樣和值自適應(yīng)抽樣。在使用隨機(jī)抽樣時(shí),搜索系統(tǒng)隨機(jī)地選擇站點(diǎn)屬性,并且為選擇的屬性隨機(jī)選擇還沒(méi)有被選擇的屬性值。在使用屬性自適應(yīng)抽樣時(shí),搜索系統(tǒng)選擇在數(shù)據(jù)庫(kù)的所有屬性中具有最小數(shù)目確定屬性值的站點(diǎn)屬性。該搜索系統(tǒng)接著為那個(gè)站點(diǎn)屬性隨機(jī)選擇一個(gè)未使用過(guò)的屬性值。在使用值自適應(yīng)抽樣時(shí),該搜索系統(tǒng)選擇具有最小數(shù)目確定屬性值的站點(diǎn)屬性(像屬性自適應(yīng)抽樣一樣),但是為那個(gè)屬性選擇還沒(méi)有被選擇并且在所有還沒(méi)有被選擇的屬性值中具有最大出現(xiàn)次數(shù)的屬性值。在域?qū)傩运饕袔в凶钚〈_定值數(shù)的屬性在已抽樣數(shù)據(jù)庫(kù)中也可以具有小數(shù)目的確定值。即,在從該屬性中平均一個(gè)值時(shí),比從其它屬性中的值更可能匹配大部分已抽樣數(shù)據(jù)庫(kù)項(xiàng)。同樣,在域?qū)傩运饕懈喑霈F(xiàn)的值在抽樣數(shù)據(jù)庫(kù)中也出現(xiàn)得更頻繁。即,以更多出現(xiàn)的值來(lái)抽樣數(shù)據(jù)庫(kù)可檢索更大部分?jǐn)?shù)據(jù)庫(kù)項(xiàng)。
在一個(gè)實(shí)施例中,搜索系統(tǒng)運(yùn)用抽樣停止準(zhǔn)則來(lái)終止已抽樣數(shù)據(jù)庫(kù)的抽樣。雖然可能徹底抽樣數(shù)據(jù)庫(kù),但是這為數(shù)據(jù)庫(kù)加上很重的負(fù)擔(dān),且數(shù)據(jù)庫(kù)的web站點(diǎn)將把過(guò)度頻繁訪問(wèn)數(shù)據(jù)庫(kù)的用戶(hù)關(guān)在外面。搜索系統(tǒng)可使用絕對(duì)抽樣停止準(zhǔn)則,該絕對(duì)抽樣停止準(zhǔn)則是基于最大數(shù)目查詢(xún)或者最大時(shí)間??商鎿Q地,搜索系統(tǒng)可使用相對(duì)抽樣停止準(zhǔn)則,該相對(duì)抽樣停止準(zhǔn)則是基于最后幾個(gè)抽樣查詢(xún)的邊界值,如同基于查詢(xún)結(jié)果被添加到站點(diǎn)級(jí)索引的新內(nèi)容的數(shù)量所指示的一樣。該搜索系統(tǒng)可使用絕對(duì)和相對(duì)抽樣停止準(zhǔn)則的組合。例如,不管哪一個(gè)首先出現(xiàn),該搜索系統(tǒng)可在1000個(gè)查詢(xún)之后停止抽樣,或者邊界值在閾值以下時(shí)停止抽樣。
圖1是說(shuō)明一個(gè)實(shí)施例中的搜索系統(tǒng)組件的框圖。Web數(shù)據(jù)庫(kù)101經(jīng)由通信鏈路102連接到搜索系統(tǒng)110。該搜索系統(tǒng)包括一個(gè)生成查詢(xún)組件111,設(shè)計(jì)結(jié)構(gòu)化查詢(xún)組件112,設(shè)計(jì)非結(jié)構(gòu)化查詢(xún)組件113,生成域?qū)傩运饕M件114,查詢(xún)選擇組件115,更新站點(diǎn)級(jí)索引116和更新域級(jí)索引組件117。該搜索系統(tǒng)還包括域?qū)傩运饕?20,它包括域級(jí)索引121和對(duì)于每個(gè)數(shù)據(jù)庫(kù)的站點(diǎn)級(jí)索引122。該搜索系統(tǒng)還包括對(duì)應(yīng)表123。域級(jí)索引是一個(gè)值-屬性索引,它將屬性值映射到數(shù)據(jù)庫(kù)和數(shù)據(jù)庫(kù)之中的站點(diǎn)屬性。站點(diǎn)級(jí)索引是屬性-值索引,它將數(shù)據(jù)庫(kù)的站點(diǎn)屬性映射到它們的對(duì)應(yīng)確定值。對(duì)應(yīng)表將域?qū)傩杂成涞矫總€(gè)數(shù)據(jù)庫(kù)的站點(diǎn)屬性。本領(lǐng)域普通技術(shù)人員可以理解,由于站點(diǎn)屬性被映射到域?qū)傩裕粗嗳?,無(wú)論何時(shí)某物映射到站點(diǎn)屬性,它都可以直接或間接地通過(guò)域?qū)傩员挥成?,并且?duì)于域?qū)傩韵喾?。生成查?xún)組件接收用戶(hù)查詢(xún),判定該查詢(xún)是結(jié)構(gòu)化的還是非結(jié)構(gòu)化的,并適當(dāng)?shù)卣{(diào)用設(shè)計(jì)結(jié)構(gòu)化查詢(xún)組件或者設(shè)計(jì)非結(jié)構(gòu)化查詢(xún)組件。設(shè)計(jì)結(jié)構(gòu)化查詢(xún)組件基于結(jié)構(gòu)化查詢(xún)的屬性和屬性值生成查詢(xún)。設(shè)計(jì)非結(jié)構(gòu)化查詢(xún)組件識(shí)別查詢(xún)的屬性項(xiàng)和屬性值項(xiàng),并基于屬性項(xiàng)和屬性值項(xiàng)的組合生成查詢(xún)。生成查詢(xún)組件選擇數(shù)據(jù)庫(kù)并將查詢(xún)提交到那些數(shù)據(jù)庫(kù)。生成域?qū)傩运饕M件控制域?qū)傩运饕纳?,域?qū)傩运饕ㄓ蚣?jí)索引和站點(diǎn)級(jí)索引。生成域?qū)傩运饕M件調(diào)用查詢(xún)選擇組件來(lái)生成抽樣數(shù)據(jù)庫(kù)的查詢(xún)。生成域?qū)傩运饕M件調(diào)用更新站點(diǎn)級(jí)索引組件來(lái)為抽樣的數(shù)據(jù)庫(kù)更新站點(diǎn)級(jí)索引。生成域?qū)傩运饕M件基于站點(diǎn)級(jí)索引的信息調(diào)用更新域級(jí)索引組件來(lái)更新域級(jí)索引。
在其上實(shí)現(xiàn)搜索系統(tǒng)的計(jì)算設(shè)備可包括中央處理單元,內(nèi)存,輸入設(shè)備(比如,鍵盤(pán)和指向設(shè)備),輸出設(shè)備(比如,顯示設(shè)備)和存儲(chǔ)設(shè)備(比如,磁盤(pán)驅(qū)動(dòng)器)。內(nèi)存和存儲(chǔ)設(shè)備是包含實(shí)現(xiàn)搜索系統(tǒng)指令的計(jì)算機(jī)可讀媒體。此外,可以經(jīng)由諸如通信鏈路上的信號(hào)之類(lèi)的數(shù)據(jù)傳輸介質(zhì)存儲(chǔ)或發(fā)射數(shù)據(jù)結(jié)構(gòu)和消息結(jié)構(gòu)??墒褂酶鞣N通信鏈路,比如因特網(wǎng)、局域網(wǎng)、廣域網(wǎng)或者點(diǎn)對(duì)點(diǎn)撥號(hào)連接。本領(lǐng)域普通技術(shù)人員可以理解還可以和除了web數(shù)據(jù)庫(kù)之外數(shù)據(jù)庫(kù)一起使用搜索系統(tǒng)。例如,所述數(shù)據(jù)庫(kù)是不同組織(例如,公司或者政府實(shí)體)的數(shù)據(jù)庫(kù),這些數(shù)據(jù)庫(kù)能夠通過(guò)元搜索器搜索。
該搜索系統(tǒng)可以在各種操作環(huán)境中實(shí)現(xiàn),各種操作環(huán)境包括個(gè)人計(jì)算機(jī)、服務(wù)器計(jì)算機(jī)、手持或便攜式設(shè)備、多處理器系統(tǒng)、基于微處理器的系統(tǒng)、可編程消費(fèi)電器、網(wǎng)絡(luò)PC、微型計(jì)算機(jī)、大型計(jì)算機(jī)、包括任何上述系統(tǒng)或設(shè)備的分布式計(jì)算環(huán)境,等等。
該搜索系統(tǒng)應(yīng)當(dāng)在計(jì)算機(jī)可執(zhí)行指令的通用環(huán)境中描述,比如由一個(gè)或多個(gè)計(jì)算機(jī)或其它設(shè)備執(zhí)行的程序模塊。程序模塊通常包括例行程序、程序、對(duì)象、組件、數(shù)據(jù)結(jié)構(gòu)等等,執(zhí)行特定任務(wù)或?qū)嵤┨囟ǔ橄蟮臄?shù)據(jù)類(lèi)型。通常程序模塊的功能性可如在各個(gè)實(shí)施例中所需要的那樣組合或分配。本領(lǐng)域普通技術(shù)人員能夠理解舉例說(shuō)明的數(shù)據(jù)結(jié)構(gòu)僅僅是能夠用來(lái)組織數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)抽樣類(lèi)型。
圖2說(shuō)明了一個(gè)實(shí)施例中的對(duì)應(yīng)表。對(duì)應(yīng)表200為(也被稱(chēng)為域-站點(diǎn)屬性映射)將每個(gè)域?qū)傩?01映射到每個(gè)數(shù)據(jù)庫(kù)相應(yīng)的站點(diǎn)屬性。例如,對(duì)應(yīng)表的行202指示作者域?qū)傩詫?duì)應(yīng)到第一數(shù)據(jù)庫(kù)的作者站點(diǎn)屬性和第二數(shù)據(jù)庫(kù)的“au”站點(diǎn)屬性。行203指示格式域?qū)傩詫?duì)應(yīng)到第一數(shù)據(jù)庫(kù)的類(lèi)型站點(diǎn)屬性和第二數(shù)據(jù)庫(kù)的格式站點(diǎn)屬性。對(duì)應(yīng)表的產(chǎn)生在美國(guó)專(zhuān)利申請(qǐng)?zhí)枮?-------,名為“用于Web數(shù)據(jù)庫(kù)規(guī)劃匹配的方法和裝置”,于2004年5月14日提交的申請(qǐng)中描述,該申請(qǐng)通過(guò)參考合并于此。
圖3說(shuō)明了在一個(gè)實(shí)施例中用于域?qū)傩运饕恼军c(diǎn)級(jí)索引。站點(diǎn)級(jí)索引300包含一個(gè)Web站點(diǎn)數(shù)據(jù)庫(kù)的每個(gè)站點(diǎn)屬性的項(xiàng)。在本實(shí)例中,站點(diǎn)屬性的項(xiàng)由表中的行表示。每個(gè)項(xiàng)包括對(duì)于那個(gè)站點(diǎn)屬性在數(shù)據(jù)庫(kù)內(nèi)的每一確定值的子項(xiàng)。子項(xiàng)還指示在抽樣數(shù)據(jù)庫(kù)時(shí)被發(fā)現(xiàn)的屬性值出現(xiàn)的頻率或者數(shù)目。例如,作者站點(diǎn)屬性的項(xiàng)具有Rowling屬性值的子項(xiàng)和Tolkien屬性值的另一個(gè)子項(xiàng)。書(shū)名站點(diǎn)屬性的項(xiàng)包括魔術(shù)師屬性值的子項(xiàng)和鈴聲屬性值的子項(xiàng)。
圖4說(shuō)明了在一個(gè)實(shí)施例中用于域?qū)傩运饕挠蚣?jí)索引。域級(jí)索引400包括一個(gè)對(duì)于在站點(diǎn)級(jí)索引中的每個(gè)確定屬性值的項(xiàng)和將屬性值映射到數(shù)據(jù)庫(kù)和包含所述值的站點(diǎn)屬性的子項(xiàng)。在本例中,項(xiàng)401對(duì)應(yīng)于屬性值Tolkien,并具有指示在第一數(shù)據(jù)庫(kù)的書(shū)名站點(diǎn)屬性、第一數(shù)據(jù)庫(kù)的作者站點(diǎn)屬性和第二數(shù)據(jù)庫(kù)的書(shū)名站點(diǎn)屬性中發(fā)現(xiàn)Tolkien屬性值的子項(xiàng)。條目402對(duì)應(yīng)于屬性值Houghton,并具有指示是在第一數(shù)據(jù)庫(kù)的出版者站點(diǎn)屬性、第二數(shù)據(jù)庫(kù)的出版者站點(diǎn)屬性、第二數(shù)據(jù)庫(kù)的作者站點(diǎn)屬性和第二數(shù)據(jù)庫(kù)的書(shū)名站點(diǎn)屬性中發(fā)現(xiàn)Houghton屬性值的子項(xiàng)。
圖5是說(shuō)明在一個(gè)實(shí)施例中生成查詢(xún)組件的處理過(guò)程的流程圖。該組件傳遞一個(gè)查詢(xún),該查詢(xún)是結(jié)構(gòu)化或者是非結(jié)構(gòu)化的,并生成將提交到各種數(shù)據(jù)庫(kù)的查詢(xún)。在判決塊501,如果傳遞的查詢(xún)是結(jié)構(gòu)化的,組件在塊502繼續(xù),否則組件在塊503繼續(xù)。在塊502,組件調(diào)用設(shè)計(jì)結(jié)構(gòu)化查詢(xún)組件來(lái)生成數(shù)據(jù)庫(kù)的查詢(xún)。在塊503,組件調(diào)用設(shè)計(jì)非結(jié)構(gòu)化查詢(xún)組件而從非結(jié)構(gòu)化查詢(xún)?cè)O(shè)計(jì)查詢(xún)。在塊504,組件調(diào)用選擇數(shù)據(jù)庫(kù)組件來(lái)選擇向其提交查詢(xún)的數(shù)據(jù)庫(kù)。該組件還將查詢(xún)從域?qū)傩苑g成已選擇數(shù)據(jù)庫(kù)的站點(diǎn)屬性。在塊505,組件對(duì)數(shù)據(jù)庫(kù)排序,以便以能夠更快地生成最需要的結(jié)果的次序提交所述查詢(xún)。例如,可根據(jù)哪個(gè)數(shù)據(jù)庫(kù)具有與某個(gè)屬性值相關(guān)的最多項(xiàng)來(lái)對(duì)數(shù)據(jù)庫(kù)排序。該組件也可以通過(guò)邏輯“OR”組合屬性和屬性值來(lái)為數(shù)據(jù)庫(kù)組合查詢(xún)。組件隨后結(jié)束。
圖6是說(shuō)明在一個(gè)實(shí)施例中設(shè)計(jì)非結(jié)構(gòu)化查詢(xún)組件的處理過(guò)程流程圖。在塊601,該組件調(diào)用一個(gè)組件,以從查詢(xún)中識(shí)別屬性項(xiàng)和屬性值項(xiàng)。在塊602-606,組件循環(huán)選擇屬性和屬性值項(xiàng)對(duì),并為該對(duì)設(shè)計(jì)一個(gè)查詢(xún)。在塊602,組件選擇下一個(gè)屬性項(xiàng)。在判決塊603,如果已經(jīng)選擇了所有屬性項(xiàng),那么組件返回,否則組件繼續(xù)到塊604。在塊604,組件選擇下一個(gè)屬性值項(xiàng)。在判決塊605,如果已經(jīng)選擇了所有屬性值項(xiàng),那么組件循環(huán)到塊602來(lái)選擇下一個(gè)屬性項(xiàng),否則組件在塊606繼續(xù)。在塊606,組件通過(guò)把與選擇的屬性項(xiàng)對(duì)應(yīng)的域?qū)傩栽O(shè)置成已選擇屬性值項(xiàng)來(lái)設(shè)計(jì)一個(gè)查詢(xún)。隨后組件循環(huán)到塊604選擇下一個(gè)屬性值項(xiàng)。
圖7是說(shuō)明在一個(gè)實(shí)施例中識(shí)別查詢(xún)的屬性項(xiàng)和屬性值項(xiàng)的處理過(guò)程的流程圖。在塊701,組件將屬性項(xiàng)列表和屬性值項(xiàng)列表初始化為空。在塊702-707,組件循環(huán)選擇查詢(xún)的每個(gè)項(xiàng),并判定它是一個(gè)屬性項(xiàng)還是一個(gè)屬性值項(xiàng),或者兩者都是。在塊702,組件選擇查詢(xún)的下一項(xiàng)。在判決塊703,如果已經(jīng)選擇了查詢(xún)的所有項(xiàng),那么部件返回,否則組件在塊704繼續(xù)。在判決塊704,如果選擇的項(xiàng)是屬性值項(xiàng),那么組件在塊705繼續(xù),否則該組件在塊706繼續(xù)。當(dāng)該項(xiàng)在域級(jí)索引的項(xiàng)中時(shí),該項(xiàng)是一個(gè)屬性值項(xiàng)。在塊705中,組件將選擇的項(xiàng)添加到屬性值項(xiàng)列表,然后在塊706繼續(xù)。在判決塊706,如果選擇項(xiàng)是屬性,那么組件在塊707繼續(xù),否則組件循環(huán)到塊702來(lái)選擇查詢(xún)的下一項(xiàng)。當(dāng)項(xiàng)在域級(jí)索引的項(xiàng)的任一個(gè)之內(nèi)的子項(xiàng)中時(shí),它是一個(gè)屬性項(xiàng)。在塊707,組件將選擇的項(xiàng)添加到屬性項(xiàng)列表,然后循環(huán)到塊702以選擇查詢(xún)的下一項(xiàng)。
圖8是說(shuō)明在一個(gè)實(shí)施例中組件選擇數(shù)據(jù)庫(kù)來(lái)提交查詢(xún)的處理過(guò)程的流程圖。組件根據(jù)那個(gè)數(shù)據(jù)庫(kù)是否在項(xiàng)的子項(xiàng)中來(lái)選擇數(shù)據(jù)庫(kù),所述項(xiàng)是對(duì)于域級(jí)索引中的查詢(xún)屬性值的項(xiàng)。在塊801,組件選擇下一個(gè)設(shè)計(jì)的查詢(xún)。在判決塊802,如果已經(jīng)選擇了所有的查詢(xún),那么組件返回,否則組件在塊803繼續(xù)。在塊803,組件在用于已選擇查詢(xún)的屬性的項(xiàng)中選擇一個(gè)子項(xiàng)。在判決塊804,如果已經(jīng)選擇了所有這樣的子項(xiàng),那么組件循環(huán)到塊801來(lái)選擇下一個(gè)查詢(xún),否則組件在塊805繼續(xù)。在塊805,組件為查詢(xún)生成數(shù)據(jù)庫(kù)、屬性和屬性值三元組,然后循環(huán)到塊803來(lái)選擇下一個(gè)子項(xiàng)。三元組指示將提交到數(shù)據(jù)庫(kù)的查詢(xún)。組件還將域?qū)傩苑g成數(shù)據(jù)庫(kù)相應(yīng)的站點(diǎn)屬性。
圖9是說(shuō)明在一個(gè)實(shí)施例中生成域?qū)傩运饕M件(component)的處理過(guò)程的流程圖。在該實(shí)施例中,所述組件竭力為所有屬性和屬性值組合生成查詢(xún),并隨機(jī)選擇屬性和屬性值。塊901-904可由實(shí)現(xiàn)不同抽樣準(zhǔn)則(例如,屬性自適應(yīng)抽樣)和抽樣停止準(zhǔn)則的組件代替。在塊901中,組件選擇下一個(gè)域?qū)傩浴T谂袥Q塊902中,如果已經(jīng)選擇了所有的域?qū)傩?,那么組件在塊980繼續(xù),否則組件在903繼續(xù)。在塊903,組件選擇下一個(gè)屬性值。在判決塊904,如果已經(jīng)選擇了所有屬性值,那么組件在塊901繼續(xù),否則組件在塊905繼續(xù)。在塊905,組件根據(jù)選擇的域?qū)傩?映射到相應(yīng)的站點(diǎn)屬性)和選擇的屬性值來(lái)提交抽樣查詢(xún)。在塊906,組件提取抽樣結(jié)果的項(xiàng)。例如,組件只提取前10個(gè)項(xiàng)或者其它數(shù)量的項(xiàng)。在塊907,組件調(diào)用更新站點(diǎn)級(jí)索引組件來(lái)來(lái)為已抽樣數(shù)據(jù)庫(kù)更新站點(diǎn)級(jí)索引。該組件接著循環(huán)到塊903來(lái)為已選擇的域?qū)傩赃x擇下一個(gè)屬性值。在塊908,組件基于已更新的站點(diǎn)級(jí)索引,調(diào)用更新域級(jí)索引來(lái)更新域級(jí)索引。
圖10是說(shuō)明在一個(gè)實(shí)施例中更新站點(diǎn)級(jí)索引組件的處理過(guò)程的流程圖。該組件被傳遞抽樣結(jié)果,選擇抽樣結(jié)果之中的每個(gè)屬性和屬性值對(duì),此外還判定該對(duì)是否在站點(diǎn)級(jí)索引中。如果不在站點(diǎn)級(jí)索引中,該組件將所述對(duì)添加到索引中。否則,組件更新現(xiàn)有對(duì)的頻率。在塊1001,該組件選擇抽樣結(jié)果的下一項(xiàng)。在判決塊1002,如果已經(jīng)選擇了所有條目,那么組件返回,否則組件在塊1003繼續(xù)。在塊1003,組件選擇已選擇項(xiàng)的下一個(gè)屬性。在判決塊1004,如果已經(jīng)選擇了已選擇項(xiàng)的所有屬性,該組件循環(huán)到塊1001來(lái)選擇下一項(xiàng),否則組件在塊1005繼續(xù)。在判決塊1005,如果已選擇屬性及其屬性值已經(jīng)是在站點(diǎn)級(jí)索引中的一對(duì),那么,組件在塊1006繼續(xù),否則組件在塊1007繼續(xù)。在塊1007,該組件將屬性和屬性值對(duì)添加到站點(diǎn)級(jí)索引,然后在塊1006繼續(xù)。在塊1006,組件在站點(diǎn)級(jí)索引中更新屬性和屬性值對(duì)的頻率,之后循環(huán)到塊1003來(lái)為抽樣結(jié)果的已選擇項(xiàng)選擇下一個(gè)屬性。
本領(lǐng)域的普通技術(shù)人員將會(huì)理解,雖然為了舉例說(shuō)明的目的,在此已經(jīng)描述了搜索系統(tǒng)的具體實(shí)施例,但是可以做出各種修改而不脫離本發(fā)明的精神和范圍。因此,除了所附的權(quán)利要求之外,本發(fā)明不受限制。
權(quán)利要求
1.一種計(jì)算機(jī)可讀媒體,包括一個(gè)支持?jǐn)?shù)據(jù)庫(kù)搜索的數(shù)據(jù)結(jié)構(gòu),該數(shù)據(jù)結(jié)構(gòu)包含多個(gè)屬性值,每個(gè)屬性值被包含在一個(gè)數(shù)據(jù)庫(kù)的一個(gè)項(xiàng)的至少一個(gè)屬性中,從屬性值到數(shù)據(jù)庫(kù)和所述數(shù)據(jù)庫(kù)的屬性的映射,所述數(shù)據(jù)庫(kù)在其項(xiàng)屬性中包含了所述屬性值。
2.權(quán)利要求1所述的計(jì)算機(jī)可讀媒體,其中所述數(shù)據(jù)結(jié)構(gòu)包括將域規(guī)劃的域?qū)傩杂成涞綌?shù)據(jù)庫(kù)的對(duì)應(yīng)屬性的對(duì)應(yīng)性信息。
3.權(quán)利要求1所述的計(jì)算機(jī)可讀媒體,其中對(duì)于每個(gè)數(shù)據(jù)庫(kù)和為該數(shù)據(jù)庫(kù)中的每個(gè)屬性,所述數(shù)據(jù)結(jié)構(gòu)包括到確定的屬性值的映射,所述確定的屬性值包含在所述數(shù)據(jù)庫(kù)的一個(gè)項(xiàng)的屬性中。
4.權(quán)利要求3所述的計(jì)算機(jī)可讀媒體,其中每個(gè)到確定的屬性值的映射包括在所述數(shù)據(jù)庫(kù)的項(xiàng)屬性之中的屬性值的頻率指示。
5.權(quán)利要求1所述的計(jì)算機(jī)可讀媒體,其中數(shù)據(jù)庫(kù)是Web數(shù)據(jù)庫(kù)。
6.權(quán)利要求1所述的計(jì)算機(jī)可讀媒體,其中所述映射包括在所述數(shù)據(jù)庫(kù)的項(xiàng)屬性之中的屬性值出現(xiàn)頻率的指示。
7.權(quán)利要求1所述的計(jì)算機(jī)可讀媒體,其中所述映射基于屬性被隔開(kāi)。
8.權(quán)利要求1所述的計(jì)算機(jī)可讀媒體,其中所述映射表示域?qū)傩运饕膶俚燃?jí)。
9.權(quán)利要求8所述的計(jì)算機(jī)可讀媒體,其中所述數(shù)據(jù)結(jié)構(gòu)對(duì)于每個(gè)數(shù)據(jù)庫(kù)包括一個(gè)站點(diǎn)級(jí)索引。
10.一種在計(jì)算機(jī)系統(tǒng)中用來(lái)搜索Web數(shù)據(jù)庫(kù)的方法,該方法包括接收一個(gè)具有項(xiàng)的非結(jié)構(gòu)化查詢(xún);識(shí)別屬性項(xiàng)為相應(yīng)于web數(shù)據(jù)庫(kù)屬性的項(xiàng);識(shí)別屬性值項(xiàng)為相應(yīng)于web數(shù)據(jù)庫(kù)屬性值的項(xiàng);對(duì)于屬性項(xiàng)和屬性值項(xiàng)對(duì),用相應(yīng)于設(shè)置到屬性值項(xiàng)的屬性項(xiàng)的屬性,設(shè)計(jì)一個(gè)查詢(xún);以及向web數(shù)據(jù)庫(kù)提交設(shè)計(jì)的查詢(xún)。
11.權(quán)利要求10所述的方法,包括在提交設(shè)計(jì)的查詢(xún)之前,識(shí)別web數(shù)據(jù)庫(kù)的子集來(lái)提交設(shè)計(jì)的查詢(xún)。
12.權(quán)利要求10所述的方法,其中屬性項(xiàng)和屬性值項(xiàng)的識(shí)別使用域?qū)傩运饕?br> 13.權(quán)利要求12所述的方法,其中所述域?qū)傩运饕秊槎鄠€(gè)屬性值提供了從屬性值到數(shù)據(jù)庫(kù)的映射和所述數(shù)據(jù)庫(kù)的屬性的映射,每個(gè)屬性值被包含在一個(gè)數(shù)據(jù)庫(kù)的一個(gè)項(xiàng)的至少一個(gè)屬性中,所述數(shù)據(jù)庫(kù)在其項(xiàng)屬性中包含了所述屬性值。
14.權(quán)利要求12所述的方法,其中所述域?qū)傩运饕秊槊總€(gè)數(shù)據(jù)庫(kù)和該數(shù)據(jù)庫(kù)中的每個(gè)屬性,提供到確定的屬性值的映射,所述確定的屬性值包含在所述數(shù)據(jù)庫(kù)的一個(gè)項(xiàng)屬性中。
15.權(quán)利要求12所述的方法,其中所述域?qū)傩运饕ㄓ蚣?jí)索引和站點(diǎn)級(jí)索引。
16.在計(jì)算機(jī)系統(tǒng)中用來(lái)搜索web數(shù)據(jù)庫(kù)的方法,該方法包括接收屬性和屬性值對(duì);為每個(gè)接收對(duì)設(shè)計(jì)一個(gè)查詢(xún);識(shí)別web數(shù)據(jù)庫(kù)來(lái)使用域?qū)傩运饕峤辉O(shè)計(jì)的查詢(xún);將設(shè)計(jì)的查詢(xún)提交到識(shí)別的web數(shù)據(jù)庫(kù)。
17.權(quán)利要求16所述的方法,其中域?qū)傩运饕秊槎鄠€(gè)屬性值提供了從屬性值到數(shù)據(jù)庫(kù)的映射和所述數(shù)據(jù)庫(kù)的屬性的映射,每個(gè)屬性值被包含在一個(gè)數(shù)據(jù)庫(kù)的一個(gè)項(xiàng)的至少一個(gè)屬性中,所述數(shù)據(jù)庫(kù)在其項(xiàng)屬性中包含了所述屬性值。
18.權(quán)利要求16所述的方法,其中域?qū)傩运饕秊槊總€(gè)數(shù)據(jù)庫(kù)和該數(shù)據(jù)庫(kù)中的每個(gè)屬性,提供到確定的屬性值的映射,所述確定的屬性值包含在所述數(shù)據(jù)庫(kù)的一個(gè)項(xiàng)屬性中。
19.權(quán)利要求16所述的方法,其中域?qū)傩运饕ㄓ蚣?jí)索引和站點(diǎn)級(jí)索引。
20.在計(jì)算機(jī)系統(tǒng)中用來(lái)抽樣在域中的數(shù)據(jù)庫(kù)的方法,該方法包括為域?qū)傩蕴峁┒嘟M屬性值;選擇一個(gè)數(shù)據(jù)庫(kù)來(lái)抽樣;為已選擇屬性選擇一個(gè)屬性和屬性值;向已選擇數(shù)據(jù)庫(kù)提交一個(gè)查詢(xún),已選擇數(shù)據(jù)庫(kù)查詢(xún)具有已選擇屬性值的已選擇屬性,其中提交的查詢(xún)生成一個(gè)結(jié)果;和基于所述結(jié)果在已選擇數(shù)據(jù)庫(kù)的屬性和屬性值之間生成一個(gè)映射。
21.權(quán)利要求20所述的方法,包括基于所述結(jié)果,為域的屬性更新屬性值組,以便在接下來(lái)提交查詢(xún)時(shí)能夠使用來(lái)自于已更新組的屬性值。
22.權(quán)利要求20所述的方法,其中生成的映射為域?qū)傩运饕?br> 23.權(quán)利要求22所述的方法,其中生成的映射為站點(diǎn)級(jí)索引。
24.權(quán)利要求22所述的方法,其中生成的映射為域級(jí)索引。
25.權(quán)利要求20所述的方法,其中隨機(jī)選擇屬性和屬性值。
26.權(quán)利要求20所述的方法,其中選擇具有最小數(shù)目的確定屬性值的屬性。
27.權(quán)利要求20所述的方法,其中選擇在未被選擇的屬性值中具有最大出現(xiàn)次數(shù)的屬性值。
全文摘要
搜索系統(tǒng)通過(guò)生成性地抽樣數(shù)據(jù)庫(kù)來(lái)為web數(shù)據(jù)庫(kù)生成一個(gè)索引,并使用該索引來(lái)識(shí)別和設(shè)計(jì)搜索數(shù)據(jù)庫(kù)的查詢(xún)。該生成的索引被稱(chēng)為域-屬性索引,并包含一個(gè)域級(jí)索引和多個(gè)站點(diǎn)級(jí)索引。用于數(shù)據(jù)庫(kù)的站點(diǎn)級(jí)索引將站點(diǎn)屬性映射到數(shù)據(jù)庫(kù)中的確定屬性值。用于域的域級(jí)索引將屬性值映射到包含那些屬性值的數(shù)據(jù)庫(kù)和站點(diǎn)屬性對(duì)。為某個(gè)域中的數(shù)據(jù)庫(kù)生成站點(diǎn)級(jí)索引,所述搜索系統(tǒng)開(kāi)始于那個(gè)域最初的一組抽樣數(shù)據(jù)。該搜索系統(tǒng)基于抽樣數(shù)據(jù)生成抽樣查詢(xún)并將該抽樣查詢(xún)提交給數(shù)據(jù)庫(kù)。該搜索系統(tǒng)基于抽樣結(jié)果更新站點(diǎn)級(jí)索引,并使用該結(jié)果來(lái)生成更多的抽樣查詢(xún)。
文檔編號(hào)G06F17/30GK1741017SQ20051009224
公開(kāi)日2006年3月1日 申請(qǐng)日期2005年5月16日 優(yōu)先權(quán)日2004年5月14日
發(fā)明者J-R·文, 馬維英 申請(qǐng)人:微軟公司
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1