專利名稱:包括使用可重用索引字段的對特征的索引和搜索的制作方法
技術(shù)領(lǐng)域:
本申請涉及包括使用可重用索引字段的對特征的索引和搜索。
背景技術(shù):
索引方法被作為對搜索系統(tǒng)和技術(shù)進(jìn)行優(yōu)化的部分來用于管理復(fù)雜計算環(huán)境的信息以提供相關(guān)的搜索結(jié)果。許多當(dāng)前的搜索引擎對于要索引的項的每個方面或?qū)傩允褂貌煌奈锢碜侄谓Y(jié)構(gòu)來對這些項進(jìn)行索引,導(dǎo)致非常巨大和高度維護(hù)的數(shù)據(jù)結(jié)構(gòu)。例如,典·型的技術(shù)報告可以具有多個屬性,例如標(biāo)題、統(tǒng)一資源定位符(URL)、主要內(nèi)容、作者、最近編輯的日期和時間等一些示例。產(chǎn)品描述可以包括例如價格、大小、重量、顏色和口味等示例的屬性。要索引和使用的不同類型的信息可以隨著一個承租人到下一承租人的不同而顯著不同,導(dǎo)致大量物理索引字段和相關(guān)聯(lián)的索引的空區(qū)域。承租人可以意指承租和/或使用與其他人共享的基礎(chǔ)結(jié)構(gòu)但與其他承租人在邏輯上隔離的人或組織。相應(yīng)地,當(dāng)將搜索作為一種服務(wù)提供時,搜索系統(tǒng)需要認(rèn)識到一個事實(shí),即不同的消費(fèi)者或承租人要索引不同類型的項。通常,搜索服務(wù)對于所有不同的承租人的所有的項的所有的屬性的并集使用專用的物理結(jié)構(gòu),導(dǎo)致一個具有許多空洞(hole)和高數(shù)量的物理結(jié)構(gòu)來處理所有各種屬性的索引。一個解決方案是為每個承租人使用單獨(dú)的索引,這導(dǎo)致比在同一索引中存儲所有屬性的并集時更大總數(shù)的物理結(jié)構(gòu)。然而,當(dāng)前的索引技術(shù)沒有被配置為將物理索引字段重用(reuse)作為提供索引和搜索服務(wù)的部分。
發(fā)明內(nèi)容
提供本發(fā)明內(nèi)容以便以簡化的形式介紹將在以下的具體實(shí)施例中進(jìn)一步描述的一些概念。本發(fā)明內(nèi)容并不旨在標(biāo)識出所要求保護(hù)的主題的關(guān)鍵特征或必要特征,也不旨在用于幫助確定所要求保護(hù)的主題的范圍。實(shí)施例提供了索引和搜索特征,但不局限于此。在一個實(shí)施例中,計算系統(tǒng)被配置為對于不同承租人重用或重新確定物理索引字段以作為提供索引和搜索服務(wù)的部分。一個實(shí)施例的方法操作為提供包括許多可重用索引字段的經(jīng)索引的數(shù)據(jù)結(jié)構(gòu),所述可重用索引字段被共享并被用于索引與多個承租人相關(guān)聯(lián)的信息。還包括其他實(shí)施例。通過閱讀下面的詳細(xì)描述并參考相關(guān)聯(lián)的附圖,這些及其它特點(diǎn)和優(yōu)點(diǎn)將變得顯而易見??梢岳斫?,前述一般描述和以下詳細(xì)描述均僅是說明性的,并且不限制所要求保護(hù)的本發(fā)明。
圖I是示例性計算環(huán)境的框圖。圖2描述了包括許多重用索引字段的示例性索引表示。圖3A-3C描述了許多示例性的承租人索引集以及示例性的索引表示。圖4是描述了作為搜索服務(wù)的部分來提供索引操作的示例性的過程的流程圖。
圖5是描述了配置用于提供索引和搜索服務(wù)的示范性系統(tǒng)的組件的框圖。圖6描述了用于每承租人不同索引的解決方案的許多文件(資源)的差異。圖7是示出用于實(shí)現(xiàn)此處所描述的各個實(shí)施例的示例性計算環(huán)境的框圖。
具體實(shí)施例方式圖I是示范性計算環(huán)境100的框圖,該環(huán)境包括提供索引、搜索和/或其他信息處理操作的處理、存儲器以及其他組件/資源。環(huán)境100的組件包括用于爬行內(nèi)容、添加元數(shù)據(jù)、產(chǎn)生索引表示以及提供搜索查詢(不局限于此)的特征和功能性。如下所述,一個實(shí)施例的索引模型可被用于提供包括許多可重用索引字段的索引結(jié)構(gòu),其中,每個可重用索引字段被配置為包含每個承租人的相同數(shù)據(jù)類型的不同數(shù)據(jù),但不局限于此。例如,環(huán)境100的組件可以操作以將不同承租人的相同數(shù)據(jù)類型路由或映射到同 一索引字段結(jié)構(gòu),以便將可排序的屬性存儲在同一物理索引字段中。在一個實(shí)施例中,環(huán)境100的組件使用每個承租人的模式模型以及從每個承租人模式到所定義的可重用索引字段的映射,因為每個承租人通常要求使用他們自己的特定項和/或少量唯一或承租人專用的屬性。這樣,所有相關(guān)聯(lián)的承租人可以部分基于可重用字段索引模型來共享和重用與唯一的或承租人專用的屬性相關(guān)聯(lián)的減少的索引以及物理索引字段的有限集合。如下所述,根據(jù)一個實(shí)施例,環(huán)境100的組件對于多個承租人的不同屬性自動使用相同物理字段,這顯著地減少了相關(guān)聯(lián)的索引的物理字段的總數(shù)。組件可以將特征(例如排序、細(xì)化器、范圍搜索、查詢等)的項屬性或要求用作到可用的可重用物理索引字段的映射操作的部分。這樣,組件可以直接使用索引技術(shù),因為映射對于與索引服務(wù)相關(guān)聯(lián)的所有承租人都映射到相同類型的字段。如圖I所示,示范性環(huán)境100包括與一個或多個客戶機(jī)104和/或一個或多個信息儲存庫106通信上耦合的搜索引擎102。在一個實(shí)施例中,信息儲存庫106被用于提供與多個承租人站點(diǎn)集合、站點(diǎn)、場內(nèi)容(farm content)等相關(guān)聯(lián)的經(jīng)爬行的數(shù)據(jù)。在一個實(shí)施例中,環(huán)境100包括可用于提供包括搜索引擎102的搜索服務(wù)的共享服務(wù)場,所述搜索引擎102包括對于多個相關(guān)聯(lián)的承租人使用和重用或重新確定同一物理索引字段的索引特征。如下所述,映射組件108包括用于將一個或多個儲存庫106的信息映射到許多可重用索引字段的許多映射。搜索引擎102可以包括利用可重用索引字段的屬性來存儲與多個承租人相關(guān)聯(lián)的信息的索引特征。一個實(shí)施例的每個可重用索引字段可以與多個承租人相關(guān)聯(lián),以便映射將多個承租人的承租人專用信息(例如重疊和部分重疊的受管屬性)映射到對應(yīng)的可重用索引字段。當(dāng)索引承租人專用屬性和相關(guān)聯(lián)的信息時,一個實(shí)施例的每個可重用索引字段可以被用作提供索引操作的部分,所述索引操作與每個承租人的特定數(shù)據(jù)類型和/或特征相關(guān)聯(lián)(例如參見圖2)。在一個實(shí)施例中,通過將每個可重用索引字段作為具有代表性的數(shù)據(jù)結(jié)構(gòu)的不同文件來存儲以維護(hù)所述索引。因此,映射組件108可以被配置為包括與承租人受管屬性模式的單個實(shí)例相關(guān)聯(lián)的映射或與多承租的實(shí)現(xiàn)的多個模式相關(guān)聯(lián)的映射。繼續(xù)參考圖1,一個實(shí)施例的搜索引擎102包括用于處理任意數(shù)目的可搜索項的索引特征,包括但不限于網(wǎng)頁、任意類型的文檔、電子表格、音樂文件、圖片文件、視頻文件、聯(lián)系、列表以及列表項、任務(wù)、日歷條目、任意類型的內(nèi)容、元數(shù)據(jù)、元-元數(shù)據(jù)等。一個實(shí)施例的搜索引擎102包括用于以下操作的特征(但不限于)基于原始文本輸入創(chuàng)建索引和/或通過使用索引返回查詢的結(jié)果;從各種客戶機(jī)、爬行器、連接器等接收可被處理和索引的內(nèi)容;和/或分析包括文檔和其他內(nèi)容的信息以產(chǎn)生文本輸出,例如包括作為示例的文檔標(biāo)題、文檔內(nèi)容、正文、位置、大小等的屬性列表。如下所述,搜索引擎102的索引特征可結(jié)合可細(xì)化的、可排序的、可檢索的和/或其他可管理的屬性來作為提供到所關(guān)聯(lián)的可重用索引字段的合適映射的部分來使用。例如,搜索引擎102可以使用索引特征來部分基于可細(xì)化的、可排序的、可查詢的和/或可檢索的字段類型中的一個或多個,將多個承租人的承租人信息映射到一個或多個可重用索引字段。一個實(shí)施例的可細(xì)化的字段類型可被用于將管理可細(xì)化的屬性作為細(xì)化查詢或 某一結(jié)果的部分。例如,可細(xì)化字段類型可被用作通過使用聚集統(tǒng)計數(shù)據(jù)(例如使用查詢結(jié)果中的受管屬性值的某個分布)來鉆入(drill into)查詢結(jié)果的過程的部分。作為一個示例,可細(xì)化的屬性可以被用作在包括出售的汽車的聯(lián)網(wǎng)儲存庫上對“汽車”的搜索的部分。這樣,可細(xì)化屬性可被用于返回對價格屬性的細(xì)化器,如在下面的表I中所述。表I
細(xì)化(價格范圍($)) 汽車而胃 0-10003
~1001-500045
5001-10000534
~10001-10000024
~> 10000015如在表I中所示,可細(xì)化的屬性或細(xì)化器返回了價格在相關(guān)聯(lián)的范圍中的汽車的數(shù)目。繼續(xù)示例,另一可細(xì)化的屬性或細(xì)化器可被用于返回相關(guān)聯(lián)的顏色的汽車的數(shù)目,如表2中的示例所示。表2
細(xì)化器(顏色)I汽車的數(shù)f^
綠色45
紅色234
藍(lán)色215
白色10權(quán)利要求
1.一種系統(tǒng)(100),其被配置成 提供包括許多可重用的索引字段的索引服務(wù),每個可重用的索引字段具有對應(yīng)的字段類型; 索引與多個承租人和承租人專用的屬性相關(guān)聯(lián)的索引信息,包括部分基于對應(yīng)的字段類型和承租人專用的屬性來使用所述許多可重用的索引字段;以及 存儲所述經(jīng)索引的信息。
2.如權(quán)利要求I所述的系統(tǒng)(100),其特征在于,進(jìn)一步被配置為使用包括可搜索、可查詢、可排序、可細(xì)化和可檢索的字段類型中的一個或多個的所述許多可重用的索引字段來提供索引服務(wù)。
3.如權(quán)利要求I所述的系統(tǒng)(100),其特征在于,進(jìn)一步被配置為提供所述索引服務(wù),包括部分基于可查詢的字符串、可查詢的整數(shù)、可查詢的日期/時間、可查詢的十進(jìn)制、可查詢的雙精度型、可排序和可細(xì)化的整數(shù)、可排序和可細(xì)化的日期/時間、可排序和可細(xì)化的十進(jìn)制以及可排序和可細(xì)化的雙精度型中的一個或多個,用多承租人信息填充所述許多可重用的索引字段。
4.如權(quán)利要求I所述的系統(tǒng)(100),其特征在于,進(jìn)一步被配置為提供所述索引服務(wù),包括使用所述許多可重用的索引字段來管理一個或多個重疊的或部分重疊的承租人的屬性。
5.如權(quán)利要求I所述的系統(tǒng)(100),其特征在于,進(jìn)一步被配置為部分基于可搜索的項字段映射、可查詢的項字段映射、可排序的和可細(xì)化的項字段映射以及可檢索的項字段映射中的一個或多個,將與承租人專用的屬性相關(guān)聯(lián)的信息映射到對應(yīng)的可重用的索引字段。
6.一種使用搜索引擎(102)的方法,包括: 重新使用與許多索引的受管的屬性相獨(dú)立的定義數(shù)目的物理索引字段; 部分基于可搜索的項字段映射、可查詢的項字段映射、可排序的和可細(xì)化的項字段映射以及可檢索的項字段映射,將承租人的信息映射到所述定義數(shù)目的物理索引字段;以及 使用所述搜索引擎(102)提供搜索結(jié)果。
7.如權(quán)利要求6所述的方法,其特征在于,進(jìn)一步包括爬行承租人域的項作為收集要索引的信息的部分,所述信息包括與一組共享的受管的屬性相關(guān)聯(lián)的信息以及與不同的承租人的屬性相關(guān)聯(lián)的信息,以用于由所述搜索引擎(102)返回搜索結(jié)果。
8.如權(quán)利要求6所述的方法,其特征在于,進(jìn)一步包括使用所述搜索引擎(102)和共享的索引連同有限的索引,所述共享的索引包括許多共享的承租人的屬性,所述有限的索引包括所述可重用的索引字段和經(jīng)映射的承租人數(shù)據(jù)。
9.如權(quán)利要求6所述的方法,其特征在于,進(jìn)一步包括使用所述搜索引擎(102)和虛擬化的索引,所述虛擬化的索引包括與多個承租人相關(guān)聯(lián)的可重用的物理索引字段,所述可重用的物理索引字段對應(yīng)于許多承租人專用和非重疊的屬性。
10.包括指令的計算機(jī)存儲,當(dāng)執(zhí)行指令時,通過下述步驟使用搜索引擎(102)來提供服務(wù) 使用許多定義的可重用的索引字段,其中,每個可重用的索引字段具有管理不同的承租人的屬性的字段類型,以作為為多個承租人提供索引服務(wù)的部分;接收與多個承租人和承租人專用的屬性相關(guān)聯(lián)的承租人的信息; 填充索引結(jié)構(gòu),包括部分基于底層字段類型、承租人專用的屬性以及對應(yīng)的承租人信息對不同類型的承租人信息使用所述許多定義的可重用的索引字段;以及存儲所述索引結(jié)構(gòu)以用于提供搜索結(jié)果。
全文摘要
本申請?zhí)峁┝税ㄊ褂每芍赜盟饕侄蔚膶μ卣鞯乃饕退阉鳌L峁┝税ㄏ嚓P(guān)聯(lián)的系統(tǒng)、方法和其它實(shí)現(xiàn)的索引和搜索特征。一個實(shí)施例的計算系統(tǒng)被配置為對于不同承租人重用或重新確定物理索引字段以作為提供有效且可縮放的索引和搜索服務(wù)的部分。一個實(shí)施例的方法操作為提供包括許多可重用索引字段的經(jīng)索引的數(shù)據(jù)結(jié)構(gòu),所述可重用索引字段被共享并被用于索引與多個承租人相關(guān)聯(lián)的信息。還包括其他實(shí)施例。
文檔編號G06F17/30GK102708136SQ20121006250
公開日2012年10月3日 申請日期2012年3月9日 優(yōu)先權(quán)日2011年3月11日
發(fā)明者E·M·羅克, H·G·索罕, M·蘇賽格, O·弗萊德博格 申請人:微軟公司