專(zhuān)利名稱(chēng):特征向量空間中的自適應(yīng)搜索方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種對(duì)于具有類(lèi)似于詢問(wèn)向量的特征的特征向量搜索特征向量空間的方法,并且更具體地,涉及按照可變距離測(cè)量基于特征向量的近似值有效地搜索向量空間的方法,該特征向量具有類(lèi)似于詢問(wèn)向量的特征。
在涉及多媒體應(yīng)用的多媒體數(shù)據(jù)庫(kù)中,多媒體內(nèi)容一般是由特征向量代表的。各個(gè)對(duì)象的類(lèi)似性是由在特征向量空間的詢問(wèn)向量與特征向量之間的特征距離定義的距離測(cè)量確定的。
為了提供進(jìn)一步精確地檢索,利用采集諸如用戶的反饋之類(lèi)的信息,可以重復(fù)地執(zhí)行距離測(cè)量。但是,常規(guī)的方法沒(méi)有考慮到在大的數(shù)據(jù)庫(kù)中如何按照各個(gè)可變因素重復(fù)執(zhí)行距離測(cè)量。具體地說(shuō),在特征向量空間中常規(guī)索引的方法沒(méi)有提出如何在諸如在線檢索之類(lèi)的距離測(cè)量改變的環(huán)境中迅速執(zhí)行搜索。因此,在距離測(cè)量改變的環(huán)境下仍然需要加速搜索。
為了解決上述問(wèn)題,本發(fā)明的一個(gè)目的是提供一種按照變化的測(cè)量條件,對(duì)于具有類(lèi)似于詢問(wèn)向量的特征向量,快速和重復(fù)搜索近似的特征向量空間的方法。
因此,為了實(shí)現(xiàn)上述目的,本發(fā)明提供一種自適應(yīng)搜索特征向量空間的方法,該方法包括以下步驟(a)在該特征向量空間內(nèi)對(duì)給定的詢問(wèn)向量執(zhí)行相似性測(cè)量;和(b)施加由在步驟(a)中獲得的相似性測(cè)量的結(jié)果的搜索條件限制并且對(duì)給定的詢問(wèn)向量執(zhí)行改變的相似性測(cè)量。
步驟(b)最好包括以下各步驟(b-1)按照由在步驟(a)獲得的相似性測(cè)量結(jié)果進(jìn)行限制的距離測(cè)量,通過(guò)執(zhí)行近似層過(guò)濾獲得侯選近似范圍;和(b-2)對(duì)獲得的侯選近似范圍執(zhí)行數(shù)據(jù)層過(guò)濾。
步驟(a)最好包括以下各步驟(a-1)通過(guò)測(cè)量詢問(wèn)向量與各近似范圍之間的距離,獲得預(yù)定數(shù)量的最近似的侯選近似范圍;和(a-2)通過(guò)測(cè)量在獲得的侯選近似范圍內(nèi)的所有每個(gè)特征向量與詢問(wèn)向量之間的距離,獲得K個(gè)最鄰近特征向量,其中K是正整數(shù)。
步驟(b-1)最好包括以下各步驟(b-1-1)根據(jù)改變距離測(cè)量計(jì)算對(duì)于按照以前的距離測(cè)量獲得的K個(gè)最鄰近特征向量的第K′個(gè)最短距離,其中K′是正整數(shù),并且設(shè)置計(jì)算的距離為rt+1u,和(b-1-2)根據(jù)改變的距離測(cè)量,對(duì)于按照以前的距離測(cè)量的預(yù)定數(shù)量的侯選近似范圍,計(jì)算第K′個(gè)最小下邊界并設(shè)置為Фt+1u。
步驟(b-1)最好包括以下各步驟(b-1-3a)對(duì)于一個(gè)新的測(cè)量,測(cè)量近似范圍的下邊界與詢問(wèn)向量之間的距離Li(Wt+1),其中N是表示在特征向量空間中對(duì)象的數(shù)量的正整數(shù)和i是范圍從1到N的變量;(b-1-4)比較在步驟(b-1-3a)獲得的距離Li(Wt+1)與第K個(gè)最小上邊界Ф、rt+1u和Фt+1u的最小值min(Ф,rt+1u,Фt+1u);(b-1-3a)如果距離Li(Wt+1)小于或等于最小值min(Ф,rt+1u,Фt+1u),則將對(duì)應(yīng)的近似范圍設(shè)置為侯選近似范圍;和(b-1-6)如果距離Li(Wt+1)大于或等于最小值min(Ф,rt+1u,Фt+1u),則排除對(duì)應(yīng)的近似范圍。
另外,步驟(b-1)還包括(b-1-3b)對(duì)于新的距離測(cè)量測(cè)量近似范圍的上邊界與詢問(wèn)向量之間的距離Ui(Wt+1),假設(shè)N是代表特征向量空間中的對(duì)象數(shù)量的正整數(shù)和i是取值范圍為1到N的變量;并且(b-1-7)參照距離Ui(Wt+1)更新第K個(gè)最小上邊界Ф。
另外,重復(fù)步驟(b-1-1)-(b-1-6)直至對(duì)所有N個(gè)近似范圍執(zhí)行近似層過(guò)濾,其中N是表示數(shù)據(jù)庫(kù)中各個(gè)對(duì)象的數(shù)量的正整數(shù)。
步驟(b-2)最好包括以下各步驟(b-2-1)在各個(gè)侯選近似范圍中所有特征向量的每一個(gè)與詢問(wèn)向量之間執(zhí)行距離測(cè)量;并且(b-2-2)取決于步驟(b-2-1)執(zhí)行的距離測(cè)量的結(jié)果,確定K′個(gè)最接近的鄰近向量作為被檢索的向量。
通過(guò)參照附圖對(duì)本發(fā)明的優(yōu)選實(shí)施例的詳細(xì)描述,本發(fā)明的上述各個(gè)目的和優(yōu)點(diǎn)將變得更加清楚,其中
圖1A和1B是表示按照本發(fā)明的一個(gè)優(yōu)選實(shí)施例的自適應(yīng)搜索特征向量空間的方法的主要步驟的流程圖;圖2是用于解釋近似層過(guò)濾的偽碼表。
現(xiàn)在將參照?qǐng)D1A和1B描述本發(fā)明的一個(gè)優(yōu)選實(shí)施例的自適應(yīng)搜索方法的主要步驟。存儲(chǔ)有多媒體內(nèi)容的數(shù)據(jù)庫(kù)被表示為一個(gè)特征向量空間。在這個(gè)實(shí)施例中,特征向量空間是利用多個(gè)超立方體近似的。另外,假設(shè)M是用于代表描述圖像/視頻對(duì)象的特征向量的維數(shù)的正整數(shù),并且N是代表數(shù)據(jù)庫(kù)中對(duì)象數(shù)量的正整數(shù),詢問(wèn)對(duì)象Q的特征向量F和詢問(wèn)向量Q分別被表示為F=[Fi1、Fi2、…、FiM]和Q=[Qi1、Qi2、…、QiM]。其中,數(shù)據(jù)庫(kù)被表示為特征向量空間和詢問(wèn)對(duì)象Q的特征向量Q此后被稱(chēng)為詢問(wèn)向量。
首先,通過(guò)測(cè)量一個(gè)詢問(wèn)向量與每個(gè)超立方體之間的距離獲得最接近的侯選超立方體的預(yù)定數(shù)量(步驟102)。然后,K個(gè)最接近的鄰近特征向量是通過(guò)測(cè)量詢問(wèn)向量與步驟102中獲得的侯選超立方體的預(yù)定數(shù)量中所有特征向量的每一個(gè)之間的距離的異常指示符,其中K是正整數(shù)(步驟104)。詢問(wèn)向量與各個(gè)特征向量每一個(gè)之間的距離是利用計(jì)算加權(quán)歐幾里德距離測(cè)量的。加權(quán)的歐幾里德距離是通過(guò)方程(1)計(jì)算的d(Wt、Ft、Q)=(Q-F)TWt(Q-F)(1)其中Wt是第t次迭代的全對(duì)稱(chēng)函數(shù)矩陣,和在每次迭代時(shí)更新。
然后,例如,用戶選擇類(lèi)似于在計(jì)算的多媒體內(nèi)容中他或她希望找到的和試圖重新搜索的多個(gè)多媒體內(nèi)容。因此,可以從用戶那里提供改變搜索條件的反饋,這些反饋被稱(chēng)為相關(guān)反饋。按照本發(fā)明,從用戶提供反饋的各個(gè)特征被反映到下一次搜索的距離測(cè)量中,因此改變了距離測(cè)量的條件。
按照本發(fā)明,近似層的過(guò)濾是利用前t次迭代的信息執(zhí)行的。Wt,Ci(Wt)和Rt分別表示使用在前t次迭代中的距離測(cè)量函數(shù)、在這個(gè)實(shí)施例中通過(guò)以前迭代的或者超立方體的近似范圍、和利用Wt檢索的各個(gè)向量。
圖2表示用于解釋近似層過(guò)濾步驟的偽碼表。近似層過(guò)濾是利用來(lái)自前t次迭代的信息執(zhí)行的。參照?qǐng)D2,按照這種偽碼,在近似層過(guò)濾期間,第K′個(gè)最短的距離是對(duì)按照以前的距離測(cè)量根據(jù)改變的距離測(cè)量獲得的K個(gè)最近鄰近特征向量計(jì)算的,其中K′是正整數(shù),并且計(jì)算的距離被設(shè)置為rt+1u(步驟106)。另外,對(duì)于按照以前距離測(cè)量獲得的預(yù)定數(shù)量的侯選超立方體,根據(jù)改變的距離測(cè)量計(jì)算第K′個(gè)最小下邊界并設(shè)置為Фt+1u(步驟108)。
然后,假設(shè)N是近似的特征向量空間中的對(duì)象或近似范圍的數(shù)或者在這個(gè)實(shí)施例中的表示超立方體的正整數(shù),和i是取值范圍為1到N的變量,按照改變的新的距離測(cè)量測(cè)量在特征向量空間中各個(gè)超立方體的下邊界的每一個(gè)與詢問(wèn)向量之間的距離Li(Wt+1)和在特征向量空間中的各個(gè)超立方體的上邊界的每一個(gè)與詢問(wèn)向量之間的距離Ui(Wt+1)(步驟110)。另外,計(jì)算第K′個(gè)最小上邊界Ф(步驟112)。
接下來(lái),將對(duì)應(yīng)的向量空間中的第i個(gè)超立方體的下邊界與詢問(wèn)向量之間的距離Li(Wt+1)和在步驟112計(jì)算的第K′個(gè)最小上邊界Ф、rt+1u和Фt+1u的最小值min(Ф,rt+1u,Фt+1u)進(jìn)行比較(步驟114)。如果距離Li(Wt+1)小于或等于最小值min(Ф,rt+1u,Фt+1u),則相關(guān)的超立方體被設(shè)置為侯選超立方體(步驟116),否則排除相關(guān)的超立方體(步驟118)。
參照?qǐng)D2中的偽碼202,確定在對(duì)應(yīng)的向量空間中的第i個(gè)超立方體與詢問(wèn)向量之間的距離Li(Wt+1)是否小于所有第K′個(gè)最小上邊界Ф,rt+1u和Фt+1u,并且選擇相關(guān)超立方體Pi作為侯選超立方體,如偽碼204所示。參照偽碼206,如果滿足表示在偽碼202的各個(gè)要求,則相關(guān)超立方體Pi被選擇作為侯選立方體,并且參照Ui(Wt+1)更新上邊界Ф(步驟120)。
接下來(lái),假設(shè)N是一個(gè)表示數(shù)據(jù)庫(kù)中對(duì)象或者立方體數(shù)的正整數(shù),確定i是否達(dá)到N(步驟124),并且如果i未達(dá)到N,則重復(fù)步驟114-124,直至對(duì)所有N個(gè)超立方體都執(zhí)行了近似層過(guò)濾。
按照上述方法,對(duì)于將被設(shè)置為侯選超立方體的一個(gè)超立方體,該超立方體必須滿足由諸如偽碼202之類(lèi)的以前距離測(cè)量信息確定的新的要求。因此,用于選擇侯選超立方體的各個(gè)要求受到進(jìn)一步限制,因此降低了選擇的侯選超立方體的數(shù)量。
然后,執(zhí)行數(shù)據(jù)層過(guò)濾。在該過(guò)濾期間,執(zhí)行在侯選超立方體中的所有特征向量的每一個(gè)與詢問(wèn)向量之間的距離測(cè)量(步驟126),以取決于在步驟126執(zhí)行的距離測(cè)量的結(jié)果,確定K′個(gè)最接近的鄰近向量作為邊界特征向量,從而完成了搜索(步驟128)。在這種情況下,減少了侯選超立方體的數(shù)量,而這種減少降低了在測(cè)量各個(gè)侯選超立方體中的所有特征向量的每一個(gè)與詢問(wèn)向量之間的距離的計(jì)算復(fù)雜性。因此,當(dāng)搜索具有特征類(lèi)似于詢問(wèn)向量的特征向量時(shí),可以改善搜索速度。
也就是說(shuō),按照所述的搜索方法,降低了可變距離測(cè)量中的侯選近似范圍的數(shù)量,因此改善了搜索速度,并且如果包括新的近似范圍,則可以快速更新數(shù)據(jù)庫(kù)。
雖然已經(jīng)參照特征向量空間被分割為各個(gè)超立方體并作了近似的例子對(duì)本發(fā)明的優(yōu)選實(shí)施例進(jìn)行了描述,但是本發(fā)明還可以應(yīng)用到由其它公知的諸如R-樹(shù)、R*樹(shù)、SR-樹(shù)和X-樹(shù)之類(lèi)的索引結(jié)構(gòu)進(jìn)行索引的特征向量空間。本專(zhuān)業(yè)的技術(shù)人員將理解,在不脫離由所附的權(quán)利要求書(shū)所限定的本發(fā)明的精神和范圍的情況下,本發(fā)明從形式和細(xì)節(jié)上可以作出各種改變。
按照本發(fā)明的搜索方法可以被寫(xiě)為個(gè)人或服務(wù)器計(jì)算機(jī)上執(zhí)行的程序。程序碼和構(gòu)成程序的碼段可以很容易地被工業(yè)界的程序員推斷。另外,程序可以被存儲(chǔ)在計(jì)算機(jī)可讀介質(zhì)中。記錄介質(zhì)包括磁記錄介質(zhì)、光記錄介質(zhì)和射頻介質(zhì)。
按照本發(fā)明,近似范圍的數(shù)量在變化距離測(cè)量期間被降低,這樣改善了搜索速度。
權(quán)利要求
1.一種自適應(yīng)搜索特征向量空間的方法,該方法包括以下步驟(a)在特征向量空間內(nèi)對(duì)規(guī)定的詢問(wèn)向量執(zhí)行相似性測(cè)量;(b)應(yīng)用由步驟(a)獲得的相似性測(cè)量的結(jié)果的搜索條件并且對(duì)規(guī)定的詢問(wèn)向量執(zhí)行改變的相似性測(cè)量。
2.按照權(quán)利要求1的方法,其中步驟(b)包括以下步驟(b-1)通過(guò)執(zhí)行按照由在步驟(a)獲得的相似性測(cè)量結(jié)果限制的距離測(cè)量的近似層過(guò)濾,獲得侯選近似范圍;并且(b-2)對(duì)獲得的侯選近似范圍執(zhí)行數(shù)據(jù)層過(guò)濾。
3.按照權(quán)利要求1的方法,其中步驟(a)包括以下步驟(a-1)通過(guò)測(cè)量詢問(wèn)向量與每個(gè)近似范圍之間的距離,獲得最近的侯選近似范圍;并且(a-2)通過(guò)測(cè)量獲得的侯選近似范圍中的所有特征向量與詢問(wèn)向量之間的距離,獲得K個(gè)最近鄰近的特征向量,其中K是正整數(shù)。
4.按照權(quán)利要求3的方法,其中步驟(b-1)包括以下步驟(b-1-1)按照改變的距離測(cè)量,對(duì)于按照以前的距離測(cè)量的K個(gè)最接近的鄰近特征向量,計(jì)算第K′個(gè)最短距離,其中K′是正整數(shù),并且設(shè)置計(jì)算的距離作為rt+1u;和(b-1-2)按照改變的距離測(cè)量,對(duì)于按照以前的距離測(cè)量的預(yù)定數(shù)量侯選近似范圍的預(yù)定值,計(jì)算第K′個(gè)最小下邊界并且設(shè)置為Фt+1u。
5.按照權(quán)利要求4的方法,其中步驟(b-1)包括以下步驟(b-1-3a)對(duì)于一個(gè)新的距離測(cè)量,測(cè)量一個(gè)近似范圍的下邊界與詢問(wèn)向量之間的距離Li(Wt+1),N其中是表示在特征向量空間中的對(duì)象的數(shù)量,和i是取值范圍1到N的變量;(b-1-4)將在步驟(b-1-3a)中獲得的距離Li(Wt+1)與第K個(gè)最小上邊界Ф,rt+1u和Фt+1u的最小值min(Ф、rt+1u、Фt+1u)比較;(b-1-5)如果距離Li(Wt+1)小于或等于最小值min(Ф、rt+1u、Фt+1u),則將對(duì)應(yīng)的近似范圍設(shè)置為侯選近似范圍;和(b-1-6)如果距離Li(Wt+1)大于最小值min(Ф、rt+1u、Фt+1u),則排除對(duì)應(yīng)的近似范圍。
6.按照權(quán)利要求5的方法,其中步驟(b-1)還包括以下步驟(b-1-3b)對(duì)于新的距離測(cè)量,測(cè)量近似范圍的上邊界與詢問(wèn)向量之間的距離Ui(Wt+1),假設(shè)N是表示特征向量空間中的對(duì)象數(shù)量的一個(gè)正整數(shù)和i是取值范圍為1到N的變量。(b-1-7)參照距離Ui(Wt+1)更新第K個(gè)最小上邊界Ф。
7.按照權(quán)利要求5或6的方法,其中重復(fù)步驟(b-1-1)至(b-1-6),直至對(duì)所有N個(gè)近似范圍執(zhí)行近似層的過(guò)濾為止,其中N是表示在數(shù)據(jù)庫(kù)中的對(duì)象數(shù)量的一個(gè)正整數(shù)。
8.按照權(quán)利要求3的方法,其中步驟(b-2)包括以下步驟(b-2-1)執(zhí)行侯選近似范圍中的所有特征向量的每一個(gè)與詢問(wèn)向量之間的距離測(cè)量;和(b-2-2)取決于步驟(b-2-1)中執(zhí)行的距離測(cè)量的結(jié)果,確定K′個(gè)最近的鄰近向量作為檢索向量。
全文摘要
提供一種在特征向量空間中的自適應(yīng)搜索方法,該方法可以快速搜索基于對(duì)于特征向量的近似索引的特征向量空間,該特征向量具有類(lèi)似于根據(jù)可變距離測(cè)量的詢問(wèn)向量的特征。該自適應(yīng)搜索方法包括步驟:(a)對(duì)特征向量空間內(nèi)的已知詢問(wèn)向量執(zhí)行相似性測(cè)量;和(b)施加由步驟(a)獲得的相似性測(cè)量結(jié)果限制的搜索條件并且對(duì)規(guī)定的詢問(wèn)向量執(zhí)行改變的相似性測(cè)量。按照該自適應(yīng)搜索方法,在諸如在線檢索期間之類(lèi)的變化的距離測(cè)量期間,減少了候選近似范圍的數(shù)量,因此改善了搜索速度。
文檔編號(hào)G06F17/16GK1352431SQ0110495
公開(kāi)日2002年6月5日 申請(qǐng)日期2001年2月26日 優(yōu)先權(quán)日2000年11月14日
發(fā)明者崔良林, 許永植, B·S·曼朱納思, 吳彭 申請(qǐng)人:三星電子株式會(huì)社, 加利福尼亞大學(xué)董事會(huì)