本發(fā)明涉及一種基于多維化數(shù)據(jù)空間技術(shù)的索引構(gòu)建方法,屬于軟件技術(shù)領(lǐng)域。
背景技術(shù):
隨著金融、安全、政務(wù)等各種傳統(tǒng)行業(yè)信息化建設(shè)的完善與普及,越來(lái)越多的用戶數(shù)據(jù)需要被存儲(chǔ)和檢索。特別是在一些諸如銀行等涉及到群體性用戶的大型系統(tǒng)中,其所承載的相關(guān)資料數(shù)據(jù)往往數(shù)以億計(jì),如何才能快速而準(zhǔn)確的定位有效數(shù)據(jù)已經(jīng)成為了這些行業(yè)中的重要難題。傳統(tǒng)方式創(chuàng)建索引時(shí),索引的建立往往要基于可讀字符進(jìn)行創(chuàng)建,方才能夠保證最大化的性能。而由程序自行創(chuàng)建的索引往往并不能鎖定該數(shù)據(jù)的主要特征,只是把索引當(dāng)作一種無(wú)意義的簡(jiǎn)單標(biāo)識(shí),這就使得索引并不能有效定位數(shù)據(jù)的屬性特征,導(dǎo)致檢索性能的提升并不明顯。
以指紋數(shù)據(jù)的檢索為例,傳統(tǒng)的指紋檢索技術(shù)在用戶數(shù)據(jù)大規(guī)模增長(zhǎng)的今天已經(jīng)顯得非常落伍,單純依靠硬件性能的提升已經(jīng)不足以應(yīng)對(duì)如此龐大的信息檢索量。一方面是因?yàn)橹讣y等圖像類型數(shù)據(jù)的檢索過(guò)程較為復(fù)雜,另一方面是因?yàn)閭鹘y(tǒng)的數(shù)據(jù)檢索方式已經(jīng)不適用于多媒體類型數(shù)據(jù)的檢索需要。如何提高大量非可讀性數(shù)據(jù)的檢索效率已經(jīng)成為適應(yīng)市場(chǎng)快速發(fā)展急需解決的技術(shù)問(wèn)題。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明所要解決的技術(shù)問(wèn)題是,克服現(xiàn)有技術(shù)的缺點(diǎn),提供一種基于多維化數(shù)據(jù)空間技術(shù)、索引效率高、具有唯一性和群體隔離性等索引特征的索引構(gòu)建方法。
為了解決以上技術(shù)問(wèn)題,本發(fā)明提供一種基于多維化數(shù)據(jù)空間技術(shù)的索引構(gòu)建方法,包括初始化多維度數(shù)據(jù)檢索系統(tǒng)和載入需要建立索引的數(shù)據(jù)文件,其特征在于還包括以下步驟:
步驟一、設(shè)定多維化文件索引項(xiàng),所述多維化文件索引項(xiàng)至少包括文件類型索引維度、文件屬性索引維度、文件特征索引維度以及文件內(nèi)容索引維度;
步驟二、將步驟一中構(gòu)建的各維度特征索引相結(jié)合在數(shù)據(jù)空間創(chuàng)建多維索引結(jié)構(gòu);
步驟三、將多維索引結(jié)構(gòu)載入到當(dāng)前檢索數(shù)據(jù)空間中并與當(dāng)前索引內(nèi)容相融合形成多維數(shù)據(jù)空間搜索樹;
步驟四、完成多維化索引構(gòu)建。
本發(fā)明進(jìn)一步限定的技術(shù)特征為:所述步驟一的多維化文件索引項(xiàng)還包括空間文理索引。
進(jìn)一步的,所述文件類型索引維度的構(gòu)建是根據(jù)文件類型建立對(duì)應(yīng)的數(shù)據(jù)空間維度。
進(jìn)一步的,所述文件類型包括基于文件名后綴判定的文件類型、基于文件頭判斷的文件類型以及具備自己編碼特征的文件類型。
進(jìn)一步的,所述文件特征索引維度包括唯一性索引、以輔助手段獲取文件特征碼的索引以及空間幾何特征索引。
進(jìn)一步的,所述空間幾何特征包括音頻特征和圖形紋理特征。
進(jìn)一步的,所述文件內(nèi)容索引維度包括可見(jiàn)字符的索引和非可見(jiàn)字符的索引。
進(jìn)一步的,所述非可見(jiàn)字符通過(guò)文件共性特征內(nèi)容進(jìn)行關(guān)聯(lián)。
進(jìn)一步的,所述數(shù)據(jù)空間包含空間坐標(biāo)、空間幾何體結(jié)構(gòu)以及幾何體結(jié)構(gòu)之間的交互。
進(jìn)一步的,在將需要建立索引的數(shù)據(jù)文件載入數(shù)據(jù)空間時(shí),將二進(jìn)制數(shù)據(jù)轉(zhuǎn)為三維數(shù)據(jù)后再創(chuàng)建索引維度并指向空間幾何體中的特定坐標(biāo)。
本發(fā)明的有益效果是:多維化的快速檢索技術(shù)與傳統(tǒng)搜索技術(shù)的主要差異點(diǎn)就表現(xiàn)在索引創(chuàng)建的多維化上。各種類型不同的數(shù)據(jù)在混合檢索的過(guò)程中,由于文件類型的不同、數(shù)據(jù)內(nèi)容的不同、數(shù)據(jù)特征的不同等多方面的因素,導(dǎo)致了它們彼此之間的索引方式具有很大的差異性。本方法正是基于這樣的差異化特征,一步一步通過(guò)多維度索引的方式快速縮小檢索范圍,從而達(dá)到提高檢索速度的目的。本發(fā)明可以為圖片、音頻、視頻、壓縮、加密等各種類型的文件創(chuàng)建索引數(shù)據(jù),從而大幅提升這些類型文件內(nèi)容的檢索速度,在諸如指紋對(duì)比、人臉識(shí)別等領(lǐng)域都有重要的應(yīng)用價(jià)值,比傳統(tǒng)方法效率更高、準(zhǔn)確率更佳。
附圖說(shuō)明
圖1為本發(fā)明的索引構(gòu)建流程圖。
具體實(shí)施方式
實(shí)施例1
本實(shí)施例提供的基于多維化數(shù)據(jù)空間技術(shù)的索引構(gòu)建方法,如圖1所示:包括初始化多維度數(shù)據(jù)檢索系統(tǒng)和載入需要建立索引的數(shù)據(jù)文件,其特征在于還包括以下步驟:
步驟一、根據(jù)所載入文件類別和內(nèi)容的不同,為該文件設(shè)定其所屬的索引維度,包括:
1)文件類型索引維度
根據(jù)文件類型特征創(chuàng)建索引,主要包括:基于文件名后綴判定的文件類型、基于文件頭判斷的文件類型,以及特定于某些文件類型的內(nèi)容特征等。以指紋圖像文件為例,基于文件名后綴或者文件頭定義可以快速分類文件類型,但是png或jpg格式的文件具有自己的編碼特征,需要在此過(guò)程中識(shí)別這些特殊的格式,以便在后續(xù)的過(guò)程中選擇恰當(dāng)?shù)膬?nèi)容識(shí)別方法
2)文件屬性索引維度
包括文件的創(chuàng)建時(shí)間、創(chuàng)建者、文件大小等基本文件屬性
3)文件特征索引維度
特征索引包括傳統(tǒng)的唯一性索引,也包括以輔助手段獲取文件特征碼的索引方法等多種特征識(shí)別與索引方式。而多維數(shù)據(jù)的特征則多出了空間幾何特征的認(rèn)定,不同的數(shù)據(jù)類型在數(shù)據(jù)空間中所抽象的幾何特征都是不同的,比如圖像文件具有時(shí)間維度上的平面特征,而視頻文件和音頻文件則在時(shí)間維度上具有立體特征等
4)文件內(nèi)容索引維度
根據(jù)文件的內(nèi)容所建立的索引包括可見(jiàn)字符的索引和非可見(jiàn)字符的索引,其中可見(jiàn)字符的索引可以通過(guò)人為分類在不同的文件之間創(chuàng)建關(guān)聯(lián)關(guān)系,而非可見(jiàn)字符則需要通過(guò)共性內(nèi)容進(jìn)行關(guān)聯(lián),比如同一廠家的文件具有相同的文件簽名等。
5)空間紋理索引維度
當(dāng)文件內(nèi)容索引不足以滿足需求時(shí),則使用空間紋理索引進(jìn)一步縮小檢索范圍。以指紋數(shù)據(jù)為例,指紋的大小、特征結(jié)構(gòu)等都可以作為空間紋理索引的創(chuàng)建依據(jù),而在音視頻文件中,角色的面部特征、音紋特征等也可以通過(guò)該方法創(chuàng)建索引。
步驟二、創(chuàng)建多維化文件索引
將步驟一中所創(chuàng)建的各維度特征索引相結(jié)合,在數(shù)據(jù)空間創(chuàng)建多維索引結(jié)構(gòu)。
步驟三、載入多維數(shù)據(jù)空間
將多維索引結(jié)構(gòu)載入到當(dāng)前檢索所使用的數(shù)據(jù)空間中。
步驟四、配置文件索引
將該文件的索引與既有的索引內(nèi)容相融合,形成多維數(shù)據(jù)空間搜索樹
步驟五、完成多維化索引創(chuàng)建。
本方法借助多維數(shù)據(jù)空間的概念,將數(shù)據(jù)的索引屬性予以多維化的歸納,每一種數(shù)據(jù)類型之間根據(jù)相似性的多少進(jìn)行逐一索引。比如在檢索指紋類數(shù)據(jù)時(shí),首先根據(jù)指紋的大小特征予以索引,將不同尺寸的指紋數(shù)據(jù)歸類為幾個(gè)級(jí)別,再在同級(jí)別下的指紋數(shù)據(jù)間根據(jù)幾何特征等特殊屬性分別創(chuàng)建特征索引,由此便形成了一種數(shù)據(jù)空間內(nèi)的層次結(jié)構(gòu)。除此之外,以指紋數(shù)據(jù)為主的圖片文件與其他內(nèi)容的圖片文件之間也會(huì)存在一些共性,這些共性信息就是處理圖片類型索引的重要特征,而以圖片文件為維度進(jìn)行索引的話,諸如圖片大小、色深、創(chuàng)建時(shí)間等就成為了可以創(chuàng)建索引的有效內(nèi)容。
因此,本方法是基于多維數(shù)據(jù)空間技術(shù)為二進(jìn)制數(shù)據(jù)文件創(chuàng)建索引,而索引建立的原理便在于同種類文件的共性特征,這種特征必須符合該類型數(shù)據(jù)的唯一性原則,如此才能快速排除掉其他類型的數(shù)據(jù),從而以最快的速度縮小數(shù)據(jù)的檢索范圍。
除上述實(shí)施例外,本發(fā)明還可以有其他實(shí)施方式。凡采用等同替換或等效變換形成的技術(shù)方案,均落在本發(fā)明要求的保護(hù)范圍。