一種量化語義塊關(guān)系的方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明計(jì)算機(jī)存儲(chǔ)技術(shù)領(lǐng)域,尤其設(shè)及一種量化語義塊關(guān)系的方法及裝置。
【背景技術(shù)】
[0002] 基于互聯(lián)網(wǎng)的大數(shù)據(jù)應(yīng)用系統(tǒng)的發(fā)展對(duì)我國(guó)的科學(xué)進(jìn)步與國(guó)民經(jīng)濟(jì)的發(fā)展具有 戰(zhàn)略性作用,多元學(xué)科的發(fā)展和社會(huì)應(yīng)用的需求也給大數(shù)據(jù)系統(tǒng)帶來了巨大的挑戰(zhàn),但作 為大數(shù)據(jù)系統(tǒng)末端的存儲(chǔ)系統(tǒng)在響應(yīng)速度上越來越不能適應(yīng)前端應(yīng)用系統(tǒng)的需求。
[0003] 存儲(chǔ)塊的語義關(guān)系成為存儲(chǔ)系統(tǒng)的高速緩存、磁盤調(diào)度、數(shù)據(jù)放置、數(shù)據(jù)預(yù)取等環(huán) 節(jié)的理論依據(jù)。比如對(duì)存儲(chǔ)系統(tǒng)進(jìn)行訪問時(shí),存儲(chǔ)系統(tǒng)能依據(jù)塊的語義關(guān)系將正確的數(shù)據(jù) 塊預(yù)取到緩存中,W便后面的訪問可W命中該些塊而不需要到磁盤中再次調(diào)用,縮短了數(shù) 據(jù)訪問時(shí)間,提高了存儲(chǔ)系統(tǒng)訪問效率。但W往的存儲(chǔ)系統(tǒng)只能基于某些局部訪問特征,比 如時(shí)間局限性、空間局限性、順序性等來設(shè)計(jì)優(yōu)化存儲(chǔ)系統(tǒng)的組織與管理,導(dǎo)致語義塊之間 完整語義關(guān)系的缺失,存儲(chǔ)系統(tǒng)在語義塊一級(jí)的層面無法有效對(duì)數(shù)據(jù)進(jìn)行組織和管理,該 樣就不能即時(shí)滿足前端應(yīng)用系統(tǒng)的調(diào)用需求。
[0004] 現(xiàn)有技術(shù)中的解決方法多數(shù)集中在利用訪問序列的分析進(jìn)行應(yīng)用數(shù)據(jù)的預(yù)取、替 換或者是數(shù)據(jù)放置等。但該些方法在占用系統(tǒng)大量資源的前提下,依然不能為后續(xù)的數(shù)據(jù) 訪問預(yù)測(cè)提供準(zhǔn)確的信息來提高數(shù)據(jù)訪問的命中率,縮短數(shù)據(jù)訪問時(shí)間。
【發(fā)明內(nèi)容】
[0005] 針對(duì)現(xiàn)有技術(shù)存在的問題,本發(fā)明實(shí)施例提供了一種量化語義塊關(guān)系的方法及裝 置,用于解決現(xiàn)有技術(shù)中在存儲(chǔ)系統(tǒng)的數(shù)據(jù)訪問中,數(shù)據(jù)訪問時(shí)間過長(zhǎng),訪問效率低,不能 適應(yīng)前端應(yīng)用系統(tǒng)的調(diào)用需求的技術(shù)問題。
[0006] 本發(fā)明提供一種量化語義塊關(guān)系的方法,所述方法包括:
[0007] 獲取訪問數(shù)據(jù)流;
[000引對(duì)所述訪問數(shù)據(jù)流中的訪問序列進(jìn)行量化預(yù)處理,獲取適合所述訪問序列訪問特 征的各個(gè)語義塊的長(zhǎng)度,并量化統(tǒng)一所述各個(gè)語義塊的地址;
[0009] 構(gòu)建適合所述訪問序列訪問特征的基因表達(dá)式算法;
[0010] 根據(jù)所述基因表達(dá)式算法對(duì)所述各個(gè)語義塊進(jìn)行擬合,獲取所述各個(gè)語義塊之間 的定量關(guān)系集合。
[0011] 上述方案中,所述構(gòu)建適合訪問序列訪問特征的基因表達(dá)式算法包括:
[0012] 初始化所述訪問序列的染色體種群,構(gòu)造所述基因表達(dá)式算法解的結(jié)構(gòu);
[0013] 計(jì)算染色體的第一適應(yīng)值,根據(jù)預(yù)設(shè)的第一標(biāo)準(zhǔn)適應(yīng)值對(duì)所述染色體進(jìn)行淘汰;
[0014] 根據(jù)預(yù)設(shè)的機(jī)率對(duì)保留下的所述染色體進(jìn)行有限次迭代操作,確定所述染色體的 高階表達(dá)式。
[0015] 上述方案中,根據(jù)預(yù)設(shè)的機(jī)率對(duì)保留下的所述染色體進(jìn)行有限次迭代操作包括, 確定所述染色體的高階表達(dá)式:
[0016] 步驟a,根據(jù)預(yù)設(shè)的機(jī)率對(duì)保留下的所述染色體進(jìn)行雜交、變異操作,獲取所述染 色體的子代;
[0017] 步驟b,計(jì)算所述染色體子代的第二適應(yīng)值,根據(jù)預(yù)設(shè)的第二標(biāo)準(zhǔn)適應(yīng)值對(duì)所述染 色體子代進(jìn)行淘汰;
[0018] 按照預(yù)設(shè)的迭代次數(shù)循環(huán)步驟a~步驟b,收斂所述染色體,獲取所述染色體的高 階表達(dá)式。
[0019] 上述方案中,所述根據(jù)所述基因表達(dá)式算法對(duì)所述各個(gè)語義塊進(jìn)行擬合,獲取所 述各個(gè)語義塊之間的定量關(guān)系集合包括:
[0020] 根據(jù)所述基因表達(dá)式算法計(jì)算所述各個(gè)語義塊中每個(gè)語義塊與其他語義塊之間 的高階表達(dá)式,完成所述各個(gè)語義塊的回歸,獲取所述各個(gè)語義塊之間的定量關(guān)系集合。 [002。 上述方案中,所述訪問序列包括;trace序列。
[0022] 本發(fā)明同時(shí)還提供一種量化語義塊關(guān)系的裝置,所述裝置包括:
[0023] 獲取單元,所述獲取單元用于獲取訪問數(shù)據(jù)流;
[0024] 預(yù)處理單元,所述預(yù)處理單元用于對(duì)所述訪問數(shù)據(jù)流中的訪問序列進(jìn)行量化預(yù)處 理,獲取適合所述訪問序列訪問特征的各個(gè)語義塊的長(zhǎng)度,并量化統(tǒng)一所述各個(gè)語義塊的 地址;
[00巧]構(gòu)建單元,所述構(gòu)建單元用于構(gòu)建適合所述訪問序列訪問特征的基因表達(dá)式算 法;
[0026] 擬合單元,所述擬合單元用于根據(jù)所述基因表達(dá)式算法對(duì)所述各個(gè)語義塊進(jìn)行擬 合,獲取所述各個(gè)語義塊之間的定量關(guān)系集合。
[0027] 上述方案中,所述構(gòu)建單元用于構(gòu)建適合所述訪問序列訪問特征的基因表達(dá)式算 法包括:
[0028] 所述構(gòu)建單元初始化所述訪問序列的染色體種群,構(gòu)造所述基因表達(dá)式算法解的 結(jié)構(gòu);
[0029] 計(jì)算染色體的第一適應(yīng)值,根據(jù)預(yù)設(shè)的第一標(biāo)準(zhǔn)適應(yīng)值對(duì)所述染色體進(jìn)行淘汰;
[0030] 根據(jù)預(yù)設(shè)的機(jī)率對(duì)保留下的所述染色體進(jìn)行有限次迭代操作,確定所述染色體的 高階表達(dá)式。
[0031] 上述方案中,所述構(gòu)建單元用于根據(jù)預(yù)設(shè)的機(jī)率對(duì)保留下的所述染色體進(jìn)行有限 次迭代操作,確定所述染色體的高階表達(dá)式具體包括:
[0032] 步驟a,根據(jù)預(yù)設(shè)的機(jī)率對(duì)保留下的所述染色體進(jìn)行雜交、變異操作,獲取所述染 色體的子代;
[0033] 步驟b,計(jì)算所述染色體子代的第二適應(yīng)值,根據(jù)預(yù)設(shè)的第二標(biāo)準(zhǔn)適應(yīng)值對(duì)所述染 色體子代進(jìn)行淘汰;
[0034] 所述構(gòu)建單元按照預(yù)設(shè)的迭代次數(shù)循環(huán)步驟a~步驟b,收斂所述染色體,獲取所 述染色體的高階表達(dá)式。
[00巧]上述方案中,所述擬合單元根據(jù)所述基因表達(dá)式算法對(duì)所述各個(gè)語義塊進(jìn)行擬 合,獲取所述各個(gè)語義塊之間的定量關(guān)系集合包括:
[0036] 所述擬合單元根據(jù)所述基因表達(dá)式算法計(jì)算所述各個(gè)語義塊中每個(gè)語義塊與其 他語義塊之間的高階表達(dá)式,完成所述各個(gè)語義塊的回歸,獲取所述各個(gè)語義塊之間的定 量關(guān)系集合。
[0037]上述方案中,所述訪問序列包括;trace序列。
[0038]本發(fā)明提供了一種量化語義塊關(guān)系的方法及裝置,所述方法包括;獲取訪問數(shù)據(jù) 流;對(duì)所述訪問數(shù)據(jù)流中的訪問序列進(jìn)行量化預(yù)處理,獲取適合所述訪問序列訪問特征的 各個(gè)語義塊的長(zhǎng)度,并量化統(tǒng)一所述各個(gè)語義塊的地址;構(gòu)建適合所述訪問序列訪問特征 的基因表達(dá)式算法;根據(jù)所述基因表達(dá)式算法對(duì)各個(gè)語義塊進(jìn)行擬合,獲取所述各個(gè)語義 塊之間的定量關(guān)系集合;如此,所述方法通過對(duì)存儲(chǔ)系統(tǒng)中多個(gè)語義塊塊之間的關(guān)系進(jìn)行 量化,依據(jù)實(shí)時(shí)數(shù)據(jù)流的變化,總結(jié)數(shù)據(jù)流的規(guī)律、推斷各個(gè)語義塊之間的定量表達(dá)的語義 關(guān)系;降低數(shù)據(jù)訪問時(shí)磁盤的尋道和旋轉(zhuǎn)延遲,縮短吞吐量和響應(yīng)時(shí)間,達(dá)到高效訪問的目 的。
【附圖說明】
[0039] 圖1為本發(fā)明實(shí)施例一提供的量化語義塊關(guān)系的方法流程示意圖;
[0040] 圖2為本發(fā)明實(shí)施例一提供的分割訪問序列的示意圖;
[0041] 圖3為本發(fā)明實(shí)施例二提供的量化語義塊關(guān)系的裝置結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0042]為了能更好地理解本發(fā)明的內(nèi)容,本文先闡述對(duì)語義塊關(guān)系進(jìn)行定量的必要性。 具有時(shí)間局限性、空間局限性訪問特征的序列模式,語義塊的語義關(guān)系是存儲(chǔ)系統(tǒng)中固有 的,穩(wěn)定的,不依賴于數(shù)據(jù)流。通常情況下,因?yàn)檎Z義的關(guān)系相互有聯(lián)系的語義塊都會(huì)被一 起訪問,存儲(chǔ)系統(tǒng)的應(yīng)用也會(huì)遵從語義的關(guān)系來訪問語義塊。比如在訪問一個(gè)文件塊之前, 網(wǎng)絡(luò)文件系統(tǒng)(NFS,NetworkFileSystem)服務(wù)器需要去訪問一個(gè)索引節(jié)點(diǎn)inode。同樣 的道理,一個(gè)數(shù)據(jù)庫去訪問子節(jié)點(diǎn)前肯定要去訪問父節(jié)點(diǎn)。但由于存儲(chǔ)系統(tǒng)中請(qǐng)求和事務(wù) 的交叉,該些訪問命令是不連續(xù)的,但是他們?cè)谀硞€(gè)段距離內(nèi)是接近的;因而,在訪問數(shù)據(jù) 流中,某些語義塊的訪問依賴于前面已經(jīng)被訪問的語義塊。
[0043] 例如,在一個(gè)NFS文件服務(wù)器中,一個(gè)inode塊通常與其對(duì)應(yīng)的文件塊分開存放, 目錄塊與該個(gè)目錄中文件的inod