熱點數據識別方法和裝置的制造方法
【技術領域】
[0001] 本發(fā)明涉及云計算領域,特別涉及一種熱點數據識別方法和裝置。
【背景技術】
[0002] 在云存儲系統(tǒng)中,熱點數據多依據數據的訪問頻度、數據訪問時間等信息來確定。 用戶通常可W將熱點數據從云端遷移至本地,從而提高訪問效率。
[0003] 但是,按照目前的熱點數據識別方法,識別的各個熱點數據之間很可能毫無關系, 受限于存儲資源、網絡資源等因素,用戶通常很難將全部熱點數據從云端遷移至本地,即便 可W將全部熱點數據從云端遷移至本地,其中大部分熱點數據很可能不是用戶需要的,從 而造成寶貴的存儲資源和網絡資源的浪費。
[0004] 因此,有必要改進熱點數據的識別方案,提高用戶所需要的熱點數據的命中率。
【發(fā)明內容】
[0005] 本發(fā)明實施例的一個目的是;提出一種新的熱點數據識別方案,W提高用戶所需 要的熱點數據的命中率。
[0006] 根據本發(fā)明實施例的一個方面,提出一種熱點數據識別方法,包括;根據文件名、 文件內容、文件訪問順序、文件位置中的至少一項信息確定被訪問熱點文件的關聯文件;確 定被訪問熱點文件與其關聯文件之間的文件關聯度;根據被訪問熱點文件與其關聯文件之 間的文件關聯度W及關聯文件的訪問熱度信息確定關聯文件的熱度權重;根據關聯文件的 熱度權重從關聯文件中識別出熱點文件。
[0007] 在一個實施例中,根據文件名、文件內容、文件訪問順序、文件位置中的至少一項 信息確定被訪問熱點文件的關聯文件包括:計算被訪問熱點文件與其他文件之間的文件名 關聯系數,選取文件名關聯系數最大的預設數量的文件作為第一關聯集合;計算被訪問熱 點文件與其他文件之間的文件內容關聯系數,選取文件內容關聯系數最大的預設數量的文 件作為第二關聯集合;獲取在被訪問熱點文件之前最近被訪問的預設數量的文件作為第Η 關聯集合;獲取與被訪問熱點文件在同一目錄下的文件作為第四關聯集合;將第一關聯集 合、第二關聯集合、第Η關聯集合和第四關聯集合中至少一個集合中的文件作為被訪問熱 點文件的關聯文件。
[0008] 在一個實施例中,通過Apriori算法計算被訪問熱點文件與其他文件之間的文件 名關聯系數和文件內容關聯系數。
[0009] 在一個實施例中,確定被訪問熱點文件與其關聯文件之間的文件關聯度包括;計 算被訪問熱點文件與其關聯文件之間的文件名關聯系數;計算被訪問熱點文件與其關聯文 件之間的文件內容關聯系數;根據各個關聯文件的訪問順序計算每個關聯文件的文件訪問 順序系數;根據被訪問熱點文件與關聯文件是否在同一目錄下確定關聯文件的文件位置系 數;根據被訪問熱點文件與其關聯文件之間的文件名關聯系數和文件內容關聯系數、W及 關聯文件的文件訪問順序系數和文件位置系數,使用歐幾里德距離算法確定被訪問熱點文 件與其關聯文件之間的文件關聯度。
[0010] 在一個實施例中,根據被訪問熱點文件與其關聯文件之間的文件關聯度W及關聯 文件的訪問熱度信息確定關聯文件的熱度權重包括:設置文件關聯度和訪問熱度信息在熱 度權重中所占的熱度系數;根據被訪問熱點文件與其關聯文件之間的文件關聯度及其熱度 系數,并且結合關聯文件的訪問熱度信息及其熱度系數,綜合確定關聯文件的熱度權重;其 中,訪問熱度信息包括訪問時間和/或訪問頻率。
[0011] 在一個實施例中,識別出熱點文件之后,還包括;如果本地緩存中沒有識別出的熱 點文件,從云端下載該熱點文件;和/或,如果本地緩存中存留有非熱點文件,從本地緩存 中刪除該非熱點文件。
[0012] 根據本發(fā)明實施例的再一個方面,提出一種熱點數據識別裝置,包括:關聯文件確 定單元,用于根據文件名、文件內容、文件訪問順序、文件位置中的至少一項信息確定被訪 問熱點文件的關聯文件;文件關聯度確定單元,用于確定被訪問熱點文件與其關聯文件之 間的文件關聯度;熱度權重確定單元,用于根據被訪問熱點文件與其關聯文件之間的文件 關聯度W及關聯文件的訪問熱度信息確定關聯文件的熱度權重;熱點文件識別單元,用于 根據關聯文件的熱度權重從關聯文件中識別出熱點文件。
[0013] 在一個實施例中,關聯文件確定單元,具體用于根據文件名、文件內容、文件訪問 順序、文件位置中的至少一項信息確定被訪問熱點文件的關聯文件;計算被訪問熱點文件 與其他文件之間的文件名關聯系數,選取文件名關聯系數最大的預設數量的文件作為第一 關聯集合;計算被訪問熱點文件與其他文件之間的文件內容關聯系數,選取文件內容關聯 系數最大的預設數量的文件作為第二關聯集合;獲取在被訪問熱點文件之前最近被訪問的 預設數量的文件作為第Η關聯集合;獲取與被訪問熱點文件在同一目錄下的文件作為第四 關聯集合;將第一關聯集合、第二關聯集合、第Η關聯集合和第四關聯集合中至少一個集合 中的文件作為被訪問熱點文件的關聯文件。
[0014] 在一個實施例中,通過Apriori算法計算被訪問熱點文件與其他文件之間的文件 名關聯系數和文件內容關聯系數。
[0015] 在一個實施例中,文件關聯度確定單元,具體用于;計算被訪問熱點文件與其關聯 文件之間的文件名關聯系數;計算被訪問熱點文件與其關聯文件之間的文件內容關聯系 數;根據各個關聯文件的訪問順序計算每個關聯文件的文件訪問順序系數;根據被訪問熱 點文件與關聯文件是否在同一目錄下確定關聯文件的文件位置系數;根據被訪問熱點文件 與其關聯文件之間的文件名關聯系數和文件內容關聯系數、W及關聯文件的文件訪問順序 系數和文件位置系數,使用歐幾里德距離算法確定被訪問熱點文件與其關聯文件之間的文 件關聯度。
[0016] 在一個實施例中,熱度權重確定單元,具體用于;設置文件關聯度和訪問熱度信息 在熱度權重中所占的熱度系數;根據被訪問熱點文件與其關聯文件之間的文件關聯度及其 熱度系數,并且結合關聯文件的訪問熱度信息及其熱度系數,綜合確定關聯文件的熱度權 重;其中,訪問熱度信息包括訪問時間和/或訪問頻率。
[0017] 在一個實施例中,熱點數據識別裝置還包括:熱點文件處理單元,用于在識別出熱 點文件之后,如果本地緩存中沒有識別出的熱點文件,從云端下載該熱點文件;和/或,女口 果本地緩存中存留有非熱點文件,從本地緩存中刪除該非熱點文件。
[0018] 本發(fā)明實施例在確定文件熱度時增加對文件相關性的參考,從而提升熱點文件的 預判能力,提高用戶所需要的熱點數據的命中率。并且,將識別出的熱點文件下載到本地緩 存,可W提高用戶對本地文件的訪問速度。
[0019] 通過W下參照附圖對本發(fā)明的示例性實施例的詳細描述,本發(fā)明的其它特征及其 優(yōu)點將會變得清楚。
【附圖說明】
[0020] 為了更清楚地說明本發(fā)明實施例或現有技術中的技術方案,下面將對實施例或現 有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本 發(fā)明的一些實施例,對于本領域普通技術人員來講,在不付出創(chuàng)造性勞動性的前提下,還可 W根據送些附圖獲得其他的附圖。
[0021] 圖1是本發(fā)明熱點數據識別方法一個實施例的流程示意圖。
[0022] 圖2是本發(fā)明熱點數據識別裝置一個實施例的結構示意圖。
【具體實施方式】
[0023] 下面將結合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術方案進行清楚、完 整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例。W下 對至少一個示例性實施例的描述實際上僅僅是說明性的,決不作為對本發(fā)明及其應用或使 用的任何限制?;诒景l(fā)明中的實施例,本領域普通技術人員在沒有作出創(chuàng)造性勞動前提 下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
[0024] 為了提高用戶所需要的熱點數據的命中率,本發(fā)明提出一種新的熱點數據識別方 案,包括熱點數據識別方法和熱點數據識別裝置。本發(fā)明提出的熱點數據識別方案可W應 用于云存儲領域,例如公有云和私有云結合的混合云存儲,還可W應用于分層分級存儲。下 面分別具體說明熱點數據識別方案。
[0025] 圖1是本發(fā)明熱點數據識別方法一個實施例的流程示意圖。如圖1所示,本實施 例的熱點數據識別方法包括W下步驟:
[0026] 步驟S102,根據文件名、文件內容、文件訪問順序、文件位置中的至少一項信息確 定被訪問熱點文件的關聯文件。
[0027] 步驟S104,確定被訪問熱點文件與其關聯文件之間的文件關聯度。
[0028] 步驟S106,根據被訪問熱點文件與其關聯文件之間的文件關聯度W及關聯文件的 訪問熱度信息確定關聯文件的熱度權重。其中,訪問熱度信息例如包括訪問時間和/或訪 問頻率等信息。
[0029] 步驟S108,根據關聯文件的熱度權重從關聯文件中識別出熱點文件。
[0030] 本實施例在確定文件熱度時增加對文件相關性的參考,從而提升熱點文件的預判 能力,提高用戶所需要的熱點數據的命中率。
[0