本發(fā)明屬于網絡通信技術領域,涉及基站緩存方法,更為具體的說,是涉及無線通信系統(tǒng)中一種基于機器學習的超密集網絡小站緩存方法。
背景技術:
5g(thefifthgeneration)網絡中移動通信量猛增,給移動網絡運營商帶來極大的挑戰(zhàn)。在宏站覆蓋范圍內同頻密集部署小站的超密集網絡技術作為5g的候選技術之一,可有效提升頻譜效率和系統(tǒng)吞吐量。超密集網絡中小站常部署在一些難以抵達的位置,這給連接小站與核心網的光纖回程鏈路的安裝帶來了困難,為解決這個問題,無線回程技術應運而生。然而無線頻譜資源是有限的,從大站卸載到超密集小站的海量移動通信量會給無線回程鏈路帶來巨大壓力。一種有效的回程鏈路通信量卸載技術是通過在小站預存文件來降低無線回程鏈路負載,進而提升用戶體驗。然而小站的緩存空間是有限的,為了更有效地緩存,要按照精心設計的緩存策略來選取更準確的文件緩存。
現有的緩存技術多是基于傳統(tǒng)的優(yōu)化算法來制定緩存策略的,而這些工作往往基于很強的假設,導致緩存策略難以適用于實際系統(tǒng)。而且,這些緩存策略一般根據歷史訪問數據制定,考慮到網絡中在高峰訪問期不斷有新的文件會被大量訪問,只根據從歷史訪問數據中得到的模式制定緩存策略,不能有效利用有限的緩存空間。
技術實現要素:
為解決上述問題,本發(fā)明公開了一種基于機器學習的超密集網絡小站緩存方法,以最小化系統(tǒng)回程鏈路負載為目標,在小站緩存文件總大小不超過小站緩存空間的前提下,基于k均值聚類和k近鄰分類,通過機器學習識別文件請求中的模式,并根據挖掘到的模式制定小站緩存策略。
本發(fā)明對核心網端口的海量數據加以利用,充分挖掘隱藏在數據中的模式并用于制定緩存策略,可獲得潛在的增益,顯著降低無線回程鏈路負載,提升用戶滿意度,且這種完全基于數據的分析不需要任何不切實際的假設。機器學習是對數據進行分析和挖掘的主要工具,可用于提取核心網端口文件請求模式。由于不同地理位置的小站服務的人群有相似性也有差異性,導致文件訪問在空間上存在著潛在的模式。同時,文件訪問在相鄰的請求時間段之間也存在著關聯(lián),即文件請求也存在著時間模式。此外,在網絡的高峰訪問期不斷有新的文件會被大量訪問。
基于此,本方法首先在非高峰訪問期引入k均值聚類方法分析歷史訪問數據,挖掘文件請求的空時模式,根據小站所服務用戶的文件偏好對小站進行聚類,找出各類小站內流行的文件,實現類間的個性化緩存與類內的預測性緩存,同時利用歷史訪問數據與聚類結果構建用于新文件分類的訓練集;然后,在高峰訪問期引入k近鄰分類方法周期性地對不斷出現的新文件進行分類,并緩存在偏好這類文件的小站類內;最后結合各類小站內歷史流行文件與不斷出現的新文件制定實時更新的緩存策略,顯著降低系統(tǒng)回程鏈路負載,極大提升用戶滿意度。
為了達到上述目的,本發(fā)明提供如下技術方案:
基于機器學習的超密集網絡小站緩存方法,包括如下步驟:
步驟1:采集網絡信息及歷史文件請求記錄,設置參數:
采集網絡中宏站集合
步驟2:利用k均值聚類分析文件請求次數矩陣al-2(t,τ),對小站進行聚類,挖掘文件請求中的空間模式:
步驟3:把文件請求次數矩陣al-2(t,τ)轉換為由元素0和1組成的文件請求指示矩陣
其中[·]pc代表矩陣的第p行第c列的元素,
步驟4:通過選取集合ωj,
步驟5:根據文件請求指示矩陣
步驟6:在不超過小站緩存空間s的前提下,結合歷史文件緩存順序向量
步驟7:根據公式(5)計算第(l-1)天的系統(tǒng)回程鏈路負載:
其中
步驟8:利用從第(l-2)天文件請求次數矩陣al-2(t,τ)中得到的緩存決策矩陣xk(t)及第(l-1)天文件請求次數矩陣al-1(t,τ)挖掘文件請求中的時間模式,設置k=k+1,比較k和小站聚類數目最大值kmax,若k<kmax,則回到步驟2;否則,進行第步驟9;
步驟9:選取使公式(5)系統(tǒng)回程鏈路負載最小的聚類個數k,記錄此聚類情況下的歷史文件緩存順序向量
步驟10:基于步驟3得到的文件請求指示矩陣
其中列向量
步驟11:設置第l天的采集新文件起始時刻t為高峰訪問期起始時刻加上τ′,τ′為采集文件時間間隔;
步驟12:采集第l天的(t-τ′,t]時間間隔內的新文件請求記錄,新文件集合為
步驟13:把新文件請求次數矩陣al(t,τ′)轉換為由元素0和1組成的新文件請求指示矩陣
步驟14:矩陣
步驟15:根據新文件類別yi,
步驟16:聯(lián)合考慮歷史受歡迎文件與新請求文件產生新的文件緩存順序向量
步驟17:在不超過小站緩存空間s的前提下,結合
步驟18:如還在高峰訪問期,每隔一段時間間隔τ′,在t=t+τ′時刻執(zhí)行步驟12到步驟17更新緩存的文件;如高峰訪問期結束,進行第步驟19;
步驟19:停止執(zhí)行。
進一步的,所述步驟2具體包括:
步驟2-1,初始化k個類的初始質心
步驟2-2,矩陣al-2(t,τ)的第p行是第p個小站對c個文件的請求次數行向量,記為
其中ξp是行向量
步驟2-3,重新計算各類的質心
其中|·|代表集合的大??;
步驟2-4,計算代價函數ek:
步驟2-5,比較ek和e0,如果-10-5≤ek-e0≤10-5,則設置e0=ek,回到2;否則,記錄小站聚類結果ωj,
進一步的,所述步驟1到步驟10在非高峰訪問期執(zhí)行。
進一步的,所述步驟11中采集文件時間間隔設置為0.5小時。
進一步的,所述步驟14中利用k近鄰分類新請求的文件過程包括:
步驟14-1,根據公式(8)給定的歐氏距離度量,在公式(6)所示的訓練集
步驟14-2,在
與現有技術相比,本發(fā)明具有如下優(yōu)點和有益效果:
通過采集核心網的真實文件請求記錄,從數據本身挖掘文件請求模式,用于制定緩存策略,不需要任何不切實際的假設,能很好地適用于實際系統(tǒng),且能帶來傳統(tǒng)方法無可比擬的性能增益,顯著降低系統(tǒng)回程鏈路負載,大幅度提升用戶滿意度。該方法在非高峰訪問期,基于k均值聚類方法深入挖掘歷史文件請求記錄中的空時模式,把文件請求作為特征,對小站進行聚類,找出并存儲每類小站偏好的文件,構建用于新文件分類的訓練集;在高峰訪問期,基于k近鄰分類方法周期性地采集并分類網絡中新請求的文件,根據分類結果不斷地將新文件存儲在相應的小站中。本發(fā)明提出的方法基于機器學習制定緩存策略,各類小站聯(lián)合存儲類內的歷史流行文件與本類小站偏好的新文件,能充分利用小站有限的緩存空間存儲小站所服務人群最需要的文件,可顯著降低系統(tǒng)回程鏈路負載,極大提升用戶滿意度。
附圖說明
圖1為本發(fā)明提供的基于機器學習的超密集網絡小站緩存方法流程圖。
具體實施方式
以下將結合具體實施例對本發(fā)明提供的技術方案進行詳細說明,應理解下述具體實施方式僅用于說明本發(fā)明而不用于限制本發(fā)明的范圍。
本發(fā)明提供的基于機器學習的超密集網絡小站緩存方法,如圖1所示,包括如下步驟:
步驟1:采集網絡信息及歷史文件請求記錄,設置參數:
采集網絡中宏站集合
步驟2:利用k均值聚類分析文件請求次數矩陣al-2(t,τ),對小站進行聚類,挖掘文件請求中的空間模式:
1.初始化k個類的初始質心
2.矩陣al-2(t,τ)的第p行是第p個小站對c個文件的請求次數行向量,記為
其中ξp是行向量
3.重新計算各類的質心
其中|·|代表集合的大??;
4.計算代價函數ek:
5.比較ek和e0,如果-10-5≤ek-e0≤10-5,則設置e0=ek,回到2;否則,記錄小站聚類結果ωj,
步驟3:把文件請求次數矩陣al-2(t,τ)轉換為由元素0和1組成的文件請求指示矩陣
其中[·]pc代表矩陣的第p行第c列的元素,
步驟4:通過選取集合ωj,
步驟5:根據文件請求指示矩陣
步驟6:在不超過小站緩存空間s的前提下,結合歷史文件緩存順序向量
步驟7:根據公式(5)計算第(l-1)天的系統(tǒng)回程鏈路負載:
其中
步驟8:利用從第(l-2)天文件請求次數矩陣al-2(t,τ)中得到的緩存決策矩陣xk(t)及第(l-1)天文件請求次數矩陣al-1(t,τ)挖掘文件請求中的時間模式,設置k=k+1,比較k和小站聚類數目最大值kmax,若k<kmax,則回到步驟2;否則,進行第步驟9;
步驟9:選取使公式(5)系統(tǒng)回程鏈路負載最小的聚類個數k,記錄此聚類情況下的歷史文件緩存順序向量
步驟10:基于步驟3得到的文件請求指示矩陣
其中列向量
注:步驟1到步驟10在非高峰訪問期執(zhí)行;旨在從歷史文件請求記錄中挖掘小站中文件請求的空時模式,作出關于歷史受歡迎文件(即偏好文件)的緩存決策;同時用歷史數據構建訓練集,用來對將會在高峰訪問期新請求的文件進行分類緩存;
步驟11:設置第l天的采集新文件起始時刻t為高峰訪問期起始時刻加上τ′,τ′為采集文件時間間隔,設置為0.5小時;
步驟12:采集第l天的(t-τ′,t]時間間隔內的新文件請求記錄,新文件集合為
步驟13:把新文件請求次數矩陣al(t,τ′)轉換為由元素0和1組成的新文件請求指示矩陣
步驟14:矩陣
1.根據公式(8)給定的歐氏距離度量,在公式(6)所示的訓練集
2.在
步驟15:根據新文件類別yi,
步驟16:聯(lián)合考慮歷史受歡迎文件與新請求文件產生新的文件緩存順序向量
步驟17:在不超過小站緩存空間s的前提下,結合
步驟18:如還在高峰訪問期,每隔一段時間間隔τ′,在t=t+τ′時刻執(zhí)行步驟12到步驟17更新緩存的文件;如高峰訪問期結束,進行第步驟19;
步驟19:停止執(zhí)行。
本發(fā)明方案所公開的技術手段不僅限于上述實施方式所公開的技術手段,還包括由以上技術特征任意組合所組成的技術方案。應當指出,對于本技術領域的普通技術人員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進和潤飾,這些改進和潤飾也視為本發(fā)明的保護范圍。