亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于輔助代價和相似狀態(tài)的非凸優(yōu)化方法與流程

文檔序號:12602062閱讀:260來源:國知局
一種基于輔助代價和相似狀態(tài)的非凸優(yōu)化方法與流程

本發(fā)明涉及最優(yōu)化、人工智能和大數(shù)據(jù)領(lǐng)域,特別涉及基于輔助代價和相似狀態(tài)的非凸優(yōu)化方法。



背景技術(shù):

優(yōu)化問題在很多科學和工程領(lǐng)域都扮演著非常重要的角色。優(yōu)化問題可以表示成在給定的關(guān)于自變量變化范圍的約束條件下求解給定代價函數(shù)的最小值,其中的凸優(yōu)化問題是指對自變量在凸集內(nèi)變化的凸代價函數(shù)進行優(yōu)化。凸優(yōu)化方法可以很好地解決凸優(yōu)化問題,現(xiàn)有方法包括單純形法、梯度下降法、共軛梯度下降法、二階方法等。但是,對于更多的實際問題,其代價函數(shù)或自變量的變化范圍通常是非凸的,存在大量的局部最優(yōu)點,要想有效地求解一般非凸問題的全局最優(yōu)解,是一個有待解決的問題。非凸優(yōu)化方法是一種用于搜索并逼近非凸問題的全局最優(yōu)解的方法,現(xiàn)有方法包括遺傳算法、模擬退火算法、禁忌搜索、粒子群算法、神經(jīng)網(wǎng)絡等,但是它們的搜索效率大都非常低下。如何提高現(xiàn)有非凸優(yōu)化方法的搜索效率,是一個有待解決的問題。

深度學習系統(tǒng)的參數(shù)優(yōu)化問題,是一個典型的非凸優(yōu)化問題。參見參考文獻1“G.E.Hinton and R.R.Salakhutdinov,"Reducing the dimensionality of data with neural networks,"Science,vol.313,no.5786,pp.504-507,2006”,G.E.Hinton等人在2006年提出了用于深度置信網(wǎng)的逐層初始化訓練方法,是深度學習系統(tǒng)的研究起點,它是通過模擬人腦分層次的抽象,將底層數(shù)據(jù)逐層映射而獲得更抽象的特征,由于它可以從大數(shù)據(jù)中自動提取特征,并通過海量的樣本訓練獲得很好的處理效果,從而得到了廣泛的關(guān)注。此外,深度學習的研究和大數(shù)據(jù)的增長是相輔相成的,一方面大數(shù)據(jù)的快速增長需要一種高效處理海量數(shù)據(jù)的方法,另一方面深度學習系統(tǒng)的訓練需要海量的樣本數(shù)據(jù)。就目前來說,由于凸優(yōu)化方法的高效性和非凸優(yōu)化方法的低效性,針對海量的樣本數(shù)據(jù),用凸優(yōu)化方法來優(yōu)化深度學習系統(tǒng)的大量參數(shù)是最常見的方法。

非凸優(yōu)化方法難以在深度學習系統(tǒng)中發(fā)揮應有的作用,歸根結(jié)底是因為非凸優(yōu)化方法的低效率。在2013年Y.Bengio等人的一篇綜述論文中,總結(jié)了目前深度學習所面臨的挑戰(zhàn)和難點,包括如何擴展現(xiàn)有的深度學習系統(tǒng)的規(guī)模,并應用到更大 的數(shù)據(jù)集;如何減小參數(shù)優(yōu)化困難;如何避免昂貴的推理和采樣,以及如何解開變化因素等。參見參考文獻2“Y.Bengio,A.Courville,and P.Vincent,"Representation Learning:A Review and New Perspectives,"IEEE Transactions on Pattern Analysis and Machine Intelligence,vol.35,Issue.8,pp.1798-1828,2013”??傊?,一旦非凸優(yōu)化方法的搜索效率得到提高,它就可以直接應用于深度學習系統(tǒng)的參數(shù)優(yōu)化中。



技術(shù)實現(xiàn)要素:

本發(fā)明的目的在于克服已有的非凸優(yōu)化方法效率較低的缺陷,從而提供一種具有較高效率的非凸優(yōu)化方法。

為了實現(xiàn)上述目的,本發(fā)明提供了一種基于輔助代價和相似狀態(tài)的非凸優(yōu)化方法,包括:用基于輔助代價函數(shù)Ca的初始化方法搜索到一個初始狀態(tài),再通過快速搜索方法找到代價函數(shù)C的一個局部最優(yōu)狀態(tài)E1,然后開始尋找與E1類似的局部最優(yōu)狀態(tài)E2,之后再尋找與E2類似的局部最優(yōu)狀態(tài)E3,循環(huán)往復地找到一系列局部最優(yōu)狀態(tài),直到代價函數(shù)C的局部最優(yōu)狀態(tài)的數(shù)目滿足閾值為止;其中,所述輔助代價函數(shù)Ca較代價函數(shù)C的表達式簡單;Ei和它的類似狀態(tài)之間的相似度,隨著i的增加而減小。

上述技術(shù)方案中,該方法具體包括:

步驟1)、在基于輔助代價的初始化方法的集合Ma={mai}中隨機選擇一種狀態(tài)更新方法,基于對輔助代價函數(shù)Ca的評價,重復更新當前狀態(tài),直到找到輔助代價函數(shù)的局部最優(yōu)為止,得到初始狀態(tài)Ea;其中,

所述基于輔助代價的初始化方法的集合中包括有能夠快速達到局部最優(yōu)的方法;輔助代價函數(shù)Ca取代價函數(shù)C進行泰勒展開的前三項,忽略三階以上的展開項;

步驟2)、令局部最優(yōu)狀態(tài)的數(shù)目L*=1,在局部搜索方法的集合Mf={mfi}中隨機選擇一種狀態(tài)更新方法,以步驟1)所得到的初始狀態(tài)Ea為基礎(chǔ),基于對原有代價函數(shù)C的評價,重復更新當前狀態(tài),直到找到代價函數(shù)C的一個局部最優(yōu)為止,從而得到局部最優(yōu)狀態(tài)E1;其中,

所述局部搜索方法的集合中包括有能夠快速達到局部最優(yōu)的方法;

步驟3)、令局部最優(yōu)狀態(tài)的數(shù)目L*=L*+1,在相似狀態(tài)生成方法的集合Ms={msi}中隨機選擇一種狀態(tài)更新方法,在給定的相似度范圍內(nèi)更新當前狀態(tài),然后在局部搜索方法的集合Mf={mfi}中隨機選擇一種狀態(tài)更新方法,基于對原有代價函數(shù)C的評價,反復更新當前狀態(tài),直到找到代價函數(shù)C的另一個局部最優(yōu)為止,從而得到 另一局部最優(yōu)狀態(tài);其中,

所述相似狀態(tài)生成方法的集合中包括有在給定的相似度范圍內(nèi)生成與當前狀態(tài)相似的另一個狀態(tài)的方法;

步驟4)、判斷局部最優(yōu)狀態(tài)的數(shù)目L*是否大于閾值L,如果判斷結(jié)果是肯定的,轉(zhuǎn)入步驟5),否則,返回步驟3);

步驟5)、比較所有搜索到的L*個局部最優(yōu)狀態(tài)的代價,輸出一個代價函數(shù)C最小的局部最優(yōu)狀態(tài)。

上述技術(shù)方案中,所述基于輔助代價的初始化方法的集合中包括:采用輔助代價函數(shù)Ca的梯度下降法和共軛梯度下降法;其中,梯度下降法在實現(xiàn)時始終沿著▽Ca的方向搜索;共軛梯度下降法用已知的▽Ca構(gòu)造一組共軛方向,并沿這組方向進行搜索,它的每一個搜索方向是互相共軛的。

上述技術(shù)方案中,所述局部搜索方法的集合中包括:代價函數(shù)C的梯度下降法、共軛梯度下降法和二階梯度下降法;其中,梯度下降法始終沿著▽C的方向搜索;共軛梯度下降法用已知的▽C構(gòu)造一組共軛方向,并沿這組方向進行搜索,它的每一個搜索方向是互相共軛的;二階梯度下降法沿著▽2C的方向搜索,代價函數(shù)C的二階導數(shù)矩陣是Hesse矩陣。

上述技術(shù)方案中,所述相似狀態(tài)生成方法的集合中包括:在給定的相似度范圍內(nèi)隨機交換一部分被選中參數(shù)的方法和隨機初始化一部分被選中參數(shù)的方法;其中的隨機交換一部分被選中參數(shù)的方法對選中的參數(shù)θi和θj進行操作(θi,θj)=(θj,θi);隨機初始化一部分被選中參數(shù)的方法對選中的參數(shù)θi進行操作θi=random(θminmax)。

上述技術(shù)方案中,采用相似狀態(tài)生成方法在給定的相似度范圍內(nèi)更新當前狀態(tài)時,當前狀態(tài)A與更新后的狀態(tài)B之間的相似度的取值范圍定為:

<mrow> <mfrac> <mrow> <mi>L</mi> <mo>-</mo> <mi>L</mi> <mo>*</mo> </mrow> <mi>L</mi> </mfrac> <mo>&le;</mo> <mi>S</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <mi>A</mi> <mo>,</mo> <mi>B</mi> <mo>)</mo> </mrow> <mo>&le;</mo> <mfrac> <mrow> <mi>L</mi> <mo>-</mo> <mi>L</mi> <mo>*</mo> <mo>+</mo> <mn>1</mn> </mrow> <mi>L</mi> </mfrac> <mo>;</mo> </mrow>

其中,狀態(tài)A和狀態(tài)B之間的相似度定義為局部最優(yōu)狀態(tài)的數(shù)目L*的取值范圍是[1,L];所述閾值L的取值范圍是[2,NL],其中NL是解空間中代價函數(shù)C的局部最優(yōu)點的總數(shù)。

上述技術(shù)方案中,所述閾值L的取值在2和20之間。

本發(fā)明的優(yōu)點在于:

本發(fā)明的方法提高了現(xiàn)有的非凸優(yōu)化方法的效率,降低了深度學習系統(tǒng)的參數(shù) 優(yōu)化難度。

附圖說明

圖1是本發(fā)明的基于輔助代價和相似狀態(tài)的高效非凸優(yōu)化過程的示意圖;

圖2是本發(fā)明的基于輔助代價和相似狀態(tài)的高效非凸優(yōu)化方法的流程圖。

具體實施方式

現(xiàn)結(jié)合附圖對本發(fā)明作進一步的描述。

如圖1所示,基于輔助代價和相似狀態(tài)的高效非凸優(yōu)化過程包括:先引入輔助代價函數(shù)Ca,用基于輔助代價的初始化方法搜索到一個初始狀態(tài)Ea,再通過快速搜索方法找到代價函數(shù)C的一個局部最優(yōu)狀態(tài)E1,然后開始尋找與E1類似的局部最優(yōu)狀態(tài)E2,之后再尋找與E2類似的局部最優(yōu)狀態(tài)E3,循環(huán)往復地找到一系列局部最優(yōu)狀態(tài)E1、E2、E3、E4等,直到代價函數(shù)C的局部最優(yōu)狀態(tài)的數(shù)目滿足閾值為止。其中,Ei和它的類似狀態(tài)之間的相似度,隨著i的增加而減小。

為了實現(xiàn)上述過程,在原有的代價函數(shù)C的基礎(chǔ)上,引入一個更容易優(yōu)化的輔助代價函數(shù)Ca,用于尋找一個接近最優(yōu)狀態(tài)的初始點。本發(fā)明中的輔助代價函數(shù)Ca在理論上只要比代價函數(shù)C的表達式更為簡單即可適用,若能近似反映原函數(shù)的變化趨勢則更佳。作為一種優(yōu)選實現(xiàn)方式,在本發(fā)明的一個實施例中,所述的輔助代價函數(shù)Ca可通過如下方式獲?。喝≡鷥r函數(shù)C進行泰勒展開的前三項,忽略三階以上的展開項。

在本發(fā)明中將狀態(tài)更新方法的集合M={mi}分為:基于輔助代價的初始化方法的集合Ma={mai},局部搜索方法的集合Mf={mfi},以及相似狀態(tài)生成方法的集合Ms={msi},即:

M=Ma∪Mf∪Ms

其中,狀態(tài)更新方法,是指任何一種從一個狀態(tài)變化到另一個狀態(tài)的方法;基于輔助代價的初始化方法,是指一種根據(jù)輔助代價函數(shù)Ca生成一個接近最優(yōu)狀態(tài)的初始點的方法;局部搜索方法,是指一種快速找到距離當前狀態(tài)最近的局部最優(yōu)點的方法;相似狀態(tài)生成方法,是指一種在給定的相似度范圍內(nèi)生成與當前狀態(tài)相似的另一個狀態(tài)的方法。

其中,基于輔助代價的初始化方法mai在實現(xiàn)時可采用能夠快速達到局部最優(yōu)的方法,如采用輔助代價函數(shù)Ca的梯度下降法和共軛梯度下降法,在初始化時可從中 隨機選擇一種。其中的梯度下降法在實現(xiàn)時始終沿著▽Ca的方向搜索;共軛梯度下降法用已知的▽Ca構(gòu)造一組共軛方向,并沿這組方向進行搜索,它的每一個搜索方向是互相共軛的。

局部搜索方法mfi在實現(xiàn)時可采用能夠快速達到局部最優(yōu)的現(xiàn)有方法,如采用代價函數(shù)C的梯度下降法、共軛梯度下降法和二階梯度下降法,在初始化時可從中隨機選擇一種。其中的梯度下降法始終沿著▽C的方向搜索;共軛梯度下降法用已知的▽C構(gòu)造一組共軛方向,并沿這組方向進行搜索,它的每一個搜索方向是互相共軛的;二階梯度下降法沿著▽2C的方向搜索,代價函數(shù)C的二階導數(shù)矩陣是Hesse矩陣。

相似狀態(tài)生成方法msi在實現(xiàn)時可采用在給定的相似度范圍內(nèi)生成與當前狀態(tài)相似的另一個狀態(tài)的方法,如在給定的相似度范圍內(nèi)隨機交換一部分被選中參數(shù)的方法和隨機初始化一部分被選中參數(shù)的方法。在初始化時可從中隨機選擇一種。其中的隨機交換參數(shù)的方法對選中的參數(shù)θi和θj進行操作(θi,θj)=(θj,θi);隨機初始化的方法對選中的參數(shù)θi進行操作θi=random(θminmax)。

其中,當使用相似狀態(tài)生成方法msi從狀態(tài)A變化到相似狀態(tài)B時,相似度的取值范圍定為:

<mrow> <mfrac> <mrow> <mi>L</mi> <mo>-</mo> <mi>L</mi> <mo>*</mo> </mrow> <mi>L</mi> </mfrac> <mo>&le;</mo> <mi>S</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <mi>A</mi> <mo>,</mo> <mi>B</mi> <mo>)</mo> </mrow> <mo>&le;</mo> <mfrac> <mrow> <mi>L</mi> <mo>-</mo> <mi>L</mi> <mo>*</mo> <mo>+</mo> <mn>1</mn> </mrow> <mi>L</mi> </mfrac> </mrow>

其中,狀態(tài)A和狀態(tài)B之間的相似度定義為局部最優(yōu)狀態(tài)的數(shù)目L*的取值范圍是[1,L],閾值L的取值范圍是[2,NL],這里的NL是解空間中代價函數(shù)C的局部最優(yōu)點的總數(shù)。

如圖2所示,本發(fā)明提供了基于輔助代價和相似狀態(tài)的高效非凸優(yōu)化方法,所述方法的具體步驟包括:

步驟1)、在基于輔助代價的初始化方法的集合Ma={mai}中隨機選擇一種狀態(tài)更新方法,基于對輔助代價函數(shù)Ca的評價,重復更新當前狀態(tài),直到找到輔助代價函數(shù)的局部最優(yōu)為止,得到初始狀態(tài)Ea;具體的說,以各50%的概率在梯度下降法和共軛梯度下降法中隨機選擇一種狀態(tài)更新方法后,在第一輪搜索時隨機產(chǎn)生第一個當前狀態(tài),然后進行狀態(tài)更新,每更新一次,當前狀態(tài)就變化一次,最后達到Ca的局部最優(yōu),此時的當前狀態(tài)就是在初始化過程中所要求取的初始狀態(tài)Ea

以深度學習系統(tǒng)為例,在深度學習系統(tǒng)的參數(shù)優(yōu)化過程中,所述步驟1)具體包括:將網(wǎng)絡能量設(shè)定為輔助代價,在基于輔助代價的初始化方法的集合Ma={mai}中選擇一種更新方法,并在無標注訓練樣本集合Xt={xti}中選擇樣本,從底層開始逐層初始化深度學習系統(tǒng),不斷更新現(xiàn)有的網(wǎng)絡參數(shù),直到頂層為止。

步驟2)、令L*=1,在局部搜索方法的集合Mf={mfi}中隨機選擇一種狀態(tài)更新方法,以步驟1)所得到的初始狀態(tài)Ea為基礎(chǔ),基于對原有代價函數(shù)C的評價,重復更新當前狀態(tài),直到找到代價函數(shù)C的一個局部最優(yōu)為止,從而得到局部最優(yōu)狀態(tài)E1;

在深度學習系統(tǒng)的參數(shù)優(yōu)化過程中,所述步驟2)具體包括:將驗證誤差設(shè)為代價函數(shù),在局部搜索方法的集合Mf={mfi}中選擇一種方法,在有標注訓練樣本集合Yt={xti,yti}中選擇樣本,重復更新現(xiàn)有的網(wǎng)絡參數(shù),直到找到代價函數(shù)C的一個局部最優(yōu)狀態(tài)為止。

步驟3)、令L*=L*+1,在相似狀態(tài)生成方法的集合Ms={msi}中隨機選擇一種狀態(tài)更新方法,在給定的相似度范圍內(nèi)更新當前狀態(tài),然后在局部搜索方法的集合Mf={mfi}中隨機選擇一種狀態(tài)更新方法,基于對原有代價函數(shù)C的評價,反復更新當前狀態(tài),直到找到代價函數(shù)C的另一個局部最優(yōu)為止,從而得到另一局部最優(yōu)狀態(tài);

在深度學習系統(tǒng)的參數(shù)優(yōu)化過程中,所述步驟3)具體包括:按照給定的比例選中部分網(wǎng)絡參數(shù),先在相似狀態(tài)生成方法的集合Ms={msi}中選擇一種更新方法,在給定的相似度范圍內(nèi)更新被選中的參數(shù),然后在局部搜索方法的集合Mf={mfi}中選擇一種方法,在保持未被選中的網(wǎng)絡參數(shù)不變的前提下,以高學習率反復更新被選中的網(wǎng)絡參數(shù),直到找到代價函數(shù)C的另一個局部最優(yōu)為止。

步驟4)、判斷局部最優(yōu)狀態(tài)的數(shù)目L*是否大于閾值L,如果判斷結(jié)果是肯定的,轉(zhuǎn)入步驟5),否則,返回步驟3);

之前已經(jīng)提到,在理論上,閾值L的取值范圍是[2,NL],這里的NL是解空間中代價函數(shù)C的局部最優(yōu)點的總數(shù)。對于大部分復雜的非凸優(yōu)化問題而言,NL是一個大自然數(shù);在實際操作中,先設(shè)定閾值L=7,如果精度不夠則增加L,如果時間不夠則減小L,一般不會超過20,即:L的實際取值在2和20之間。

步驟5)比較所有搜索到的L*個局部最優(yōu)狀態(tài)的代價,輸出一個代價函數(shù)C最小的局部最優(yōu)狀態(tài)。

最后所應說明的是,以上實施例僅用以說明本發(fā)明的技術(shù)方案而非限制。盡管參照實施例對本發(fā)明進行了詳細說明,本領(lǐng)域的普通技術(shù)人員應當理解,對本發(fā)明的技術(shù)方案進行修改或者等同替換,都不脫離本發(fā)明技術(shù)方案的精神和范圍,其均應涵蓋在本發(fā)明的權(quán)利要求范圍當中。

當前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1