專利名稱:一種基于mcmc的并行分類方法
技術(shù)領(lǐng)域:
本發(fā)明涉及數(shù)據(jù)分類技術(shù),尤其涉及一種基于MCMC的并行分類方法。
背景技術(shù):
針對數(shù)據(jù)分類問題,目前存在許多分類方法,單一的分類方法主要包括決策樹、貝葉斯、人工神經(jīng)網(wǎng)絡、K-近鄰、支持向量機和基于關(guān)聯(lián)規(guī)則的分類等。另外還有用于組合單一分類方法的集成學習方法,如Bagging方 法和Boosting方法等。在諸多分類方法中,貝葉斯分類算法是一類利用概率統(tǒng)計知識進行分類的算法。當面對大數(shù)據(jù)的分類問題時,基于統(tǒng)計學的貝葉斯算法就顯現(xiàn)出了它的優(yōu)勢。貝葉斯算法基本思想是通過貝葉斯規(guī)則(參見公式I)進行參數(shù)后驗證概率推斷的過程。
權(quán)利要求
1.一種基于MCMC的并行分類方法,應用于包括N行處理器和P列處理器構(gòu)成的運算系統(tǒng)中,每個處理器至少包含一條馬爾科夫鏈和一個特征,同一行中的P個處理器具有相同的馬爾科夫鏈,同一列中的N個處理器具有相同的個體特征,其特征在于 根據(jù)初始狀態(tài)計算似然估計; 根據(jù)似然估計計算出參數(shù)的后驗概率; 根據(jù)所述后驗概率進行MCMC模擬運算,以當前狀態(tài)為基礎,產(chǎn)生新狀態(tài); 根據(jù)所述新狀態(tài)計算接受概率,并通過第一隨機數(shù)產(chǎn)生器產(chǎn)生第一隨機數(shù),所述同一行中的處理器具有相同的第一隨機數(shù)產(chǎn)生器; 判斷所述接受概率和所述第一隨機數(shù)的比較結(jié)果,當所述第一隨機數(shù)小于所述接受概率時,則下一時刻的狀態(tài)為所述新狀態(tài),否則保持原狀態(tài)不變; 通過第二隨機數(shù)產(chǎn)生器產(chǎn)生準備進行交換的馬爾科夫鏈的標號,所述每個處理器具有相同的第二隨機數(shù)產(chǎn)生器; 當處理器中包含的馬爾科夫鏈參與了交換,則同一列中的處理器計算出交換概率,并利用第二隨機數(shù)產(chǎn)生器產(chǎn)生第二隨機數(shù),判斷所述交換概率和所述第二隨機數(shù)的比較結(jié)果,當所述第二隨機數(shù)小于所述交換概率時,則交換兩條馬爾科夫鏈的加熱參數(shù),否則交換不發(fā)生。
2.根據(jù)權(quán)利要求1所述的并行分類方法,其特征在于,所述根據(jù)初始狀態(tài)計算似然估計步驟包括 所述同一行中的處理器根據(jù)初始狀態(tài)和部分數(shù)據(jù)計算出局部似然估計; 所述同一行中的處理器將所述局部似然估計合并為全局似然估計。
3.根據(jù)權(quán)利要求1所述的并行分類方法,其特征在于,所述根據(jù)所述似然估計計算出參數(shù)的后驗概率步驟包括 根據(jù)所述似然估計利用公式/Vf I計算出參數(shù)的后驗概率, 其中,E是包含測試數(shù)據(jù)的訓練數(shù)據(jù)集,H是參數(shù),P(E)是數(shù)據(jù)集的非條件概率,P(H)是根據(jù)數(shù)據(jù)計算的先驗概率,P(ElH)是根據(jù)預先設置的模型計算的參數(shù)似然估計,P(H|E)是參數(shù)的后驗概率。
4.根據(jù)權(quán)利要求1所述的并行分類方法,其特征在于,所述根據(jù)所述新狀態(tài)計算接受概率步驟包括根據(jù)所述新狀態(tài)利用公4十算出所述接受概率。
5.根據(jù)權(quán)利要求1所述的并行分類方法,其特征在于,所述則同一列中的處理器計算出交換概率步驟包括 同一列中的處理器根據(jù)公式f =計算出交換概率。
6.根據(jù)權(quán)利要求1所述的并行分類方法,其特征在于,所述當所述第二隨機數(shù)小于所述交換概率時,則交換兩條馬爾科夫鏈的加熱參數(shù)的步驟包括當交換的兩條馬爾科夫鏈在同一處理器中時,則直接進行加熱參數(shù)的交換,否則,通過處理器間的通訊來進行加熱參數(shù)的交換。
全文摘要
本發(fā)明公開了一種基于MCMC的并行分類方法,包括根據(jù)初始狀態(tài)計算似然估計;根據(jù)似然估計計算出參數(shù)的后驗概率;根據(jù)后驗概率進行MCMC模擬運算,以當前狀態(tài)為基礎,產(chǎn)生新狀態(tài);根據(jù)新狀態(tài)計算接受概率,并產(chǎn)生第一隨機數(shù),當?shù)谝浑S機數(shù)小于接受概率時,則下一時刻的狀態(tài)為新狀態(tài),否則保持當前狀態(tài)不變;產(chǎn)生同一列處理器中準備進行交換的馬爾科夫鏈的標號;當處理器中的馬爾科夫鏈參與了交換,則計算出交換概率,并產(chǎn)生第二隨機數(shù),判斷交換概率和第二隨機數(shù)的比較結(jié)果,當?shù)诙S機數(shù)小于交換概率時,則交換處理中的馬爾科夫鏈的加熱參數(shù),否則交換不發(fā)生。本發(fā)明縮短了MC3算法和MCMC算法的執(zhí)行時間,并減小了通訊開銷。
文檔編號G06F17/18GK102999477SQ20121056342
公開日2013年3月27日 申請日期2012年12月21日 優(yōu)先權(quán)日2012年12月21日
發(fā)明者遲學斌, 周純葆, 郎顯宇, 王玨, 鄧筍根 申請人:中國科學院計算機網(wǎng)絡信息中心