基于圖形處理單元的自組織映射神經(jīng)網(wǎng)絡(luò)聚類方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明涉及一種基于圖形處理單元的并行化自組織映射神經(jīng)網(wǎng)絡(luò)的聚類方法及系統(tǒng),相對傳統(tǒng)的串行化聚類方法,本發(fā)明通過算法的并行化和基于圖形處理單元的并行加速系統(tǒng),能更快的實(shí)現(xiàn)大規(guī)模數(shù)據(jù)的聚類。本發(fā)明主要涉及兩方面的內(nèi)容:(1)首先,針對圖形處理單元的高并行計算能力的特點(diǎn),設(shè)計了一種并行化自組織映射神經(jīng)網(wǎng)絡(luò)的聚類方法,該方法通過并行化統(tǒng)計文檔的關(guān)鍵詞詞頻得到詞頻矩陣,通過并行化計算文本的特征向量生成數(shù)據(jù)集的特征矩陣,通過并行化的自組織映射神經(jīng)網(wǎng)絡(luò)聚類得到海量數(shù)據(jù)對象的簇結(jié)構(gòu);(2)其次,利用圖形處理單元(GPU)和中央處理器(CPU)之間的計算能力的互補(bǔ)性,設(shè)計了一套基于CPU/GPU協(xié)作框架的并行化文本聚類系統(tǒng)。
【專利說明】基于圖形處理單元的自組織映射神經(jīng)網(wǎng)絡(luò)聚類方法及系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種并行化的自組織映射神經(jīng)網(wǎng)絡(luò)聚類方法及系統(tǒng),尤其涉及一種基于圖形處理單元的并行化自組織映射神經(jīng)網(wǎng)絡(luò)聚類方法及系統(tǒng)。
【背景技術(shù)】
[0002]目前,隨著計算機(jī)的普及,互聯(lián)網(wǎng)的用戶數(shù)持續(xù)不斷的增長,互聯(lián)網(wǎng)用戶在網(wǎng)絡(luò)上每天產(chǎn)生大量的信息。同時,一些具有大量用戶的社會化媒體系統(tǒng)中,每天也有大量的新數(shù)據(jù)增加。數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)算法為我們從這些數(shù)據(jù)中提取有價值的信息提供了可行方法,但是大部分算法的學(xué)習(xí)流程復(fù)雜,需要迭代學(xué)習(xí),處理海量數(shù)據(jù)所花費(fèi)的時間較長。雖然有用信息被提取,但是信息可能已經(jīng)不具有時效性,這就需要開發(fā)更快的算法或者采用更高性能的運(yùn)算設(shè)備。采用高性能機(jī)器或CPU集群的方式固然能加快算法的運(yùn)算過程,但是企業(yè)需要承擔(dān)巨額的資金投入。目前,多核技術(shù)已經(jīng)發(fā)展的相對成熟,圖形處理單元(GPU)的數(shù)值計算性能遠(yuǎn)遠(yuǎn)超過了 CPU的性能,利用GPU的多核特性,充分發(fā)掘算法的并行能力成為現(xiàn)今計算機(jī)科學(xué)的研究熱點(diǎn)。
[0003]在數(shù)據(jù)挖掘領(lǐng)域,已經(jīng)有部分?jǐn)?shù)據(jù)挖掘算法通過改進(jìn)使其能夠運(yùn)行于圖形處理單元設(shè)備上,并取得了至少5-6倍的加速,有的甚至能達(dá)到20-30倍的加速效果。數(shù)據(jù)挖掘領(lǐng)域中一個重要的研究方向就是針對文本數(shù)據(jù)的挖掘,而文本聚類在文本挖掘領(lǐng)域中扮演著重要角色。聚類是依據(jù)數(shù)據(jù)的特征,根據(jù)數(shù)據(jù)之間的相似程度,聚集成不同的文本簇。根據(jù)統(tǒng)計,人類社會有80%的信息以文本為載體形式存在。文本聚類技術(shù)可以對文本數(shù)據(jù)有效組織、摘要和導(dǎo)航。
[0004]SOM網(wǎng)絡(luò)是通過模擬人腦對外界信息處理的特點(diǎn)而設(shè)計的一種人工神經(jīng)網(wǎng)絡(luò),是一種無監(jiān)督的學(xué)習(xí)方法,非常適合于處理高維文本數(shù)據(jù)的聚類問題。SOM(Self-OrganizingMapping,簡稱“SOM”)網(wǎng)絡(luò)無須用戶指定聚類簇數(shù),網(wǎng)絡(luò)會在訓(xùn)練過程中自適應(yīng)的進(jìn)行聚類,對離群點(diǎn)噪音數(shù)據(jù)不敏感,具有很強(qiáng)的抗噪音能力。SOM根據(jù)訓(xùn)練樣本中的樣本分布規(guī)律進(jìn)行聚類,對數(shù)據(jù)的形狀不敏感。然而現(xiàn)有的SOM算法處理高維數(shù)據(jù)具有網(wǎng)絡(luò)收斂速度慢,聚類時間長的特點(diǎn)。
[0005]文本聚類是數(shù)據(jù)挖掘技術(shù)中的一種,把文本文檔資源按照指定的相似性標(biāo)準(zhǔn)劃分為若干個簇,使得每一簇內(nèi)部盡可能的相同,不同簇之間相似性盡可能小。文本聚類主要是依據(jù)著名的聚類假設(shè):同類的文檔相似度較大,而不同類的文檔相似度較小。作為一種無監(jiān)督的機(jī)器學(xué)習(xí)方法,聚類由于不需要預(yù)先的訓(xùn)練過程,以及不需要預(yù)先對文檔手工標(biāo)注類另IJ,因此具有一定的靈活性和較高的自動化處理能力,已經(jīng)成為對文本信息進(jìn)行有效地組織、摘要和導(dǎo)航的重要手段,為越來越多的研究人員所關(guān)注。
【發(fā)明內(nèi)容】
[0006]本發(fā)明解決的技術(shù)問題是:構(gòu)建一種基于圖形處理單元((Graphic ProcessingUnit,圖形處理單元,簡稱“GPU”))的并行化自組織映射神經(jīng)網(wǎng)絡(luò)聚類方法及系統(tǒng),克服現(xiàn)有技術(shù)在文本聚類過程中由于數(shù)據(jù)量大導(dǎo)致計算速度慢的技術(shù)問題。
[0007]本發(fā)明的技術(shù)方案是:提供一種基于圖形處理單元的并行自組織映射神經(jīng)網(wǎng)絡(luò)聚類方法,包括如下步驟:
[0008]并行關(guān)鍵詞詞頻統(tǒng)計:將文本內(nèi)容進(jìn)行分詞并得到關(guān)鍵詞的集合,并行統(tǒng)計文檔中關(guān)鍵詞的頻率,得到詞頻矩陣;
[0009]并行特征向量計算:把關(guān)鍵詞詞頻矩陣轉(zhuǎn)化為對應(yīng)的特征向量矩陣,每個特征向量代表一個文檔。
[0010]并行SOM聚類:根據(jù)特征向量矩陣設(shè)計SOM網(wǎng)絡(luò)結(jié)構(gòu),初始化SOM網(wǎng)絡(luò),并行計算輸入樣本與全部輸出神經(jīng)元權(quán)向量距離,比較各個距離的大小,獲取最小距離的最佳神經(jīng)元J,通過更新最佳神經(jīng)元、其鄰域內(nèi)的神經(jīng)元權(quán)向量值、學(xué)習(xí)率及最佳神經(jīng)元的鄰域大小,然后通過圖形處理單元并行計算網(wǎng)絡(luò)誤差率Et,若網(wǎng)絡(luò)誤差率Et〈=目標(biāo)誤差e或迭代次數(shù)t>=訓(xùn)練最大迭代次數(shù)T,則SOM網(wǎng)絡(luò)訓(xùn)練結(jié)束,否則重新進(jìn)行新一輪訓(xùn)練;每次學(xué)習(xí)的結(jié)果使得最佳匹配神經(jīng)元的鄰域區(qū)域向輸入數(shù)據(jù)向量值靠近,把距離相近的輸入特征向量聚集成同一個簇,形成的簇集合即為最終的聚類結(jié)果。
[0011]本發(fā)明的進(jìn)一步技術(shù)方案是:統(tǒng)計每篇文檔關(guān)鍵詞詞頻的過程相互獨(dú)立,本發(fā)明為每篇文檔設(shè)計一個線程統(tǒng)計詞頻,然后通過圖形處理單元的多線程并行統(tǒng)計。
[0012]本發(fā)明的進(jìn)一步技術(shù)方案是:每篇文檔的特征向量計算過程相互獨(dú)立,本發(fā)明為每篇文檔設(shè)計一個線程計算特征向量,然后通過圖形處理單元的多線程并發(fā)執(zhí)行。其特征向量計算采用公式
【權(quán)利要求】
1.一種基于圖形處理單元的并行化自組織映射神經(jīng)網(wǎng)絡(luò)聚類方法,包括如下步驟: 并行關(guān)鍵詞詞頻統(tǒng)計:將文本內(nèi)容進(jìn)行分詞并得到關(guān)鍵詞的集合,并行統(tǒng)計文檔中關(guān)鍵詞的頻率,得到詞頻矩陣; 并行特征向量計算:把關(guān)鍵詞詞頻矩陣轉(zhuǎn)化為對應(yīng)的特征向量矩陣,每個特征向量代表一個文檔; 并行SOM聚類:根據(jù)特征向量矩陣設(shè)計SOM網(wǎng)絡(luò)結(jié)構(gòu),初始化SOM網(wǎng)絡(luò),并行計算輸入樣本與全部輸出神經(jīng)元權(quán)向量距離,比較各個距離的大小,獲取最小距離的最佳神經(jīng)元J,通過更新最佳神經(jīng)元、其鄰域內(nèi)的神經(jīng)元權(quán)向量值、學(xué)習(xí)率及最佳神經(jīng)元的鄰域大小,然后通過圖形處理單元并行計算網(wǎng)絡(luò)誤差率Et,若網(wǎng)絡(luò)誤差率Et〈=目標(biāo)誤差e或迭代次數(shù)t>=訓(xùn)練最大迭代次數(shù)T,則SOM網(wǎng)絡(luò)訓(xùn)練結(jié)束,否則重新進(jìn)行新一輪訓(xùn)練;每次學(xué)習(xí)的結(jié)果使得最佳匹配神經(jīng)元的鄰域區(qū)域向輸入數(shù)據(jù)向量值靠近,把距離相近的輸入特征向量聚集成同一個簇,形成的簇集合即為最終的聚類結(jié)果。
2.根據(jù)權(quán)利要求1所述基于圖形處理單元的自組織映射神經(jīng)網(wǎng)絡(luò)聚類方法,其特征在于,在獲取文檔的關(guān)鍵詞詞頻步驟中,采用基于圖形處理單元的多線程并行統(tǒng)計詞頻。
3.根據(jù)權(quán)利要求1所述基于圖形處理單元的自組織映射神經(jīng)網(wǎng)絡(luò)聚類方法,其特征在于,在并行特征向量計算步驟中,采用基于圖形處理的的多線程并行計算每個文檔的特征向量。
4.根據(jù)權(quán)利要求1所述基于圖形處理單元的自組織映射神經(jīng)網(wǎng)絡(luò)聚類方法,其特征在于,輸入特征向量與每個輸出神經(jīng)元權(quán)向量距離的計算過程相互獨(dú)立,采用基于圖形處理的多個線程并行計算輸入特征向量與每個輸出神經(jīng)元向量的距離,系統(tǒng)為每個神經(jīng)元開啟一個線程,采用多線程并行計算。`
5.根據(jù)權(quán)利要求1所述基于圖形處理單元的自組織映射神經(jīng)網(wǎng)絡(luò)聚類方法,其特征在于,每個神經(jīng)元相鄰兩次迭代的權(quán)向量誤差的計算過程相互獨(dú)立,采用基于圖形處理的多個線程并行計算每個神經(jīng)元的權(quán)向量誤差,系統(tǒng)為每個神經(jīng)元開啟一個線程,采用多線程并行計算。
6.一種基于圖形處理單元的自組織映射神經(jīng)網(wǎng)絡(luò)聚類系統(tǒng),其特征在于,包括硬件部分和軟件部分,硬件部分:采用CPU/GPU協(xié)作框架設(shè)計,串行執(zhí)行代碼運(yùn)行在CPU上,并行執(zhí)行代碼運(yùn)行在GPU上,通過GPU提供的數(shù)據(jù)傳輸方式來交換顯存與內(nèi)存之間的數(shù)據(jù);軟件部分分為三個模塊,包括并行化關(guān)鍵詞詞頻統(tǒng)計模塊、并行化特征向量計算模塊、并行化SOM聚類模塊,單元、計算特征向量的特征向量計算單元、進(jìn)行文本聚類的文本聚類單元,所述并行化關(guān)鍵詞詞頻統(tǒng)計模塊將文本內(nèi)容進(jìn)行分詞并得到關(guān)鍵詞的集合,并行統(tǒng)計文檔中關(guān)鍵詞的頻率,得到詞頻矩陣;所述并行化特征向量計算模塊把關(guān)鍵詞詞頻矩陣轉(zhuǎn)化為對應(yīng)的特征向量矩陣,每個特征向量代表一個文檔;所述并行化SOM聚類模塊根據(jù)特征向量矩陣設(shè)計SOM網(wǎng)絡(luò)結(jié)構(gòu),初始化SOM網(wǎng)絡(luò),并行計算輸入樣本與全部輸出神經(jīng)元權(quán)向量距離,比較各個距離的大小,獲取最小距離的最佳神經(jīng)元J,通過更新最佳神經(jīng)元、其鄰域內(nèi)的神經(jīng)元權(quán)向量值、學(xué)習(xí)率及最佳神經(jīng)元的鄰域大小,然后通過圖形處理單元并行計算網(wǎng)絡(luò)誤差率Et,若網(wǎng)絡(luò)誤差率Et〈=目標(biāo)誤差e或迭代次數(shù)t>=訓(xùn)練最大迭代次數(shù)T,則SOM網(wǎng)絡(luò)訓(xùn)練結(jié)束,否則重新進(jìn)行新一輪訓(xùn)練;每次學(xué)習(xí)的結(jié)果使得最佳匹配神經(jīng)元的鄰域區(qū)域向輸入數(shù)據(jù)向量值靠近,把距離相近的輸入特征向量聚集成同一個簇,形成的簇集合即為最終的聚類結(jié)果。
7.根據(jù)權(quán)利要求6所述基于圖形處理單元的并行化自組織映射神經(jīng)網(wǎng)絡(luò)的聚類系統(tǒng),其特征在于,所述并行化關(guān)鍵詞詞頻統(tǒng)計模塊、所述并行化特征向量計算模塊以及所述并行化SOM聚類模塊中均設(shè)計了若干個核函數(shù)來并行加速算法的運(yùn)行。
8.根據(jù)權(quán)利要求6所述基于圖形處理單元的并行化自組織映射神經(jīng)網(wǎng)絡(luò)的聚類系統(tǒng),其特征在于,在并行關(guān)鍵詞詞頻統(tǒng)計模塊中,設(shè)計了一個用于關(guān)鍵詞詞頻統(tǒng)計的核函數(shù);在并行特征向量計算模塊中,設(shè)計了兩個用于特征向量計算的核函數(shù)和兩個用于特征向量歸一化的核函數(shù)。
9.根據(jù)權(quán)利要求6所述基于圖形處理單元的并行化自組織映射神經(jīng)網(wǎng)絡(luò)的聚類系統(tǒng),其特征在于,在并行SOM聚類模塊中,設(shè)計了一個用于計算輸入特征向量與輸出神經(jīng)元的距離的核函數(shù),一個用于計算每個神經(jīng)元相鄰兩次迭代的網(wǎng)絡(luò)權(quán)向量的誤差的核函數(shù)和一個用于規(guī)約網(wǎng)絡(luò)權(quán)向量的誤差的核函數(shù)。
【文檔編號】G06F17/30GK103488662SQ201310112420
【公開日】2014年1月1日 申請日期:2013年4月1日 優(yōu)先權(quán)日:2013年4月1日
【發(fā)明者】葉允明, 張金超, 黃曉輝 申請人:哈爾濱工業(yè)大學(xué)深圳研究生院