基于細劃分MapReduce的文本語義提取方法

文檔序號：6622416閱讀：326來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

基于細劃分MapReduce的文本語義提取方法
【專利摘要】本發(fā)明涉及一種基于細劃分MapReduce的文本語義提取方法。所述方法包括：將待處理文本集按照文檔維度和單詞表維度進行雙重劃分，每個劃分是部分文本的部分內(nèi)容；申請一定數(shù)量的Mapper，使用LDA主題模型SparseLDA算法分別訓(xùn)練文本集的每個劃分，得到局部參數(shù)，并對不同的參數(shù)給予不同的標(biāo)記，記錄其所對應(yīng)的Reducer；申請一定數(shù)量的Reducer，不同種類的Reducer融合不同標(biāo)記的局部參數(shù)，得到全局參數(shù)，輸出到文件；重復(fù)此Mapper和Reducer過程直到達到收斂條件，得到最終訓(xùn)練模型，用于新文本的語義解釋與表達。
【專利說明】基于細劃分MapReduce的文本語義提取方法

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及機器學(xué)習(xí)領(lǐng)域，尤其涉及一種基于細劃分MapReduce的文本語義提取方法。

【背景技術(shù)】
[0002] 文本的語義理解是目前比較熱門的研究課題，互聯(lián)網(wǎng)中數(shù)字化信息曾指數(shù)型增長，其中包括了網(wǎng)頁，社交網(wǎng)絡(luò)新聞、書籍、圖片、音頻、視頻、微博和科學(xué)論文等，以文檔形式呈現(xiàn)的信息增速尤為迅猛。如何有效地組織、管理和摘要這些文本信息以及挖掘其中隱含的知識是當(dāng)前計算機科學(xué)面臨的一大挑戰(zhàn)。此外，與搜索相關(guān)的網(wǎng)絡(luò)應(yīng)用都需要高效地語義理解模塊，獲得用戶的主要意圖，從而更好地為用戶服務(wù)。例如百度的搜索引擎需要匹配與用戶查詢最為相關(guān)的文本，淘寶搜索需要反饋給用戶最為符合的產(chǎn)品。
[0003] 主題模型（Topic Models)是一種無監(jiān)督學(xué)習(xí)算法，不需要人工標(biāo)注，節(jié)省人力資源。目前較為成熟的主題模型是潛在狄利克雷分配（Latent Dirichlet Allocation,LDA) 算法，該算法假設(shè)一篇文檔是多主題的概率分布，而一個主題是單詞表上的概率分布。LDA 算法從數(shù)據(jù)集中學(xué)習(xí)出主題模型來預(yù)測新文檔的主題分布。隨著文檔的增多，文檔所包含的主題也在增長，同時單詞表的大小也在不斷增長。為了更好地解釋其中蘊含的主題，我們需要穩(wěn)定的，實用的，可以處理大數(shù)據(jù)高維度的處理方法。
[0004] 并行是一種處理大數(shù)據(jù)高維度的直接方法，現(xiàn)有的并行LDA算法缺乏穩(wěn)定性與可擴展性，無法利用更多的處理器得到更高的加速比。我們選擇MapReduce作為并行的基礎(chǔ)，分析其可擴展瓶頸，提出改進方法，增強算法的可擴展性與實用性。
[0005] 有鑒于上述的缺陷，本設(shè)計人，積極加以研究創(chuàng)新，以期創(chuàng)設(shè)一種高效率語義壓縮的并行文本大數(shù)據(jù)存儲方法，使其更具有產(chǎn)業(yè)上的利用價值。

【發(fā)明內(nèi)容】

[0006] 為解決上述技術(shù)問題，本發(fā)明的目的是提供一種擴展性強，可理解大數(shù)據(jù)、高緯度的文本集的基于細劃分MapReduce的文本語義提取方法。
[0007] 本發(fā)明基于細劃分MapReduce的文本語義提取方法，所述方法包括：
[0008] 將待處理文本集以文檔維度和單詞維度兩個維度分別進行劃分；
[0009] 將劃分后的文檔和單詞分別經(jīng)過MapReduce的多次處理直至達到收斂條件，得到訓(xùn)練模型；
[0010] 基于所述訓(xùn)練模型對文本進行語義解釋與表達。
[0011] 具體地，所述方法具體包括：
[0012] 將待處理文本集以文檔維度和單詞維度兩個維度分別進行劃分；
[0013] 對劃分后的文檔和單詞分別進行Map階段處理，基于預(yù)定的L D A主題模型進行數(shù)據(jù)訓(xùn)練，得到若干局部參數(shù)，對不同的局部參數(shù)給予不同的標(biāo)記；
[0014] 記錄不同標(biāo)記的局部參數(shù)對應(yīng)的Reduce,對所述局部參數(shù)進行Reduce處理得到全局參數(shù)；
[0015] 重復(fù)上述過程直至到達收斂條件，得到訓(xùn)練模型；
[0016] 基于所述訓(xùn)練模型對文本進行語義解釋與表達。
[0017] 進一步地，所述的局部參數(shù)包括文檔-主題分布ΘΒΧΚ，主題-單詞分布φ κχ"，主題總分布Φκ，以及文本集的對數(shù)似然值log-likelihood四種參數(shù)；
[0018] 所述的四種參數(shù)對應(yīng)的 Reducer 分別是 Doc-Reducer，Wordstats-Reducer， Globalstats-Reducer，Likelihood-Reducer。
[0019] 進一步地，每一種的Reducer都是對來源數(shù)據(jù)的對應(yīng)匯總求和，并按預(yù)定的格式輸出到文件。
[0020] 進一步地，不同的局部參數(shù)對應(yīng)的Reducer各不相同。
[0021] 借由上述方案，本發(fā)明至少具有以下優(yōu)點：
[0022] 本發(fā)明所述的基于細劃分MapReduce的文本語義提取方法，在實現(xiàn)過程中，內(nèi)存可以達到現(xiàn)有算法的1/M，Μ可以由用戶設(shè)定，低內(nèi)存消耗即表示了本方法可以做更大規(guī)模的主題模型，無論是文本上的大規(guī)模還是主題上的大規(guī)模。在速度上，由于現(xiàn)有的基于細劃分MapReduce的LDA模型都是基于變分貝葉斯，而本發(fā)明使用SparseLDA，一種快速高精度的LDA近似推理算法，所以在速度上有明顯的加速，且精度沒有下降。

【專利附圖】

【附圖說明】
[0023] 圖1是本發(fā)明基于細劃分MapReduce的文本語義提取方法的原理圖；
[0024] 圖2是本發(fā)明基于細劃分MapReduce的文本語義提取方法的2*3的文本具體劃分原理圖；
[0025] 圖3是本發(fā)明基于細劃分MapReduce的文本語義提取方法的實驗對比結(jié)果圖；
[0026] 圖4是本發(fā)明基于細劃分MapReduce的文本語義提取方法的實驗對比結(jié)果圖；
[0027] 圖5是本發(fā)明基于細劃分MapReduce的文本語義提取方法的可擴展性驗證圖。

【具體實施方式】
[0028] 下面結(jié)合附圖和實施例，對本發(fā)明的【具體實施方式】作進一步詳細描述。以下實施例用于說明本發(fā)明，但不用來限制本發(fā)明的范圍。
[0029] (l)LDA 模型：
[0030] LDA模型是一種三層的貝葉斯模型。模型輸入數(shù)據(jù)集大小記為D*W，其中D為文檔總數(shù)，W為單詞表大小。LDA模型將D*W矩陣轉(zhuǎn)變?yōu)镈*K矩陣和K*W矩陣，分別記為θ M文檔主題分布和c主題單詞分布。其中主題數(shù)K可以設(shè)置。推導(dǎo)LDA過程的算法有幾種，最實用，常用的算法即吉布斯采樣（Gibbs Sampling，GS)，本發(fā)明使用SparseLDA，一種速度優(yōu) 化的GS算法，GS的主要思想是對每篇文檔d的每個單詞w計算一個K大小的分布，然后從中選擇一個主題k賦予對應(yīng)的Θ Μ和。
[0031] SparseLDA將原始GS用于推導(dǎo)LDA模型的概率公式（1)變成了公式（2)，從而減少了一些重復(fù)的計算步驟，加快了模型的訓(xùn)練速度。
[0032]

【權(quán)利要求】
1. 一種基于細劃分MapReduce的文本語義提取方法，其特征在于：所述方法包括：將待處理文本集以文檔維度和單詞維度兩個維度分別進行劃分；將劃分后的文檔和單詞分別經(jīng)過MapReduce的多次處理直至達到收斂條件，得到訓(xùn)練模型；基于所述訓(xùn)練模型對文本進行語義解釋與表達。
2. 根據(jù)權(quán)利要求1所述的基于細劃分MapReduce的文本語義提取方法，其特征在于：所述方法具體包括：將待處理文本集以文檔維度和單詞維度兩個維度分別進行劃分；對劃分后的文檔和單詞分別進行Map階段處理，基于預(yù)定的L D A主題模型進行數(shù)據(jù) 訓(xùn)練，得到若干局部參數(shù)，對不同的局部參數(shù)給予不同的標(biāo)記；記錄不同標(biāo)記的局部參數(shù)對應(yīng)的Reduce，對所述局部參數(shù)進行Reduce處理得到全局參數(shù)；重復(fù)上述過程直至到達收斂條件，得到訓(xùn)練模型；基于所述訓(xùn)練模型對文本進行語義解釋與表達。
3. 根據(jù)權(quán)利要求1所述的基于細劃分MapReduce的文本語義提取方法，其特征在于：所述的局部參數(shù)包括文檔-主題分布ΘΒΧΚ，主題-單詞分布φκχ"，主題總分布φκ，以及文本集的對數(shù)似然值log-likelihood四種參數(shù)；所述的四種參數(shù)對應(yīng)的Reducer分別是Doc-Reducer，Wordstats-Reducer， Globalstats-Reducer，Likelihood-Reducer。
4. 根據(jù)權(quán)利要求1所述的基于細劃分MapReduce的文本語義提取方法，其特征在于：每一種的Reducer都是對來源數(shù)據(jù)的對應(yīng)匯總求和，并按預(yù)定的格式輸出到文件。
5. 根據(jù)權(quán)利要求1所述的基于細劃分MapReduce的文本語義提取方法，其特征在于：不同的局部參數(shù)對應(yīng)的Reducer各不相同。
【文檔編號】G06F17/27GK104156350SQ201410379847
【公開日】2014年11月19日申請日期:2014年8月4日優(yōu)先權(quán)日:2014年8月4日
【發(fā)明者】曾嘉, 高陽, 嚴(yán)建峰, 劉曉升, 楊璐, 劉志強申請人:蘇州大學(xué)

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：曾嘉;高陽;嚴(yán)建峰;劉曉升;楊璐;劉志強
技術(shù)所有人：蘇州大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

文本語義分析相關(guān)技術(shù)

語義文本分析工具在線相關(guān)技術(shù)

文本語義相似度計算相關(guān)技術(shù)

文本語義理解相關(guān)技術(shù)

短文本語義相似度相關(guān)技術(shù)

文本語義相似度相關(guān)技術(shù)

短文本語義分析相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

基于細劃分MapReduce的文本語義提取方法