亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

基于細劃分MapReduce的文本語義提取方法

文檔序號:6622416閱讀:326來源:國知局
基于細劃分MapReduce的文本語義提取方法
【專利摘要】本發(fā)明涉及一種基于細劃分MapReduce的文本語義提取方法。所述方法包括:將待處理文本集按照文檔維度和單詞表維度進行雙重劃分,每個劃分是部分文本的部分內(nèi)容;申請一定數(shù)量的Mapper,使用LDA主題模型SparseLDA算法分別訓(xùn)練文本集的每個劃分,得到局部參數(shù),并對不同的參數(shù)給予不同的標(biāo)記,記錄其所對應(yīng)的Reducer;申請一定數(shù)量的Reducer,不同種類的Reducer融合不同標(biāo)記的局部參數(shù),得到全局參數(shù),輸出到文件;重復(fù)此Mapper和Reducer過程直到達到收斂條件,得到最終訓(xùn)練模型,用于新文本的語義解釋與表達。
【專利說明】基于細劃分MapReduce的文本語義提取方法

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及機器學(xué)習(xí)領(lǐng)域,尤其涉及一種基于細劃分MapReduce的文本語義提取 方法。

【背景技術(shù)】
[0002] 文本的語義理解是目前比較熱門的研究課題,互聯(lián)網(wǎng)中數(shù)字化信息曾指數(shù)型增 長,其中包括了網(wǎng)頁,社交網(wǎng)絡(luò)新聞、書籍、圖片、音頻、視頻、微博和科學(xué)論文等,以文檔形 式呈現(xiàn)的信息增速尤為迅猛。如何有效地組織、管理和摘要這些文本信息以及挖掘其中隱 含的知識是當(dāng)前計算機科學(xué)面臨的一大挑戰(zhàn)。此外,與搜索相關(guān)的網(wǎng)絡(luò)應(yīng)用都需要高效地 語義理解模塊,獲得用戶的主要意圖,從而更好地為用戶服務(wù)。例如百度的搜索引擎需要匹 配與用戶查詢最為相關(guān)的文本,淘寶搜索需要反饋給用戶最為符合的產(chǎn)品。
[0003] 主題模型(Topic Models)是一種無監(jiān)督學(xué)習(xí)算法,不需要人工標(biāo)注,節(jié)省人力資 源。目前較為成熟的主題模型是潛在狄利克雷分配(Latent Dirichlet Allocation,LDA) 算法,該算法假設(shè)一篇文檔是多主題的概率分布,而一個主題是單詞表上的概率分布。LDA 算法從數(shù)據(jù)集中學(xué)習(xí)出主題模型來預(yù)測新文檔的主題分布。隨著文檔的增多,文檔所包含 的主題也在增長,同時單詞表的大小也在不斷增長。為了更好地解釋其中蘊含的主題,我們 需要穩(wěn)定的,實用的,可以處理大數(shù)據(jù)高維度的處理方法。
[0004] 并行是一種處理大數(shù)據(jù)高維度的直接方法,現(xiàn)有的并行LDA算法缺乏穩(wěn)定性與可 擴展性,無法利用更多的處理器得到更高的加速比。我們選擇MapReduce作為并行的基礎(chǔ), 分析其可擴展瓶頸,提出改進方法,增強算法的可擴展性與實用性。
[0005] 有鑒于上述的缺陷,本設(shè)計人,積極加以研究創(chuàng)新,以期創(chuàng)設(shè)一種高效率語義壓縮 的并行文本大數(shù)據(jù)存儲方法,使其更具有產(chǎn)業(yè)上的利用價值。


【發(fā)明內(nèi)容】

[0006] 為解決上述技術(shù)問題,本發(fā)明的目的是提供一種擴展性強,可理解大數(shù)據(jù)、高緯度 的文本集的基于細劃分MapReduce的文本語義提取方法。
[0007] 本發(fā)明基于細劃分MapReduce的文本語義提取方法,所述方法包括:
[0008] 將待處理文本集以文檔維度和單詞維度兩個維度分別進行劃分;
[0009] 將劃分后的文檔和單詞分別經(jīng)過MapReduce的多次處理直至達到收斂條件,得到 訓(xùn)練模型;
[0010] 基于所述訓(xùn)練模型對文本進行語義解釋與表達。
[0011] 具體地,所述方法具體包括:
[0012] 將待處理文本集以文檔維度和單詞維度兩個維度分別進行劃分;
[0013] 對劃分后的文檔和單詞分別進行Map階段處理,基于預(yù)定的L D A主題模型進行 數(shù)據(jù)訓(xùn)練,得到若干局部參數(shù),對不同的局部參數(shù)給予不同的標(biāo)記;
[0014] 記錄不同標(biāo)記的局部參數(shù)對應(yīng)的Reduce,對所述局部參數(shù)進行Reduce處理得到 全局參數(shù);
[0015] 重復(fù)上述過程直至到達收斂條件,得到訓(xùn)練模型;
[0016] 基于所述訓(xùn)練模型對文本進行語義解釋與表達。
[0017] 進一步地,所述的局部參數(shù)包括文檔-主題分布ΘΒΧΚ,主題-單詞分布φ κχ",主 題總分布Φκ,以及文本集的對數(shù)似然值log-likelihood四種參數(shù);
[0018] 所述的四種參數(shù)對應(yīng)的 Reducer 分別是 Doc-Reducer,Wordstats-Reducer, Globalstats-Reducer,Likelihood-Reducer。
[0019] 進一步地,每一種的Reducer都是對來源數(shù)據(jù)的對應(yīng)匯總求和,并按預(yù)定的格式 輸出到文件。
[0020] 進一步地,不同的局部參數(shù)對應(yīng)的Reducer各不相同。
[0021] 借由上述方案,本發(fā)明至少具有以下優(yōu)點:
[0022] 本發(fā)明所述的基于細劃分MapReduce的文本語義提取方法,在實現(xiàn)過程中,內(nèi)存 可以達到現(xiàn)有算法的1/M,Μ可以由用戶設(shè)定,低內(nèi)存消耗即表示了本方法可以做更大規(guī)模 的主題模型,無論是文本上的大規(guī)模還是主題上的大規(guī)模。在速度上,由于現(xiàn)有的基于細劃 分MapReduce的LDA模型都是基于變分貝葉斯,而本發(fā)明使用SparseLDA,一種快速高精度 的LDA近似推理算法,所以在速度上有明顯的加速,且精度沒有下降。

【專利附圖】

【附圖說明】
[0023] 圖1是本發(fā)明基于細劃分MapReduce的文本語義提取方法的原理圖;
[0024] 圖2是本發(fā)明基于細劃分MapReduce的文本語義提取方法的2*3的文本具體劃分 原理圖;
[0025] 圖3是本發(fā)明基于細劃分MapReduce的文本語義提取方法的實驗對比結(jié)果圖;
[0026] 圖4是本發(fā)明基于細劃分MapReduce的文本語義提取方法的實驗對比結(jié)果圖;
[0027] 圖5是本發(fā)明基于細劃分MapReduce的文本語義提取方法的可擴展性驗證圖。

【具體實施方式】
[0028] 下面結(jié)合附圖和實施例,對本發(fā)明的【具體實施方式】作進一步詳細描述。以下實施 例用于說明本發(fā)明,但不用來限制本發(fā)明的范圍。
[0029] (l)LDA 模型:
[0030] LDA模型是一種三層的貝葉斯模型。模型輸入數(shù)據(jù)集大小記為D*W,其中D為文檔 總數(shù),W為單詞表大小。LDA模型將D*W矩陣轉(zhuǎn)變?yōu)镈*K矩陣和K*W矩陣,分別記為θ M文 檔主題分布和c主題單詞分布。其中主題數(shù)K可以設(shè)置。推導(dǎo)LDA過程的算法有幾種,最 實用,常用的算法即吉布斯采樣(Gibbs Sampling,GS),本發(fā)明使用SparseLDA,一種速度優(yōu) 化的GS算法,GS的主要思想是對每篇文檔d的每個單詞w計算一個K大小的分布,然后從 中選擇一個主題k賦予對應(yīng)的Θ Μ和。
[0031] SparseLDA將原始GS用于推導(dǎo)LDA模型的概率公式(1)變成了公式(2),從而減 少了一些重復(fù)的計算步驟,加快了模型的訓(xùn)練速度。
[0032]

【權(quán)利要求】
1. 一種基于細劃分MapReduce的文本語義提取方法,其特征在于:所述方法包括: 將待處理文本集以文檔維度和單詞維度兩個維度分別進行劃分; 將劃分后的文檔和單詞分別經(jīng)過MapReduce的多次處理直至達到收斂條件,得到訓(xùn)練 模型; 基于所述訓(xùn)練模型對文本進行語義解釋與表達。
2. 根據(jù)權(quán)利要求1所述的基于細劃分MapReduce的文本語義提取方法,其特征在于: 所述方法具體包括: 將待處理文本集以文檔維度和單詞維度兩個維度分別進行劃分; 對劃分后的文檔和單詞分別進行Map階段處理,基于預(yù)定的L D A主題模型進行數(shù)據(jù) 訓(xùn)練,得到若干局部參數(shù),對不同的局部參數(shù)給予不同的標(biāo)記; 記錄不同標(biāo)記的局部參數(shù)對應(yīng)的Reduce,對所述局部參數(shù)進行Reduce處理得到全局 參數(shù); 重復(fù)上述過程直至到達收斂條件,得到訓(xùn)練模型; 基于所述訓(xùn)練模型對文本進行語義解釋與表達。
3. 根據(jù)權(quán)利要求1所述的基于細劃分MapReduce的文本語義提取方法,其特征在于: 所述的局部參數(shù)包括文檔-主題分布ΘΒΧΚ,主題-單詞分布φκχ",主題總分布φκ,以 及文本集的對數(shù)似然值log-likelihood四種參數(shù); 所述的四種參數(shù)對應(yīng)的Reducer分別是Doc-Reducer,Wordstats-Reducer, Globalstats-Reducer,Likelihood-Reducer。
4. 根據(jù)權(quán)利要求1所述的基于細劃分MapReduce的文本語義提取方法,其特征在于: 每一種的Reducer都是對來源數(shù)據(jù)的對應(yīng)匯總求和,并按預(yù)定的格式輸出到文件。
5. 根據(jù)權(quán)利要求1所述的基于細劃分MapReduce的文本語義提取方法,其特征在于: 不同的局部參數(shù)對應(yīng)的Reducer各不相同。
【文檔編號】G06F17/27GK104156350SQ201410379847
【公開日】2014年11月19日 申請日期:2014年8月4日 優(yōu)先權(quán)日:2014年8月4日
【發(fā)明者】曾嘉, 高陽, 嚴(yán)建峰, 劉曉升, 楊璐, 劉志強 申請人:蘇州大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1