亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于半監(jiān)督的主題模型文本分類方法

文檔序號:9911222閱讀:319來源:國知局
一種基于半監(jiān)督的主題模型文本分類方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及文本分類領(lǐng)域,尤其涉及一種基于半監(jiān)督的主題模型的文本分類方 法。
【背景技術(shù)】
[0002] 文本挖掘是從大量文本數(shù)據(jù)中獲取有效模式的過程,涵蓋信息技術(shù)、文本分析、模 式識別等諸多領(lǐng)域。文本分類屬于文本挖掘領(lǐng)域,是指按照預(yù)先設(shè)定的主題類別,為文檔集 合中的每個文檔確定一個類別的過程。對于中文文本而言,詞與詞之間沒有明顯的切分標(biāo) 志,因此需要對中文文本進(jìn)行分詞。在分詞過程中,針對文本集合的屬性特征需設(shè)置匹配詞 的專業(yè)詞表。完成分詞后的文本需要進(jìn)行停用詞刪除、建立文本特征矩陣的步驟,將文本數(shù) 據(jù)轉(zhuǎn)化為計算機(jī)可計算的數(shù)值矩陣類型。近年來,眾多的統(tǒng)計方法和機(jī)器學(xué)習(xí)方法應(yīng)用于 自動文本分類,包括支持向量機(jī)、Boos t ing算法、概率模型等。
[0003] 文本分類的關(guān)鍵是衡量各文本與所需模式間的相似性,概率潛在語義分析是針對 文本隱含主題的建模方法。主題表現(xiàn)為一系列與主題概念密切相關(guān)的詞,能夠代表這個主 題。應(yīng)用詞匯表上詞語的條件概率分布,與主題密切相關(guān)的詞,條件概率越大。一般概率潛 在語義分析方法通過計算各詞屬于主題的條件概率完成文本分類功能。

【發(fā)明內(nèi)容】

[0004] 本發(fā)明的目的是提供一種基于半監(jiān)督的主題模型的文本分類方法,實現(xiàn)基于領(lǐng)域 本體的大規(guī)模文本數(shù)據(jù)中有效信息的自動獲取。為解決上述技術(shù)問題,本發(fā)明的主要技術(shù) 內(nèi)容如下:
[0005] -種基于領(lǐng)域本體的潛在語義擴(kuò)展算法。傳統(tǒng)的文本分類算法利用文本中的關(guān)鍵 詞描述文本與類別間距離。而關(guān)鍵詞存在信息量少,難以全面表征類別信息的缺點(diǎn)。由于 表征一篇文檔是否相關(guān)的詞并不全等于關(guān)鍵詞集,因此也需要提取出關(guān)鍵詞集中不包含的 約束。領(lǐng)域本體作為知識描述方法較好的體現(xiàn)了領(lǐng)域內(nèi)知識的不同維度。本方法的特征在 于,首先定義描述分類文本的關(guān)鍵詞詞組,該詞組來源于領(lǐng)域本體的不同屬性類,利用關(guān)鍵 詞詞組將待分類文本中的詞全部初始化為噪聲?;诠?br>[0006]
[0007] 式中,k的取值范圍為{0,1},即代表噪聲或有效信息,m為文檔集內(nèi)文檔數(shù)目,X為 詞條的編號,用于區(qū)分不同的詞。P(x)表示該詞屬于有效信息的概率,nkt代表關(guān)鍵詞X分配 為有效信息的次數(shù),nkt Sum代表有效信息的總詞數(shù),nmk代表文檔m中屬于有效信息的詞的 個數(shù),nmkSum代表文檔m的總詞數(shù),con代表關(guān)鍵詞X對所屬分類別的貢獻(xiàn)度。參數(shù)C表示文檔 m中,描述領(lǐng)域本體不同屬性維度的詞的類數(shù)。
[0008] 迭代上述公式,更新各詞屬于有效信息的概率。進(jìn)一步,當(dāng)文檔m中的有效信息頻 率較高時,文檔m中的詞屬于有效信息的概率增大;當(dāng)噪聲詞w被劃分為有效信息的頻率增 大時,該詞整體屬于有效信息的概率增大;對于關(guān)鍵詞W,若該詞與所分類別間的距離較小 時,該詞屬于有效信息的頻率增大。參數(shù)C越大,文檔中描述領(lǐng)域本體不同維度的數(shù)目越多, 則該文檔對所分類別的描述越全面,該文檔屬于有效信息的概率越大。該方法基于以下假 設(shè):文本分為相關(guān)文本和不相干文本,相關(guān)文本包括主題相關(guān)的有效信息和主題無關(guān)的噪 聲,其中噪聲和有效信息服從二項分布,在有效信息中,各關(guān)鍵詞的分布服從多項式分布。 每個文本通過對有效信息和噪聲的抽樣生成。為獲得文檔集中的噪聲和有效信息的分布模 型和有效信息中詞的分布模型,通過Gibbs Sampling方法采樣并計算上述分布的最優(yōu)解, 即為所需的噪聲與有效信息的分布。
[0009] 通過迭代計算上述二項分布和多項式分布的參數(shù),獲取到穩(wěn)定收斂的噪聲詞集 合和有效信息集合。
[0010] -種基于有效信息集合的文本距離計算方法。其特征在于,應(yīng)用上述基于領(lǐng)域本 體的潛在語義擴(kuò)展算法,獲取到描述類別信息的關(guān)鍵詞詞組,應(yīng)用如下公式計算各文本屬 于待分類項的概率。
[0011]
[0012]式中,F(xiàn)(m)表示文章 m屬于有效信息的得分,nmk代表文檔m中屬于有效信息的詞的 個數(shù),nmkSum代表文檔m的總詞數(shù),con代表關(guān)鍵詞X對所屬分類別的貢獻(xiàn)度。參數(shù)C表示文檔 m中,描述領(lǐng)域本體不同屬性維度的詞的類數(shù)。
[0013]本發(fā)明的優(yōu)點(diǎn):
[0014] 1、基于領(lǐng)域本體的潛在語義擴(kuò)展算法利用領(lǐng)域本體,自動獲取描述信息和分類規(guī) 貝1J,利用領(lǐng)域本體維度信息描述文檔的相關(guān)性,從少量的關(guān)鍵詞中擴(kuò)展出豐富的類別信息, 擴(kuò)展了對類別的描述,有助于分類規(guī)則的自動抽取。
[0015] 2、基于有效信息詞組的文本距離計算方法較好的量化了文本屬于有效信息的概 率,多方面考慮了文本類別參數(shù),具有較高的準(zhǔn)確性。
【附圖說明】
[0016] 圖1為基于概率潛在語義分析的關(guān)鍵詞擴(kuò)展方法中獲取擴(kuò)展詞條隨迭代次數(shù)的更 新曲線。
[0017] 圖2為基于有效信息詞組的文本距離計算方法的文檔得分排序曲線。
【具體實施方式】
[0018] 本實施例描述了應(yīng)用本發(fā)明在文檔集中獲取食品安全領(lǐng)域相關(guān)文檔的過程?;?食品安全領(lǐng)域本體的屬性特征,設(shè)置關(guān)鍵詞為"牛奶、三聚氰胺",即初始參數(shù)c = 2。首先對 文本集進(jìn)行預(yù)處理,包括分詞、去標(biāo)點(diǎn)、去停用詞,并將全部詞初始化為噪聲。由于表征一篇 文檔是否相關(guān)的詞并不全等于關(guān)鍵詞集,因此也需要提取出關(guān)鍵詞集中不包含的約束?;?于公#
[0019
[0020] 式中,k的取值范圍為{0,1},即代表噪聲或有效信息,m為文檔集內(nèi)文檔數(shù)目,x為 詞條的編號,用于區(qū)分不同的詞。P(x)表示該詞屬于有效信息的概率,nkt代表關(guān)鍵詞X分配 為有效信息的次數(shù),nkt Sum代表有效信息的總詞數(shù),nmk代表文檔m中屬于有效信息的詞的 個數(shù),nmkSum代表文檔m的總詞數(shù),con代表關(guān)鍵詞X對所屬分類別的貢獻(xiàn)度。參數(shù)C表示文檔 m中,描述領(lǐng)域本體不同屬性維度的詞的類數(shù)。
[0021] 迭代上述公式,更新各詞屬于有效信息的概率。進(jìn)一步,當(dāng)文檔m中的有效信息頻 率較高時,文檔m中的詞屬于有效信息的概率增大;當(dāng)噪聲詞w被劃分為有效信息的頻率增 大時,該詞整體屬于有效信息的概率增大;對于關(guān)鍵詞w,若該詞與所分類別間的距離較小 時,該詞屬于有效信息的頻率增大。參數(shù)C越大,文檔中描述領(lǐng)域本體不同維度的數(shù)目越多, 則該文檔對所分類別的描述越全面,該文檔屬于有效信息的概率越大。該方法基于以下假 設(shè):文本分為相關(guān)文本和不相干文本,相關(guān)文本包括主題相關(guān)的有效信息和主題無關(guān)的噪 聲,其中噪聲和有效信息服從二項分布,在有效信息中,各關(guān)鍵詞的分布服從多項式分布。 每個文本通過對有效信息和噪聲的抽樣生成。為獲得文檔集中的噪聲和有效信息的分布模 型和有效信息中詞的分布模型,通過Gibbs Sampling方法采樣并計算上述分布的最優(yōu)解, 即為所需的噪聲與有效信息的分布。
[0022] 圖1為基于概率潛在語義分析的關(guān)鍵詞擴(kuò)展方法中獲取擴(kuò)展詞條隨迭代次數(shù)的更 新曲線??梢钥闯鼋?jīng)過多次迭代,有效信息集合中詞的數(shù)目穩(wěn)定在900個左右,顯示了該方 法的收斂性。
[0023] 通過對關(guān)鍵詞的自動擴(kuò)展,獲取到描述地點(diǎn)的"石家莊、甘肅、蘭州、河北"等信息, 描述事件危害的"腎結(jié)石、泌尿、衰竭、死亡、積水、梗阻"等信息,描述涉事產(chǎn)品的"三鹿、奶 糖、雅士利、大白兔、奶制品"等信息。獲得的有效信息詞組更加全面,對待分類別的描述更 加全面細(xì)致。經(jīng)迭代后描述食品安全領(lǐng)域本體的維度數(shù)目C增至5。
[0024] 基于有效信息詞組的文本距離計算方法,應(yīng)用上述概率潛在語義分析的關(guān)鍵詞擴(kuò) 展算法,獲取到描述類別信息的關(guān)鍵詞詞組,應(yīng)用如下公式計算各文本屬于待分類項的概 率。
[0025]
[0026] 式中,F(xiàn)(m)表示文章 m屬于有效信息的得分,nmk代表文檔m中屬于有效信息的詞的 個數(shù),nmkSum代表文檔m的總詞數(shù),con代表關(guān)鍵詞X對所屬分類別的貢獻(xiàn)度。參數(shù)C表示文檔 m中,描述領(lǐng)域本體不同屬性維度的詞的類數(shù)。
[0027] 遍歷文檔集獲取每篇文檔的得分,圖2為基于有效信息詞組的文本距離計算方法 的文檔得分排序曲線。如圖,各文檔根據(jù)相關(guān)性的差異其得分間存在較明顯的差異。最終通 過設(shè)置的得分閾值獲取到與待分類別相關(guān)的文檔集。
【主權(quán)項】
1. 一種基于領(lǐng)域本體的潛在語義擴(kuò)展算法,其特征在于:首先定義描述分類文本的關(guān) 鍵詞詞組,該詞組來源于領(lǐng)域本體的不同屬性類,待分類文本中的詞全部初始化為噪聲?;?于公式(1)迭代計算各詞屬于有效信息的概率。式中,k的取值范圍為{0,1},即代表噪聲或有效信息,m為文檔集內(nèi)文檔數(shù)目,X為詞條 的編號,用于區(qū)分不同的詞。P(x)表示該詞屬于有效信息的概率,nkt代表關(guān)鍵詞X分配為有 效信息的次數(shù),nkt Sum代表有效信息的總詞數(shù),nmk代表文檔m中屬于有效信息的詞的個數(shù), nmkSum代表文檔m的總詞數(shù),con代表關(guān)鍵詞X對所屬分類別的貢獻(xiàn)度。參數(shù)C表示文檔m中, 描述領(lǐng)域本體不同屬性維度的詞的類數(shù)。2. 根據(jù)權(quán)利要求1所述基于領(lǐng)域本體的潛在語義擴(kuò)展算法,其特征在于基于如下假設(shè): 文本分為相關(guān)文本和不相干文本,相關(guān)文本包括主題相關(guān)的有效信息和主題無關(guān)的噪聲, 其中噪聲和有效信息服從二項分布,在有效信息中,各關(guān)鍵詞的分布服從多項式分布。每個 相關(guān)文本通過對有效信息和噪聲的抽樣生成。通過采樣并計算上述分布的最優(yōu)解,即為所 需的噪聲與有效信息的分布。3. -種基于有效信息集合的文本距離計算方法。其特征在于,應(yīng)用上述基于領(lǐng)域本體 的潛在語義擴(kuò)展算法,獲取到描述類別信息的有效信息集合,應(yīng)用公式(2)計算各文本屬于 待分類項的概率。式中,F(xiàn)(m)表示文章m屬于有效信息的得分,nmk代表文檔m中屬于有效信息的詞的個 數(shù),nmkSum代表文檔m的總詞數(shù),con代表關(guān)鍵詞X對所屬分類別的貢獻(xiàn)度。參數(shù)C表示文檔m 中,描述領(lǐng)域本體不同屬性維度的詞的類數(shù)。
【專利摘要】本發(fā)明涉及一種半監(jiān)督的主題模型的文本分類方法。本發(fā)明的方法為:根據(jù)領(lǐng)域本體對關(guān)鍵詞的描述,定義關(guān)鍵詞對領(lǐng)域本體的貢獻(xiàn)度,提出基于噪聲和有效信息的詞的二分類方法。對于每篇文檔初始化其為噪聲,然后迭代計算各詞屬于有效信息的概率,防止有效信息被噪聲淹沒。迭代結(jié)束后獲取到描述文本分類的有效信息集合。應(yīng)用有效信息集合可計算文本屬于有效文本的得分,即可完成文本分類的功能。應(yīng)用該方法可對領(lǐng)域本體相關(guān)的文本集合進(jìn)行有效的類別劃分,較為準(zhǔn)確的提取出符合約束條件的文本集合。
【IPC分類】G06F17/30
【公開號】CN105677856
【申請?zhí)枴緾N201610008920
【發(fā)明人】楊璐, 王炳蔚, 鄭麗敏, 黃斌
【申請人】中國農(nóng)業(yè)大學(xué)
【公開日】2016年6月15日
【申請日】2016年1月7日
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1