數(shù)據(jù)語義處理方法

文檔序號：6539648閱讀：373來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

數(shù)據(jù)語義處理方法
【專利摘要】本發(fā)明提供一種數(shù)據(jù)語義處理方法，能夠自動獲取語義分類信息，形成動態(tài)分析處理模式，實(shí)現(xiàn)基于語義信息的面向自由文本轉(zhuǎn)換格式命令的語句自動分類處理。該方法包括：將獲取的文本分割為語句，并對分割得到的語句進(jìn)行編號；根據(jù)分割得到的語建立LDA模型；應(yīng)用Gibbs算法求解獲得LDA模型中語句的主題分布和主題的詞匯分布；計(jì)算語句的主題隸屬度值；根據(jù)語句的主題隸屬度值確定語句所屬的類別，并將類別結(jié)果按照對應(yīng)的語句序號輸出。
【專利說明】數(shù)據(jù)語義處理方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及語句處理領(lǐng)域，尤其涉及一種數(shù)據(jù)語義處理方法。
【背景技術(shù)】
[0002]軍事模擬訓(xùn)練具有多方面的特殊優(yōu)勢，是軍事現(xiàn)代化的重要標(biāo)志之一，各國軍方已經(jīng)重點(diǎn)研究和發(fā)展。隨著軍事模擬訓(xùn)練技術(shù)的發(fā)展，各種裝備的智能化水平不斷提升。語義的表達(dá)、分析和處理作為軍事模擬訓(xùn)練智能化處理的基礎(chǔ)也越來越受到重視。如何對于軍事模擬訓(xùn)練涉及的語義進(jìn)行提取、表達(dá)、分析和處理則是各種軍事模擬訓(xùn)練智能化的基礎(chǔ)。鑒于人在各種軍事模擬訓(xùn)練中的重要作用，這里特別需要側(cè)重人機(jī)交互的語義分析理解處理。特別是在模擬訓(xùn)練中的虛擬部分需要對文本語義內(nèi)容作出智能化的反映，從而提升軍事模擬訓(xùn)練的效能。
[0003]在傳統(tǒng)的實(shí)兵訓(xùn)練中，參加訓(xùn)練的人員根據(jù)訓(xùn)練命令進(jìn)行組織和實(shí)施。通過各級指揮員和參訓(xùn)人員對于命令的理解，利用各種高效的傳輸模式進(jìn)行通訊交流指揮實(shí)施。而在軍事模擬訓(xùn)練中需要利用計(jì)算形成模擬虛兵，為了使虛兵在軍事模擬訓(xùn)練中能夠智能化模擬實(shí)兵對于各種訓(xùn)練任務(wù)的理解，并作出適當(dāng)?shù)姆磻?yīng)，完成人機(jī)虛實(shí)交互，需要將相應(yīng)的作戰(zhàn)文書轉(zhuǎn)換成對應(yīng)的命令結(jié)構(gòu)格式，進(jìn)行通訊交流。這里需要將自然語言文本文字內(nèi)容中包含的作戰(zhàn)指揮關(guān)鍵信息進(jìn)行抽取和重組。實(shí)現(xiàn)這一抽取和重組最準(zhǔn)確的方法是組織人類專家進(jìn)行手工轉(zhuǎn)換，完成這一信息處理過程。
[0004]顯然這種模式無法適應(yīng)虛實(shí)結(jié)合的訓(xùn)練演習(xí)需要，因此如何自動獲取語義分類信息，形成動態(tài)分析處理模式，實(shí)現(xiàn)基于語義信息的面向自由文本轉(zhuǎn)換格式命令的語句自動分類處理，是當(dāng)前需要解決的技術(shù)問題。

【發(fā)明內(nèi)容】

[0005](一)要解決的技術(shù)問題
[0006]本發(fā)明提供一種數(shù)據(jù)語義處理方法，能夠自動獲取語義分類信息，形成動態(tài)分析處理模式，實(shí)現(xiàn)基于語義信息的面向自由文本轉(zhuǎn)換格式命令的語句自動分類處理。
[0007](二)技術(shù)方案
[0008]一種數(shù)據(jù)語義處理方法，包括:
[0009]將獲取的文本分割為語句，并對分割得到的語句進(jìn)行編號；
[0010]根據(jù)分割得到的語建立LDA模型；
[0011]應(yīng)用Gibbs算法求解獲得LDA模型中語句的主題分布和主題的詞匯分布；
[0012]計(jì)算語句的主題隸屬度值；
[0013]根據(jù)語句的主題隸屬度值確定語句所屬的類別，并將類別結(jié)果按照對應(yīng)的語句序號輸出。
[0014]可選的，所述根據(jù)分割得到的語建立LDA模型之前還包括:輸入潛在狄利克雷分配LDA模型的數(shù)據(jù)；具體地:[0015]對語句進(jìn)行詞語切分，應(yīng)用軍語詞典和通用詞典對分詞進(jìn)行處理，如果遇到軍語詞典和通用詞典的切分歧義，軍語詞典優(yōu)先；兩類詞典中都包括非漢語詞匯；
[0016]對于切分結(jié)果過濾掉固定停用詞，固定停用詞為漢語單字詞；
[0017]對于完成上述切分處理和過濾處理的整個文本集合進(jìn)行詞語頻度和詞語出現(xiàn)語句的文檔頻次統(tǒng)計(jì)；
[0018]過濾掉文本集合中的動態(tài)停用詞，將文檔頻次低于預(yù)設(shè)次數(shù)的詞語設(shè)定為動態(tài)停用詞。
[0019]可選的，所述計(jì)算語句的主題隸屬度值之前還包括:LDA模型參數(shù)設(shè)置；具體地:
[0020]對超參數(shù)α和β的各個分量統(tǒng)一取值，采用對稱的Dirichlet參數(shù)，并根據(jù)主題數(shù)目取α = 5/Κ，所有的β取固定的經(jīng)驗(yàn)值β = 0.01 ；
[0021]確定混亂度，混亂度的計(jì)算方法是計(jì)算文檔集中所包含的各句群的似然值，似然值的幾何均值的倒數(shù)作為混亂度；
[0022]LDA處理模型混亂度隨著句群似然值的增加而單調(diào)遞減；具體計(jì)算公式如下:
[0023]
【權(quán)利要求】
1.一種數(shù)據(jù)語義處理方法，其特征在于，包括: 將獲取的文本分割為語句，并對分割得到的語句進(jìn)行編號；根據(jù)分割得到的語建立LDA模型；應(yīng)用Gibbs算法求解獲得LDA模型中語句的主題分布和主題的詞匯分布；計(jì)算語句的主題隸屬度值；根據(jù)語句的主題隸屬度值確定語句所屬的類別，并將類別結(jié)果按照對應(yīng)的語句序號輸出。
2.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述根據(jù)分割得到的語建立LDA模型之前還包括:輸入潛在狄利克雷分配LDA模型的數(shù)據(jù)；具體地: 對語句進(jìn)行詞語切分，應(yīng)用軍語詞典和通用詞典對分詞進(jìn)行處理，如果遇到軍語詞典和通用詞典的切分歧義，軍語詞典優(yōu)先；兩類詞典中都包括非漢語詞匯；對于切分結(jié)果過濾掉固定停用詞，固定停用詞為漢語單字詞；對于完成上述切分處理和過濾處理的整個文本集合進(jìn)行詞語頻度和詞語出現(xiàn)語句的文檔頻次統(tǒng)計(jì)；過濾掉文本集合中的動態(tài)停用詞，將文檔頻次低于預(yù)設(shè)次數(shù)的詞語設(shè)定為動態(tài)停用
ο
3.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述計(jì)算語句的主題隸屬度值之前還包括:LDA模型參數(shù)設(shè)置；具體地: 對超參數(shù)α和β的各個分量統(tǒng)一取值，采用對稱的Dirichlet參數(shù)，并根據(jù)主題數(shù)目取α = 5/Κ，所有的β取固定的經(jīng)驗(yàn)值β = 0.01 ；確定混亂度，混亂度的計(jì)算方法是計(jì)算文檔集中所包含的各句群的似然值，似然值的幾何均值的倒數(shù)作為混亂度； LDA處理模型混亂度隨著句群似然值的增加而單調(diào)遞減；具體計(jì)算公式如下:

4.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述將獲取的文本分割為語句包括: 獲取預(yù)存的文本；去掉文本內(nèi)容中的非連續(xù)語句后，進(jìn)行文本分割，并控制切分得到的語句的字?jǐn)?shù)。
5.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述根據(jù)分割得到的語建立LDA模型包括: 在LDA模型中，將語句集合表示為由M個語句構(gòu)成，記作D = W1,…，dM}，其中語句dm是長度為(N)的詞語序列，可以寫成W= (W1，…，w(N))，其中Wn表示序列中的第η個詞語。
6.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述應(yīng)用Gibbs算法求解獲得LDA模型中語句的主題分布和主題的詞匯分布包括: 在任一語句m中，對于給定的詞語wn，利用Gibbs抽樣取得詞語在主題z上的后驗(yàn)概率P(WnIz)估計(jì)值；在其他詞語上的主題分配(z_n)確定的情況下,估計(jì)該當(dāng)前詞語Wn分配主題j的概率P (Zn=j);邊緣化Φ k和Θ 間接求得φ k和θ Π的值。
7.根據(jù)權(quán)利要求6所述的方法，其特征在于，還包括: 利用Gibbs抽樣方法估計(jì)LDA模型中的參數(shù)，為詞語特征在[Ρ..Κ]主題中隨機(jī)分配一個主題，構(gòu)成初始的Markov鏈，對于文本中的所有詞語特征根據(jù)上面的公式分配主題，獲取Markov鏈的下一個狀態(tài)，經(jīng)過多次迭代，Markov鏈就可以達(dá)到穩(wěn)定狀態(tài)；抽樣算法估計(jì)每個詞語與主題z的Φ和Θ的值，公式如下:
8.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述計(jì)算語句的主題隸屬度值包括: 利用Gibbs抽樣算法進(jìn)行參數(shù)估計(jì)，得到語句在主題上的分布以及主題在詞匯上的分布I# ?用這兩個分布，可以形成計(jì)算語句類別屬性的計(jì)算方法；對于任一類別集c中任一語句s的隸屬度表示為P(Slc)，根據(jù)貝葉斯公式，P(SlC)示為:
【文檔編號】G06F17/27GK103914445SQ201410079684
【公開日】2014年7月9日申請日期:2014年3月5日優(yōu)先權(quán)日:2014年3月5日
【發(fā)明者】李穎, 張全, 孫巖, 袁毅, 王青海, 何國良, 吳迪, 韋向峰申請人:中國人民解放軍裝甲兵工程學(xué)院

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：李穎;張全;孫巖;袁毅;王青海;何國良;吳迪;韋向峰
技術(shù)所有人：中國人民解放軍裝甲兵工程學(xué)院
我是此專利的發(fā)明人

上一篇：一種基于gis的耕地功能評價方法
上一篇：一種典型淤地壩壩控流域水土保持措施的評價方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

語義數(shù)據(jù)庫相關(guān)技術(shù)

大數(shù)據(jù)語義分析相關(guān)技術(shù)

語義數(shù)據(jù)模型相關(guān)技術(shù)

語義分割數(shù)據(jù)集相關(guān)技術(shù)

圖像語義分割數(shù)據(jù)集相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

數(shù)據(jù)語義處理方法