亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

事件本體學(xué)習(xí)方法

文檔序號:9506184閱讀:837來源:國知局
事件本體學(xué)習(xí)方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明提出了一種事件本體學(xué)習(xí)方法,以文本作為數(shù)據(jù)源,利用分詞、依存句法等 相關(guān)的自然語言處理技術(shù)以及事件類重要度算法,實(shí)現(xiàn)事件本體中事件類的推薦,基本實(shí) 現(xiàn)了自動化,改善了目前人工構(gòu)建事件本體的現(xiàn)狀,并將該方法應(yīng)用到煤礦安全領(lǐng)域中,并 對該方法效果進(jìn)行了評價(jià)。
【背景技術(shù)】
[0002] 在早期,領(lǐng)域本體的構(gòu)建多采取人工的方式,即在領(lǐng)域?qū)<业膸椭陆㈩I(lǐng)域本 體,一方面這種構(gòu)建方法存在很大的主觀性,通常并不能準(zhǔn)確完整的反映領(lǐng)域知識,另一方 面采用這種構(gòu)建方法即使可以借助本體編輯工具,但工作量仍然很大。
[0003] 基于上述本體構(gòu)建方法存在的缺陷,眾多學(xué)者提出了本體學(xué)習(xí)技術(shù)。本體學(xué)習(xí) (Ontology Learning)技術(shù)的目標(biāo)是從關(guān)系數(shù)據(jù)庫、文本文檔、xml文件等數(shù)據(jù)源中自動抽 取領(lǐng)域概念及概念間關(guān)系,據(jù)此建立本體。
[0004] 對于煤礦安全領(lǐng)域事件本體的構(gòu)建,采取的本體學(xué)習(xí)的數(shù)據(jù)源主要是網(wǎng)絡(luò)中存在 的大量煤礦安全領(lǐng)域的網(wǎng)頁資源,人工進(jìn)行篩選后作為文本文檔,進(jìn)行本體學(xué)習(xí)時,首先需 要運(yùn)用自然語言識別的一些技術(shù)對文本文檔進(jìn)行預(yù)處理,之后通過算法集和統(tǒng)計(jì)學(xué)方法對 預(yù)處理結(jié)果進(jìn)行深層次處理,將結(jié)果呈現(xiàn)給用戶,作為初步的領(lǐng)域事件本體結(jié)果,在全程的 處理過程中都需要領(lǐng)域?qū)<液烷_發(fā)人員參與并不斷修改、糾正,最終形成完善的煤礦安全 領(lǐng)域事件本體。

【發(fā)明內(nèi)容】

[0005] (1)文本中事件類的識別
[0006] 依據(jù)事件本體模型,事件的動作屬性被抽象為事件類,在文本中的體現(xiàn)我們稱之 為事件觸發(fā)詞,因此,本節(jié)的主要工作就是制定事件觸發(fā)詞的識別規(guī)則,實(shí)現(xiàn)自動對煤礦 安全領(lǐng)域相關(guān)文檔進(jìn)行處理,得到事件觸發(fā)詞集合。
[0007] 根據(jù)本體學(xué)習(xí)流程,首先需要對文檔預(yù)處理,由于事件觸發(fā)詞主要由動詞、動名詞 組成,因此我們需要依據(jù)分詞工具對文檔進(jìn)行分詞,提取其中的動詞,但是并不是所有的動 詞都可以作為事件觸發(fā)詞,例如"來","感覺"、"存在"等詞并沒有實(shí)際的領(lǐng)域事件含義,應(yīng) 該直接剔除掉,還有一類動詞,例如"發(fā)生"、"進(jìn)行"等詞也不能反映實(shí)際的領(lǐng)域事件含義, 不能夠作為事件觸發(fā)詞,但這些動詞前后經(jīng)常會跟一些有事件含義的名詞,例如"發(fā)生爆 炸"、"進(jìn)行救援"等,對這些動詞也應(yīng)該剔除掉,但需要提取該動詞前后的名詞作為事件觸 發(fā)詞,這兩種動詞稱之為停用動詞。
[0008] 本發(fā)明采用ICTCLAS分詞工具對文檔分詞并進(jìn)行詞性標(biāo)記,事件類的識別步驟如 下:
[0009] (1)依據(jù)事件觸發(fā)詞特征,將詞性標(biāo)記為"/V"的動詞和詞性標(biāo)記為"/vn"的動名 詞提取出來作為初步觸發(fā)詞集合Ep
[0010] (2)依據(jù)停用動詞表將集合E1*的第一類停用動詞直接剔除,從而得到事件觸發(fā) 詞集合E2。
[0011] ⑶遍歷集合E2,依次與第二類停用動詞集合中動詞比對,若匹配,將該詞記為 Vl, 在原文檔中該詞所屬子句內(nèi)向后k距離內(nèi)查找名詞,其中子句指由標(biāo)點(diǎn)符號隔開的句子, 詞間距離指距某詞的字?jǐn)?shù)長度,若查找到名詞Ii 1,則將1^加入集合E 2中,并刪除V i,查找結(jié) 束;若向后未查找到名詞,則向前k距離內(nèi)查找,處理方法不變;若仍未找到名詞,則直接刪 除動詞V1。經(jīng)過處理,得到候選觸發(fā)詞集合E 3。其中,經(jīng)過統(tǒng)計(jì)學(xué)計(jì)算,在兼顧算法效率和 準(zhǔn)確度基礎(chǔ)上,向后查找距離k取值為3,向前查找距離k取值為2。
[0012] 通過上述方法確實(shí)可以得到事件的動作屬性,以此進(jìn)一步建立事件類,但是由于 文檔選取問題、文檔格式問題的存在,集合中可能會出現(xiàn)一些噪音詞匯,因此并不能夠?qū)⒓?合中所有事件觸發(fā)詞不經(jīng)篩選,全部作為候選詞。必須在通過上述方法對相關(guān)文檔進(jìn)行事 件自動識別后還需要對結(jié)果進(jìn)行人工篩選,以確保識別出的事件觸發(fā)詞均可以作為煤礦安 全領(lǐng)域相關(guān)事件類。
[0013] (2)事件類重要度的改進(jìn)算法
[0014] 由上文闡述事件類概念和事件類關(guān)系可知,事件類是一個動態(tài)的概念,事件類之 間會隨著時間的推移存在著邏輯上的轉(zhuǎn)化關(guān)系。
[0015] 事件類之間存在著復(fù)雜的多對多關(guān)系,形成一個網(wǎng)狀結(jié)構(gòu)事件類間的這種關(guān)系和 網(wǎng)頁鏈接關(guān)系非常相似,事件類間相關(guān)性因子可以類比網(wǎng)頁鏈接中出度和入度概念,兩者 計(jì)算重要度的算法基礎(chǔ)均為對象鏈接算法。
[0016] PageRank算法定義如下:
[0018] 其中,R(U)代表對象u重要度;q為一個調(diào)整系數(shù),取值范圍為0~1,通常取值 0. 85 ;In(u)表示鏈入對象u的對象集合,Wju表示對象j鏈入對象u的相關(guān)性系數(shù),η為 In(U)集合的大小,即鏈入對象u的對象個數(shù)。
[0019] Reverse PageRank 算法定義如下:
[0021] 其中,Out (U)表示從對象u鏈出的對象集合,Wju表示對象u鏈出到對象j所占權(quán) 重;其它符號的含義同于上式的解釋。
[0022] PageRank算法計(jì)算對象重要度主要考慮鏈入對象集合及其入度,相對的,Reverse PageRank算法計(jì)算對象重要度主要考慮該對象鏈出對象集合及其出度。根據(jù)事件類特點(diǎn), 本發(fā)明提出一種綜合考慮入度和出度的改進(jìn)的事件重要度算法,如下所示。
[0024] 上式為計(jì)算事件類u的重要度,In(U)為對事件類u的相關(guān)性因子大于0的事件 類集合,Out(U)為事件類u對其他事件類相關(guān)性因子大于0的事件類集合,w_ju和Wug分別 為對應(yīng)的事件類相關(guān)性因子,α和β分別是調(diào)節(jié)入度和出度權(quán)重的系數(shù),一般情況下均取 值0. 5, q為調(diào)節(jié)系數(shù),通常情況下取值為0. 85, η為事件類個數(shù)。
[0025] 其中事件類間相關(guān)性因子計(jì)算方法如下:
[0026] 分析相關(guān)語料文本集中單一文檔d,^和%分別代表事件類ECjP EC郝動作觸 發(fā)詞在文檔d中出現(xiàn)頻次。因此,在單篇文檔中統(tǒng)計(jì)計(jì)算事件類EC ,的相關(guān)性因子公 式定義如下所示:
[0028] 由于事件相關(guān)性因子定義為數(shù)學(xué)中的概率值,因此如果
則對計(jì)算結(jié)果歸 一化,即令
[0029] 由于單篇文檔有可能會存在偶然性,因此需要對整個文檔集合進(jìn)行統(tǒng)計(jì)計(jì)算取平 均值,最終事件類EC# EC ,的相關(guān)性因子的計(jì)算公式如下所示:
[0031] 其中N表示整個文檔集集合,IN|表示整個文檔集個數(shù)。
【附圖說明】
[0032] 圖1本體學(xué)習(xí)流程圖
[0033] 圖2事件類隨時間轉(zhuǎn)移圖
[0034] 圖3實(shí)施方式處理流程圖
[0035] 圖4實(shí)施方式系統(tǒng)主要類圖
【具體實(shí)施方式】
[0036] 1)系統(tǒng)概要設(shè)計(jì)
[0037] 設(shè)計(jì)并實(shí)現(xiàn)了重要事件類
當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1