亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于協(xié)同神經(jīng)網(wǎng)絡(luò)的語義角色標注方法

文檔序號:6365064閱讀:544來源:國知局
專利名稱:一種基于協(xié)同神經(jīng)網(wǎng)絡(luò)的語義角色標注方法
技術(shù)領(lǐng)域
本發(fā)明涉及語義角色標注、模式識別和協(xié)同神經(jīng)網(wǎng)絡(luò)領(lǐng)域,涉及將協(xié)同神經(jīng)網(wǎng)絡(luò)原理引入到淺層語義分析的方法,尤其涉及一種基于協(xié)同神經(jīng)網(wǎng)絡(luò)的語義角色標注方法。
背景技術(shù)
作為自然語言處理的ー個主要研究方向,語義分析能夠?qū)⒆匀徽Z言轉(zhuǎn)化為計算機能夠理解的形式化語言,從而做到人與計算機之間的相互理解。對句子進行正確的語義分析,一直是從事自然語言理解研究的學(xué)者們追求的主要目標。但受語義的復(fù)雜性所限,目前的語義分析主要是集中在角色標注等方面。語義角色標注不對整個句子進行詳細的語義分祈,它只標注與句子中謂詞有關(guān)的成分的語義角色,如施事、受事、與事、時間和地點等。近 年來,語義角色標注受到了越來越多的學(xué)者的關(guān)注,廣泛于應(yīng)用于信息抽取、信息檢索、機器翻譯等領(lǐng)域。隨著自然語言中底層技術(shù)的逐漸成熟,如分詞、句法分析等都為語義角色標注的發(fā)展打下了重要基礎(chǔ)。語義角色標注的基本標注單元主要有詞、短語和句法成分。從整體效果看,以句法成分為標注単元的語義角色標注要優(yōu)于以詞和短語為標注単元的方法。語義角色標注一般分為4個步驟。首先,進行預(yù)處理,過濾掉不可能成為語義角色的句法成分,預(yù)處理的任務(wù)即判斷成分與目標動詞之間是否具有語義角色關(guān)系,其可看作是ー個ニ元分類問題;其次,識別出謂詞的可能語義角色;接著,為句法成分進行具體角色的分類;最后,進行后處理,得到合理的角色組合。其中,分類問題主要是采用機器學(xué)習(xí)技術(shù)進行處理。目前,主流的語義角色標注研究主要集中于使用各種機器學(xué)習(xí)技術(shù),利用多種語言學(xué)特征,進行了語義角色的識別和分類。在角色分類過程中,無論是采用基于特征向量的方法,還是基于樹核函數(shù)的方法,目的都是盡可能描述和計算兩個對象之間的相似度。根據(jù)是否使用相關(guān)的角色信息,可以將標注模型分為局部模型和全局模型。目前,多數(shù)基于句法成分的語義角色標注系統(tǒng)是采用局部模型,直接對各個句法成分的角色進行分類。局部模型沒有考慮到成分角色的依賴關(guān)系,各個成分的角色標注過程相互獨立。全局模型則在局部推導(dǎo)的基礎(chǔ)上,考慮角色間的依賴關(guān)系,通過相關(guān)約束條件,從而得到較合理的角色組合。全局模型可分為兩種(I)在后處理步驟考慮語義角色全局信息,如利用角色間的約束條件,利用貪心策略保留約束的語義角色。(2)在分類的過程中考慮語義角色全局信息,如利用最大熵馬爾科夫模型進行序列標注,此方法可得到更多的上下文信息。但會出現(xiàn)標注偏置問題而影響最終的性能。實際上,語義角色的確定依賴于與之同謂詞的其它結(jié)點的角色,是ー個協(xié)同互動、相互制約的ー個過程。如果將這個問題從整體上考慮進而研究一體化的語義標注將有可能取得更好的效果,值得我們深入研究。考慮到同一文本語境中各歧義實體之間通過語義協(xié)同互動而最終突顯出該語境整體語義的這ー特點,我們可以采用哈肯教授提出的協(xié)同神經(jīng)網(wǎng)絡(luò)處理語義標注問題。把語義標注過程看成是語境整體語義的形成過程語境中各歧義實體被加入到集合中,它們的不同語義參與競爭,最終具有最強初始支撐的序參量贏得勝利,驅(qū)使系統(tǒng)呈現(xiàn)原先缺少的特征,并最終突顯出整個語境的整體語義,在此過程中各歧義實體的意義也得以確定。協(xié)同神經(jīng)網(wǎng)絡(luò)方法的優(yōu)點之一是有較強的抗噪聲和抗缺損能力,因而采用這種方法來實現(xiàn)語義標注將可以較好地處理語義標注時上下文信息不完整的模糊匹配的問題。協(xié)同模式識別方法目前已經(jīng)被成功用在人臉識別、自動控制等領(lǐng)域,語義標注問題本質(zhì)上也可以考慮為ー個模式識別問題,因此也完全有可能采用此方法加以解決。本發(fā)明將協(xié)同神經(jīng)網(wǎng)絡(luò)用于語義角色標注。中國專利CN101446942公開ー種自然語言句子的語義角色標注方法,采用聯(lián)合學(xué)習(xí)模型,同時實現(xiàn)中文句法分析和語義角色標注。通過聯(lián)合模型的使用,能夠同時輸出ー個句子的句法分析結(jié)果和給定謂詞的語義角色標注結(jié)果。在聯(lián)合學(xué)習(xí)模型中,由于句法分析模型中増加了語義信息,使得訓(xùn)練出來的模型更適合于語 義角色標注任務(wù),因此由此模型輸出的語義角色標注性能更高。同時聯(lián)合模型輸出的句法分析結(jié)果同單個句法分析模型的結(jié)果相比,兩者性能不會有很大差別,甚至由于語義信息的加入,還能夠提高句法分析的性倉^:。

發(fā)明內(nèi)容
本發(fā)明的目的在于針對現(xiàn)有的利用機器學(xué)習(xí)算法進行的語義角色標注系統(tǒng)所存在的問題和缺點,提供可使語義標注有更高的標注性能的一種基于協(xié)同神經(jīng)網(wǎng)絡(luò)的語義角色標注方法。本發(fā)明包括以下步驟I)從訓(xùn)練語料和測試語料中抽取特征,并構(gòu)造相應(yīng)的語義特征向量;2)對語義特征向量進行核變換,并在此基礎(chǔ)上構(gòu)造原型模式和待測試模式;3)構(gòu)造序參量,對每個依存成分求若干個侯選角色;4)構(gòu)建謂詞庫,對每個謂詞對應(yīng)的所有依存成分的候選角色進行組合,得到各個謂詞的角色鏈;5)優(yōu)化網(wǎng)絡(luò)參數(shù),進行協(xié)同神經(jīng)網(wǎng)絡(luò)的動力學(xué)演化,從而得到最優(yōu)角色鏈,并輸出標注模式。在步驟I)中,所述抽取特征包括基本特征和擴展特征,所述基本特征包括謂詞及詞性、謂詞語態(tài)、當前關(guān)系、路徑、關(guān)系子類框架、中心詞及位置等6類特征;所述擴展特征包括句法路徑、句法路徑長度、句法部分路徑長度、關(guān)系路徑、關(guān)系部分路徑、句法部分路徑、謂詞兄弟的依存關(guān)系鏈、謂詞+句法路徑、謂詞關(guān)系、謂詞的句法子類框架、謂詞+中心詞、謂詞兄弟的中心詞鏈、中心詞詞性、中心詞+詞性、中心詞當前關(guān)系等15類特征;所述擴展特征加到基本特征中可形成更豐富有效的擴展特征空間。在步驟2)中,所述對語義特征向量進行核變換的具體方法如下采用的混合核函
ηη
數(shù)可定義為丨レ,>0 =刀從レ,>0,其中、為系數(shù),且Σ為=1,Mx,y)可根據(jù)語義特征組
i i
合的需要選擇定義為多項式核函數(shù)、高斯核函數(shù)、卷積核函數(shù)等,通過核函數(shù)映射對已有特征進行了組合或者分解,將低維特征空間映射到高維特征空間,降低原型向量之間的相關(guān)程度,從而提聞網(wǎng)絡(luò)的識別率;
所述構(gòu)造原型模式可采用數(shù)學(xué)平均值方法構(gòu)造原型模式,具體步驟為(I)每個類別分別選取若干個有代表性的訓(xùn)練樣本;(2)對每個類別分別計算原型模式。與單原型模式的選擇算法相比,該算法可有效地提高原型特征向量的可分性。在步驟3)中,所述對每個依存成分求若干個侯選角色的具體步驟包括(I)對原型模式和待測試模式構(gòu)造序參量;(2)將序參量按大小順序排序,得到相應(yīng)的的候選角色。由語義特征所構(gòu)造的原型向量產(chǎn)生相應(yīng)的序參量,序參量代表輸入模型對原型模式的系數(shù),輸入模式與原型模式越接近,系數(shù)越大,序參量可視為若干特征相互比較下的綜合評價。序參量的構(gòu)造對于整個網(wǎng)絡(luò)的識別性能有重要影響;在步驟(I)中,所述構(gòu)造序參量的方法可采用偽逆法、距離法或內(nèi)積法,具體步驟如下設(shè)原型模式vk(k= 1,2…)、測試模式qi(l = 1,2···)和伴隨模式Vi+ (k= 1,2···),則Vk和qi之間的序參量ξ lk為若采用偽逆法,則4, (I = 1,2-, k = 1,2···);若采用距離法,貝Uξ lk = I Ivk-Q1I I,(I = I,2..., k = 1,2...);若采用內(nèi)積法,則
權(quán)利要求
1.一種基于協(xié)同神經(jīng)網(wǎng)絡(luò)的語義角色標注方法,其特征在于包括以下步驟 1)從訓(xùn)練語料和測試語料中抽取特征,并構(gòu)造相應(yīng)的語義特征向量; 2)對語義特征向量進行核變換,并在此基礎(chǔ)上構(gòu)造原型模式和待測試模式; 3)構(gòu)造序參量,對每個依存成分求若干個侯選角色; 4)構(gòu)建謂詞庫,對每個謂詞對應(yīng)的所有依存成分的候選角色進行組合,得到各個謂詞的角色鏈; 5)優(yōu)化網(wǎng)絡(luò)參數(shù),進行協(xié)同神經(jīng)網(wǎng)絡(luò)的動力學(xué)演化,從而得到最優(yōu)角色鏈,并輸出標注模式。
2.如權(quán)利要求I所述的一種基于協(xié)同神經(jīng)網(wǎng)絡(luò)的語義角色標注方法,其特征在于在步驟I)中,所述抽取特征包括基本特征和擴展特征,所述基本特征包括謂詞及詞性、謂詞語態(tài)、當前關(guān)系、路徑、關(guān)系子類框架、中心詞及位置6類特征;所述擴展特征包括句法路徑、句法路徑長度、句法部分路徑長度、關(guān)系路徑、關(guān)系部分路徑、句法部分路徑、謂詞兄弟的依存關(guān)系鏈、謂詞+句法路徑、謂詞關(guān)系、謂詞的句法子類框架、謂詞+中心詞、謂詞兄弟的中心詞鏈、中心詞詞性、中心詞+詞性、中心詞當前關(guān)系15類特征。
3.如權(quán)利要求I所述的一種基于協(xié)同神經(jīng)網(wǎng)絡(luò)的語義角色標注方法,其特征在于在步驟2)中,所述對語義特征向量進行核變換的具體方法如下采用的混合核函數(shù)定義為
4.如權(quán)利要求I所述的一種基于協(xié)同神經(jīng)網(wǎng)絡(luò)的語義角色標注方法,其特征在于在步驟2)中,所述構(gòu)造原型模式采用數(shù)學(xué)平均值方法構(gòu)造原型模式,具體步驟為 (1)每個類別分別選取若干個有代表性的訓(xùn)練樣本; (2)對每個類別分別計算原型模式。
5.如權(quán)利要求I所述的一種基于協(xié)同神經(jīng)網(wǎng)絡(luò)的語義角色標注方法,其特征在于在步驟3)中,所述對每個依存成分求若干個侯選角色的具體步驟包括 (1)對原型模式和待測試模式構(gòu)造序參量; (2)將序參量按大小順序排序,得到相應(yīng)的的候選角色。
6.如權(quán)利要求5所述的一種基于協(xié)同神經(jīng)網(wǎng)絡(luò)的語義角色標注方法,其特征在于在步驟(I)中,所述構(gòu)造序參量的方法采用偽逆法、距離法或內(nèi)積法,具體步驟如下 設(shè)原型模式vk (k= 1,2···)、測試模式Q1 (I = 1,2···)和伴隨模式(k = I, 2···),貝IjVk和%之間的序參量ξ lk為··
7.如權(quán)利要求I所述的一種基于協(xié)同神經(jīng)網(wǎng)絡(luò)的語義角色標注方法,其特征在于在步驟4)中,所述謂詞的角色鏈的獲取方法是從每個依存成分各取一個可能角色,通過組合算法構(gòu)成鏈。
8.如權(quán)利要求I所述的一種基于協(xié)同神經(jīng)網(wǎng)絡(luò)的語義角色標注方法,其特征在于在步驟5)中,所述優(yōu)化網(wǎng)絡(luò)參數(shù)的方法采用基于量子微粒群算法的參數(shù)優(yōu)化,將對訓(xùn)練樣本的識別率作為適應(yīng)度,在參數(shù)空間中搜索注意參數(shù)Uk,B,C)的最優(yōu)解,Xk(k= 1,2···),B,C為協(xié)同神經(jīng)網(wǎng)絡(luò)的注意參數(shù)。
9.如權(quán)利要求I所述的一種基于協(xié)同神經(jīng)網(wǎng)絡(luò)的語義角色標注方法,其特征在于在步驟5)中,所述進行協(xié)同神經(jīng)網(wǎng)絡(luò)的動力學(xué)演化采用的動力學(xué)演化方程為 ik=Uk-BY^k-cfj#k k'^k k'=\ 式中Ik為序參量,λ k(k = 1,2…),B, C為協(xié)同神經(jīng)網(wǎng)絡(luò)的注意參數(shù)。
全文摘要
一種基于協(xié)同神經(jīng)網(wǎng)絡(luò)的語義角色標注方法,涉及語義角色標注、模式識別和協(xié)同神經(jīng)網(wǎng)絡(luò)領(lǐng)域,涉及將協(xié)同神經(jīng)網(wǎng)絡(luò)原理引入到淺層語義分析的方法。從訓(xùn)練語料和測試語料中抽取特征,并構(gòu)造相應(yīng)的語義特征向量;對語義特征向量進行核變換,并在此基礎(chǔ)上構(gòu)造原型模式和待測試模式;構(gòu)造序參量,對每個依存成分求若干個侯選角色;構(gòu)建謂詞庫,對每個謂詞對應(yīng)的所有依存成分的候選角色進行組合,得到各個謂詞的角色鏈;優(yōu)化網(wǎng)絡(luò)參數(shù),進行協(xié)同神經(jīng)網(wǎng)絡(luò)的動力學(xué)演化,從而得到最優(yōu)角色鏈,并輸出標注模式。首次將協(xié)同神經(jīng)網(wǎng)絡(luò)原理引入到語義角色標注中,該方法廣泛適應(yīng)于各種自然語言處理任務(wù)中。具有較好的應(yīng)用前景和應(yīng)用價值。
文檔編號G06F17/30GK102662931SQ20121011155
公開日2012年9月12日 申請日期2012年4月13日 優(yōu)先權(quán)日2012年4月13日
發(fā)明者史曉東, 周昌樂, 陳毅東, 黃哲煌 申請人:廈門大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1