亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

結(jié)合從句級遠(yuǎn)程監(jiān)督和半監(jiān)督集成學(xué)習(xí)的關(guān)系抽取方法與流程

文檔序號:12364131閱讀:403來源:國知局
結(jié)合從句級遠(yuǎn)程監(jiān)督和半監(jiān)督集成學(xué)習(xí)的關(guān)系抽取方法與流程
本發(fā)明涉及信息抽取領(lǐng)域,具體涉及一種結(jié)合從句級遠(yuǎn)程監(jiān)督和半監(jiān)督集成學(xué)習(xí)的關(guān)系抽取方法。
背景技術(shù)
:信息抽取(InformationExtraction)是指從一段文本中抽取實體、事件、關(guān)系等類型的信息,形成結(jié)構(gòu)化數(shù)據(jù)存入數(shù)據(jù)庫中以供用戶查詢和使用的過程。關(guān)系抽取(RelationExtraction)是信息抽取的關(guān)鍵內(nèi)容,旨在抽取實體之間存在的語義關(guān)系。關(guān)系抽取技術(shù)在自動問答系統(tǒng)構(gòu)建、海量信息處理、知識庫自動構(gòu)建、搜索引擎和特定文本挖掘等領(lǐng)域具有廣闊的應(yīng)用前景。傳統(tǒng)的關(guān)系抽取研究一般采用有監(jiān)督的機器學(xué)習(xí)方法,該類方法將關(guān)系抽取看作分類問題,使用人工標(biāo)注的訓(xùn)練數(shù)據(jù),通過抽取的詞法特征和句法特征訓(xùn)練關(guān)系分類器,能取得一定的分類效果。但是,由于需要代價高昂的人工標(biāo)注數(shù)據(jù),使得有監(jiān)督的關(guān)系抽取方法能識別的關(guān)系類型局限于特定領(lǐng)域且不能適應(yīng)海量網(wǎng)絡(luò)文本的情況。為了解決有監(jiān)督的關(guān)系抽取方法人工標(biāo)注數(shù)據(jù)不足的問題,研究人員提出了自動生成標(biāo)注數(shù)據(jù)的方法—遠(yuǎn)程監(jiān)督(DistantSupervision),其假設(shè)如果兩個實體之間有某種語義關(guān)系,則所有包含它們的句子都在一定程度上表達(dá)了這種關(guān)系?;谏鲜黾僭O(shè),遠(yuǎn)程監(jiān)督利用知識庫蘊含的大量關(guān)系三元組,通過與訓(xùn)練語料的文本對齊,可以生成大量的標(biāo)注數(shù)據(jù)。遠(yuǎn)程監(jiān)督解決了有監(jiān)督的關(guān)系抽取方法標(biāo)注數(shù)據(jù)不足的問題,但由于其假設(shè)并不總是正確,導(dǎo)致生成的標(biāo)注數(shù)據(jù)中存在大量的錯誤標(biāo)注數(shù)據(jù)(即噪聲數(shù)據(jù)),對關(guān)系抽取模型造成不利影響。針對噪聲問題,現(xiàn)有處理方法一般通過修改關(guān)系抽取模型的方式來減小噪聲數(shù)據(jù)的負(fù)面影響,雖然能夠取得一定的效果,但并不能夠從根本上解決噪聲問題。另外,基于遠(yuǎn)程監(jiān)督的關(guān)系抽取普遍存在負(fù)例數(shù)據(jù)利用不足的問題,這是因為通過遠(yuǎn)程監(jiān)督生成的關(guān)系實例集中負(fù)例關(guān)系實例數(shù)量遠(yuǎn)大于正例關(guān)系實例數(shù)據(jù)數(shù)量,導(dǎo)致特征數(shù)據(jù)集中負(fù)例數(shù)據(jù)的數(shù)量遠(yuǎn)大于正例數(shù)據(jù)數(shù)量,為保證參與訓(xùn)練的正例數(shù)據(jù)和負(fù)例數(shù)據(jù)數(shù)量均衡,一般選取特征數(shù)據(jù)集全部的正例數(shù)據(jù)和少部分負(fù)例數(shù)據(jù)組成訓(xùn)練數(shù)據(jù)集,剩余的大部分負(fù)例數(shù)據(jù)被擱置不用。技術(shù)實現(xiàn)要素:為了解決關(guān)系抽取方法中噪聲數(shù)據(jù)和負(fù)例數(shù)據(jù)問題,本發(fā)明提供了一種結(jié)合從句級遠(yuǎn)程監(jiān)督和半監(jiān)督集成學(xué)習(xí)的關(guān)系抽取方法,該方法既能夠去除噪聲數(shù)據(jù),又能夠充分利用負(fù)例數(shù)據(jù)。一種結(jié)合從句級遠(yuǎn)程監(jiān)督和半監(jiān)督集成學(xué)習(xí)的關(guān)系抽取方法,主要包括如下步驟:步驟1,通過遠(yuǎn)程監(jiān)督將知識庫中的關(guān)系三元組對齊到語料庫,構(gòu)建關(guān)系實例集;步驟2,使用基于句法分析的從句識別去除關(guān)系實例集中的噪聲數(shù)據(jù);步驟3,抽取關(guān)系實例的詞法特征并轉(zhuǎn)化為分布式表征向量,構(gòu)建特征數(shù)據(jù)集;步驟4,選擇特征數(shù)據(jù)集中全部的正例數(shù)據(jù)和少部分負(fù)例數(shù)據(jù)組成標(biāo)注數(shù)據(jù)集,其余負(fù)例數(shù)據(jù)在去除標(biāo)簽后組成未標(biāo)注數(shù)據(jù)集,使用半監(jiān)督集成學(xué)習(xí)算法訓(xùn)練關(guān)系分類器。在步驟1中,通過遠(yuǎn)程監(jiān)督將知識庫K中的關(guān)系三元組對齊到語料庫D,構(gòu)建關(guān)系實例集Q={qn丨qn=(sm,ei,rk,ej),sm∈D}。其中,qn為關(guān)系實例,sm為句子,ei和ej為實體,rk為ei和ej之間存在的實體關(guān)系。如果句子sm同時包含實體ei和實體ej,且知識庫K中存在關(guān)系三元組(ei,rk,ej),則qn=(sm,ei,rk,ej)為正例關(guān)系實例,同時選擇一些不符合上述條件的關(guān)系實例作為負(fù)例關(guān)系實例。步驟2的具體步驟如下:步驟2-1,使用概率上下文無關(guān)文法對關(guān)系實例qn的句子sm進行解析,得到其語法樹,根據(jù)語法樹表示的句子sm的詞之間的結(jié)構(gòu)關(guān)系,將sm劃分成從句;步驟2-2,根據(jù)關(guān)系實例qn的實體對(ei,ej)是否同時出現(xiàn)在句子sm的某一個從句當(dāng)中來判斷關(guān)系實例qn是否是噪聲數(shù)據(jù);如果qn是噪聲數(shù)據(jù),則將其從關(guān)系實例集Q中去除;如果關(guān)系實例qn=(sm,ei,rk,ej)是正例關(guān)系實例,當(dāng)句子sm對應(yīng)的實體對(ei,ej)沒有出現(xiàn)在句子sm的任一從句中時,認(rèn)為關(guān)系實例qn是噪聲數(shù)據(jù),并將其從關(guān)系實例集Q中去除;如果關(guān)系實例qn=(sm,ei,rk,ej)是負(fù)例關(guān)系實例,當(dāng)句子sm對應(yīng)的實體對(ei,ej)出現(xiàn)在句子sm的某一從句中時,認(rèn)為關(guān)系實例qn是噪聲數(shù)據(jù),并將其從關(guān)系實例集Q中去除。步驟3的具體步驟如下:步驟3-1,抽取關(guān)系實例集Q中每個關(guān)系實例qn的詞法特征lexn;步驟3-2,將詞法特征lexn轉(zhuǎn)化為分布式表征向量vn,構(gòu)建特征數(shù)據(jù)集M。在步驟3-1中,對于關(guān)系實例qn=(sm,ei,rk,ej),其詞法特征lexn為實體對(ei,ej)本身以及(ei,ej)在句子sm中的上下文,具體的詞法特征類型如表1所示。表1詞法特征類型在步驟3-2中,將詞法特征lexn轉(zhuǎn)化為分布式表征向量vn,然后將所有的vn集合起來組成特征數(shù)據(jù)集M;關(guān)系實例集Q中正例關(guān)系實例的詞法特征向量化后變?yōu)镸的正例數(shù)據(jù),關(guān)系實例集Q中負(fù)例關(guān)系實例的詞法特征向量化后變?yōu)镸的負(fù)例數(shù)據(jù)。步驟4的具體步驟如下:步驟4-1,選擇特征數(shù)據(jù)集M中全部的正例數(shù)據(jù)和少部分負(fù)例數(shù)據(jù)組成標(biāo)注數(shù)據(jù)集L;剩余負(fù)例數(shù)據(jù)在去除標(biāo)簽后作為未標(biāo)注數(shù)據(jù)集U;步驟4-2,從標(biāo)注數(shù)據(jù)集L中有放回地選取n個初始樣本集L1,L2,…,Ln;步驟4-3,使用初始樣本集Li和第t-1輪選出的高置信度的未標(biāo)注樣本集Ui,t-1訓(xùn)練對應(yīng)的關(guān)系分類器Ci,其中,i=1,2,…,n;步驟4-4,n個關(guān)系分類器C1,C2,…,Cn對未標(biāo)注數(shù)據(jù)集U中未標(biāo)注樣本xu的類標(biāo)記分別進行預(yù)測,通過投票法生成高置信度的未標(biāo)注樣本集Fi,t;步驟4-5,根據(jù)一定的過濾篩選準(zhǔn)則,從高置信度的未標(biāo)注樣本集Fi,t中,為第i個關(guān)系分類器Ci挑選一定數(shù)量的未標(biāo)注樣本xu,構(gòu)成Ui,t,在下一輪迭代過程中加入到第i個關(guān)系分類器Ci的訓(xùn)練集中,然后重新訓(xùn)練對應(yīng)的關(guān)系分類器Ci;步驟4-6,重復(fù)步驟4-4,4-5,4-6,當(dāng)所有Ui,t都為空集,即沒有新的未標(biāo)注樣本xu加入到訓(xùn)練集中時,或者迭代次數(shù)已經(jīng)達(dá)到預(yù)先設(shè)定的最大迭代次數(shù)時,該訓(xùn)練過程停止。在步驟4-3中,Ui,t-1表示在第t-1輪迭代中,關(guān)系分類器為第i個關(guān)系分類器Ci時,挑選的未標(biāo)注樣本xu的集合,該未標(biāo)注樣本xu由U中的未標(biāo)注樣本xu以及從t-1輪迭代中得到的類標(biāo)記組成,其中t大于等于2,當(dāng)t=1時,Ui,t-1為空集。注意,t-1輪前添加到訓(xùn)練集的未標(biāo)注樣本xu將會從訓(xùn)練集中被刪除掉,重新加入到未標(biāo)注樣本集Fi,t中,每一輪迭代中訓(xùn)練集都只擴充上一輪添加的未標(biāo)注樣本xu。在步驟4-4中,F(xiàn)i,t表示在第t輪迭代中,關(guān)系分類器為Ci時,挑選的高置信度未標(biāo)注樣本xu的集合,該集合經(jīng)過一定的過濾篩選后,留下來的未標(biāo)注樣本xu將構(gòu)成Ui,t。針對未標(biāo)注樣本xu,用hi(xu)表示第i個關(guān)系分類器Ci對未標(biāo)注樣本xu預(yù)測的類標(biāo)記。關(guān)系分類器E中刪除Ci后的集合設(shè)為Ei,即Ei={Cj∈E|j≠i}。未標(biāo)注樣本xu的類標(biāo)記由Ei中的多個關(guān)系分類器Ei投票決定,選擇票數(shù)最多的類標(biāo)記作為未標(biāo)注樣本xu的類標(biāo)記。樣本預(yù)測結(jié)果的一致性程度,即為置信度,關(guān)系分類器Ei根據(jù)其預(yù)測的樣本標(biāo)記的一致性計算置信度,計算公式為公式1-1:confi(xu)=Σj=0,j≠inI(hj(xu)=l^xui)n-1,---(1-1)]]>其中,confi(xu)表示xu的真實類標(biāo)記為的置信度;I()是一個指示函數(shù),如果輸入為假,該函數(shù)值為0,否則為1。高置信度的未標(biāo)注樣本xu能夠有效地提升關(guān)系分類器的分類準(zhǔn)確率,如果在保證未標(biāo)注樣本標(biāo)記高置信度的前提下,考慮Ci和Ei在同一樣本上預(yù)測結(jié)果的不一致性,進而選擇出能夠糾正關(guān)系分類器Ci的未標(biāo)注樣本集Fi,t,則能進一步提升關(guān)系分類器的分類準(zhǔn)確率。因此,在第t輪迭代過程中,公式1-2為第i個關(guān)系分類器選擇高置信度的未標(biāo)注樣本xu,F(xiàn)i,t=x|confi(x)≥θΛhi(x)≠l^xi,x∈U,---(1-2)]]>其中θ是一個預(yù)設(shè)的閾值,只有未標(biāo)注樣本xu的置信度大于該閾值,并且Ci與Ei的預(yù)測結(jié)果不一致時,該樣本才會被選擇加入到Fi,t中。在步驟4-5中,對于未標(biāo)注樣本xu,令P(hi(xu))表示Ci預(yù)測xu輸出為hi(xu)的概率值,在過濾篩選時,同時考慮P(hi(xu))和confi(xu),將Fi,t集合中的高置信度未標(biāo)注樣本按照confi(xu)、P(hi(xu))的順序依次降序排序,即confi(xu)越大的樣本越靠前,confi(xu)相同的情況下,P(hi(xu))越大的樣本越靠前;經(jīng)過排序后,取前mi,t個樣本構(gòu)成Ui,t。本發(fā)明結(jié)合了從句識別和半監(jiān)督集成學(xué)習(xí)算法,在去除關(guān)系實例噪聲的同時,充分利用負(fù)例數(shù)據(jù)。與現(xiàn)有的技術(shù)相比,本發(fā)明的優(yōu)點包括:(1)通過從句識別去除訓(xùn)練數(shù)據(jù)中的噪聲數(shù)據(jù),提高了訓(xùn)練數(shù)據(jù)的標(biāo)記準(zhǔn)確度,從而提高了關(guān)系抽取的分類準(zhǔn)確度。(2)通過半監(jiān)督集成學(xué)習(xí)算法訓(xùn)練關(guān)系分類器,將傳統(tǒng)關(guān)系抽取中未被利用的負(fù)例數(shù)據(jù)去除標(biāo)簽后作為無標(biāo)注數(shù)據(jù)使用,提高了負(fù)例數(shù)據(jù)的利用率,從而提高了關(guān)系抽取的分類準(zhǔn)確度。附圖說明圖1是結(jié)合從句識別與半監(jiān)督集成學(xué)習(xí)的關(guān)系抽取方法流程圖;圖2是第t輪迭代流程圖。具體實施方式為了更為具體地描述本發(fā)明,下面結(jié)合附圖及具體實施方式對本發(fā)明的技術(shù)方案進行詳細(xì)說明。圖1所示的是本發(fā)明一種結(jié)合從句級遠(yuǎn)程監(jiān)督與半監(jiān)督集成學(xué)習(xí)的關(guān)系抽取方法的流程圖,該方法分為數(shù)據(jù)處理和模型訓(xùn)練兩個階段。數(shù)據(jù)處理階段數(shù)據(jù)處理的具體步驟如下:步驟a-1,通過遠(yuǎn)程監(jiān)督將知識庫K中的關(guān)系三元組對齊到語料庫D,構(gòu)建關(guān)系實例集Q={qn丨qn=(sm,ei,rk,ej),sm∈D}。如果句子sm同時包含實體ei和ej,且知識庫K中存在關(guān)系三元組(ei,rk,ej),則(sm,ei,rk,ej)為正例關(guān)系實例,同時選擇一些不符合上述條件的關(guān)系實例作為負(fù)例關(guān)系實例。步驟a-2,使用概率上下文無關(guān)文法對關(guān)系實例qn的句子sm進行解析,得到其語法樹,根據(jù)語法樹表示的句子sm的詞之間的結(jié)構(gòu)關(guān)系,將sm劃分成從句。步驟a-3,根據(jù)關(guān)系實例qn的實體對(ei,ej)是否同時出現(xiàn)在句子sm的某一個從句當(dāng)中來判斷關(guān)系實例qn是否是噪聲數(shù)據(jù);如果qn是噪聲數(shù)據(jù),則將其從關(guān)系實例集Q中去除;如果關(guān)系實例qn=(sm,ei,rk,ej)是正例關(guān)系實例,當(dāng)句子sm對應(yīng)的實體對(ei,ej)沒有出現(xiàn)在句子sm的任一從句當(dāng)中時,認(rèn)為關(guān)系實例qn是噪聲數(shù)據(jù),并將其從關(guān)系實例集Q中去除;如果關(guān)系實例qn=(sm,ei,rk,ej)是負(fù)例關(guān)系實例,當(dāng)句子sm對應(yīng)的實體對(ei,ej)出現(xiàn)在句子sm的某一從句中時,認(rèn)為關(guān)系實例qn是噪聲數(shù)據(jù),并將其從關(guān)系實例集Q中去除。步驟a-4,抽取關(guān)系實例集Q中每個關(guān)系實例qn的詞法特征lexn。對于關(guān)系實例qn=(sm,ei,rk,ej),其詞法特征lexn為實體對(ei,ej)本身以及(ei,ej)在句子sm中的上下文,具體的詞法特征類型如表1所示。表2詞法特征類型步驟a-5,將詞法特征lexn轉(zhuǎn)化為分布式表征向量vn,構(gòu)建特征數(shù)據(jù)集M。將詞法特征lexn轉(zhuǎn)化為分布式表征向量vn,然后將所有的vn集合起來組成特征數(shù)據(jù)集M;關(guān)系實例集Q中正例關(guān)系實例的詞法特征向量化后變?yōu)镸的正例數(shù)據(jù),關(guān)系實例集Q中負(fù)例關(guān)系實例的詞法特征向量化后變?yōu)镸的負(fù)例數(shù)據(jù)。模型訓(xùn)練階段模型訓(xùn)練是一個迭代式學(xué)習(xí)過程,其第t次迭代如圖2所示。步驟b-1,選擇特征數(shù)據(jù)集M中全部的正例數(shù)據(jù)和少部分負(fù)例數(shù)據(jù)組成標(biāo)注數(shù)據(jù)集,記作L;剩余負(fù)例數(shù)據(jù)在去除標(biāo)簽后作為未標(biāo)注數(shù)據(jù)集,記作U。步驟b-2,從標(biāo)注數(shù)據(jù)集L中有放回地選取n個初始樣本集L1,L2,…,Ln。步驟b-3,使用初始樣本集Li和第t-1輪選出的高置信度未標(biāo)注樣本集Ui,t-1訓(xùn)練對應(yīng)的關(guān)系分類器Ci,其中,i=1,2,…,n。Ui,t-1表示在第t-1輪迭代中,關(guān)系分類器為第i個關(guān)系分類器Ci時,挑選的未標(biāo)注樣本xu的集合,該未標(biāo)注樣本xu由U中的未標(biāo)注樣本xu以及從t-1輪迭代中得到的類標(biāo)記組成,其中t大于等于2,當(dāng)t=1時,Ui,t-1為空集。注意,t-1輪前添加到訓(xùn)練集的未標(biāo)注樣本xu將會從訓(xùn)練集中被刪除掉,重新加入到未標(biāo)注樣本集Fi,t中,每一輪迭代中訓(xùn)練集都只擴充上一輪添加的未標(biāo)注樣本xu。步驟b-4,n個關(guān)系分類器C1,C2,…,Cn對未標(biāo)注數(shù)據(jù)集U中未標(biāo)注樣本xu的類標(biāo)記分別進行預(yù)測,通過投票法生成高置信度的未標(biāo)注樣本集Fi,t;Fi,t表示在第t輪迭代中,關(guān)系分類器為Ci時,挑選的高置信度未標(biāo)注樣本xu的集合,該集合經(jīng)過一定的過濾篩選后,留下來的未標(biāo)注樣本xu將構(gòu)成Ui,t。針對未標(biāo)注樣本xu,用hi(xu)表示第i個關(guān)系分類器Ci對未標(biāo)注樣本xu預(yù)測的類標(biāo)記。關(guān)系分類器E中刪除Ci后的集合設(shè)為Ei,即Ei={Cj∈E|j≠i}。未標(biāo)注樣本xu的類標(biāo)記由Ei中的多個關(guān)系分類器Ei投票決定,選擇票數(shù)最多的類標(biāo)記作為未標(biāo)注樣本xu的類標(biāo)記。樣本預(yù)測結(jié)果的一致性程度,即為置信度,關(guān)系分類器Ei根據(jù)其預(yù)測的樣本標(biāo)記的一致性計算置信度,計算公式為公式1-1:confi(xu)=Σj=0,j≠inI(hj(xu)=l^xui)n-1,---(1-1)]]>其中,confi(xu)表示xu的真實類標(biāo)記為的置信度;I()是一個指示函數(shù),如果輸入為假,該函數(shù)值為0,否則為1。高置信度的未標(biāo)注樣本xu能夠有效地提升關(guān)系分類器的分類準(zhǔn)確率,如果在保證未標(biāo)注樣本標(biāo)記高置信度的前提下,考慮Ci和Ei在同一樣本上預(yù)測結(jié)果的不一致性,進而選擇出能夠糾正關(guān)系分類器Ci的未標(biāo)注樣本集Fi,t,則能進一步提升關(guān)系分類器的分類準(zhǔn)確率。因此,在第t輪迭代過程中,公式2為第i個關(guān)系分類器選擇高置信度的未標(biāo)注樣本,F(xiàn)i,t=x|confi(x)≥θΛhi(x)≠l^xi,x∈U,---(1-2)]]>其中θ是一個預(yù)設(shè)的閾值,只有未標(biāo)注樣本xu的置信度大于該閾值,并且Ci與Ei的預(yù)測結(jié)果不一致時,該樣本才會被選擇加入到Fi,t中。步驟b-5,根據(jù)一定的過濾篩選準(zhǔn)則,從高置信度的未標(biāo)注樣本集Fi,t中,為第i個關(guān)系分類器Ci挑選一定數(shù)量的未標(biāo)注樣本xu,構(gòu)成Ui,t,在下一輪迭代過程中加入到第i個關(guān)系分類器Ci的訓(xùn)練集中,然后重新訓(xùn)練對應(yīng)的關(guān)系分類器Ci;對于未標(biāo)注樣本xu,令P(hi(xu))表示Ci預(yù)測xu輸出為hi(xu)的概率值,在過濾篩選時,同時考慮P(hi(xu))和confi(xu),將Fi,t集合中的高置信度未標(biāo)注樣本按照confi(xu)、P(hi(xu))的順序依次降序排序,即confi(xu)越大的樣本越靠前,confi(xu)相同的情況下,P(hi(xu))越大的樣本越靠前。經(jīng)過排序后,取前mi,t個樣本構(gòu)成Ui,t。步驟b-6,重復(fù)步驟b-3、b-4、b-5,當(dāng)所有Ui,t都為空集,即沒有新的未標(biāo)注樣本加入到訓(xùn)練集中時,或者迭代次數(shù)已經(jīng)達(dá)到預(yù)先設(shè)定的最大迭代次數(shù)時,該訓(xùn)練過程停止。當(dāng)前第1頁1 2 3 
當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1