亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

面向資源缺乏語言的實體鏈接系統(tǒng)的制作方法

文檔序號:9217180閱讀:412來源:國知局
面向資源缺乏語言的實體鏈接系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及信息技術(shù)領(lǐng)域中的信息抽取、知識發(fā)現(xiàn)領(lǐng)域,尤其涉及面向資源缺乏 語言的實體鏈接系統(tǒng)。
【背景技術(shù)】
[0002] 實體鏈接(EntityLinking)作為自然語言處理技術(shù)的一個分支,是指對于給定的 實體指稱項,將其鏈接到知識庫中的實體概念的過程。主要針對自然語言的多樣性和歧義 性問題,通過將自然語言中的文本與知識庫中的條目進(jìn)行鏈接,實現(xiàn)閱讀增強(qiáng)、以實體為中 心的精準(zhǔn)信息聚合、知識庫擴(kuò)建等工作。
[0003] 在候選實體發(fā)現(xiàn)方面,主要有兩種方法,一種是基于維基百科的方法,利用維基百 科中錨文本的超鏈接關(guān)系、消歧頁面以及重定向頁面獲得候選實體。另一種是基于主題模 型的方法。
[0004] 在候選實體鏈接方面,核心仍然是計算實體指稱項和候選實體的相似度,并選擇 相似程度最高的候選實體作為鏈接的目標(biāo)實體。從相似度計算的方式上,可以分成單一實 體鏈接和協(xié)同實體鏈接。單一實體鏈接僅僅考慮實體指稱項與目標(biāo)實體間的語義相似度。 協(xié)同實體鏈接通過利用協(xié)同式策略綜合考慮多個實體間的語義關(guān)聯(lián),建立全局語義約束, 從而更好地對于文本內(nèi)的多個實體進(jìn)行消岐。
[0005] 在現(xiàn)有的實體鏈接系統(tǒng)中存在以下問題:
[0006] 1)系統(tǒng)運(yùn)行需要豐富的語言資源,包括詞性標(biāo)注、句法分析等工具和標(biāo)注資源庫 和知識庫等;
[0007] 2)目前還不存在一種面向新疆地區(qū)維吾爾語等小語種的實體鏈接系統(tǒng)可供使 用;
[0008] 為解決上述常規(guī)實體鏈接系統(tǒng)中存在的問題,本發(fā)明提供了一種面向資源缺乏語 言的實體鏈接系統(tǒng)。該系統(tǒng)可以通過詞向量技術(shù)從未標(biāo)注語料中進(jìn)行語義發(fā)現(xiàn)并利用雙語 對齊技術(shù)進(jìn)行語義擴(kuò)充,緩解了傳統(tǒng)實體鏈接系統(tǒng)的語言資源依賴問題。

【發(fā)明內(nèi)容】

[0009] 本發(fā)明目的在于,提供了一種面向資源缺乏語言的實體鏈接系統(tǒng),該系統(tǒng)采用基 于規(guī)則和統(tǒng)計相結(jié)合的方法,對維吾爾語詞匯進(jìn)行詞干切分和詞性標(biāo)注;根據(jù)實體指稱項 的上下文,對實體指稱項進(jìn)行擴(kuò)充,得到實體指稱項的上下文信息;通過機(jī)器翻譯的雙語對 齊技術(shù),實現(xiàn)漢語和維吾爾語詞匯的對齊操作,從而利用漢語的豐富語義對維吾爾語進(jìn)行 擴(kuò)充,獲取候選實體;通過融合實體上下文特征、篇章主題特征和知識庫中的概念圖特征, 對候選實體進(jìn)行排序,將實體指稱項鏈接到排序后的目標(biāo)實體。本發(fā)明所述系統(tǒng)通過雙語 對齊技術(shù),利用資源豐富語言對資源缺乏語言的語義信息進(jìn)行擴(kuò)充,并融合了實體上下文 特征、篇章主題特征和知識庫中的概念圖特征對候選實體進(jìn)行排序,其目的在于解決資源 缺乏語言的實體鏈接問題并構(gòu)建實用化的維吾爾語實體鏈接系統(tǒng)。本發(fā)明所述的系統(tǒng)能夠 實現(xiàn)語言資源缺乏的維吾爾語的實體鏈接功能,從而滿足智能信息處理需求。
[0010] 本發(fā)明所述的一種面向資源缺乏語言的實體鏈接系統(tǒng),該系統(tǒng)面向新疆地區(qū)的少 數(shù)民族語言一一維吾爾語,通過規(guī)則和統(tǒng)計相結(jié)合的方法,利用漢語的豐富語言資源對維 吾爾語進(jìn)行語義擴(kuò)充,完成實體鏈接,具體操作按下列步驟進(jìn)行:
[0011] a.實體指稱項獲取模塊:識別出文本中待鏈接到實體庫的實體指稱項;
[0012] b.維吾爾語預(yù)處理模塊:采用基于規(guī)則和統(tǒng)計相結(jié)合的方法,對維吾爾語詞匯進(jìn) 行詞干提取和詞性標(biāo)注,詞干提取是將詞匯切分為詞干和詞綴,并保留詞干部分,其中詞性 標(biāo)注為標(biāo)明該詞匯的詞性,如名詞、動詞、形容詞;
[0013] c.實體指稱項擴(kuò)充模塊:根據(jù)實體指稱項的上下文,對實體指稱項進(jìn)行擴(kuò)充,得 到實體指稱項的上下文信息;
[0014] d.候選實體獲取模塊:通過機(jī)器翻譯的雙語對齊,實現(xiàn)漢語和維吾爾語詞匯的對 齊操作,利用漢語的豐富語義對維吾爾語進(jìn)行擴(kuò)充,擴(kuò)充后的文本組成實體庫中實體的上 下文信息,將實體指稱項的上下文信息與實體庫中實體的上下文信息進(jìn)行相似度計算,獲 取候選實體;
[0015] e.候選實體排序模塊:通過融合實體上下文特征、篇章主題特征和知識庫中概念 圖特征,對候選實體進(jìn)行排序,將實體指稱項鏈接到排序后的目標(biāo)實體即可。
[0016] 步驟b中所述的基于規(guī)則和統(tǒng)計相結(jié)合的詞性標(biāo)注方法:是根據(jù)維吾爾語詞后綴 的結(jié)合規(guī)則,總結(jié)出詞綴組合規(guī)則與維吾爾語詞性的對應(yīng)關(guān)系,先使用最大熵統(tǒng)計方法和 條件隨機(jī)場統(tǒng)計方法對詞性做出一個粗略的判斷,然后利用總結(jié)出的規(guī)則,對使用統(tǒng)計得 到的詞性標(biāo)注結(jié)果進(jìn)行驗證。
[0017] 步驟c中所述的實體指稱項的上下文是實體指稱項前后指定長度的文本。
[0018] 步驟c中所述的對實體指稱項的上下文進(jìn)行擴(kuò)充是利用詞向量模型和維基百科 標(biāo)簽對其上下文進(jìn)行擴(kuò)充。
[0019] 詞向量的上下文擴(kuò)充是使用深度學(xué)習(xí)方法進(jìn)行多次迭代,通過邏輯回歸的方法對 文本進(jìn)行訓(xùn)練,采用二次抽樣的方法來平衡訓(xùn)練語料中的頻繁詞匯和非頻繁詞匯的不對 稱,將訓(xùn)練文本集合內(nèi)的每個詞匯表示成為200維的特征向量,通過度量向量之間的余弦 相似度,獲取詞匯間的語義關(guān)聯(lián),并將語義最為近似的詞匯作為實體指稱項的上下文。
[0020] 維基百科標(biāo)簽的上下文擴(kuò)充是使用維基百科標(biāo)簽作為中間媒介,計算實體指稱項 上下文和所有維基百科標(biāo)簽上下文的余弦相似度,并從結(jié)果中選取相似性最高的一個子 集,將相似性最高的標(biāo)簽作為實體指稱項的上下文。
[0021] 步驟e中所述的實體上下文特征是實體指稱項的上下文特征與候選實體的知名 度特征、名稱特征的概率乘積。
[0022] 步驟e中所述的實體篇章主題特征是在基于統(tǒng)計的主題模型中,實體指稱項所包 含的主題與候選實體包含的主題之間的相似程度。
[0023] 步驟e中所述的實體概念圖特征是在以維基百科為基礎(chǔ)的知識網(wǎng)絡(luò)中,基于語義 相似度、共現(xiàn)度計算得到的實體指稱項和候選實體相似程度。
[0024] 本發(fā)明所述的一種面向資源缺乏語言的實體鏈接系統(tǒng),該系統(tǒng)包括:1)實體指稱 項獲取模塊:識別出文本中待鏈接到實體庫的實體指稱項;2)維吾爾語預(yù)處理模塊:采用 基于規(guī)則和統(tǒng)計相結(jié)合的方法,對維吾爾語詞匯進(jìn)行詞干提取和詞性標(biāo)注;3)實體指稱項 擴(kuò)充模塊:根據(jù)實體指稱項的上下文,對實體指稱項進(jìn)行擴(kuò)充,得到實體指稱項的上下文信 息;4)候選實體獲取模塊:通過機(jī)器翻譯的雙語對齊技術(shù),實現(xiàn)漢語和維吾爾語詞匯的對 齊操作,從而利用漢語的豐富語義對維吾爾語進(jìn)行擴(kuò)充,獲取候選實體;5)候選實體排序 模塊:通過融合實體上下文特征、篇章主題特征和知識庫中的概念圖特征,對候選實體進(jìn)行 排序,將實體指稱項鏈接到排序后的目標(biāo)實體。
[0025] 本發(fā)明所述的一種面向資源缺乏語言的實體鏈接系統(tǒng),該系統(tǒng)是通過以下技術(shù)方 案實現(xiàn)的:
[0026] a、實體指稱項獲?。簭妮斎胛谋局蝎@得待鏈接到實體庫的實體指稱項;
[0027] b、維吾爾語預(yù)處理:對輸入文本進(jìn)行預(yù)處理,詞干切分,去停用詞,去標(biāo)點(diǎn)符號; 采用規(guī)則與統(tǒng)計相結(jié)合的方式進(jìn)行詞性標(biāo)注,統(tǒng)計方法采用最大熵與條件隨機(jī)場相結(jié)合的 方式。先用最大熵為每個兼類詞選擇兩個候選詞性,然后再用條件隨機(jī)場模型在這兩個詞 性中進(jìn)行選擇,不僅保留最優(yōu)路徑,而且將從其余幾條路徑中為每個兼類詞選擇出第二個 最合適的候選詞性。根據(jù)維吾爾語詞的構(gòu)詞特點(diǎn)和維吾爾語詞后綴的結(jié)合規(guī)則,總結(jié)出詞 綴組合規(guī)則與維吾爾語詞性的對應(yīng)關(guān)系,先使用統(tǒng)計的方法對詞性做出一個粗略地判斷, 然后利用總結(jié)出的規(guī)則,對使用統(tǒng)計得到的詞性標(biāo)注結(jié)果進(jìn)行驗證。
[0028] c、實體指稱項擴(kuò)充:利用詞向量模型和維基百科標(biāo)簽,對實體指稱項進(jìn)行擴(kuò)充,得 到擴(kuò)充后的實體指稱項上下文信息;
[0029] d、基于雙語對齊的候選實體獲?。航o定文檔d的上下文窗口c,詞匯w的上下文信 息可由如下公式訓(xùn)練得到:
[0030]
其中/是神經(jīng)網(wǎng)絡(luò)函數(shù),表中隨機(jī)選取的一個子集,c#是包含'的上下文
[0031] 窗口。該目標(biāo)函數(shù)可以對比正確詞匯放入上下文和隨機(jī)詞匯放入同一個上下文
當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1