亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于圖模型的實體鏈接算法

文檔序號:9326912閱讀:1150來源:國知局
一種基于圖模型的實體鏈接算法
【技術領域】
[0001] 本發(fā)明涉及信息庫文本處理技術領域,尤其是一種基于圖模型的實體鏈接算法。
【背景技術】
[0002] 實體鏈接任務的研究對象是包含任務、機構和地方三種類型的實體名詞,其研究 目標是:給定一個包含目標實體以及支撐該查詢詞的背景文檔的查詢,將次目標實體與已 有知識庫中具有互相指代關系的實體進行正確連接,若知識庫中不存在與查詢實體相連接 的實體節(jié)點稱為非KB實體,對此類非KB實體進行聚類。將普遍性查詢需求的實體加入到 知識擴種,對知識庫進行擴展和維護。因此,實體鏈接任務一方面可以準確的反饋用戶的查 詢結果,另一方面還可以對已有知識庫進行擴展,豐富知識庫的信息。實體鏈接可以與信息 抽取、知識檢索、問答系統(tǒng)、文本挖掘等技術結合,具有極為廣泛地應用場景。
[0003] 目前,實體鏈接可以分為候選實體形成和候選實體排名兩個模塊,候選實體形成 就是利用相關信息,給出待鏈接實體可能表示的實體列表,主要有分為基于命名詞典的技 術,基于局部文檔的表面形式擴展。候選實體排名就是對從待鏈接實體中選擇待鏈接實體 真正的映射實體,主要分為監(jiān)督學習的方法和無監(jiān)督學習的方法。監(jiān)督的排序方法的優(yōu)點 是:利用了訓練語料中的特征信息,對其中的規(guī)律進行了挖掘和利用。不足之處在于,此種 方法需要人工標注數(shù)據(jù)集,需要大量人力和時間,并且并未對文章中存在的一些描述目標 實體的語義信息進行挖掘,而是將文章中出現(xiàn)的所有實體同等看待,忽略了目標實體的語 義信息的作用。無監(jiān)督學習的方法優(yōu)點在于不需要標注數(shù)據(jù),省去的大量的人力和時間,缺 點在于特征不好融合。

【發(fā)明內(nèi)容】

[0004] 本發(fā)明的目的是針對現(xiàn)有技術的不足而設計的一種基于圖模型的實體鏈接算法, 采用LDA對維基百科知識庫形成候選實體之間構造語義特征,同時利用利用維基百科的鏈 接結構對實體和實體之間的構建關系形成圖模型,然后將實體特征融入圖模型中,利用改 進的PageRank算法對實體進行排名,得到實體鏈接的結果,方法簡便,無需人工標注數(shù)據(jù) 集,省時省力,實體特征融合好。
[0005] 本發(fā)明的目的是這樣實現(xiàn)的:一種基于圖模型的實體鏈接算法,其特點是利用 維基百科知識庫形成候選實體,然后運用LDA對實體之間構造語義特征,以維基百科的鏈 接結構對實體和實體之間構建關系形成圖模型,并將相關語義特征特征融入圖模型中,以 PageRank算法對實體進行排名,得到實體鏈接的結果,實體鏈接算法包括以下具體步驟:
[0006] ( 一)、命名詞典
[0007] 對維基百科下載的無規(guī)則數(shù)據(jù)利用JWPL工具轉化為有規(guī)則的數(shù)據(jù)后導入維基百 科離線數(shù)據(jù)庫,得到實體頁面、重定向頁面、消歧頁面和維基百科中超鏈接的特征,將不同 類型的特征合并為不同名稱的實體,并以哈希映射這些實體建立離線詞典。
[0008] (二)、構造待鏈接實體的候選實體集
[0009] 對不同名稱的實體與文本中待鏈接實體進行匹配,將一些名稱與待鏈接實體相似 性高的實體被征入候選,生成待鏈接實體的候選實體集;所述匹配為實體名稱全包含或部 分包含待鏈接實體,且實體名稱精確匹配了待鏈接實體中所有單詞的首字母,實體名稱和 待鏈接實體共享若干共同的單詞;所述相似性采用字符Dice系數(shù)和海明距離測量。
[0010](三)、相關特征的計算
[0011] ⑴、實體流行度
[0012] 采用下述(a)公式計算實體流行度:
[0014] 其中:實體;m為待鏈接實體;count Je1)為實體的鏈接數(shù);
[0015] ⑵、文本相似性
[0016] 根據(jù)實體所在的上下文,利用LDA得到待鏈接實體和候選實體所在文本中詞語關 于主題的分布,以及每一文本的詞語得到關于主題的概率分布,采用下述(b)和(C)公式計 算Zero-KL距離,取Zero-KL距離的倒數(shù)為待鏈接實體和其候選實體所在的文本之間的文 本相似性SimText (e;);
[0019] 其中:γ為閾值。
[0020] (四)、圖模型的構建
[0021] (1)、相關特征的融合
[0022] 將實體流行度和文本相似性采用下述(d)杰卡德相似性公式計算實體之間主題 一致性,進行兩相關特征的融合;
[0024] ⑵、圖模型的形成
[0025] 以維基百科的鏈接結構對實體和實體之間構建關系形成圖模型,并將候選實體的 流行度、文本相似性和實體之間主題一致性的語義特征融入圖模型。
[0026](五)、候選實體的排名
[0027] ⑴、將實體流行度和文本相似性采用下述(e)式進行特征合并,得到節(jié)點的初始 的權重;
[0028] Weight(Gi) = λ pop (e;) + (1-λ ) SimText (e;) (e)
[0029] 其中:λ為平衡實體流行度和文本相似性的參數(shù);
[0030] (2)、采用下述(f)和(g)公式計算圖模型中節(jié)點的權重;
[0033] (3)、采用下述(h)和(i)公式對圖模型中節(jié)點的權重與初始權重進行計算排名, 得到兩個得分排名最高的實體;
[0034] Rm(Sij j) = IConf Ceij j) XPR(Gij j) (h)
[0035] Rs(Gij j) = IConf Ceij ^+PR(Gij j); ⑴
[0036] ⑷、將上述兩個得分排名最高的實體采用下述(j)和(k)公式計算兩實體之間的 差異;
[0039] 根據(jù)上述計算結果,挑選每個待鏈接實體的候選實體列表中得分最高的實體為實 體鏈接的結果。
[0040] 本發(fā)明與現(xiàn)有技術相比具有實體特征融合好,實體鏈接的結果可靠性高,利用維 基百科下載數(shù)據(jù),不需要額外成本,尤其無需人工標注數(shù)據(jù)集,方法簡便,使用方便,省時省 力。
【附圖說明】
[0041] 圖1為本發(fā)明操作流程圖。
【具體實施方式】
[0042] 參閱附圖1,本發(fā)明利用維基百科知識庫形成候選實體,然后運用LDA對實體之間 構造語義特征,以維基百科的鏈接結構對實體和實體之間構建關系形成圖模型,并將相關 語義特征特征融入圖模型中,以PageRank算法對實體進行排名,得到實體鏈接的結果,實 體鏈接算法包括以下具體步驟:
[0043] ( 一)、命名詞典
[0044] 對維基百科下載的無規(guī)則數(shù)據(jù)利用JWPL工具轉化為有規(guī)則的數(shù)據(jù)后導入維基百 科離線數(shù)據(jù)庫,得到實體頁面、重定向頁面、消歧頁面和維基百科中超鏈接的特征,將不同 類型的特征合并為不同名稱的實體,并以哈希映射這些實體建立離線詞典。
[0045] 維基百科提供一系列對于構建候選實體有用的特征結構,例如,實體頁面、重定向 頁面、消歧頁面、在維基百科中的超鏈接。這些實體鏈接系統(tǒng)利用不同的特征合并不同名稱 和它們的映射實體來建立離線詞典D,同時利用構建的詞典D生成實體候選,命名詞典D包 含了關于不同命名實體的名稱大量信息,利用名稱變化、名稱縮寫、名稱混淆名、名稱拼寫 變化以及小名等等。命名詞典D是(key, value)哈希映射,在這里,鍵(key)為一系列名稱 列表,假設k是鍵中的一個名稱,那么它映射的值k. value是一系列能表示該名稱k的實 體。詞典D是利用維基百科的特征構建的,其實體頁面特征為:維基百科中的每個實體頁面 描述單一的實體,并包含這個實體的相關信息。通常用每個頁面標題代表該實體的名稱,例 如頁面標題"Microsoft"為大型的軟件公司,總部設在雷德蒙德。因此,實體頁面的標題被 添加到詞典D中的鍵作為名稱k,該頁面被描述的實體被添加作為k. value。
[0046] 所述重定向頁面特征為:記錄同義詞術語、縮寫或其它指向的實體的變體。例 如,文章標題為〃Microsoft Corporation〃,這是"Microsoft"的全名,它包含一個對實體 "Microsoft"這篇文章的指向。因此,重定向的標題頁被添加到詞典D中的鍵列中作為名稱 k,同時指向實體被添加作為k. value。
[0047] 所述消歧頁面特征為:當同一個名稱在維基百科中有多個對應的實體時,維基百 科提供消歧頁面來區(qū)分這些實體,該消歧頁面包含了表示這些實體的一個列表。例如,消歧 頁面"New York"包含了 44個和"New York"有相同名稱的實體,其中包括國際大都市紐約 市和紐約時報等。消歧頁面對提取實體縮寫和別名非常有幫助,對于每個消歧頁面,頁面標 題被添加到詞典D中的鍵作為名稱k,而消歧頁面中的實體列表被添加作為k. value。
[0048] 所述維基百科中超鏈接特征為:在維基百科中的文章通常包括鏈接到這篇 文章中提到的實體的頁面,一個指向實體頁面鏈接的錨文本提供了非常有用的同義詞 資源,以及其它指向實體的變體,這些變體能夠被當作鏈接實體的一個名稱。例如,在 "Hewlett-Packard"這個實體頁面中,有一個超鏈接指向實體"William Reddington Hewlett",它的錨文本為 "Bill Hewlett",這是一個實體 "William Reddington Hewlett" 的別名,一個超鏈接的錨文本被添加到詞典D中的鍵作為名稱k,指向的實體被添加作為 k. value〇
[0049] 利用上述的維基百科特征,具體來說,首先下載離線的維基百科數(shù)據(jù),然后利用 JWPL工具,將無規(guī)則的數(shù)據(jù)轉化為有規(guī)則的速度,然后導入到數(shù)據(jù)庫中,然后可以從數(shù)據(jù)庫 中得到以上四種類型的特征(實體頁面,重定向頁面,消歧頁面,維基百科中的超鏈接),利 用以上的維基百科特征,構建了詞典D。
[0050](二)、構造待鏈接實體的候選實體集
[0051 ] 對不同名稱的實體與文本中待鏈接實體進行匹配,將一些名稱與待鏈接實體相似 性高的實體被征入候選,生成待鏈接實體的候選實體集;所述匹配為實體名稱全包含或部 分包含待鏈接實體,且實體名稱精確匹配了待鏈接實體中所有單詞的首字母,實體名稱和 待鏈接實體共享若干共同的單詞;所述相似性采用字符Dice系數(shù)和海明距離測量。
[0052] 基于詞典構建的這種方
當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1