一種基于圖模型的實體鏈接算法

文檔序號：9326912閱讀：1150來源：國知局

一種基于圖模型的實體鏈接算法
【技術領域】
[0001] 本發(fā)明涉及信息庫文本處理技術領域，尤其是一種基于圖模型的實體鏈接算法。
【背景技術】
[0002] 實體鏈接任務的研究對象是包含任務、機構和地方三種類型的實體名詞，其研究目標是：給定一個包含目標實體以及支撐該查詢詞的背景文檔的查詢，將次目標實體與已有知識庫中具有互相指代關系的實體進行正確連接，若知識庫中不存在與查詢實體相連接的實體節(jié)點稱為非KB實體，對此類非KB實體進行聚類。將普遍性查詢需求的實體加入到知識擴種，對知識庫進行擴展和維護。因此，實體鏈接任務一方面可以準確的反饋用戶的查詢結果，另一方面還可以對已有知識庫進行擴展，豐富知識庫的信息。實體鏈接可以與信息抽取、知識檢索、問答系統(tǒng)、文本挖掘等技術結合，具有極為廣泛地應用場景。
[0003] 目前，實體鏈接可以分為候選實體形成和候選實體排名兩個模塊，候選實體形成就是利用相關信息，給出待鏈接實體可能表示的實體列表，主要有分為基于命名詞典的技術，基于局部文檔的表面形式擴展。候選實體排名就是對從待鏈接實體中選擇待鏈接實體真正的映射實體，主要分為監(jiān)督學習的方法和無監(jiān)督學習的方法。監(jiān)督的排序方法的優(yōu)點是：利用了訓練語料中的特征信息，對其中的規(guī)律進行了挖掘和利用。不足之處在于，此種方法需要人工標注數(shù)據(jù)集，需要大量人力和時間，并且并未對文章中存在的一些描述目標實體的語義信息進行挖掘，而是將文章中出現(xiàn)的所有實體同等看待，忽略了目標實體的語義信息的作用。無監(jiān)督學習的方法優(yōu)點在于不需要標注數(shù)據(jù)，省去的大量的人力和時間，缺點在于特征不好融合。

【發(fā)明內(nèi)容】

[0004] 本發(fā)明的目的是針對現(xiàn)有技術的不足而設計的一種基于圖模型的實體鏈接算法，采用LDA對維基百科知識庫形成候選實體之間構造語義特征，同時利用利用維基百科的鏈接結構對實體和實體之間的構建關系形成圖模型，然后將實體特征融入圖模型中，利用改進的PageRank算法對實體進行排名，得到實體鏈接的結果，方法簡便，無需人工標注數(shù)據(jù) 集，省時省力，實體特征融合好。
[0005] 本發(fā)明的目的是這樣實現(xiàn)的：一種基于圖模型的實體鏈接算法，其特點是利用維基百科知識庫形成候選實體，然后運用LDA對實體之間構造語義特征，以維基百科的鏈接結構對實體和實體之間構建關系形成圖模型，并將相關語義特征特征融入圖模型中，以 PageRank算法對實體進行排名，得到實體鏈接的結果，實體鏈接算法包括以下具體步驟：
[0006] ( 一）、命名詞典
[0007] 對維基百科下載的無規(guī)則數(shù)據(jù)利用JWPL工具轉化為有規(guī)則的數(shù)據(jù)后導入維基百科離線數(shù)據(jù)庫，得到實體頁面、重定向頁面、消歧頁面和維基百科中超鏈接的特征，將不同類型的特征合并為不同名稱的實體，并以哈希映射這些實體建立離線詞典。
[0008] (二）、構造待鏈接實體的候選實體集
[0009] 對不同名稱的實體與文本中待鏈接實體進行匹配，將一些名稱與待鏈接實體相似性高的實體被征入候選，生成待鏈接實體的候選實體集；所述匹配為實體名稱全包含或部分包含待鏈接實體，且實體名稱精確匹配了待鏈接實體中所有單詞的首字母，實體名稱和待鏈接實體共享若干共同的單詞；所述相似性采用字符Dice系數(shù)和海明距離測量。
[0010](三）、相關特征的計算
[0011] ⑴、實體流行度
[0012] 采用下述（a)公式計算實體流行度：
[0014] 其中：實體；m為待鏈接實體；count Je1)為實體的鏈接數(shù)；
[0015] ⑵、文本相似性
[0016] 根據(jù)實體所在的上下文，利用LDA得到待鏈接實體和候選實體所在文本中詞語關于主題的分布，以及每一文本的詞語得到關于主題的概率分布，采用下述（b)和（C)公式計算Zero-KL距離，取Zero-KL距離的倒數(shù)為待鏈接實體和其候選實體所在的文本之間的文本相似性SimText (e;);
[0019] 其中：γ為閾值。
[0020] (四）、圖模型的構建
[0021] (1)、相關特征的融合
[0022] 將實體流行度和文本相似性采用下述（d)杰卡德相似性公式計算實體之間主題一致性，進行兩相關特征的融合；
[0024] ⑵、圖模型的形成
[0025] 以維基百科的鏈接結構對實體和實體之間構建關系形成圖模型，并將候選實體的流行度、文本相似性和實體之間主題一致性的語義特征融入圖模型。
[0026](五）、候選實體的排名
[0027] ⑴、將實體流行度和文本相似性采用下述（e)式進行特征合并，得到節(jié)點的初始的權重；
[0028] Weight(Gi) = λ pop (e；) + (1-λ ) SimText (e；) (e)
[0029] 其中：λ為平衡實體流行度和文本相似性的參數(shù)；
[0030] (2)、采用下述（f)和（g)公式計算圖模型中節(jié)點的權重；
[0033] (3)、采用下述（h)和（i)公式對圖模型中節(jié)點的權重與初始權重進行計算排名，得到兩個得分排名最高的實體；
[0034] Rm(Sij j) = IConf Ceij j) XPR(Gij j) (h)
[0035] Rs(Gij j) = IConf Ceij ^+PR(Gij j)； ⑴
[0036] ⑷、將上述兩個得分排名最高的實體采用下述（j)和（k)公式計算兩實體之間的差異；
[0039] 根據(jù)上述計算結果，挑選每個待鏈接實體的候選實體列表中得分最高的實體為實體鏈接的結果。
[0040] 本發(fā)明與現(xiàn)有技術相比具有實體特征融合好，實體鏈接的結果可靠性高，利用維基百科下載數(shù)據(jù)，不需要額外成本，尤其無需人工標注數(shù)據(jù)集，方法簡便，使用方便，省時省力。
【附圖說明】
[0041] 圖1為本發(fā)明操作流程圖。
【具體實施方式】
[0042] 參閱附圖1，本發(fā)明利用維基百科知識庫形成候選實體，然后運用LDA對實體之間構造語義特征，以維基百科的鏈接結構對實體和實體之間構建關系形成圖模型，并將相關語義特征特征融入圖模型中，以PageRank算法對實體進行排名，得到實體鏈接的結果，實體鏈接算法包括以下具體步驟：
[0043] ( 一）、命名詞典
[0044] 對維基百科下載的無規(guī)則數(shù)據(jù)利用JWPL工具轉化為有規(guī)則的數(shù)據(jù)后導入維基百科離線數(shù)據(jù)庫，得到實體頁面、重定向頁面、消歧頁面和維基百科中超鏈接的特征，將不同類型的特征合并為不同名稱的實體，并以哈希映射這些實體建立離線詞典。
[0045] 維基百科提供一系列對于構建候選實體有用的特征結構，例如，實體頁面、重定向頁面、消歧頁面、在維基百科中的超鏈接。這些實體鏈接系統(tǒng)利用不同的特征合并不同名稱和它們的映射實體來建立離線詞典D，同時利用構建的詞典D生成實體候選，命名詞典D包含了關于不同命名實體的名稱大量信息，利用名稱變化、名稱縮寫、名稱混淆名、名稱拼寫變化以及小名等等。命名詞典D是（key, value)哈希映射，在這里，鍵（key)為一系列名稱列表，假設k是鍵中的一個名稱，那么它映射的值k. value是一系列能表示該名稱k的實體。詞典D是利用維基百科的特征構建的，其實體頁面特征為：維基百科中的每個實體頁面描述單一的實體，并包含這個實體的相關信息。通常用每個頁面標題代表該實體的名稱，例如頁面標題"Microsoft"為大型的軟件公司，總部設在雷德蒙德。因此，實體頁面的標題被添加到詞典D中的鍵作為名稱k，該頁面被描述的實體被添加作為k. value。
[0046] 所述重定向頁面特征為：記錄同義詞術語、縮寫或其它指向的實體的變體。例如，文章標題為〃Microsoft Corporation〃，這是"Microsoft"的全名，它包含一個對實體 "Microsoft"這篇文章的指向。因此，重定向的標題頁被添加到詞典D中的鍵列中作為名稱 k，同時指向實體被添加作為k. value。
[0047] 所述消歧頁面特征為：當同一個名稱在維基百科中有多個對應的實體時，維基百科提供消歧頁面來區(qū)分這些實體，該消歧頁面包含了表示這些實體的一個列表。例如，消歧頁面"New York"包含了 44個和"New York"有相同名稱的實體，其中包括國際大都市紐約市和紐約時報等。消歧頁面對提取實體縮寫和別名非常有幫助，對于每個消歧頁面，頁面標題被添加到詞典D中的鍵作為名稱k，而消歧頁面中的實體列表被添加作為k. value。
[0048] 所述維基百科中超鏈接特征為：在維基百科中的文章通常包括鏈接到這篇文章中提到的實體的頁面，一個指向實體頁面鏈接的錨文本提供了非常有用的同義詞資源，以及其它指向實體的變體，這些變體能夠被當作鏈接實體的一個名稱。例如，在 "Hewlett-Packard"這個實體頁面中，有一個超鏈接指向實體"William Reddington Hewlett"，它的錨文本為 "Bill Hewlett"，這是一個實體 "William Reddington Hewlett" 的別名，一個超鏈接的錨文本被添加到詞典D中的鍵作為名稱k，指向的實體被添加作為 k. value〇
[0049] 利用上述的維基百科特征，具體來說，首先下載離線的維基百科數(shù)據(jù)，然后利用 JWPL工具，將無規(guī)則的數(shù)據(jù)轉化為有規(guī)則的速度，然后導入到數(shù)據(jù)庫中，然后可以從數(shù)據(jù)庫中得到以上四種類型的特征（實體頁面，重定向頁面，消歧頁面，維基百科中的超鏈接），利用以上的維基百科特征，構建了詞典D。
[0050](二）、構造待鏈接實體的候選實體集
[0051 ] 對不同名稱的實體與文本中待鏈接實體進行匹配，將一些名稱與待鏈接實體相似性高的實體被征入候選，生成待鏈接實體的候選實體集；所述匹配為實體名稱全包含或部分包含待鏈接實體，且實體名稱精確匹配了待鏈接實體中所有單詞的首字母，實體名稱和待鏈接實體共享若干共同的單詞；所述相似性采用字符Dice系數(shù)和海明距離測量。
[0052] 基于詞典構建的這種方

完整全部詳細技術資料下載

當前第1頁1 2

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：楊燕;羅念;賀樑;
技術所有人：華東師范大學;
我是此專利的發(fā)明人

上一篇：基于熟悉度的信息推薦方法及裝置的制造方法
上一篇：一種結構擴展的多項式樸素貝葉斯文本分類方法

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

命名實體識別算法相關技術

實體識別算法相關技術

神經(jīng)網(wǎng)絡模型算法相關技術

算法模型相關技術

數(shù)據(jù)預測模型算法相關技術

基于模型的聚類算法相關技術

模型和算法的區(qū)別相關技術

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于圖模型的實體鏈接算法