基于本體的數(shù)字出版物語義標注優(yōu)化方法
【技術領域】
[0001]本發(fā)明涉及數(shù)字出版物技術領域,尤其涉及到一種基于本體的數(shù)字出版物語義標注優(yōu)化方法。
【背景技術】
[0002]知識處理是信息技術發(fā)展的必然趨勢,隨著對知識應用要求越來越高,傳統(tǒng)的知識數(shù)據(jù)庫系統(tǒng)已經(jīng)不能滿足新的需求,所以將本體引用到知識工程中,將本體相關原理技術運用到知識庫的開發(fā)中。
[0003]本體知識系統(tǒng)是20世紀70年代后期,專家系統(tǒng)、知識系統(tǒng)和知識密集型的信息系統(tǒng)的構建技術發(fā)展而形成知識工程,所建立的系統(tǒng)簡稱為知識系統(tǒng)(knowledge-basedsystems)。知識系統(tǒng)是人工智能學科最重要的工業(yè)化和商業(yè)化產(chǎn)物。知識系統(tǒng)用于輔助人們進行問題求解,如檢測信用卡詐騙、加速船舶設計、輔助醫(yī)療診斷、使科學軟件更加智能化、向全體決策人員提供金融服務、產(chǎn)品質量的評價和廣告宣傳、支持電子網(wǎng)絡的服務恢復。
[0004]隨著數(shù)字出版的不斷發(fā)展,現(xiàn)代互聯(lián)網(wǎng)數(shù)字內容資源的爆炸式增長,現(xiàn)階段也出現(xiàn)了一些對電子出版物的內容提煉標注的技術,但是這些對內容標注的提取是根據(jù)基本詞庫以及內容上下文來抽取的。這種提取的標注方式?jīng)]有結合出版物的領域背景,會有很多領域相關的關鍵信息被過濾掉,降低了標注在特定領域的準確性;使得標注不能完全表示文檔的核心和主要內容。
[0005]當對該領域的信息根據(jù)標注進行檢索時,會使信息查全率和查準率方面有很大的欠缺,沒有充分利用內容標注信息,信息之間的關系及結構也沒有充分的表現(xiàn)出來,使得用戶需要花費大量時間在信息篩選上。
【發(fā)明內容】
[0006]本發(fā)明所要解決的技術問題是正對上述存在的技術不足,提供一種能夠提高文檔標注的準確性,用戶使用本體知識庫進行知識查詢時能更快速的搜索到有效的文檔,并能提高其他相關聯(lián)電子文檔標注的準確性的基于本體的數(shù)字出版物語義標注優(yōu)化方法。
[0007]本發(fā)明解決其技術問題所采用的技術方案是:
基于本體的數(shù)字出版物語義標注優(yōu)化方法,其特征在于,包括如下步驟:
文檔內容預處理:在計算機系統(tǒng)中對文檔進行解析,利用關鍵字提取工具提取關鍵字,并基于詞語位置的計算出關鍵字的權值,為后續(xù)構建個體提供數(shù)據(jù)基礎。
[0008]構建本體模型:本體是對某個領域中的類的形式化的明確的表示,每個類的特性描述了類的各個方面及其約束的特性和屬性,因此本體包括了類、對象屬性和數(shù)據(jù)屬性。內容標注優(yōu)化方法是基于本體實現(xiàn)的,在計算機系統(tǒng)中通過本體構建工具構建本體,采用自頂向下的方法原則,在工具中完成類、對象屬性、數(shù)據(jù)屬性的構建。
[0009]構建個體并填充數(shù)據(jù)屬性值:個體是根據(jù)本體中已有的類建立的實例,構建個體是用戶根據(jù)文檔內容對文檔進行模型化的過程;填充個體數(shù)據(jù)屬性信息時,在每個數(shù)據(jù)屬性對應一個文本框,用來輸入和顯示該數(shù)據(jù)屬性信息;數(shù)據(jù)屬性的值是從文檔標注中獲取的,通過標注無法獲取的屬性值就會根據(jù)全文檢索獲取關鍵信息作為數(shù)據(jù)屬性值。
[0010]調整文檔標注及標注權值:獲取文檔原有的標注信息以及上述個體填充的屬性值和屬性值對應的文檔,對文檔中的標注進行調整;根據(jù)個體所在類的級別以及數(shù)據(jù)屬性的優(yōu)先級給屬性值設置權值并作為文檔的新標注,如果屬性值是文檔原有標注,則原有權值和現(xiàn)有權值合并,然后將新舊標注按照權值排序,選擇權值高的作為文檔的標注。
[0011]存儲標注及標注權值:刪除文檔對應的原有標注,將上述中調整后的標注和權值存儲到標注對應的數(shù)據(jù)表中;當其他文檔進行內容標注時,標注表中的數(shù)據(jù)作為影響因子加入到標注的權值計算公式中。
[0012]輸入詞語進行知識查詢,匹配數(shù)據(jù)并按權值排序:用戶通過知識查詢進行查詢,當根據(jù)數(shù)據(jù)屬性信息匹配個體,在顯示該個體的所有信息時會根據(jù)查找屬性值在文檔中的權值進行排序,顯示結果會按照權值的降序排列查詢結果。
[0013]本發(fā)明的有益效果在于:
通過本體中個體屬性信息來校準數(shù)字出版物中標注的權值,提高了文檔標注的準確性,用戶使用本體知識庫進行知識查詢時能更快速的搜索到有效的文檔;
將通過優(yōu)化后的標注作為其他文檔抽取標注中權值計算公式的影響因子,提高了其他電子文檔標注的準確性。
[0014]本發(fā)明的有益效果是:
能夠對數(shù)字出版物提供標注信息的查看,實現(xiàn)數(shù)字出版物的帶標注預覽和閱讀方式,能夠方便讀者快速有效的查看文檔中的主題信息。
[0015]同時能為電子文檔之間建立概念網(wǎng)絡、本體庫的建立提供有效的數(shù)據(jù)支撐。
【附圖說明】
[0016]圖1是本發(fā)明實施例的流程圖。
【具體實施方式】
[0017]下面結合【具體實施方式】,對本發(fā)明作進一步的說明:
如圖1所示基于本體的數(shù)字出版物語義標注優(yōu)化方法,其特征在于,包括如下步驟:文檔內容預處理:在計算機系統(tǒng)中對文檔進行解析,利用關鍵字提取工具提取關鍵字,并基于詞語位置計算出關鍵字的權值,為后續(xù)構建個體提供數(shù)據(jù)基礎。
[0018]構建本體模型:本體是對某個領域中的類的形式化的明確的表示,每個類的特性描述了類的各個方面及其約束的特性和屬性,因此本體包括了類、對象屬性和數(shù)據(jù)屬性。內容標注優(yōu)化方法是基于本體實現(xiàn)的,前提是需要通過本體構建工具構建本體,我們采用自頂向下的方法原則,在工具中完成類、對象屬性、數(shù)據(jù)屬性的構建。
[0019]構建個體并填充數(shù)據(jù)屬性值:個體是根據(jù)本體中已有的類建立的實例,構建個體是用戶根據(jù)文檔內容對文檔進行模型化的過程;填充個體數(shù)據(jù)屬性信息時,在每個數(shù)據(jù)屬性對應一個文本框,用來輸入和顯示該數(shù)據(jù)屬性信息;數(shù)據(jù)屬性的值是從文檔標注中獲取的,通過標注無法獲取的屬性值就會根據(jù)全文檢索獲取關鍵信息作為數(shù)據(jù)屬性值。
[0020]調整文檔標注及標注權值:獲取文檔原有的標注信息以及上述個體填充的屬性值和屬性值對應的文檔,對文檔中的標注進行調整;將個體所在類的級別以及數(shù)據(jù)屬性的優(yōu)先級作為權值因子加入到權值計算公式中,獲取屬性值的權值并作為文檔的新標注,將新舊標注按照權值排序選擇權值高的標注并作為文檔的新標注。如果屬性值是文檔原有標注,則原有權值和現(xiàn)有權值合并,然后將新舊標注按照權值排序,選擇權值高的作為文檔的標注。
[0021]存儲標注及標注權值:刪除文檔對應的原有標注,將上述中調整后的標注和權值存儲到標注對應的數(shù)據(jù)表中;當其他文檔進行內容標注時,標注表中的數(shù)據(jù)作為影響因子加入到標注的權值計算公式中。
[0022]輸入詞語進行知識查詢,匹配數(shù)據(jù)并按權值排序:用戶通過知識查詢進行查詢,當根據(jù)數(shù)據(jù)屬性信息匹配個體,在顯示該個體的所有信息時會根據(jù)查找屬性值在文檔中的權值進行排序,顯示結果會按照權值的降序排列查詢結果。
[0023]本發(fā)明的保護范圍并不限于上述的實施例,顯然,本領域的技術人員可以對本發(fā)明進行各種改動和變形而不脫離本發(fā)明的范圍和精神。倘若這些改動和變形屬于本發(fā)明權利要求及其等同技術的范圍內,則本發(fā)明的意圖也包含這些改動和變形在內。
【主權項】
1.基于本體的數(shù)字出版物語義標注優(yōu)化方法,其特征在于,包括如下步驟: 文檔內容預處理:在計算機系統(tǒng)中對文檔進行解析,利用關鍵字提取工具提取關鍵字,并基于詞語位置計算出關鍵字的權值,為后續(xù)構建個體提供數(shù)據(jù)基礎; 構建本體模型:在計算機系統(tǒng)中通過本體構建工具構建本體,采用自頂向下的方法原貝1J,在工具中完成類、對象屬性、數(shù)據(jù)屬性的構建,構成包括了類、對象屬性和數(shù)據(jù)屬性的本體; 構建個體并填充數(shù)據(jù)屬性值:個體是根據(jù)本體中已有的類建立的實例,構建個體是用戶根據(jù)文檔內容對文檔進行模型化的過程,并填充個體數(shù)據(jù)屬性,從文檔標注中獲取數(shù)據(jù)屬性的值; 調整文檔標注及標注權值:獲取文檔原有的標注信息以及上述個體填充的屬性值和屬性值對應的文檔,對文檔中的標注進行調整,將個體所在類的級別以及數(shù)據(jù)屬性的優(yōu)先級作為權值因子加入到權值計算公式中,獲取屬性值的權值并作為文檔的新標注; 存儲標注及標注權值:刪除文檔對應的原有標注,將上述中調整后的標注和權值存儲到標注對應的數(shù)據(jù)表中;當其他文檔進行內容標注時,標注表中的數(shù)據(jù)作為影響因子加入到標注的權值計算公式中; 輸入詞語進行知識查詢,匹配數(shù)據(jù)并按權值排序:用戶通過知識查詢進行查詢,當根據(jù)數(shù)據(jù)屬性信息匹配個體,在顯示該個體的所有信息時會根據(jù)查找屬性值在文檔中的權值進行排序,顯示結果會按照權值的降序排列查詢結果。
2.如權利要求1所述的基于本體的數(shù)字出版物語義標注優(yōu)化方法,其特征在于:所述的構建個體并填充數(shù)據(jù)屬性值中,在每個數(shù)據(jù)屬性對應一個文本框,用來輸入和顯示該數(shù)據(jù)屬性信息;數(shù)據(jù)屬性的值是從文檔標注中獲取的,通過標注無法獲取的屬性值就會根據(jù)全文檢索獲取關鍵信息作為數(shù)據(jù)屬性值。
3.如權利要求1所述的基于本體的數(shù)字出版物語義標注優(yōu)化方法,其特征在于:所述的調整文檔標注及標注權值中,如果屬性值是文檔原有標注,則原有權值和現(xiàn)有權值合并,然后將新舊標注按照權值排序,選擇權值高的作為文檔的標注。
【專利摘要】本發(fā)明提供一種基于本體的數(shù)字出版物語義標注優(yōu)化方法。包括如下步驟:文檔內容預處理;構建本體模型;構建個體并填充數(shù)據(jù)屬性值;調整文檔標注及標注權值;存儲標注及標注權值;輸入詞語進行知識查詢,匹配數(shù)據(jù)并按權值排序。本發(fā)明方法能夠提高文檔標注的準確性,用戶使用本體知識庫進行知識查詢時能更快速的搜索到有效的文檔,并能提高其他相關聯(lián)電子文檔標注的準確性。
【IPC分類】G06F17-30
【公開號】CN104750836
【申請?zhí)枴緾N201510156576
【發(fā)明人】劉永堅, 白立華, 楊朝陽, 曾瑞, 李文忠, 楊慧
【申請人】武漢理工大學, 時代出版?zhèn)髅焦煞萦邢薰?br>【公開日】2015年7月1日
【申請日】2015年4月3日