一種知識點隱性關(guān)系獲取方法及其系統(tǒng)的制作方法
【專利摘要】本發(fā)明提供一種知識點隱性關(guān)系獲取方法及其系統(tǒng),首先根據(jù)知識點顯性關(guān)系強度建立知識點顯性關(guān)系圖譜;其次根據(jù)所述知識點顯性關(guān)系圖譜,計算兩知識點的簡單路徑集合;然后計算所述簡單路徑集合中每條簡單路徑對應(yīng)的隱性關(guān)系強度;再比較每條簡單路徑的隱性關(guān)系強度,其值最大且大于預(yù)設(shè)閾值的簡單路徑的隱性關(guān)系強度設(shè)置為有效的隱性關(guān)系強度。上述方案有效避免了現(xiàn)有技術(shù)中只是利用知識點之間的關(guān)系強度及關(guān)系強度比例相對性獲取知識點的隱性關(guān)系,隱性關(guān)系的尋找方式不夠精確,同時沒有對關(guān)系強度進行歸一化處理,導(dǎo)致關(guān)系強度的判斷缺乏一個絕對的可衡量值,難以獲得最具代表性的隱性關(guān)系的問題。
【專利說明】一種知識點隱性關(guān)系獲取方法及其系統(tǒng)
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種知識點隱性關(guān)系獲取方法及其系統(tǒng),屬于電數(shù)字?jǐn)?shù)據(jù)處理技術(shù)。
【背景技術(shù)】
[0002] 隨著知識經(jīng)濟時代的到來,數(shù)字出版已成為出版業(yè)發(fā)展的必然趨勢,人們已從紙 質(zhì)閱讀大量地轉(zhuǎn)向電子閱讀。電子圖書、期刊、數(shù)字報刊等多樣化的出版資源蘊含大量權(quán)威 知識,具有很高的應(yīng)用價值。這些數(shù)字出版資源大量地采用書籍或期刊等文檔篇章的形式 組織和傳播知識和信息,人們希望獲取的并非文檔本身,而是直接獲得文檔里的相關(guān)知識 點,即將所有本領(lǐng)域的相關(guān)知識點都能找出來,以便研究學(xué)習(xí)。
[0003] 知識點之間存在著關(guān)聯(lián),通過同一文本中知識點及其解釋可以直接計算的關(guān)系, 我們稱之為"顯性關(guān)系",通過不同文本中知識點及其解釋間接計算的關(guān)系,我們稱之為"隱 性關(guān)系"。百科全書作為一種數(shù)字出版資源,是對知識點概要信息的簡單總結(jié)。百科全書 中的知識點(也稱為詞條)描述了知識點名稱和知識點解釋,解釋文本中通常會提及部分其 他相關(guān)知識點。例如,在《中國大百科全書--中國歷史》中,對于知識點"秦始皇"的解釋 為"中國統(tǒng)一秦王朝的開國皇帝...免除呂不韋的相職,令其徙處蜀郡...始皇三十四年, 又采納丞相李斯的建議"(省略了部分內(nèi)容,已經(jīng)使用...注明)。從解釋中可以看到, 知識點"秦始皇"與知識點"呂不韋"有關(guān)聯(lián)關(guān)系。同理,知識點"秦始皇"與知識點"李斯" 也有關(guān)聯(lián)關(guān)系,這些關(guān)系是存在于知識點及其解釋之間的顯性關(guān)系。但是,在兩個知識點之 間,除了顯性關(guān)系,還可能存在多個間接地隱性關(guān)系,并且隱性關(guān)系可能比顯性關(guān)系更具代 表性。因此基于知識點的顯性關(guān)系,需要進一步挖掘知識點間的隱性關(guān)系。
[0004] 現(xiàn)有技術(shù)中,采用在某個知識點的解釋文本中檢索其他知識點的方法,可以較容 易地獲取這兩個知識點的顯性關(guān)系,而間接的隱性關(guān)系是根據(jù)間接知識點之間的關(guān)系強度 及關(guān)系強度的比例獲得的關(guān)系強度,關(guān)系強度的比例指該知識點顯性關(guān)系強度與所有相關(guān) 知識點強度總和的比值,這種獲取隱性關(guān)系強度的方法只是相對性地獲取了知識點的隱性 關(guān)系,并未從全局考慮整個知識體系,將整個知識體系中的所有隱性關(guān)系進行分析處理,只 是利用知識點之間的顯性關(guān)系強度及關(guān)系強度的比例獲得的隱性關(guān)系強度,這種隱性關(guān)系 的獲取方式只能相對性的獲取知識點的隱性關(guān)系,不夠精確;同時在獲取顯性關(guān)系強度時 是基于知識點在相關(guān)文本中出現(xiàn)的次數(shù)來計算顯性關(guān)系強度,這種計算方式?jīng)]有對關(guān)系強 度進行歸一化處理,導(dǎo)致關(guān)系強度的判斷缺乏一個絕對的可衡量值,因此,現(xiàn)有的技術(shù)方案 難以獲得最具代表性的隱性關(guān)系。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明所要解決的技術(shù)問題是現(xiàn)有技術(shù)中獲取隱性關(guān)系強度的方法只是利用知 識點之間的關(guān)系強度及關(guān)系強度的比例相對的獲取知識點的隱性關(guān)系,隱性關(guān)系的尋找方 式不夠精確,同時沒有對關(guān)系強度進行歸一化處理,導(dǎo)致關(guān)系強度的判斷缺乏一個絕對的 可衡量值,難以獲得最具代表性的隱性關(guān)系的問題,因此提供一種從全局空間的知識點顯 性關(guān)系出發(fā),獲取最具代表性的隱性關(guān)系的方法及其系統(tǒng)。
[0006] 為解決上述技術(shù)問題,本發(fā)明是通過以下技術(shù)方案實現(xiàn)的:
[0007] -種知識點隱性關(guān)系獲取方法,包括如下步驟:
[0008] 根據(jù)所有知識點及其解釋的集合建立知識點顯性關(guān)系圖譜;
[0009] 根據(jù)所述知識點顯性關(guān)系圖譜,計算兩知識點的簡單路徑集合;
[0010] 計算所述簡單路徑集合中每條簡單路徑對應(yīng)的隱性關(guān)系強度;
[0011] 比較每條簡單路徑的所述隱性關(guān)系強度,其值最大且大于預(yù)設(shè)閾值的路徑的隱性 關(guān)系強度設(shè)置為有效的隱性關(guān)系強度。
[0012] 所述根據(jù)所有知識點及其解釋的集合建立知識點顯性關(guān)系圖譜的處理包括如下 步驟:
[0013] 根據(jù)所述所有知識點及其解釋的集合計算知識點正向顯性關(guān)系,并設(shè)置所述知識 點正向顯性關(guān)系強度;
[0014] 根據(jù)所述所有知識點及其解釋的集合計算知識點反向顯性關(guān)系,并設(shè)置所述知識 點反向顯性關(guān)系強度;
[0015] 根據(jù)所述知識點正向顯性關(guān)系和所述知識點反向顯性關(guān)系計算知識點顯性關(guān)系 并計算知識點的顯性關(guān)系強度;
[0016] 根據(jù)所有知識點的所述顯性關(guān)系強度,建立知識點顯性關(guān)系圖譜。
[0017] 所述知識點正向顯性關(guān)系強度的設(shè)置方法為:
[0018]
【權(quán)利要求】
1. 一種知識點隱性關(guān)系獲取方法,其特征在于,包括如下步驟: 根據(jù)所有知識點及其解釋的集合建立知識點顯性關(guān)系圖譜; 根據(jù)所述知識點顯性關(guān)系圖譜,計算兩知識點的簡單路徑集合; 計算所述簡單路徑集合中每條簡單路徑對應(yīng)的隱性關(guān)系強度; 比較每條簡單路徑的所述隱性關(guān)系強度,其值最大且大于預(yù)設(shè)閾值的路徑的隱性關(guān)系 強度設(shè)置為有效的隱性關(guān)系強度。
2. 根據(jù)權(quán)利要求1所述的知識點隱性關(guān)系獲取方法,其特征在于,所述根據(jù)所有知識 點及其解釋的集合建立知識點顯性關(guān)系圖譜的處理包括如下步驟: 根據(jù)所述所有知識點及其解釋的集合計算知識點正向顯性關(guān)系,并設(shè)置所述知識點正 向顯性關(guān)系強度; 根據(jù)所述所有知識點及其解釋的集合計算知識點反向顯性關(guān)系,并設(shè)置所述知識點反 向顯性關(guān)系強度; 根據(jù)所述知識點正向顯性關(guān)系和所述知識點反向顯性關(guān)系計算知識點顯性關(guān)系并計 算知識點的顯性關(guān)系強度; 根據(jù)所有知識點的所述顯性關(guān)系強度,建立知識點顯性關(guān)系圖譜。
3. 根據(jù)權(quán)利要求2所述的知識點隱性關(guān)系獲取方法,其特征在于,所述知識點正向顯 性關(guān)系強度的設(shè)置方法為:
時,從知識點〇i到%的正向顯性關(guān)系的強度設(shè)置為f P(i,j)=〇. 66 ;
時,從知識點〇i到%的正向顯性關(guān)系的強度設(shè)置為f P(i,j)=〇 ; 其中A表不知識點〇i到〇j的正向顯性關(guān)系,
是知 識點〇i的名稱,yi是知識點〇i的解釋,H (yi)是yi中所提及的知識點集合,i, j=l, 2,...,η (η為知識點的個數(shù))。
4. 根據(jù)權(quán)利要求2或3所述的知識點隱性關(guān)系獲取方法,其特征在于,所述知識點反向 顯性關(guān)系強度的設(shè)置方法為:
時,從知識點〇i到%的反向顯性關(guān)系的強度設(shè)置為f N(i,j)=〇. 33 ;
時,從知識點〇i到%的反向顯性關(guān)系的強度設(shè)置為f N(i,j)=〇 ; 其中表示知識點〇i到〇j的反向顯性關(guān)系,
5. 根據(jù)權(quán)利要求2-4任一所述的知識點隱性關(guān)系獲取方法,其特征在于:所述知識點 顯性關(guān)系的計算方法為,
其中,氣/表不知識點〇i到〇j的顯性關(guān)系,^表不知識點〇i到〇j的反向顯性關(guān)系,尺:/ 表示知識點〇i到〇j的正向顯性關(guān)系,則所有的知識點間的顯性關(guān)系集合RE為
所述知識點顯性關(guān)系強度的計算方法為, fE(i, j)=fP(i, j)+fN(i, j) 其中,fE(i,j)表示知識點〇i到知識點%顯性關(guān)系的強度,fp(i,j)為從知識點 〇i到知 識點〇j的正向顯性關(guān)系強度,fN(i,j)為從知識點〇i到知識點 〇j的反向顯性關(guān)系強度; 計算顯性關(guān)系集合RE中所有知識點的關(guān)系強度并保存在顯性關(guān)系強度矩陣E中,根據(jù) 所述顯性關(guān)系矩陣E生成所述知識點顯性關(guān)系圖譜。
6. 根據(jù)權(quán)利要求1-5任一所述的知識點隱性關(guān)系獲取方法,其特征在于,所述顯性關(guān) 系圖譜為帶權(quán)有向圖G,帶權(quán)有向圖G包括邊、權(quán)重和頂點, 其中,邊和權(quán)重的設(shè)置方法為: 所述帶權(quán)有向圖G中從知識點〇i到知識點%的邊的權(quán)重設(shè)置為fE(i,j);當(dāng)fE(i,j)=0 時,所述帶權(quán)有向圖G中不存在從知識點〇i到知識點〇j的邊,其中,fE(i, j)表示知識點〇i 到知識點%的顯性關(guān)系權(quán)重; 所述帶權(quán)有向圖G的頂點與所述顯性關(guān)系矩陣E的頂點相同,都代表知識點。
7. 根據(jù)權(quán)利要求1-6任一所述的知識點隱性關(guān)系獲取方法,其特征在于,所述兩知識 點的簡單路徑集合的算法為: 集合Dik的初始值為從頂點i到頂點k的邊,當(dāng)集合中的某條路徑和集合Ι)Λ中的某 條路徑僅在頂點j重合時,將這兩條路徑合并得到從頂點i到頂點k的一條簡單路徑,并保 存在所述集合Dik中; 其中i,j,k=l,2,. . .,η (η為頂點數(shù)目),按從小到大順序依次遍歷k,i和j的所有取 值,并全部保存在所述集合Dik中。
8. 根據(jù)權(quán)利要求1-7任一所述的知識點隱性關(guān)系獲取方法,其特征在于:所述兩知識 點的簡單路徑集合,通過deletion algorithm刪除算法獲取前K條簡單路徑來近似獲取 所有簡單路徑的集合。
9. 根據(jù)權(quán)利要求1-7任一所述的知識點隱性關(guān)系獲取方法,其特征在于:所述計 算所述簡單路徑集合中每條簡單路徑對應(yīng)的隱性關(guān)系強度的方法為:Π fE(m,n),其中
是從知識點〇m到〇n的顯性關(guān)系強度,m, η表不知識點的編號;(om, on) 是所述簡單路徑上的一條邊。
10. 根據(jù)權(quán)利要求1-9任一所述的知識點隱性關(guān)系獲取方法,其特征在于:所述隱性關(guān) 系強度預(yù)設(shè)閾值設(shè)置為ξ,其中0. 05彡ξ彡0. 4。
11. 根據(jù)權(quán)利要求1-10任一所述的知識點隱性關(guān)系獲取方法,其特征在于,所述隱性 關(guān)系強度預(yù)設(shè)閾值ξ =0.1。
12. -種知識點隱性關(guān)系獲取系統(tǒng),其特征在于,包括: 知識點顯性關(guān)系圖譜建立模塊,用于根據(jù)所有知識點及其解釋的集合建立知識點顯性 關(guān)系圖譜; 簡單路徑集合計算模塊,用于所述知識點顯性關(guān)系圖譜,計算兩知識點的簡單路徑集 合; 隱性關(guān)系強度計算模塊,用于計算所述簡單路徑集合中每條簡單路徑對應(yīng)的隱性關(guān)系 強度; 有效隱性關(guān)系強度設(shè)置模塊,用于比較每條簡單路徑的所述隱性關(guān)系強度,其值最大 且大于預(yù)設(shè)閾值的路徑的隱性關(guān)系強度設(shè)置為有效的隱性關(guān)系強度。
13. 根據(jù)權(quán)利要求12所述的知識點隱性關(guān)系獲取系統(tǒng),其特征在于,所述知識點顯性 關(guān)系圖譜建立模塊包括: 知識點正向顯性關(guān)系強度設(shè)置單元,用于根據(jù)所述所有知識點及其解釋的集合計算知 識點正向顯性關(guān)系,并設(shè)置所述知識點正向顯性關(guān)系強度; 知識點反向顯性關(guān)系強度設(shè)置單元,用于根據(jù)所述所有知識點及其解釋的集合計算知 識點反向顯性關(guān)系,并設(shè)置所述知識點反向顯性關(guān)系強度; 知識點顯性關(guān)系強度計算單元,用于根據(jù)所述知識點正向顯性關(guān)系和所述知識點反向 顯性關(guān)系計算知識點顯性關(guān)系并計算知識點的顯性關(guān)系強度; 顯性關(guān)系圖譜建立單元,用于根據(jù)所有知識點的所述顯性關(guān)系強度,建立知識點顯性 關(guān)系圖譜。
14. 根據(jù)權(quán)利要求13所述的知識點隱性關(guān)系獲取系統(tǒng),其特征在于,所述知識點正向 顯性關(guān)系強度的設(shè)置方法為:
時,從知識點〇i到%的正向顯性關(guān)系的強度設(shè)置為f P(i,j)=〇. 66 ;
時,從知識點〇i到%的正向顯性關(guān)系的強度設(shè)置為f P(i,j)=〇 ; 其中 < 表示知識點〇i到%的正向顯性關(guān)系,
是知 識點〇i的名稱,yi是知識點〇i的解釋,H (yi)是yi中所提及的知識點集合,i, j=l, 2,...,η (η為知識點的個數(shù))。
15. 根據(jù)權(quán)利要求13或14所述的知識點隱性關(guān)系獲取系統(tǒng),其特征在于,所述知識點 反向顯性關(guān)系強度的設(shè)置方法為:
時,從知識點〇i到%的反向顯性關(guān)系的強度設(shè)置為f N(i,j)=〇. 33 ;
時,從知識點〇i到%的反向顯性關(guān)系的強度設(shè)置為f N(i,j)=〇 ; 其中表示知識點〇i到%的反向顯性關(guān)系,
16. 根據(jù)權(quán)利要求12-15任一所述的知識點隱性關(guān)系獲取系統(tǒng),其特征在于:所述知識 點顯性關(guān)系的計算方法為,
其中,< 表示知識點〇i到Oj的顯性關(guān)系,表示知識點〇i到Oj的反向顯性關(guān)系,Λ 表示知識點〇i到〇j的正向顯性關(guān)系,則所有的知識點間的顯性關(guān)系集合RE為
所述知識點顯性關(guān)系強度的計算方法為, fE(i, j)=fP(i, j)+fN(i, j) 其中,fE(i,j)表示知識點〇i到知識點%顯性關(guān)系的強度,fp(i,j)為從知識點 〇i到知 識點〇j的正向顯性關(guān)系強度,fN(i,j)為從知識點〇i到知識點 〇j的反向顯性關(guān)系強度。 計算顯性關(guān)系集合RE中所有知識點的關(guān)系強度并保存在顯性關(guān)系強度矩陣E中,根據(jù) 所述顯性關(guān)系矩陣E生成所述知識點顯性關(guān)系圖譜。
17. 根據(jù)權(quán)利要求12-16任一所述的知識點隱性關(guān)系獲取系統(tǒng),其特征在于,所述顯性 關(guān)系圖譜為帶權(quán)有向圖G,帶權(quán)有向圖G包括邊、權(quán)重和頂點, 其中,邊和權(quán)重的設(shè)置方法為: 所述帶權(quán)有向圖G中從知識點〇i到知識點%的邊的權(quán)重設(shè)置為fE(i,j);當(dāng)fE(i,j)=0 時,所述帶權(quán)有向圖G中不存在從知識點〇i到知識點〇j的邊,其中,fE(i, j)表示知識點〇i 到知識點%的顯性關(guān)系權(quán)重; 所述帶權(quán)有向圖G的頂點與所述顯性關(guān)系矩陣E的頂點相同,都代表知識點。
18. 根據(jù)權(quán)利要求12-17任一所述的知識點隱性關(guān)系獲取系統(tǒng),其特征在于:所述兩知 識點的簡單路徑集合的算法為: 集合Dik的初始值為從頂點i到頂點k的邊,當(dāng)集合中的某條路徑和集合Ι)Λ中的某 條路徑僅在頂點j重合時,將這兩條路徑合并得到從頂點i到頂點k的一條簡單路徑,并保 存在所述集合Dik中; 其中i,j,k=l,2,. . .,η (η為頂點數(shù)目),按從小到大順序依次遍歷k,i和j的所有取 值,并全部保存在所述集合Dik中。
19. 根據(jù)權(quán)利要求12-19任一所述的知識點隱性關(guān)系獲取系統(tǒng),其特征在于:所述兩知 識點的簡單路徑集合,通過deletion algorithm刪除算法獲取前K條簡單路徑來近似獲 取所有簡單路徑的集合。
20. 根據(jù)權(quán)利要求12-19任一所述的知識點隱性關(guān)系獲取系統(tǒng),其特征在于:所述隱性 關(guān)系強度計算模塊中,計算所述簡單路徑集合中每條簡單路徑對應(yīng)的隱性關(guān)系強度的方法 為:Π fE(m, η),其中
fE(m, η)是從知識點om到οη的顯性關(guān)系強度,m, η表示 知識點的編號;(〇m,〇n)是所述簡單路徑上的一條邊。
21. 根據(jù)權(quán)利要求12-20任一所述的知識點隱性關(guān)系獲取系統(tǒng),其特征在于:所述隱性 關(guān)系強度預(yù)設(shè)閾值設(shè)置為ξ,其中0.05彡ξ彡0.4。
22. 根據(jù)權(quán)利要求12-21任一所述的知識點隱性關(guān)系獲取系統(tǒng),其特征在于,所述隱性 關(guān)系強度預(yù)設(shè)閾值ξ =0.1。
【文檔編號】G06F17/30GK104216933SQ201310456317
【公開日】2014年12月17日 申請日期:2013年9月29日 優(yōu)先權(quán)日:2013年9月29日
【發(fā)明者】葉茂, 萬巍, 徐劍波, 湯幟, 金立峰 申請人:北大方正集團有限公司, 北京方正阿帕比技術(shù)有限公司, 北京大學(xué)