一種圖片掛接方法及裝置、知識圖譜的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及數(shù)字資源處理領(lǐng)域,具體涉及一種圖片掛接方法及裝置、知識圖譜的 制作方法。
【背景技術(shù)】
[0002] 知識圖譜,是指以實(shí)體、概念作為節(jié)點(diǎn),以語義關(guān)系作為邊的語義網(wǎng)絡(luò)。知識圖譜 使得知識獲取更直接,因此能夠?yàn)殚喿x提供語義關(guān)聯(lián)的知識,從而實(shí)現(xiàn)閱讀的便捷化、智能 化和人性化。
[0003] 科學(xué)計(jì)量學(xué)和可視化技術(shù)的發(fā)展,驅(qū)動(dòng)了知識圖譜應(yīng)用的廣泛研究。知識圖譜目 前在教育科研、技術(shù)更新、智力結(jié)構(gòu)分析和社會問題等方面應(yīng)用廣泛。
[0004] 知識圖譜的構(gòu)建的一個(gè)主要內(nèi)容是將圖片和實(shí)例掛接,即將內(nèi)容與實(shí)例緊密相關(guān) 的圖片關(guān)聯(lián)起來?,F(xiàn)有技術(shù)中的圖片掛接方法步驟復(fù)雜、實(shí)現(xiàn)的難度大且準(zhǔn)確性低,因此亟 需一種操作簡單、容易實(shí)現(xiàn)的圖片掛接方法,以方便制作知識圖譜。
【發(fā)明內(nèi)容】
[0005] 因此,本發(fā)明要解決的技術(shù)問題在于現(xiàn)有知識圖譜制作中的圖片掛接方法的步驟 復(fù)雜、實(shí)現(xiàn)的難度大且準(zhǔn)確性低。
[0006 ]為此,本發(fā)明提供了如下技術(shù)方案:
[0007] -種圖片掛接方法,包括如下步驟:
[0008] 獲取一張或多張圖片和待掛接實(shí)體的屬性信息;
[0009] 獲取圖片的結(jié)構(gòu)化信息;
[0010] 獲取實(shí)體的屬性信息與結(jié)構(gòu)化信息的匹配程度;
[0011] 根據(jù)圖片自身的質(zhì)量和匹配程度分別獲取每張圖片與實(shí)體的關(guān)聯(lián)程度;
[0012] 根據(jù)關(guān)聯(lián)程度完成圖片掛接。
[0013] 優(yōu)選地,獲取圖片的結(jié)構(gòu)化信息的步驟包括:
[0014] 截取圖片在文本中幾何位置的上下兩個(gè)自然段作為摘要;
[0015] 對摘要文本進(jìn)行分詞和去停用詞,選擇詞頻最高的詞作為標(biāo)題。
[0016] 優(yōu)選地,實(shí)體的屬性信息包括至少一條由主體、謂詞和客體組成的三元組,其中一 條三元組表示該實(shí)體的名稱,獲取實(shí)體的屬性信息與結(jié)構(gòu)化信息的匹配程度的步驟包括:
[0017] 獲取實(shí)體的名稱和標(biāo)題的匹配度;
[0018] 獲取三元組的客體和摘要的匹配度。
[0019] 優(yōu)選地,實(shí)體的名稱和標(biāo)題的匹配度是通過以下公式計(jì)算得到的:
[0020] Scoretitie= 1/(1+Levenshtein(titleimg,titleinstance))
[0021 ] 其中,Levenshtein(titleimg, titleinstance)為實(shí)體的名稱和標(biāo)題之間的編輯距離。
[0022]優(yōu)選地,三元組的客體和摘要的匹配度是通過以下公式計(jì)算得到的:
[0024] 其中,WordSetcontent為摘要分詞結(jié)果的集合,WordSettripple為三元組客體的集合。
[0025] 優(yōu)選地,圖片自身的質(zhì)量是通過以下公式計(jì)算得到的:
[0026] Score image -l〇g (Pred )+ l〇g (Pgreen)+ l〇g(Pblue ),
[0030]其中,Width為圖片本身的像素寬度,Height為圖片本身的像素高度,(i,j)為圖片 中的一個(gè)像素點(diǎn),i>〇,j>〇。
[0031 ] -種知識圖譜的制作方法,包括以下步驟:
[0032] 使用上述的圖片掛接方法進(jìn)行圖片掛接;
[0033] 對關(guān)聯(lián)程度最高的圖片進(jìn)行二值化處理,并根據(jù)二值化后的結(jié)果標(biāo)記出該圖片前 景的最大矩形連通區(qū),該連通區(qū)作為該圖片的前景區(qū);
[0034] 獲取前景區(qū)的最大內(nèi)接橢圓區(qū)域,獲得非橢圓區(qū)內(nèi)像素點(diǎn)的平均值作為背景色; [0035]對前景區(qū)的矩形進(jìn)行外接圓擴(kuò)展,并用背景色填充該外接圓內(nèi)非矩形區(qū)域,獲得 切圓后的圖片。
[0036] -種圖片掛接裝置,包括:
[0037] 初始獲取單元,用于獲取一張或多張圖片和待掛接實(shí)體的屬性信息;
[0038] 轉(zhuǎn)換單元,用于獲取圖片的結(jié)構(gòu)化信息;
[0039] 匹配程度獲取單元,用于獲取實(shí)體的屬性信息與結(jié)構(gòu)化信息的匹配程度;
[0040] 關(guān)聯(lián)程度獲取單元,用于根據(jù)圖片自身的質(zhì)量和匹配程度分別獲取每張圖片與實(shí) 體的關(guān)聯(lián)程度;
[0041] 掛接單元,用于根據(jù)關(guān)聯(lián)程度完成圖片掛接。
[0042] 優(yōu)選地,轉(zhuǎn)換單元包括:
[0043] 摘要獲取子單元,用于截取圖片在文本中幾何位置的上下兩個(gè)自然段作為摘要;
[0044]標(biāo)題獲取子單元,用于對摘要文本進(jìn)行分詞和去停用詞,選擇詞頻最高的詞作為 標(biāo)題。
[0045]優(yōu)選地,實(shí)體的屬性信息包括至少一條由主體、謂詞和客體組成的三元組,其中一 條三元組表示該實(shí)體的名稱;
[0046]匹配程度獲取單元包括:
[0047] 第一匹配度計(jì)算子單元,用于獲取實(shí)體的名稱和標(biāo)題的匹配度;
[0048] 第二匹配度計(jì)算子單元,用于獲取三元組的客體和摘要的匹配度。
[0049]本發(fā)明技術(shù)方案,具有如下優(yōu)點(diǎn):
[0050] 1.本發(fā)明提供的圖片掛接方法及裝置,通過待掛接實(shí)體與圖片的匹配度以及圖片 自身的質(zhì)量來進(jìn)行圖片掛接,計(jì)算匹配度和圖片自身質(zhì)量得分的算法簡單,容易實(shí)現(xiàn),而且 圖片掛接的準(zhǔn)確性高。
[0051] 2.本發(fā)明提供的知識圖譜的制作方法,在完成圖片掛接步驟后,還會對關(guān)聯(lián)得分 最高的圖片進(jìn)行切圓處理以便于作為對應(yīng)實(shí)體的展示圖來展示。經(jīng)切圓處理后圖片不僅最 大程度地保留了其前景圖,而且刪除了記載信息較少的部分,以便于展示。
【附圖說明】
[0052] 為了更清楚地說明本發(fā)明【具體實(shí)施方式】或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對具體 實(shí)施方式或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的 附圖是本發(fā)明的一些實(shí)施方式,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前 提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0053] 圖1為本發(fā)明實(shí)施例1中的一種圖片掛接方法的流程圖;
[0054] 圖2為本發(fā)明實(shí)施例1中的一種獲取圖片的結(jié)構(gòu)化信息的方法流程圖;
[0055] 圖3為本發(fā)明實(shí)施例1中的一種計(jì)算實(shí)體與圖片的結(jié)構(gòu)化信息匹配程度的流程圖;
[0056] 圖4為本發(fā)明實(shí)施例2中的一種知識圖譜制作方法的流程圖;
[0057] 圖5為本發(fā)明實(shí)施例2中的一個(gè)圖片切圓處理過程的示例圖;
[0058]圖6為本發(fā)明實(shí)施例3中的一種圖片掛接裝置的原理框圖。
【具體實(shí)施方式】
[0059] 下面將結(jié)合附圖對本發(fā)明的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施 例是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù) 人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
[0060] 此外,下面所描述的本發(fā)明不同實(shí)施方式中所涉及的技術(shù)特征只要彼此之間未構(gòu) 成沖突就可以相互結(jié)合。
[0061] 實(shí)施例1
[0062] 如圖1所示,本實(shí)施例提供了一種圖片掛接方法,其特征在于,包括如下步驟:
[0063] S11:獲取一張或多張圖片和待掛接實(shí)體的屬性信息,該圖片可來源于網(wǎng)絡(luò)或者電 子書籍等;
[0064] S12:獲取圖片的結(jié)構(gòu)化信息;
[0065] S13:獲取實(shí)體的屬性信息與結(jié)構(gòu)化信息的匹配程度;
[0066] S14:根據(jù)圖片自身的質(zhì)量和匹配程度分別獲取每張圖片與實(shí)體的關(guān)聯(lián)程度;
[0067] S15:根據(jù)關(guān)聯(lián)程度完成圖片掛接。
[0068]上述實(shí)體的屬性信息是利用三元組來描述的,三元組由主體、謂詞和客體三個(gè)要 素組成,每個(gè)實(shí)體通過若干條三元組進(jìn)行描述。例如,實(shí)體"李白"可以通過以下三元組進(jìn)行 描述:
[0070]其中,YNNNZSbb為該實(shí)體的ID號,謂詞為標(biāo)簽的三元組表示該實(shí)體的名稱。
[0071 ]例如,本實(shí)施例中待掛接實(shí)體的屬性信息用三元組表示如下:
[0073]上述圖片的結(jié)構(gòu)化信息是指一組有三個(gè)元素的信息,分別是圖片文件的存儲路 徑、標(biāo)題和摘要。例如,其中一張圖片的結(jié)構(gòu)化信息如下表所示:
[0075] 本實(shí)施例提供的圖片掛接方法,通過待掛接實(shí)體與圖片的結(jié)構(gòu)化信息之間的匹配 度以及圖片自身的質(zhì)量來進(jìn)行圖片掛接,計(jì)算匹配度和圖片自身質(zhì)量得分的算法簡單,容 易實(shí)現(xiàn),而且圖片掛接的準(zhǔn)確性高。
[0076] 具體地,如圖2所示,上述步驟S12,即獲取圖片的結(jié)構(gòu)化信息,也即將圖片轉(zhuǎn)換為 結(jié)構(gòu)化圖片的步驟包括:
[0077] S121:截取圖片在文本中幾何位置的上下兩個(gè)自然段作為摘要;
[0078] S122:對摘要文本進(jìn)行分詞和去停用詞,選擇詞頻最高的詞作為標(biāo)題。
[0079]本實(shí)施例中,將不同來源的圖片存儲至路徑D:\\image\\下,并將獲取的圖片進(jìn)行 歸一化處理以得到各張圖片的結(jié)構(gòu)化信息,如下:
[0083] 具體地,實(shí)體的屬性信息包括至少一條由主體、謂詞和客體組成的三元組,其中一 條三元組表示該實(shí)體的名稱;
[0084] 如圖3所示,上述步驟S13,即獲取實(shí)體的屬性信息與結(jié)構(gòu)化信息的匹配程度的步 驟包括:
[0085] S131:獲取實(shí)體的名稱和標(biāo)題的匹配度;
[0086] S132:獲取三元組的客體和摘要的匹配度。
[0087] 具體地,上述實(shí)體的名稱和標(biāo)題的匹配度是通過以下公式計(jì)算得到的:
[0088] Scoretitie= 1/(1+Levenshtein(titleimg,titleinstance))
[0089] 其中,Levensht