ein( tit leimg, titleinstance)為實(shí)體的名稱和圖片標(biāo)題之間的編輯 距離。
[0090]具體地,上述三元組的客體和摘要的匹配度是通過以下公式計(jì)算得到的:
[0092] 其中,WordSetccintent為摘要分詞結(jié)果的集合,WordSet trippie為三元組客體的集合。
[0093] 具體地,上述圖片自身的質(zhì)量主要是指圖片本身的對比度和色彩鮮艷程度,其得 分是通過以下公式計(jì)算得到的:
[0098] 其中,Width為圖片本身的像素寬度,Height為圖片本身的像素高度,(i,j)為圖片 中的一個像素點(diǎn),i>〇,j>〇。
[0099] 具體地,上述圖片和實(shí)體的關(guān)聯(lián)程度是根據(jù)關(guān)聯(lián)得分的大小來判斷的,該關(guān)聯(lián)得 分是由實(shí)體的名稱和圖片標(biāo)題的匹配度、三元組的客體和圖片摘要的匹配度和圖片自身的 質(zhì)量得分這三者加權(quán)計(jì)算得到的。該權(quán)值可以根據(jù)實(shí)際需要合理選擇。
[0100]另外,在計(jì)算出各張圖片與實(shí)體的關(guān)聯(lián)得分后,可根據(jù)實(shí)際需要來完成圖片掛接。 例如按照關(guān)聯(lián)得分進(jìn)行降序排序,或者取關(guān)聯(lián)得分大于預(yù)設(shè)閾值的圖片,也或者按照關(guān)聯(lián) 得分的降序排序提取一定比例的圖片。本實(shí)施例中在計(jì)算出各張圖片與實(shí)體的關(guān)聯(lián)得分 后,對圖片按照的關(guān)聯(lián)得分的降序排序,最終的圖片掛接結(jié)果為:
[0102] 實(shí)施例2
[0103]如圖4所示,本實(shí)施例提供了一種知識圖譜的制作方法,包括以下步驟:
[0104] S21:使用上述實(shí)施例1中的方法進(jìn)行圖片掛接;
[0105] S22:對關(guān)聯(lián)程度最高的圖片進(jìn)行二值化處理,并根據(jù)二值化后的結(jié)果標(biāo)記出該圖 片前景的最大矩形連通區(qū),該連通區(qū)作為該圖片的前景區(qū);
[0106] S23:獲取矩形的前景區(qū)的最大內(nèi)接橢圓區(qū)域,對前景區(qū)內(nèi)非橢圓區(qū)的圖片進(jìn)行像 素遍歷,獲得這些像素點(diǎn)的平均值作為背景色;
[0107] S24:對前景區(qū)的矩形進(jìn)行外接圓擴(kuò)展,并用背景色填充該外接圓內(nèi)非矩形區(qū)域, 獲得切圓后的圖片作為對應(yīng)實(shí)體的展示圖片。
[0108] 本實(shí)施例提供的知識圖譜制作方法,對與實(shí)體的關(guān)聯(lián)得分最高的圖片進(jìn)行切圓處 理,以便于作為該實(shí)體的展示圖片。
[0109] 另外,為了使得展示圖片更加美觀,還可以對切圓處理后的圓形圖片加上彩色邊 框。
[0110] 具體地,上述步驟S24還包括將切圓后圖片的非圓形區(qū)域設(shè)置為透明的步驟,并將 最終的處理結(jié)果圖片保存為png格式。
[0111] 例如,圖5示出了將李白頭像進(jìn)行切圓處理的過程。
[0112] 實(shí)施例3
[0113] 如圖6所示,本實(shí)施例提供了一種圖片掛接裝置,包括:
[0114]初始獲取單元U1,用于獲取一張或多張圖片和待掛接實(shí)體的屬性信息;
[0115]轉(zhuǎn)換單元U2,用于獲取圖片的結(jié)構(gòu)化信息;
[0116]匹配程度獲取單元U3,用于獲取實(shí)體的屬性信息與結(jié)構(gòu)化信息的匹配程度;
[0117]關(guān)聯(lián)程度獲取單元U4,用于根據(jù)圖片自身的質(zhì)量和匹配程度分別獲取每張圖片與 實(shí)體的關(guān)聯(lián)程度;
[0118] 掛接單元U5,用于根據(jù)關(guān)聯(lián)程度完成圖片掛接。
[0119] 本實(shí)施例提供的圖片掛接裝置,通過待掛接實(shí)體與圖片的匹配度以及圖片自身的 質(zhì)量來進(jìn)行圖片掛接,計(jì)算匹配度和圖片自身質(zhì)量得分的算法簡單,容易實(shí)現(xiàn),而且圖片掛 接的準(zhǔn)確性高。
[0120] 具體地,上述轉(zhuǎn)換單元U2包括:
[0121]摘要獲取子單元,用于截取圖片在文本中幾何位置的上下兩個自然段作為摘要;
[0122] 標(biāo)題獲取子單元,用于對摘要文本進(jìn)行分詞和去停用詞,選擇詞頻最高的詞作為 標(biāo)題。
[0123] 具體地,實(shí)體的屬性信息包括至少一條由主體、謂詞和客體組成的三元組,其中一 條三元組表示該實(shí)體的名稱;
[0124] 匹配程度獲取單元U3包括:
[0125] 第一匹配度計(jì)算子單元,用于獲取實(shí)體的名稱和標(biāo)題的匹配度;
[0126] 第二匹配度計(jì)算子單元,用于獲取三元組的客體和摘要的匹配度。
[0127] 具體地,上述實(shí)體的名稱和標(biāo)題的匹配度是通過以下公式計(jì)算得到的:
[0128] Scoretitie= 1/(1+Levenshtein(titleimg,titleinstance))
[0129] 其中,Levenshtein( tit leimg, titleinstance)為實(shí)體的名稱和圖片標(biāo)題之間的編輯 距離。
[0130] 具體地,上述三元組的客體和摘要的匹配度是通過以下公式計(jì)算得到的:
[0132] 其中,WordSet?ntent為摘要分詞結(jié)果的集合,WordSet triPPie為三元組客體的集合。
[0133] 具體地,上述圖片自身的質(zhì)量主要是指圖片本身的對比度和色彩鮮艷程度,其得 分是通過以下公式計(jì)算得到的:
[0138] 其中,Width為圖片本身的像素寬度,Height為圖片本身的像素高度,(i,j)為圖片 中的一個像素點(diǎn),i>〇,j>〇。
[0139] 顯然,上述實(shí)施例僅僅是為清楚地說明所作的舉例,而并非對實(shí)施方式的限定。對 于所屬領(lǐng)域的普通技術(shù)人員來說,在上述說明的基礎(chǔ)上還可以做出其它不同形式的變化或 變動。這里無需也無法對所有的實(shí)施方式予以窮舉。而由此所引伸出的顯而易見的變化或 變動仍處于本發(fā)明創(chuàng)造的保護(hù)范圍之中。
【主權(quán)項(xiàng)】
1. 一種圖片掛接方法,其特征在于,包括如下步驟: 獲取一張或多張圖片和待掛接實(shí)體的屬性信息; 獲取所述圖片的結(jié)構(gòu)化信息; 獲取所述實(shí)體的屬性信息與所述結(jié)構(gòu)化信息的匹配程度; 根據(jù)所述圖片自身的質(zhì)量和所述匹配程度分別獲取每張所述圖片與所述實(shí)體的關(guān)聯(lián) 程度; 根據(jù)所述關(guān)聯(lián)程度完成圖片掛接。2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述獲取所述圖片的結(jié)構(gòu)化信息的步驟包 括: 截取所述圖片在文本中幾何位置的上下兩個自然段作為摘要; 對所述摘要文本進(jìn)行分詞和去停用詞,選擇詞頻最高的詞作為標(biāo)題。3. 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述實(shí)體的屬性信息包括至少一條由主 體、謂詞和客體組成的三元組,其中一條三元組表示該實(shí)體的名稱,所述獲取所述實(shí)體的屬 性信息與所述結(jié)構(gòu)化信息的匹配程度的步驟包括: 獲取所述實(shí)體的名稱和所述標(biāo)題的匹配度; 獲取所述三元組的客體和所述摘要的匹配度。4. 根據(jù)權(quán)利要求3中所述的方法,其特征在于,所述實(shí)體的名稱和所述標(biāo)題的匹配度是 通過以下公式計(jì)算得到的: Sc〇!T6title - I/( l+LeVeHshte ill( ?i?Ieimg,?i?Ieinstance)) 其中,Levenshte in (titleimg, tit leinstance)為所述實(shí)體的名稱和所述標(biāo)題之間的編輯 距離。5. 根據(jù)權(quán)利要求3所述的方法,其特征在于,所述三元組的客體和所述摘要的匹配度是 通過以下公式計(jì)算得到的:其中,WordSet_tent為所述摘要分詞結(jié)果的集合,WordSettrippIe為三元組客體的集合。6. 根據(jù)權(quán)利要求1-5中任一項(xiàng)所述的方法,其特征在于,所述圖片自身的質(zhì)量是通過以 下公式計(jì)算得到的:其中,Width為圖片本身的像素寬度,Height為圖片本身的像素高度,(i,j)為圖片中的 一個像素點(diǎn),i>〇, j>〇。7. -種知識圖譜的制作方法,其特征在于,包括以下步驟: 使用權(quán)利要求1-6中任一項(xiàng)所述的方法進(jìn)行圖片掛接; 對關(guān)聯(lián)程度最高的圖片進(jìn)行二值化處理,并根據(jù)二值化后的結(jié)果標(biāo)記出該圖片前景的 最大矩形連通區(qū),該連通區(qū)作為該圖片的前景區(qū); 獲取所述前景區(qū)的最大內(nèi)接橢圓區(qū)域,獲得非橢圓區(qū)內(nèi)像素點(diǎn)的平均值作為背景色; 對所述前景區(qū)的矩形進(jìn)行外接圓擴(kuò)展,并用所述背景色填充該外接圓內(nèi)非矩形區(qū)域, 獲得切圓后的圖片。8. -種圖片掛接裝置,其特征在于,包括: 初始獲取單元,用于獲取一張或多張圖片和待掛接實(shí)體的屬性信息; 轉(zhuǎn)換單元,用于獲取所述圖片的結(jié)構(gòu)化信息; 匹配程度獲取單元,用于獲取所述實(shí)體的屬性信息與所述結(jié)構(gòu)化信息的匹配程度; 關(guān)聯(lián)程度獲取單元,用于根據(jù)所述圖片自身的質(zhì)量和所述匹配程度分別獲取每張所述 圖片與所述實(shí)體的關(guān)聯(lián)程度; 掛接單元,用于根據(jù)所述關(guān)聯(lián)程度完成圖片掛接。9. 根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述轉(zhuǎn)換單元包括: 摘要獲取子單元,用于截取所述圖片在文本中幾何位置的上下兩個自然段作為摘要; 標(biāo)題獲取子單元,用于對所述摘要文本進(jìn)行分詞和去停用詞,選擇詞頻最高的詞作為 標(biāo)題。10. 根據(jù)權(quán)利要求8或9所述的裝置,其特征在于,所述實(shí)體的屬性信息包括至少一條由 主體、謂詞和客體組成的三元組,其中一條三元組表示該實(shí)體的名稱; 所述匹配程度獲取單元包括: 第一匹配度計(jì)算子單元,用于獲取所述實(shí)體的名稱和所述標(biāo)題的匹配度; 第二匹配度計(jì)算子單元,用于獲取所述三元組的客體和所述摘要的匹配度。
【專利摘要】一種圖片掛接方法及裝置、知識圖譜的制作方法,該圖片掛接方法包括:獲取一張或多張圖片和待掛接實(shí)體的屬性信息;獲取圖片的結(jié)構(gòu)化信息;獲取實(shí)體的屬性信息與結(jié)構(gòu)化信息的匹配程度;根據(jù)圖片自身的質(zhì)量和匹配程度分別計(jì)算每張圖片與實(shí)體的關(guān)聯(lián)程度;根據(jù)關(guān)聯(lián)程度完成圖片掛接。該圖片掛接方法算法簡單、容易實(shí)現(xiàn),而且圖片掛接的準(zhǔn)確性高。
【IPC分類】G06T7/00, G06F17/30
【公開號】CN105488160
【申請?zhí)枴緾N201510856918
【發(fā)明人】盧菁, 葉茂, 馬佳樂, 湯幟, 黃肖俊, 徐劍波
【申請人】北大方正集團(tuán)有限公司, 北京方正阿帕比技術(shù)有限公司, 北京大學(xué)
【公開日】2016年4月13日
【申請日】2015年11月30日