一種局部文檔圖像的比對(duì)方法及系統(tǒng)的制作方法_3

文檔序號(hào)：8319520閱讀：來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)>一種局部文檔圖像的比對(duì)方法及系統(tǒng)的制作方法

素值是否為〇,若是則將該鄰域標(biāo)記為二進(jìn)制數(shù)1，若否則將該鄰域標(biāo)記為二進(jìn)制數(shù)0,然后將鄰域0-7的已經(jīng)標(biāo)記的這些二進(jìn)制數(shù)按照從左到右的順序依次排列，成為一個(gè)二進(jìn)制數(shù)序列，再將該序列轉(zhuǎn)化為十進(jìn)制數(shù)，該十進(jìn)制數(shù)即為該像素對(duì)應(yīng)的領(lǐng)域編碼。
[0097] 接下來構(gòu)建每個(gè)像素點(diǎn)的8鄰域的統(tǒng)計(jì)直方圖，根據(jù)每個(gè)像素點(diǎn)的8鄰域的統(tǒng)計(jì) 直方圖得到每個(gè)區(qū)塊的鄰域編碼的統(tǒng)計(jì)直方圖，由于獲取的是單像素邊界圖像，而根據(jù)文檔圖像處理的經(jīng)驗(yàn)，對(duì)于大多數(shù)像素而言，8領(lǐng)域中只有2個(gè)位置對(duì)應(yīng)的像素值為0,即標(biāo)記的二進(jìn)制數(shù)為1，因此上述二進(jìn)制數(shù)序列只可能有C82 = 28種排列方式，即最多有28個(gè)不同的鄰域編碼，編碼統(tǒng)的計(jì)直方圖柱的數(shù)目為28。最終得到"現(xiàn)"字左上角區(qū)塊的鄰域編碼的統(tǒng)計(jì)直方圖如圖8所示。其中，圖8中統(tǒng)計(jì)直方圖的橫坐標(biāo)為編碼值的索引[0, 27]，縱坐標(biāo) 為該編碼值在區(qū)塊內(nèi)出現(xiàn)的次數(shù)。
[0098] 第三步，將每個(gè)區(qū)塊的統(tǒng)計(jì)直方圖按照左上、右上、左下、右下的順序進(jìn)行組合，先得到每個(gè)字符的組合分布，再將每個(gè)字符的組合分布按照從左到右的順序進(jìn)行組合，得到文檔圖像的組合分布。本實(shí)施例中的待比對(duì)文檔圖像的組合分布直方圖圓柱的數(shù)目為 28*4*4=448個(gè)，圖3中文檔圖像的最終得到的組合分布如圖9所示，圖10中文檔圖像的組合分布如圖11所示。圖9和圖11中所示的組合分布的統(tǒng)計(jì)直方圖的橫坐標(biāo)為編碼值的索引[0, 447]，縱坐標(biāo)為該編碼值在文檔圖像內(nèi)出現(xiàn)的次數(shù).
[0099] 第四步，計(jì)算待比對(duì)文檔圖像的組合分布之間的距離。根據(jù)該距離判斷文檔圖像之間的相似度。本實(shí)施例中計(jì)算圖9和圖11中所示出的組合分布之間的歐式距離，該距離越大，相似度越低。
[0100] 通過本實(shí)施例可以看出，采用本發(fā)明所述的方法及系統(tǒng)，通過將待比對(duì)文檔圖像上的每個(gè)字符劃分區(qū)塊，計(jì)算每個(gè)區(qū)塊的二值分布特征后按順序組合得到對(duì)應(yīng)的組合分布，再計(jì)算各個(gè)組合分布之間的距離，據(jù)此判斷文檔圖像之間的相似度，這樣既可以較快速地對(duì)文檔圖像進(jìn)行比對(duì)，且不依賴OCR識(shí)別結(jié)果，能達(dá)到較好的比對(duì)效果。
[0101] 本領(lǐng)域技術(shù)人員應(yīng)該明白，本發(fā)明所述的方法并不限于【具體實(shí)施方式】中所述的實(shí) 施例，上面的具體描述只是為了解釋本發(fā)明的目的，并非用于限制本發(fā)明。本領(lǐng)域技術(shù)人員根據(jù)本發(fā)明的技術(shù)方案得出其他的實(shí)施方式，同樣屬于本發(fā)明的技術(shù)創(chuàng)新范圍。
【主權(quán)項(xiàng)】
1. 一種局部文檔圖像的比對(duì)方法，包括w下步驟： (1) 將待比對(duì)文檔圖像中的每個(gè)字符劃分為mXn個(gè)區(qū)塊，m和n均為正整數(shù)； (2) 計(jì)算每個(gè)區(qū)塊的二值分布特征；所述的二值分布特征是指二值圖像中黑像素的分布特征； (3) 將每個(gè)區(qū)塊的二值分布特征進(jìn)行組合，得到每個(gè)字符的組合分布，并將每個(gè)字符的組合分布進(jìn)行組合，得到文檔圖像的組合分布； (4) 計(jì)算待比對(duì)文檔圖像的組合分布之間的距離，根據(jù)該距離判斷待比對(duì)文檔圖像之間的相似度。
2. 如權(quán)利要求1所述的一種局部文檔圖像的比對(duì)方法，其特征在于，步驟（1)中，將待比對(duì)文檔圖像上的每個(gè)字符劃分為mXn個(gè)區(qū)塊的具體方式包括W下步驟： 1) 將文檔圖像進(jìn)行二值化處理，得到二值化圖像； 2) 判斷該二值化圖像中是否只有單行文本，若是則進(jìn)入步驟3)，若否則對(duì)該二值化圖像進(jìn)行成行處理； 3) 將該二值化圖像中的每行文本進(jìn)行字符拆分； 4) 將拆分得到的每個(gè)字符都劃分為mXn個(gè)區(qū)塊。
3. 如權(quán)利要求2所述的一種局部文檔圖像的比對(duì)方法，其特征在于，步驟（2)中，計(jì)算每個(gè)區(qū)塊的二值分布特征的具體方式包括W下步驟： a) 獲取每個(gè)區(qū)塊的單像素邊界圖像； b) 計(jì)算所述單像素邊界圖像上每個(gè)像素點(diǎn)的鄰域編碼； C)根據(jù)每個(gè)像素點(diǎn)的鄰域編碼，構(gòu)建區(qū)塊的鄰域編碼的統(tǒng)計(jì)直方圖，得到區(qū)塊的二值分布特征。
4. 如權(quán)利要求3所述的一種局部文檔圖像的比對(duì)方法，其特征在于，步驟b)中，計(jì)算單像素邊界圖像上每個(gè)像素點(diǎn)的鄰域編碼的具體步驟包括： i) 獲取單像素邊界圖像上每個(gè)像素點(diǎn)的設(shè)定個(gè)數(shù)的鄰域； ii) 根據(jù)設(shè)定的順序?qū)λ鲟徲虬凑帐M(jìn)制數(shù)進(jìn)行排列，該十進(jìn)制數(shù)為每個(gè)像素點(diǎn)的鄰域編碼。
5. 如權(quán)利要求4所述的一種局部文檔圖像的比對(duì)方法，其特征在于，步驟i )中，獲取每個(gè)像素點(diǎn)的設(shè)定個(gè)數(shù)的鄰域時(shí)，根據(jù)每個(gè)鄰域?qū)?yīng)的像素值對(duì)鄰域進(jìn)行標(biāo)記，標(biāo)記的具體方式為；判斷每個(gè)鄰域?qū)?yīng)的像素值是否為0,若是則將該鄰域標(biāo)記為二進(jìn)制數(shù)1，若否則將該鄰域標(biāo)記為二進(jìn)制數(shù)0。
6. 如權(quán)利要求1至5任一所述的一種局部文檔圖像比對(duì)方法，其特征在于，步驟（1) 中，m和n的取值范圍是；l《m《4，l《n《4。
7. 如權(quán)利要求1至5任一所述的一種局部文檔圖像的比對(duì)方法，其特征在于，步驟（3) 中，將每個(gè)區(qū)塊的二值分布特征進(jìn)行組合時(shí)，待比對(duì)文檔圖像按照相同的組合順序進(jìn)行組 A 口〇
8. 如權(quán)利要求7所述的一種局部文檔圖像的比對(duì)方法，其特征在于，步驟（3)中，將每個(gè)區(qū)塊的二值分布特征進(jìn)行組合的具體方式包括：對(duì)于每個(gè)字符，將每個(gè)區(qū)塊的二值分布特征按照從左到右、從上到下的順序進(jìn)行組合；對(duì)于每行文字，將該行的每個(gè)字符的二值分布特征按照從左到右的順序進(jìn)行組合。
9. 如權(quán)利要求1至5任一所述的一種局部文檔圖像的比對(duì)方法，其特征在于，步驟（4) 中，所述的距離是指歐氏距離或直方圖距離。
10. -種局部文檔圖像的比對(duì)系統(tǒng)，包括：區(qū)塊劃分模塊，用于將待比對(duì)文檔圖像上的每個(gè)字符劃分為mXn個(gè)區(qū)塊，其中，m和n 均為正整數(shù)；二值分布特征計(jì)算模塊，用于計(jì)算每個(gè)區(qū)塊的二值分布特征；所述的二值分布特征是指二值圖像中黑像素的分布特征；組合分布獲取模塊，用于將每個(gè)區(qū)塊的二值分布特征進(jìn)行組合，得到每個(gè)字符的組合分布，并將每個(gè)字符的組合分布進(jìn)行組合，得到文檔圖像的組合分布；相似度判斷模塊，計(jì)算待比對(duì)文檔圖像的組合分布之間的距離，根據(jù)該距離判斷待比對(duì)文檔圖像之間的相似度。
11. 如權(quán)利要求10所述的一種局部文檔圖像的比對(duì)系統(tǒng)，其特征在于，所述的區(qū)塊劃分模塊包括：二值化單元，用于將文檔圖像進(jìn)行二值化處理，得到二值化圖像；成行單元，用于判斷該二值化圖像中是否只有單行文本，若是則進(jìn)入字符拆分單元，若否則對(duì)該二值化圖像進(jìn)行成行處理；字符拆分單元，用于將該二值化圖像中的每行文本都按字符進(jìn)行拆分；區(qū)塊劃分單元，用于將拆分得到的每個(gè)字符都劃分為mXn個(gè)區(qū)塊。
12. 如權(quán)利要求10或11所述的一種局部文檔圖像的比對(duì)系統(tǒng)，其特征在于，所述的二值分布特征計(jì)算模塊包括：邊界圖像獲取單元，用于獲取每個(gè)區(qū)塊的單像素邊界圖像；鄰域編碼計(jì)算單元，用于計(jì)算單像素邊界圖像上每個(gè)像素點(diǎn)的鄰域編碼；直方圖構(gòu)建單元，用于根據(jù)每個(gè)像素點(diǎn)的鄰域編碼，構(gòu)建每個(gè)所述區(qū)塊的鄰域編碼的統(tǒng)計(jì)直方圖，得到區(qū)塊的二值分布特征。
【專利摘要】本發(fā)明涉及一種局部文檔圖像比對(duì)方法及系統(tǒng)，現(xiàn)有的文檔圖像比對(duì)方法或者對(duì)識(shí)別結(jié)果的依賴性太強(qiáng)，或者效果不太理想，且速度都較慢。本發(fā)明所述的方法及系統(tǒng)首先將待比對(duì)文檔圖像上的每個(gè)字符劃分為設(shè)定個(gè)數(shù)的區(qū)塊；然后計(jì)算每個(gè)區(qū)塊的二值分布特征；再將每個(gè)區(qū)塊的二值分布特征進(jìn)行組合，得到每個(gè)字符的組合分布，并將每個(gè)字符的組合分布進(jìn)行組合，得到文檔圖像的組合分布；最后計(jì)算待比對(duì)文檔圖像的組合分布之間的距離，根據(jù)該距離判斷文檔圖像之間的相似度。采用本發(fā)明所述的方法既可以較快速地對(duì)文檔圖像進(jìn)行比對(duì)，且不依賴OCR識(shí)別結(jié)果，能達(dá)到較好的比對(duì)效果。
【IPC分類】G06K9-00
【公開號(hào)】CN104636708
【申請(qǐng)?zhí)枴緾N201310556584
【發(fā)明人】史培培, 胡希馳
【申請(qǐng)人】方正國(guó)際軟件(北京)有限公司, 方正國(guó)際軟件有限公司
【公開日】2015年5月20日
【申請(qǐng)日】2013年11月11日

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第3頁(yè)1 2 3

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

圖像比對(duì)智能分析系統(tǒng)相關(guān)技術(shù)

全局比對(duì)和局部比對(duì)相關(guān)技術(shù)

圖像局部特征相關(guān)技術(shù)

ps替換局部圖像相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種局部文檔圖像的比對(duì)方法及系統(tǒng)的制作方法_3