一種掃描版文檔重排版的方法

文檔序號(hào)：6434923閱讀：715來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：一種掃描版文檔重排版的方法
技術(shù)領(lǐng)域：
本發(fā)明涉及電子閱讀技術(shù)領(lǐng)域，尤其涉及一種掃描版文檔重排版的方法。
背景技術(shù)：
在科學(xué)技術(shù)日新月異的今天，尤其是伴隨著互聯(lián)網(wǎng)技術(shù)的高速發(fā)展，人們的閱讀習(xí)慣不再只局限于傳統(tǒng)的紙質(zhì)出版物閱讀，電子閱讀已經(jīng)非常普及并且比重正在逐漸加大。由于電子閱讀終端(電子書、手機(jī)等)的便攜性，人們可以在生活中的碎片時(shí)間里進(jìn)行電子閱讀，比如乘坐公交車、地鐵時(shí)，甚至在排隊(duì)買票的幾分鐘時(shí)間里也可以進(jìn)行電子閱讀。電子閱讀素材的來源多種多樣，有些來自電子出版物，有些來自紙質(zhì)出版物的掃描版本。但是由于電子閱讀終端的便攜性，必然造成閱讀屏幕的尺寸受限。在當(dāng)前各種電子閱讀終端的閱讀體驗(yàn)中，對(duì)于掃描版文檔的閱讀非常不方便，如果將書頁大小尺寸的掃描圖片全部顯示在小尺寸屏幕中會(huì)覺得字太?。蝗绻捎脤呙鑸D片局部放大的方式閱讀，需要頻繁地選擇放大區(qū)域，會(huì)影響用戶的閱讀體驗(yàn)。

發(fā)明內(nèi)容
本發(fā)明的目的在于提出一種掃描版文檔重排版的方法，能夠?qū)﹄娮娱喿x中掃描版文檔進(jìn)行自動(dòng)分欄，將掃描版文檔根據(jù)自動(dòng)劃分的區(qū)域逐屏顯示，減少選擇放大區(qū)域的頻率。為達(dá)此目的，本發(fā)明采用以下技術(shù)方案
一種掃描版文檔重排版的方法，包括以下步驟
A、將掃描版文檔生成圖像，轉(zhuǎn)化為二值 B、對(duì)二值圖進(jìn)行游程平滑，并對(duì)游程平滑處理后的二值圖求取連通域，把同值的且連通的一塊區(qū)域的外接矩形的位置記錄下來，作為初始?jí)K位置信息；
C、將初始?jí)K進(jìn)行水平合并，得出文字的行信息和圖片位置，再將水平合并后的塊進(jìn)行垂直合并，得出文字段落位置；
D、根據(jù)獲得的圖片位置和文字段落位置，確定文檔段落區(qū)域；
E、計(jì)算每個(gè)文檔段落區(qū)域的寬高之比r，計(jì)算顯示屏幕的寬高之比R；
F、如果一個(gè)文檔段落區(qū)域的寬高之比滿足以下公式
r e [R-dl，R+d2]，其中dl和d2為預(yù)設(shè)的正的常數(shù)，則不處理所述文檔段落區(qū)域，如果不滿足，則將所述文檔段落區(qū)域拆分成不少于2個(gè)的滿足所述公式的文檔段落區(qū)域；
G、確定所有文檔段落區(qū)域的閱讀順序，并按照順序?qū)@得的文檔段落區(qū)域放大或縮小至需要顯示的尺寸，提供逐屏閱讀。步驟A中，采用全局自適應(yīng)閾值方式將生成的圖像轉(zhuǎn)化為二值圖。步驟F中，將所述文檔段落區(qū)域拆分成不少于2個(gè)的滿足所述公式的文檔段落區(qū)域時(shí)，拆分的分割線在空白區(qū)域?；蛘卟襟EF中，將所述文檔段落區(qū)域拆分成不少于2個(gè)的滿足所述公式的文檔段落區(qū)域時(shí)，采用將所述文檔段落區(qū)域進(jìn)行等分的方式。步驟G中確定所有文檔段落區(qū)域的閱讀順序進(jìn)一步包括以下步驟
Gl、設(shè)步驟D中獲得的文檔段落區(qū)域的數(shù)量為n，整個(gè)文檔用集合表示為S= {BI，B2，…，Bn}，其中Bn表示第η個(gè)文檔段落區(qū)域，設(shè)(Xi，Yi)表示文檔段落區(qū)域Bi的左上頂點(diǎn)的坐標(biāo)，其中 1=1 2, ···, η ；
G2、對(duì)整個(gè)文檔S中元素進(jìn)行調(diào)整，使調(diào)整后的S= {BI，Β2,…，Bn}滿足以下條件對(duì)于Bi和Bj，并且i〈j，若Yi e [Yj-aI, Yj+a2]，其中al和a2為正的常數(shù)，則滿足Xi < Xj，否則需滿足Yi SYj ；
G3、若步驟F中文檔段落區(qū)域Bi被拆分為S’ ={P1，P2，…，Pk}，按照步驟G2的要求去調(diào)整S’中元素的位置，得到調(diào)整后的S’={P1，P2，…，Pk}，其中Pk表示調(diào)整后的第k個(gè)文檔段落區(qū)域，k為正整數(shù)；
G4、對(duì)于每個(gè)被拆分的文檔段落區(qū)域Bi，將采用步驟G3得到的調(diào)整后的S’中的元素全部加入到S中Bi所在的位置，并將Bi從S中刪除，得到新的集合S” = {Ql，Q2，…，Qm}，其中Qm表示調(diào)整后的第m個(gè)文檔段落區(qū)域，m為正整數(shù)；
G5、采用Ql，Q2，…，Qm的順序確定閱讀文檔段落區(qū)域的順序。采用了本發(fā)明的技術(shù)方案，能夠?qū)﹄娮娱喿x中掃描版文檔進(jìn)行自動(dòng)分欄，將掃描版文檔根據(jù)自動(dòng)劃分的區(qū)域逐屏顯示，減少選擇放大區(qū)域的頻率，從而提高用戶電子閱讀的感受度。

圖I是本發(fā)明具體實(shí)施方式
中掃描版文檔重排版的流程圖。
具體實(shí)施例方式下面結(jié)合附圖并通過具體實(shí)施方式
來進(jìn)一步說明本發(fā)明的技術(shù)方案。圖I是本發(fā)明具體實(shí)施方式
中掃描版文檔重排版的流程圖。如圖I所示，該掃描版文檔重排版的流程包括以下步驟
步驟101、將掃描版文檔生成圖像，轉(zhuǎn)化為二值圖?？梢杂卸喾N方法將原始圖像轉(zhuǎn)換為二值圖，如全局自適應(yīng)閾值方法、局部閾值方法等等。為了不失一般性，采用全局自適應(yīng)閾值方法轉(zhuǎn)換二值圖。步驟102、對(duì)二值圖進(jìn)行游程平滑，并對(duì)游程平滑處理后的二值圖求取連通域，把同值的且連通的一塊區(qū)域的外接矩形的位置記錄下來，作為初始?jí)K位置信息.
步驟103、將初始?jí)K進(jìn)行水平合并，得出文字的行信息和圖片位置，再將水平合并后的塊進(jìn)行垂直合并，得出文字段落位置。步驟104、根據(jù)獲得的圖片位置和文字段落位置，確定文檔段落區(qū)域。步驟105、計(jì)算每個(gè)文檔段落區(qū)域的寬高之比r=w/h，計(jì)算顯示屏幕的寬高之比R=ff/H0步驟106、如果一個(gè)文檔段落區(qū)域的寬高之比滿足以下公式
r e [R-dl，R+d2]，其中dl和d2為預(yù)設(shè)的正的常數(shù)，dl和d2的選取原則是顯示最后文檔段落區(qū)域時(shí)能盡可能地利用顯示屏幕，則不處理該文檔段落區(qū)域，如果不滿足，則將該文檔段落區(qū)域拆分成多個(gè)滿足上述公式的文檔段落區(qū)域，并盡可能地保證拆分的分割線在空白區(qū)域，如果沒有空白區(qū)域，則采用將該文檔段落區(qū)域進(jìn)行等分的方式分割。步驟107、確定所有文檔段落區(qū)域的閱讀順序，具體包括以下步驟
I、設(shè)步驟104中獲得的文檔段落區(qū)域的數(shù)量為n，整個(gè)文檔用集合表示為S= {BI，B2，…，Bn}，其中Bn表示第η個(gè)文檔段落區(qū)域，設(shè)(Xi，Yi)表示文檔段落區(qū)域Bi的左上頂點(diǎn)的坐標(biāo)，其中i=l，2, ···, rio2、對(duì)整個(gè)文檔S中元素進(jìn)行調(diào)整，使調(diào)整后的S= {BI，B2,…，Bn}滿足以下條件對(duì)于Bi和Bj，并且i〈j，若Yi e [Yj-aI, Yj+a2]，其中al和a2為正的常數(shù)，則滿足
Xi ( Xj，否則需滿足Yi ( Yj。3、若步驟106中文檔段落區(qū)域Bi被拆分為S’ ={P1，P2，…，Pk}，按照步驟2的要求去調(diào)整S’中元素的位置，得到調(diào)整后的S’ ={P1，P2，…，Pk}，其中Pk表示調(diào)整后的第k個(gè)文檔段落區(qū)域，k為正整數(shù)。4、對(duì)于每個(gè)被拆分的文檔段落區(qū)域Bi，將采用步驟3得到的調(diào)整后的S’中的元素全部加入到S中Bi所在的位置，并將Bi從S中刪除，得到新的集合S” = {Q1，Q2，…，Qm}，其中Qm表示調(diào)整后的第m個(gè)文檔段落區(qū)域，m為正整數(shù)。5、采用Q1，Q2，…，Qm的順序作為閱讀文檔段落區(qū)域的順序。步驟108、按照順序?qū)@得的文檔段落區(qū)域放大或縮小至需要顯示的尺寸，提供逐屏閱讀。以上所述，僅為本發(fā)明較佳的具體實(shí)施方式
，但本發(fā)明的保護(hù)范圍并不局限于此，任何熟悉該技術(shù)的人在本發(fā)明所揭露的技術(shù)范圍內(nèi)，可輕易想到的變化或替換，都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此，本發(fā)明的保護(hù)范圍應(yīng)該以權(quán)利要求的保護(hù)范圍為準(zhǔn)。
權(quán)利要求
1.一種掃描版文檔重排版的方法，其特征在于，包括以下步驟 A、將掃描版文檔生成圖像，轉(zhuǎn)化為二值圖； B、對(duì)二值圖進(jìn)行游程平滑，并對(duì)游程平滑處理后的二值圖求取連通域，把同值的且連通的一塊區(qū)域的外接矩形的位置記錄下來，作為初始?jí)K位置信息； C、將初始?jí)K進(jìn)行水平合并，得出文字的行信息和圖片位置，再將水平合并后的塊進(jìn)行垂直合并，得出文字段落位置； D、根據(jù)獲得的圖片位置和文字段落位置，確定文檔段落區(qū)域； E、計(jì)算每個(gè)文檔段落區(qū)域的寬高之比r，計(jì)算顯示屏幕的寬高之比R； F、如果一個(gè)文檔段落區(qū)域的寬高之比滿足以下公式 r e [R-dl，R+d2]，其中dl和d2為預(yù)設(shè)的正的常數(shù)，則不處理所述文檔段落區(qū)域，如果不滿足，則將所述文檔段落區(qū)域拆分成不少于2個(gè)的滿足所述公式的文檔段落區(qū)域； G、確定所有文檔段落區(qū)域的閱讀順序，并按照順序?qū)@得的文檔段落區(qū)域放大或縮小至需要顯示的尺寸，提供逐屏閱讀。
2.根據(jù)權(quán)利要求I所述的一種掃描版文檔重排版的方法，其特征在于，步驟A中，采用全局自適應(yīng)閾值方式將生成的圖像轉(zhuǎn)化為二值圖。
3.根據(jù)權(quán)利要求I所述的一種掃描版文檔重排版的方法，其特征在于，步驟F中，將所述文檔段落區(qū)域拆分成不少于2個(gè)的滿足所述公式的文檔段落區(qū)域時(shí)，拆分的分割線在空白區(qū)域。
4.根據(jù)權(quán)利要求I所述的一種掃描版文檔重排版的方法，其特征在于，步驟F中，將所述文檔段落區(qū)域拆分成不少于2個(gè)的滿足所述公式的文檔段落區(qū)域時(shí)，采用將所述文檔段落區(qū)域進(jìn)行等分的方式。
5.根據(jù)權(quán)利要求I所述的一種掃描版文檔重排版的方法，其特征在于，步驟G中確定所有文檔段落區(qū)域的閱讀順序進(jìn)一步包括以下步驟 Gl、設(shè)步驟D中獲得的文檔段落區(qū)域的數(shù)量為n，整個(gè)文檔用集合表示為S= {BI，B2，…，Bn}，其中Bn表示第η個(gè)文檔段落區(qū)域，設(shè)(Xi，Yi)表示文檔段落區(qū)域Bi的左上頂點(diǎn)的坐標(biāo)，其中 1=1 2, ···, η ； G2、對(duì)整個(gè)文檔S中元素進(jìn)行調(diào)整，使調(diào)整后的S= {BI，Β2,…，Bn}滿足以下條件對(duì)于Bi和Bj，并且i〈j，若Yi e [Yj-aI, Yj+a2]，其中al和a2為正的常數(shù)，則滿足Xi < Xj，否則需滿足Yi ^Yj ； G3、若步驟F中文檔段落區(qū)域Bi被拆分為S’={P1，P2，…，Pk}，按照步驟G2的要求去調(diào)整S’中元素的位置，得到調(diào)整后的S’={P1，P2，…，Pk}，其中Pk表示調(diào)整后的第k個(gè)文檔段落區(qū)域，k為正整數(shù)； G4、對(duì)于每個(gè)被拆分的文檔段落區(qū)域Bi，將采用步驟G3得到的調(diào)整后的S’中的元素全部加入到S中Bi所在的位置，并將Bi從S中刪除，得到新的集合S” = {Ql，Q2，…，Qm}，其中Qm表示調(diào)整后的第m個(gè)文檔段落區(qū)域，m為正整數(shù)； G5、采用Ql，Q2，…，Qm的順序確定閱讀文檔段落區(qū)域的順序。
全文摘要
本發(fā)明公開了一種掃描版文檔重排版的方法，首先將掃描版文檔生成圖像，轉(zhuǎn)化為二值圖，對(duì)二值圖進(jìn)行游程平滑、求取連通域、水平合并和垂直合并，得出文字段落位置，根據(jù)獲得的圖片位置和文字段落位置，確定文檔段落區(qū)域，計(jì)算每個(gè)文檔段落區(qū)域的寬高之比和顯示屏幕的寬高之比，判斷文檔段落區(qū)域的寬高之比是否滿足預(yù)設(shè)條件，如果滿足則不處理，如果不滿足，則拆分成多個(gè)的滿足預(yù)設(shè)條件的文檔段落區(qū)域；確定所有文檔段落區(qū)域的閱讀順序，并按照順序提供逐屏閱讀。采用了本發(fā)明的技術(shù)方案，能夠?qū)﹄娮娱喿x中掃描版文檔進(jìn)行自動(dòng)分欄，將掃描版文檔根據(jù)自動(dòng)劃分的區(qū)域逐屏顯示，減少選擇放大區(qū)域的頻率。
文檔編號(hào)G06T11/60GK102890827SQ20111030230
公開日2013年1月23日申請(qǐng)日期2011年10月9日優(yōu)先權(quán)日2011年10月9日
發(fā)明者王毅申請(qǐng)人:北京多看科技有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王毅
技術(shù)所有人：北京多看科技有限公司
我是此專利的發(fā)明人

上一篇：Usb通信裝置和降低其功耗量的方法
上一篇：用戶界面的實(shí)現(xiàn)方法及系統(tǒng)、電子設(shè)備的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

文件如何掃描相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種掃描版文檔重排版的方法