本發(fā)明涉及信息處理設(shè)備、信息處理設(shè)備的控制方法和存儲(chǔ)介質(zhì)。
背景技術(shù):
近年來(lái),具有照相機(jī)的移動(dòng)終端已經(jīng)普及。在現(xiàn)有技術(shù)中,用戶已經(jīng)使用掃描器等來(lái)對(duì)紙質(zhì)文檔進(jìn)行電子拍攝,而如今能夠通過使用移動(dòng)終端的照相機(jī)等來(lái)簡(jiǎn)單地對(duì)紙質(zhì)文檔進(jìn)行電子拍攝。日本特開2011-008802公開了用于對(duì)通過使用照相機(jī)所拍攝的圖像進(jìn)行ocr的技術(shù)。
技術(shù)實(shí)現(xiàn)要素:
為了使用ocr所識(shí)別出的文本信息,ocr精度是非常重要的。然而,存在如下可能性:與接近對(duì)象時(shí)所拍攝的商業(yè)名片或駕駛執(zhí)照的ocr精度相比,諸如a4或a3等的相對(duì)大尺寸的紙質(zhì)文檔的ocr精度可能降低。更具體地,除了相對(duì)于對(duì)象的距離遠(yuǎn)所引起的所要識(shí)別的文本中的各單個(gè)字符的分辨率降低之外,在對(duì)圖像細(xì)節(jié)進(jìn)行聚焦時(shí)還可能發(fā)生模糊。因此,即使在諸如a4或a3等的相對(duì)大尺寸的紙質(zhì)文檔中,也必須在接近對(duì)象的文本區(qū)域時(shí)拍攝圖像,以提高ocr精度。利用提高了的ocr精度,可以通過在拍攝了紙質(zhì)文檔的整體圖像之后,在接近要使用的文本區(qū)域時(shí)拍攝圖像,來(lái)獲取紙質(zhì)文檔的整體圖像和具有良好精度的文本信息。
本發(fā)明提供在接近紙質(zhì)文檔時(shí)拍攝圖像的情況下能夠快速地找到所需的文本區(qū)域的信息處理設(shè)備。
本發(fā)明的一種信息處理設(shè)備,其特征在于,包括:提取單元,用于提取整體圖像的特征量和局部圖像的特征量;決定單元,用于基于所述整體圖像的特征量和所述局部圖像的特征量來(lái)決定所述局部圖像在所述整體圖像中的位置;接收單元,用于接收對(duì)所述局部圖像中所包括的對(duì)象的選擇;以及轉(zhuǎn)換單元,用于基于所決定的所述局部圖像在所述整體圖像中的位置,來(lái)將所述局部圖像中的所選擇的對(duì)象的坐標(biāo)轉(zhuǎn)換成所述整體圖像中的坐標(biāo)。
本發(fā)明的一種信息處理設(shè)備的控制方法,所述控制方法的特征在于包括以下步驟:提取步驟,用于提取整體圖像的特征量和局部圖像的特征量;決定步驟,用于基于所述整體圖像的特征量和所述局部圖像的特征量來(lái)決定所述局部圖像在所述整體圖像中的位置;接收步驟,用于接收對(duì)所述局部圖像中所包括的對(duì)象的選擇;以及轉(zhuǎn)換步驟,用于基于所決定的所述局部圖像在所述整體圖像中的位置,來(lái)將所述局部圖像中的所選擇的對(duì)象的坐標(biāo)轉(zhuǎn)換成所述整體圖像中的坐標(biāo)。
本發(fā)明的一種非瞬態(tài)存儲(chǔ)介質(zhì),其存儲(chǔ)使計(jì)算機(jī)執(zhí)行信息處理設(shè)備的控制方法的計(jì)算機(jī)程序,其特征在于,所述控制方法包括:提取步驟,用于提取整體圖像的特征量和局部圖像的特征量;決定步驟,用于基于所述整體圖像的特征量和所述局部圖像的特征量來(lái)決定所述局部圖像在所述整體圖像中的位置;接收步驟,用于接收對(duì)所述局部圖像中所包括的對(duì)象的選擇;以及轉(zhuǎn)換步驟,用于基于所決定的所述局部圖像在所述整體圖像中的位置,來(lái)將所述局部圖像中的所選擇的對(duì)象的坐標(biāo)轉(zhuǎn)換成所述整體圖像中的坐標(biāo)。
根據(jù)本發(fā)明,可以提供在通過接近紙質(zhì)文檔來(lái)拍攝圖像的情況下能夠找到所需的文本區(qū)域的信息處理設(shè)備。
通過以下(參考附圖)對(duì)典型實(shí)施例的說明,本發(fā)明的其它特征將變得明顯。
附圖說明
圖1是示出移動(dòng)終端的外觀的示例的圖。
圖2是示出移動(dòng)終端的硬件結(jié)構(gòu)的示例的圖。
圖3是示出移動(dòng)終端的軟件結(jié)構(gòu)的示例的圖。
圖4是示出移動(dòng)應(yīng)用程序的ui的示例的圖。
圖5是示出整體圖像和局部圖像的示例的圖。
圖6a和6b是示出圖像分類處理的示例的圖。
圖7是示出坐標(biāo)處理的示例的圖。
圖8是示出坐標(biāo)管理表的數(shù)據(jù)結(jié)構(gòu)和所保持的坐標(biāo)信息的圖。
圖9是示出預(yù)設(shè)處理流程的圖。
圖10是示出基本流程的圖。
圖11是示出圖10的步驟s1005中的處理的詳情的圖。
圖12是示出移動(dòng)應(yīng)用程序的ui的示例的圖。
具體實(shí)施方式
以下將參考附圖等來(lái)描述用于執(zhí)行本發(fā)明的最佳實(shí)施例。
外觀
將描述移動(dòng)終端作為根據(jù)本實(shí)施例的信息處理設(shè)備的示例。移動(dòng)終端是移動(dòng)便攜式終端的示例,并且是使用具有無(wú)線通信功能的裝置而能夠在任何位置使用的終端。圖1是示出移動(dòng)終端的外觀的示例的圖。移動(dòng)終端100被配置成包括各個(gè)類型的單元(移動(dòng)終端正面單元101~照相機(jī)104)。移動(dòng)終端100的正面?zhèn)仁且苿?dòng)終端正面單元101。觸摸面板102是諸如顯示器等的顯示單元的示例,并且具有輸出(顯示)和輸入兩個(gè)功能。另外,移動(dòng)終端100的背面?zhèn)仁且苿?dòng)終端背面單元103。移動(dòng)終端背面單元103包括用于拍攝圖像的照相機(jī)104。在本實(shí)施例中,移動(dòng)終端100的用戶可以在以下要描述的移動(dòng)應(yīng)用程序中通過拍攝被攝體105的圖像來(lái)開始處理。在本實(shí)施例中,被攝體105是作為a4尺寸的紙質(zhì)文檔的訂貨單。被攝體105不僅僅局限于紙質(zhì)文檔,并且還可以包括例如商業(yè)名片、照片和白板等。此外,以下要描述的移動(dòng)應(yīng)用程序使得能夠拍攝被攝體105的圖像并且將該圖像輸出(顯示)至觸摸面板102。
硬件結(jié)構(gòu)
圖2是示出移動(dòng)終端100的硬件結(jié)構(gòu)的示例的圖。移動(dòng)終端100被配置成包括各個(gè)類型的單元(cpu201~總線207)。中央處理單元(cpu)201是用于執(zhí)行各個(gè)類型的程序并且實(shí)現(xiàn)各種功能的單元。隨機(jī)存取存儲(chǔ)器(ram)202是用于存儲(chǔ)各個(gè)類型的信息的單元。另外,ram202是還被用作cpu201的臨時(shí)工作存儲(chǔ)區(qū)域的單元。只讀存儲(chǔ)器(rom)203是用于存儲(chǔ)各個(gè)類型的程序等的單元。例如,cpu201將rom203中所存儲(chǔ)的程序加載在ram202上并且執(zhí)行該程序。
另外,cpu201執(zhí)行基于諸如閃速存儲(chǔ)器、硬盤驅(qū)動(dòng)器(hdd)或固態(tài)硬件(ssd)等的外部存儲(chǔ)裝置中所存儲(chǔ)的程序的處理。因此,實(shí)現(xiàn)以下要描述的如圖3所示的構(gòu)成移動(dòng)終端100的軟件結(jié)構(gòu)和以下要描述的序列的各步驟中的處理。還可以使用專用硬件來(lái)實(shí)現(xiàn)與以下要描述的序列有關(guān)的處理的全部或一部分以及移動(dòng)終端100的功能。輸入/輸出接口204相對(duì)于觸摸面板102發(fā)送或接收數(shù)據(jù)。網(wǎng)絡(luò)接口卡(nic)205是用于將移動(dòng)終端100連接至網(wǎng)絡(luò)(未示出)的單元。照相機(jī)單元206連接至照相機(jī)104,并且拍攝移動(dòng)終端100中的被攝體105的圖像。上述的單元各自被配置成能夠經(jīng)由總線207來(lái)發(fā)送和接收數(shù)據(jù)。
軟件結(jié)構(gòu)(移動(dòng)終端)
將描述移動(dòng)終端100中的軟件的結(jié)構(gòu)。圖3是示出移動(dòng)終端100的軟件結(jié)構(gòu)的示例的圖。用于實(shí)現(xiàn)圖3所示的各軟件(應(yīng)用程序)中的功能(模塊單元)的程序存儲(chǔ)在各裝置的rom203等中。移動(dòng)終端100的操作系統(tǒng)(os)(未示出)具有數(shù)據(jù)管理單元301。數(shù)據(jù)管理單元301管理圖像或應(yīng)用程序數(shù)據(jù)。os提供用來(lái)使用數(shù)據(jù)管理單元301的控制用應(yīng)用程序編程接口(api)。各應(yīng)用程序通過使用控制用api來(lái)獲取或保存數(shù)據(jù)管理單元301所管理的圖像或應(yīng)用程序數(shù)據(jù)。
移動(dòng)應(yīng)用程序302是可以通過使用移動(dòng)終端100的os的安裝功能(例如,applestore和googlepay等)進(jìn)行下載和安裝來(lái)執(zhí)行的應(yīng)用程序。移動(dòng)應(yīng)用程序302對(duì)經(jīng)由照相機(jī)單元206所拍攝的被攝體105的圖像進(jìn)行各個(gè)類型的數(shù)據(jù)處理。
主控制單元303控制應(yīng)用程序(移動(dòng)應(yīng)用程序)302,并且進(jìn)行針對(duì)各模塊單元(主控制單元303~圖像特征量提取單元312)的指示和管理。信息顯示單元304根據(jù)來(lái)自主控制單元303的指示,向用戶提供移動(dòng)應(yīng)用程序302的用戶界面(ui)。操作信息獲取單元305獲取與信息顯示單元304所顯示的移動(dòng)應(yīng)用程序302的ui的用戶操作有關(guān)的信息,并且向主控制單元303通知所獲取到的信息。例如,如果用戶利用手來(lái)觸摸以下要描述的圖4所示的顯示操作區(qū)域401,則操作信息獲取單元305檢測(cè)與在畫面上的觸摸位置有關(guān)的信息,并且將所檢測(cè)到的與位置有關(guān)的信息發(fā)送至主控制單元303。
圖像分析單元306對(duì)經(jīng)由照相機(jī)單元206所獲取到的照相機(jī)輸入圖像進(jìn)行分析,并且生成布局信息。該布局信息包括從圖像提取出的矩形區(qū)域和該矩形區(qū)域的類型(字符、圖形、線和表等)。另外,圖像分析單元306針對(duì)照相機(jī)輸入圖像進(jìn)行紙張檢測(cè)處理和失真校正處理。ocr單元307針對(duì)圖像分析單元306所提取出的矩形區(qū)域進(jìn)行光學(xué)字符識(shí)別(ocr)處理。圖像分類單元308進(jìn)行學(xué)習(xí)處理,以創(chuàng)建分類處理中所使用的分類器。此外,圖像分類單元308使用該分類器來(lái)進(jìn)行分類處理,并且對(duì)照相機(jī)輸入圖像進(jìn)行分類。
存儲(chǔ)單元309保存用戶經(jīng)由操作信息獲取單元305(即,經(jīng)由移動(dòng)應(yīng)用程序302的ui)所輸入的設(shè)置值(使設(shè)置值存留)。db單元310具有數(shù)據(jù)庫(kù)功能,并且管理用戶所選擇的矩形區(qū)域的坐標(biāo)信息、圖像的特征量和分類器等。另外,db單元310的數(shù)據(jù)保存在存儲(chǔ)單元309中。坐標(biāo)處理單元311進(jìn)行將坐標(biāo)信息登記在數(shù)據(jù)庫(kù)時(shí)的坐標(biāo)轉(zhuǎn)換處理或者圖像的位置指定處理。圖像特征量提取單元312針對(duì)照相機(jī)輸入圖像進(jìn)行用以提取圖像的特征量的處理。
圖4是示出用于提供移動(dòng)應(yīng)用程序302的ui(移動(dòng)終端用的ui)的畫面的示例(移動(dòng)終端畫面400)的圖。移動(dòng)終端畫面400是在移動(dòng)終端100的觸摸面板102上所顯示的ui。將經(jīng)由照相機(jī)104所拍攝的圖像顯示在移動(dòng)終端畫面400上的顯示操作區(qū)域401中,并且經(jīng)由所顯示的ui來(lái)接收針對(duì)圖像等的用戶的操作(用戶操作)。移動(dòng)應(yīng)用程序302的ui的形式(位置、尺寸、范圍、配置和顯示內(nèi)容等)不限于圖4所示的本實(shí)施例,并且可以采用能夠?qū)崿F(xiàn)移動(dòng)終端100的功能的結(jié)構(gòu)。
整體圖像和局部圖像
接著,將使用圖5來(lái)描述整體圖像和局部圖像。在本實(shí)施例中,經(jīng)由照相機(jī)104來(lái)獲取被攝體105的a4尺寸的整體訂貨單的圖像。通過進(jìn)行用以排除被攝體以外的區(qū)域的紙張檢測(cè)處理以及用以校正失真部分的失真校正處理來(lái)使圖像成形。在本實(shí)施例中,將所成形的圖像設(shè)置為整體圖像500,并且視為整體圖像的示例。另外,將接近被攝體105時(shí)照相機(jī)104所獲取到的被攝體105的部分(或者整體)的圖像設(shè)置為局部圖像501。在本實(shí)施例中,局部圖像501是局部圖像的示例。此外,位置502示出局部圖像在整體圖像中的區(qū)域(位置)。
圖像分類處理
接著,將使用圖6a和6b來(lái)描述圖像分類單元308所進(jìn)行的對(duì)照相機(jī)輸入圖像的分類。圖像分類單元308包括學(xué)習(xí)處理單元601和分類處理單元602。學(xué)習(xí)處理單元601使用要分類成的各文檔類型(各類型)中的圖像的整體圖像特征量數(shù)據(jù)608來(lái)執(zhí)行以下要描述的學(xué)習(xí)處理,并且創(chuàng)建分類器。圖像分類單元308使用所創(chuàng)建的分類器來(lái)進(jìn)行分類處理,并且決定照相機(jī)輸入圖像的分類。
通常,表示圖像的特征的特征量數(shù)據(jù)由多維數(shù)據(jù)來(lái)表示,并且被稱為特征向量。維數(shù)表示特征的類型是哪種類型。在學(xué)習(xí)處理單元601所進(jìn)行的學(xué)習(xí)處理中,圖像特征量提取單元312進(jìn)行對(duì)從各文檔類型的多個(gè)學(xué)習(xí)圖像(整體圖像)的特征提取以進(jìn)行分類,并且計(jì)算針對(duì)各學(xué)習(xí)圖像的100維的特征向量。此外,基于同一文檔的多個(gè)學(xué)習(xí)圖像的特征向量,從100維的特征向量中決定分類中的具有顯著特征的10維的特征向量。通過被稱為過濾器的軟件組件來(lái)進(jìn)行該維數(shù)減少處理。在各文檔中所計(jì)算出的特征向量(10維)和過濾器的組合的集合被稱為分類器607,并且與針對(duì)各文檔類型的整體圖像特征量數(shù)據(jù)608一起由db單元310進(jìn)行管理。
在分類處理單元602所進(jìn)行的學(xué)習(xí)處理中,圖像特征量提取單元312針對(duì)經(jīng)由照相機(jī)104所獲取到的局部圖像進(jìn)行特征提取,并且計(jì)算特征向量(100維)。接著,向所計(jì)算出的特征向量(100維)應(yīng)用分類器607的各分類的過濾器(主成分分析),由此計(jì)算出與各分類相對(duì)應(yīng)的特征向量(10維)。然后,將局部圖像的特征向量(10維)與分類器的各文檔的特征向量(10維)相比較,并且通過相似度判斷來(lái)決定分類。在相似度判斷中,如果相似度沒有超過閾值,則決定為分類失敗。
圖6a和6b的學(xué)習(xí)結(jié)果609示出通過學(xué)習(xí)處理單元601的學(xué)習(xí)處理而在db單元310中所存儲(chǔ)的數(shù)據(jù)的示例。db單元310包括從針對(duì)各文檔類型的整體圖像所提取出的整體圖像特征量數(shù)據(jù)608和能夠分類成分類1(604)、分類2(605)和分類3(606)的分類器607。另外,分類結(jié)果610表示通過分類處理單元602的分類處理、基于分類器607和局部圖像來(lái)決定分類的示例。在本實(shí)施例中,分類結(jié)果610示出輸入局部圖像,并且將分類結(jié)果判斷為分類1(604)、分類2(605)和分類3(606)中的分類1(604)。圖像分類單元308所進(jìn)行的圖像分類不限于本實(shí)施例,并且可以采用能夠?qū)崿F(xiàn)該功能的適當(dāng)技術(shù)。
坐標(biāo)處理
接著,將使用圖7來(lái)描述根據(jù)本實(shí)施例的坐標(biāo)系統(tǒng)、坐標(biāo)處理單元311所進(jìn)行的坐標(biāo)變換處理和db單元310所管理的矩形區(qū)域坐標(biāo)。首先,根據(jù)本實(shí)施例的坐標(biāo)系統(tǒng)包括被攝體坐標(biāo)701、顯示器坐標(biāo)702、局部圖像坐標(biāo)703、整體圖像坐標(biāo)704和db登記坐標(biāo)。被攝體坐標(biāo)701是表示a4訂貨單中的位置的坐標(biāo)的集合,顯示器坐標(biāo)702是在顯示器中的位置的坐標(biāo)的集合,局部圖像坐標(biāo)703是局部圖像中的位置的坐標(biāo)的集合,并且整體圖像坐標(biāo)704是整體圖像中的位置的坐標(biāo)的集合。db登記坐標(biāo)是標(biāo)準(zhǔn)化(將整體圖像坐標(biāo)相對(duì)于整體的比率乘以10000)后的整體圖像坐標(biāo)的集合。進(jìn)行標(biāo)準(zhǔn)化的原因在于:即使在對(duì)原始圖像的長(zhǎng)度和寬度不存在依賴性并且具有不同的dpi的情況下(即使在附近進(jìn)行攝像或者在遠(yuǎn)距離處進(jìn)行攝像),也可以存在對(duì)應(yīng)關(guān)系。
這里,坐標(biāo)轉(zhuǎn)換處理是用以在這些坐標(biāo)系統(tǒng)之間進(jìn)行轉(zhuǎn)換的處理。例如,在矩形區(qū)域坐標(biāo)保存處理中(以下要描述的步驟s904),將用戶在顯示器上所選擇的矩形區(qū)域(顯示器坐標(biāo))705轉(zhuǎn)換成整體圖像坐標(biāo)706,并且進(jìn)一步轉(zhuǎn)換成db登記坐標(biāo)并保存在db單元310中。db單元310所管理的矩形區(qū)域坐標(biāo)具有被設(shè)置為minx的矩形區(qū)域的左上x坐標(biāo)、被設(shè)置為maxx的右下x坐標(biāo)、被設(shè)置為miny的左上y坐標(biāo)以及被設(shè)置為maxy的右下y坐標(biāo)。以整體圖像500的寬度是1500px并且整體圖像500的長(zhǎng)度是2000px的情況來(lái)提供描述。如果整體圖像坐標(biāo)706的左上坐標(biāo)707是(x,y)=(200,700)并且右上坐標(biāo)708是(400,750),則db登記坐標(biāo)是(1333,3500),(2666,3750)。
數(shù)據(jù)結(jié)構(gòu)(db)
接著,將描述db單元310的坐標(biāo)管理表。圖8是示出根據(jù)本實(shí)施例的坐標(biāo)管理表的數(shù)據(jù)結(jié)構(gòu)和所保持的坐標(biāo)信息的示例的圖。坐標(biāo)管理表801包括id欄、分類欄、類型欄、minx欄、maxx欄、miny欄和maxy欄。id欄是每當(dāng)記錄添加至坐標(biāo)管理表801時(shí)遞增1的值并且是表的主關(guān)鍵字。分類欄存儲(chǔ)分類結(jié)果(例如,圖6a和6b的分類結(jié)果610)。類型欄存儲(chǔ)用以識(shí)別數(shù)據(jù)是通過矩形區(qū)域坐標(biāo)保存處理(以下要描述的步驟s904)所保存的數(shù)據(jù)還是通過用戶的選擇由矩形區(qū)域坐標(biāo)保存處理所保存的數(shù)據(jù)的識(shí)別符。minx欄存儲(chǔ)所選區(qū)域的左上x坐標(biāo)。maxx欄存儲(chǔ)所選區(qū)域的右下x坐標(biāo)。miny欄存儲(chǔ)所選區(qū)域的左上y坐標(biāo)。maxy欄存儲(chǔ)所選區(qū)域的右下y坐標(biāo)。在附圖中,與作為用戶在矩形區(qū)域坐標(biāo)保存處理(以下要描述的步驟s904)中所選擇的區(qū)域的所選區(qū)域807、808和809相對(duì)應(yīng)的坐標(biāo)信息是坐標(biāo)信息802、坐標(biāo)信息803和坐標(biāo)信息804。與作為通過用戶的選擇而在矩形區(qū)域坐標(biāo)保存處理中所選擇的區(qū)域的所選區(qū)域810和811相對(duì)應(yīng)的坐標(biāo)信息是坐標(biāo)信息805和坐標(biāo)信息806。
預(yù)設(shè)置處理流程
接著,將使用圖9來(lái)描述移動(dòng)終端中的預(yù)設(shè)置處理流程。該流程從用戶使用移動(dòng)應(yīng)用程序302、經(jīng)由移動(dòng)終端100中的照相機(jī)104來(lái)獲取被攝體105的圖像的步驟作為觸發(fā)而開始。針對(duì)文檔類型的數(shù)量的一部分(在本實(shí)施例中,用于分類成分類1~分類3的三個(gè)文檔類型的一部分)重復(fù)以下步驟s901~s904的處理。
首先,移動(dòng)應(yīng)用程序302的圖像分析單元306對(duì)照相機(jī)輸入圖像執(zhí)行紙張檢測(cè)處理和失真校正處理,并且獲取整體圖像500。接著,在步驟s902中,圖像特征量提取單元312從整體圖像500提取整體圖像特征量數(shù)據(jù)608。然后,在步驟s903中,移動(dòng)應(yīng)用程序302的主控制單元303將整體圖像特征量數(shù)據(jù)608與文檔類型相關(guān)聯(lián)地保存在db單元310。然后,在步驟s904中,移動(dòng)應(yīng)用程序302的主控制單元303將在步驟s901中所獲取到的整體圖像500顯示在移動(dòng)終端100的顯示操作區(qū)域401中,并且允許用戶選擇矩形區(qū)域坐標(biāo)(例如,矩形區(qū)域705)。此外,主控制單元303使用坐標(biāo)處理單元311進(jìn)行坐標(biāo)轉(zhuǎn)換處理,將矩形區(qū)域坐標(biāo)705轉(zhuǎn)換成整體圖像坐標(biāo)706,并且將結(jié)果轉(zhuǎn)換成db登記坐標(biāo)。然后,主控制單元303將坐標(biāo)信息804保存在db單元310中。坐標(biāo)信息802和803也采用相同過程來(lái)保存。
在針對(duì)文檔類型的數(shù)量的部分的處理的重復(fù)結(jié)束之后,在步驟s905中,圖像分類單元308基于針對(duì)文檔類型部分的整體圖像特征量數(shù)據(jù)608來(lái)創(chuàng)建分類器607,并且將該分類器保存在db單元310中。根據(jù)上述處理,創(chuàng)建在以下要描述的處理中所要使用的針對(duì)各文檔的整體圖像特征量數(shù)據(jù)608、坐標(biāo)信息(802、803和804)和分類器607。
基本流程
接著,將使用圖10來(lái)描述移動(dòng)終端100的基本處理流程。該流程從用戶使用移動(dòng)終端100中的移動(dòng)應(yīng)用程序302、使照相機(jī)104接近被攝體105來(lái)獲取圖像的步驟作為觸發(fā)而開始。
首先,在步驟s1001中,移動(dòng)應(yīng)用程序302經(jīng)由照相機(jī)單元206來(lái)獲取局部圖像501。接著,在步驟s1002中,圖像特征量提取單元312從局部圖像中提取局部圖像特征量。然后,在步驟s1003中,圖像分類單元308使用所提取出的局部圖像特征量和分類器607來(lái)進(jìn)行分類處理單元602中的分類處理,并且決定局部圖像中的分類。然后,在步驟s1004中,移動(dòng)應(yīng)用程序302判斷局部圖像是否被分類。如果局部圖像能夠被分類(是),則過程移入步驟s1005。另一方面,如果局部圖像無(wú)法被分類(否),則過程返回至步驟s1001,以再次經(jīng)由照相機(jī)單元206來(lái)獲取局部圖像。
接著,在步驟s1005中,移動(dòng)應(yīng)用程序302的主控制單元403將局部圖像顯示在顯示操作區(qū)域401中。此外,主控制單元使用坐標(biāo)處理單元311來(lái)決定局部圖像501在整體圖像500中的位置,并且顯示文本區(qū)域。以下將使用圖12來(lái)詳細(xì)描述步驟s1005。接著,在步驟s1006中,移動(dòng)應(yīng)用程序302判斷是否存在用戶對(duì)文本區(qū)域的選擇。如果存在用戶對(duì)文本區(qū)域的選擇(是),則過程移入步驟s1007。另一方面,如果不存在用戶對(duì)文本區(qū)域的選擇(否),則過程返回至步驟s1005,以再次進(jìn)行文本區(qū)域顯示處理。
接著,在步驟s1007中,移動(dòng)應(yīng)用程序302獲取與用戶所選擇的文本區(qū)域有關(guān)的文本信息。然后,根據(jù)步驟s1005中所限定的整體圖像和局部圖像的位置502,移動(dòng)應(yīng)用程序302將用戶在坐標(biāo)處理單元311中所選擇的文本區(qū)域的矩形坐標(biāo)711轉(zhuǎn)換成整體圖像的矩形坐標(biāo)712。然后,移動(dòng)應(yīng)用程序302將矩形坐標(biāo)712保存在db單元310的坐標(biāo)管理表801中(坐標(biāo)信息805和806)。
文本區(qū)域顯示處理流程
圖11是示出圖10的流程中的步驟s1005的處理的詳情的流程圖。首先,在步驟s1101中,移動(dòng)應(yīng)用程序302經(jīng)由照相機(jī)單元206來(lái)獲取要處理的局部圖像。接著,在步驟s1102中,圖像特征量提取單元312從局部圖像501中提取局部圖像特征量。然后,在步驟s1103中,坐標(biāo)處理單元311從db單元310獲取步驟s1003中所決定的分類(分類1)的整體圖像特征量數(shù)據(jù)608。然后,將整體圖像特征量數(shù)據(jù)608與局部圖像特征量相比較,由此指定局部圖像在整體圖像中的位置502。
接著,在步驟s1104中判斷是否指定了位置。如果能夠指定位置(是),則過程移入步驟s1105,另一方面,如果無(wú)法指定位置(否),則過程返回至步驟s1101。接著,在步驟s1105中,ocr單元307對(duì)局部圖像501中的對(duì)象區(qū)域進(jìn)行識(shí)別。接著,在步驟s1106中,ocr單元307對(duì)步驟s1105中所識(shí)別出的對(duì)象區(qū)域進(jìn)行ocr處理,并且對(duì)文本信息進(jìn)行識(shí)別。然后,ocr單元307將能夠識(shí)別文本信息的對(duì)象區(qū)域識(shí)別為文本區(qū)域。圖12的文本區(qū)域1201是所識(shí)別出的文本區(qū)域的示例。然后,在步驟s1108中,主控制單元303判斷在局部圖像中是否識(shí)別出文本區(qū)域。如果能夠識(shí)別出文本區(qū)域(是),則過程移入步驟s1109。另一方面,如果無(wú)法識(shí)別出文本區(qū)域(否),則過程移入步驟s1113。
接著,在步驟s1109中,坐標(biāo)處理單元311通過坐標(biāo)轉(zhuǎn)換處理將db單元310中所保存的坐標(biāo)信息(802~806)從整體圖像坐標(biāo)轉(zhuǎn)換成局部圖像坐標(biāo),并且判斷轉(zhuǎn)換出的局部圖像坐標(biāo)是否為局域圖像501中的坐標(biāo)。如果坐標(biāo)在局域圖像501中(是),則過程移入步驟s1111。另一方面,如果坐標(biāo)不在局部圖像中(否),則過程移入步驟s1110。然后,在步驟s1110中,信息顯示單元304將步驟s1107中所識(shí)別出的文本區(qū)域重疊在局部圖像上,并且將該文本區(qū)域顯示在顯示操作區(qū)域401中,并且處理結(jié)束。
接著,在步驟s1111中,信息顯示單元304將步驟s1107中所識(shí)別出的文本區(qū)域重疊在局部圖像上,并會(huì)將該文本區(qū)域顯示在顯示操作區(qū)域401中。然后,在步驟s1112中,坐標(biāo)處理單元311將轉(zhuǎn)換出的局部圖像坐標(biāo)校正成文本區(qū)域,并且顯示該文本區(qū)域。換句話說,在轉(zhuǎn)換出的局部圖像坐標(biāo)與文本區(qū)域即使只有一點(diǎn)點(diǎn)重疊的情況下,也對(duì)轉(zhuǎn)換出的局部圖像坐標(biāo)進(jìn)行校正,并且顯示文本區(qū)域。此外,如果轉(zhuǎn)換出的局部圖像坐標(biāo)與多個(gè)文本區(qū)域重疊,則將轉(zhuǎn)換出的局部圖像坐標(biāo)校正成存在更多重疊面積的坐標(biāo),并且顯示文本區(qū)域。
這里,將參考圖12來(lái)描述顯示示例中的校正之后的文本區(qū)域。坐標(biāo)1202是校正之前的局部圖像坐標(biāo),并且顯示示例1203是校正之后的顯示示例。另外,顯示示例1205、1203和1204與圖8中的坐標(biāo)信息802、803和804相對(duì)應(yīng)。此外,顯示示例1206和1207與圖8所示的坐標(biāo)信息805和806相對(duì)應(yīng)。
返回參考圖11,在步驟s1113中,坐標(biāo)處理單元311通過進(jìn)行坐標(biāo)轉(zhuǎn)換處理將db單元310中所保存的坐標(biāo)信息(802~806)從整體圖像坐標(biāo)轉(zhuǎn)換成局部圖像坐標(biāo),并且判斷轉(zhuǎn)換出的局部圖像坐標(biāo)是否為局部圖像501中的坐標(biāo)。如果坐標(biāo)在局部圖像501中(是),則過程移入步驟s1114。另一方面,如果坐標(biāo)不在局部圖像501中(否),過程返回至步驟s1101。接著,信息顯示單元304將從整體圖像坐標(biāo)轉(zhuǎn)換成局部圖像坐標(biāo)的坐標(biāo)顯示在局部圖像中。然后,處理結(jié)束。
如上所述,根據(jù)本實(shí)施例,如果通過接近紙質(zhì)文檔來(lái)拍攝圖像,則通過顯示作為用戶的候選選擇而預(yù)先保存的區(qū)域,能夠快速地找到所需的文本區(qū)域。
其它實(shí)施例
本發(fā)明的實(shí)施例還可以通過如下的方法來(lái)實(shí)現(xiàn),即,通過網(wǎng)絡(luò)或者各種存儲(chǔ)介質(zhì)將執(zhí)行上述實(shí)施例的功能的軟件(程序)提供給系統(tǒng)或裝置,該系統(tǒng)或裝置的計(jì)算機(jī)或是中央處理單元(cpu)、微處理單元(mpu)讀出并執(zhí)行程序的方法。
盡管已經(jīng)參考典型實(shí)施例說明了本發(fā)明,但是應(yīng)該理解,本發(fā)明不限于所公開的典型實(shí)施例。所附權(quán)利要求書的范圍符合最寬的解釋,以包含所有這類修改、等同結(jié)構(gòu)和功能。
本申請(qǐng)要求2015年12月28日提交的日本專利申請(qǐng)2015-256476的優(yōu)先權(quán),這里通過引用將其全部?jī)?nèi)容包含于此。