專利名稱:整體地名識別方法和整體地名識別裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種地址識別裝置及方法。更具體地,涉及一種閱讀和 識別任意間距區(qū)域內(nèi)的手寫字符地址的地址識別裝置及方法。
背景技術(shù):
傳統(tǒng)上有兩種對手寫地址進行識別的方法。
第一種傳統(tǒng)方法是首先從輸入地址圖像中提取單字符區(qū)域(即只含 有一個字符的區(qū)域),并從這些單字符區(qū)域中提取關(guān)鍵字符(在手寫地 址識別中,關(guān)鍵字符為能夠表示行政區(qū)域的單一字符,例如省、區(qū)、州、 市、縣、鎮(zhèn)、鄉(xiāng)、村等),檢測由兩個相鄰關(guān)鍵字符所限定的地名區(qū)域。 為了識別地名區(qū)域內(nèi)的地名,該方法將該地名區(qū)域分割成獨立的字符, 然后逐個識別這些獨立字符。
但是,這種傳統(tǒng)的地址識別方法存在一定的缺陷,即,將地址分割 成獨立字符時常常出現(xiàn)錯誤。特別是當(dāng)自由間距區(qū)內(nèi)的地址相互連接緊 密時,該方法尤其容易出錯。而由于手寫字符常常不太規(guī)范、形態(tài)各異, 所以這種緊密連接的情況很常見。
第二種傳統(tǒng)方法也是首先提取字符片斷,并檢測由兩個相鄰關(guān)鍵字
符所限定的地名區(qū)域。它與第一種方法的不同之處在于,這種方法將地 名區(qū)域內(nèi)的地名作為整體來進行識別。
圖1是該第二種傳統(tǒng)方法的詳細(xì)處理過程的方框圖。圖1中,字符 分割單元601將輸入的地址圖像分割成所有可能的單一字符區(qū)域。關(guān)鍵字符提取單元602使用字符詞典603,對各個可能的單一字符區(qū)域進行識 別,判斷該區(qū)域中的字符是否為關(guān)鍵字符(如省、市、鎮(zhèn)、路等)。如果 在該區(qū)域中的字符的候選識別字符(即初步判斷為可能是該區(qū)域中的字 符的字符)中含有多個關(guān)鍵字,則該區(qū)域被識別成只選取匹配距離最小的 那個關(guān)鍵字(匹配距離越小,表示該關(guān)鍵字與該字符區(qū)域內(nèi)的圖像越相 近)。關(guān)鍵字符集合確定單元604以地址分級結(jié)構(gòu)知識單元605為基礎(chǔ), 將所有可能的關(guān)鍵字符候選對象合并成關(guān)鍵字符路徑。每一條關(guān)鍵字符 的路徑必須符合如下要求,即前一個關(guān)鍵字符必須是其后所有關(guān)鍵字符 的上級行政單位。例如,省_市-鎮(zhèn)就是一條關(guān)鍵字符路徑,而省-鎮(zhèn)-市 則不是,因為鎮(zhèn)并不能下轄市,而市的行政級別可以下轄鎮(zhèn)。地名區(qū)域 候選對象分割單元606根據(jù)關(guān)鍵字符路徑中兩個相鄰關(guān)鍵字符,提取其 限定的地名區(qū)域。地名整體識別單元607根據(jù)地名識別詞典608,以整體 的方式識別地名。單字符識別單元609首先從輸入圖像中提取既不是地 名也不是關(guān)鍵字符的部分(比如地址為"北京市朝陽區(qū)霄云路鵬潤大廈B 座1003"中的具體的建筑物名和辦公室號碼,即"鵬潤大廈B座1003"), 然后參考單字符識別詞典610將這些部分切割成字符,并逐個識別。地 址確定單元611,使用地址知識單元612中的地址知識,檢查識別結(jié)果是 否與某個真實地址相符。并比較地址匹配的整體距離是否大于一個給定
閾值,如果是,則該識別地址被視為不可靠,系統(tǒng)拒絕識別(拒識);否 則最終輸出與真實地址相匹配的結(jié)果。
圖2示出了地名整體識別過程的示意圖。在第一級地名匹配過程105 中,首先分割由第一個關(guān)鍵字符限定的地名區(qū)域,然后利用地名詞典608, 從該地名區(qū)域中整體識別出地名。在第二級地名匹配過程106中,首先 分割由第一、第二個關(guān)鍵字符(如果有第二個關(guān)鍵字符的話)所限定的 地名區(qū)域,然后參考第一級匹配結(jié)果和圖1中地名詞典608,對該區(qū)域進 行識別。例如,如果實際輸入的地址是"北京市朝陽區(qū)霄云路",關(guān)鍵字 符路徑是"市-區(qū)-路",由第一個關(guān)鍵字符"市"所限定的第一級地名區(qū) 域可識別為"北京"。提取由第一 個關(guān)鍵字符"市"和第二個關(guān)鍵字符"區(qū)" 所限定的區(qū)域,對其進行整體識別,根據(jù)地名詞典,將其識別為北京市下面所包括的區(qū)。在第三級地名匹配過程107中,首先分割由第二、三 個關(guān)鍵字符(如果有第二個和第三個關(guān)鍵字符)所限定的地名區(qū)域,然 后參考第二級匹配結(jié)果和地名詞典608,識別該區(qū)域。依此類推,重復(fù)這 一識別過程直至最后一級。在第N級地名匹配過程108中,提取由第N-1、 N個關(guān)鍵字符(如果有第N-l個和第N個關(guān)鍵字符的話)所限定的地名區(qū) 域,然后參考第N-1級匹配結(jié)果和地名詞典608,識別該區(qū)域。
這個傳統(tǒng)方法的一個問題是如果沒有提取出正確的關(guān)鍵字符,識 別也會出錯,降低了系統(tǒng)精確度。具體而言,這個傳統(tǒng)方法提取關(guān)鍵字 符存在兩個問題。(1)由于圖1中關(guān)鍵字符提取單元602將每個單一字 符區(qū)域與單字符字典的所有字符(對漢字而言,有多達(dá)幾千漢字字符)相 匹配,從而會不可避免地產(chǎn)生關(guān)鍵字識別錯誤,從而降低了系統(tǒng)的識別精 度。(2)由于關(guān)鍵字符提取單元602僅僅將某字符片段識別成該識別候 選中出現(xiàn)的匹配距離最小的關(guān)鍵字符,因此不可避免地在某些情況下會 出現(xiàn)關(guān)鍵字符識別錯誤。比如,對某個單一字符區(qū)域內(nèi)的圖像實際是 "市",但對該字的按匹配距離排序后的識別候選隊列是"天、夫、鄉(xiāng)、 巾、市"。則這種傳統(tǒng)方法將會把該區(qū)域中的字符識別成關(guān)鍵字"鄉(xiāng)", 而不會識別為"市"。因此會降低系統(tǒng)精度。
這個傳統(tǒng)方法存在的另外的一個問題是在整體地名識別中,在前 面的某一地名識別錯誤的情況下,后面的整個識別結(jié)構(gòu)都會出錯。也就 是說,后面的模塊高度依賴于之前的模塊。當(dāng)前面的地名識別錯誤后, 后續(xù)的地名識別肯定錯誤。例如,輸入的地名是"北京市朝陽區(qū)霄云路", 如果第一級地名匹配單元沒有輸出正確結(jié)果,由市限定的第一個地名被 錯誤匹配為"北海",那么第二級匹配必然就會錯。因為由第一個關(guān)鍵字 符"市"和第二個關(guān)鍵字符"區(qū)"所限定的真實的地名"朝陽",在錯誤 的第一級地名"北海"的行政單位中并不存在。此外,手寫的地名常常 形態(tài)自由,變化較多,該方法識別的地名就常常與真實地名不符,嚴(yán)重 降低了系統(tǒng)精確度。
這個傳統(tǒng)方法還存在另外的一個問題,即由于手寫地址質(zhì)量不等、變 化較多的特性,基于固定閾值的拒識標(biāo)準(zhǔn)就會在閱讀過程中產(chǎn)生錯誤。也就是說,若設(shè)定的閾值較小,傳統(tǒng)方法將拒識大多數(shù)低質(zhì)量的地址; 若設(shè)定的閾值較大,傳統(tǒng)方法將接受大多數(shù)地址識別結(jié)果。從而降低了 系統(tǒng)的可靠性。
發(fā)明內(nèi)容
本發(fā)明的第一個目的是提供一種能夠高效率地對地址進行識別的地 址識別裝置。
本發(fā)明的第二個目的是提供一種能夠高精度識別地址的地址識別裝
本發(fā)明的第三個目的是提供一種能夠可靠地對地址進行識別的地址 識別裝置。
為了實現(xiàn)本發(fā)明的目的或至少提供一種有益的選擇,本發(fā)明提供了 一種整體地名識別方法,包括用于識別含有某一行政級別地名的地名圖 像中的地名的整體識別步驟,所述整體識別步驟包括提取步驟,提取 所述地名圖像的特征向量;匹配步驟,將所提取的特征向量與地名字典 中的地名的特征向量相匹配,尋找所有可能候選地名;其特征在于,當(dāng) 所述地名字典中的地名的特征向量與所提取的特征向量的匹配距離小于 預(yù)定閾值時就將該地名判斷為可能候選地名。
此外,本發(fā)明提供了一種整體地名識別裝置,包括提取單元,提 取所輸入的地名圖像的特征向量;地名字典單元,用于保存地名;匹配 單元,將所提取的特征向量與地名字典中的地名的特征向量相匹配,尋 找所有可能候選地名及其匹配距離;其特征在于,當(dāng)所述地名字典中的 地名的特征向量與所提取的特征向量的匹配距離小于預(yù)定閾值時,所述 匹配單元就將該地名判斷為可能候選地名。
應(yīng)當(dāng)理解,以上總體說明和以下詳細(xì)說明都是說明性和示例性的, 并旨在提供對所要求的本發(fā)明的進一步說明。
所包含的附圖用于提供對本發(fā)明的進一步理解,其被并入說明書并 構(gòu)成其一部分,
了本發(fā)明的實施例,并與說明書一起用于解釋本發(fā)明的原理。
圖1是一種傳統(tǒng)地址識別裝置的方框圖2是圖1所示的傳統(tǒng)地址識別裝置中的整體地名識別單元進行整 體地名識別的過程的示意圖3是依據(jù)本發(fā)明的一實施例的地址識別裝置的方框圖4是單字符區(qū)域檢測單元的一個實施例的方框圖5是依據(jù)本發(fā)明實施例的關(guān)鍵字符提取單元的方框圖6是依據(jù)本發(fā)明實施例的候選關(guān)鍵字符提取單元的方框圖7是依據(jù)本發(fā)明實施例的整體地址識別單元的方框圖8是根據(jù)本發(fā)明實例的整體地名識別單元的流程圖9以示例的方式示出了依據(jù)本發(fā)明實施例的整體地址識別方法;
圖10是依據(jù)本發(fā)明實施例的單字符地名識別單元的方框圖11是依據(jù)本發(fā)明實施例的地名校驗單元的方框圖12以示例的方式說明了依據(jù)本發(fā)明的地名校驗方法;
圖13是依據(jù)本發(fā)明實施例的據(jù)識單元的方框圖14依據(jù)本發(fā)明實施例的地址識別裝置的詳細(xì)方框圖。
具體實施例方式
下面將參照附圖詳細(xì)說明本發(fā)明的地址識別裝置和方法。在附圖中, 相同的附圖標(biāo)記代表相同或類似的部件。
圖3是依據(jù)本發(fā)明第一實施例的地址識別裝置的方框圖。在圖3中,
單字符區(qū)域檢測單元1將輸入的地址圖像分成一個個的單個字符,每個單
個字符的圖像區(qū)域稱為單字符區(qū)域。關(guān)鍵字符提取單元2根據(jù)單字符區(qū) 域檢測單元1的結(jié)果提取關(guān)鍵字符。地名區(qū)域提取單元3再根據(jù)關(guān)鍵字 符提取單元2中提取出來的關(guān)鍵字符,提取出地名區(qū)域。整體地名識別 單元4對地名區(qū)域提取單元3提取出來的地名區(qū)域進行遞歸和整體性的 識別。單字符識別單元El在地名區(qū)域提取單元3提取出來的地名區(qū)域內(nèi), 將單字符區(qū)域檢測單元1輸出的字符識別成相應(yīng)地名。地名校驗單元5校 驗并確定整體地名識別單元4與單字符識別單元El輸出的地名識別結(jié)果。據(jù)識單元6確定是拒識還是接受該地名識別結(jié)果。
具體而言,當(dāng)輸入了要進行識別的地址圖像時,首先由單字符區(qū)域 檢測單元1將其分割成多個單字符區(qū)域。單字符區(qū)域被分割出之后,各 個單字符區(qū)域都將被關(guān)鍵字提取單元2識別,并提取出關(guān)鍵字符。提取 關(guān)鍵字符之后,關(guān)鍵字符所限定的區(qū)域?qū)⒈坏孛麉^(qū)域提取單元3從輸入 圖像中分割出來,然后整體地名識別單元4將該關(guān)鍵字符限定區(qū)域的特 征向量與地名詞典里的地名的特征向量相匹配,得出匹配距離小于規(guī)定 閾值的地名候選的地名候選隊列。匹配距離表示由關(guān)鍵字符限定的圖像 與候選對象的相異程度,其值越小,表示當(dāng)前判斷的圖像與候選對象的 差異越小,即越接近。其計算在后文說明。同時,依次評估地名候選隊 列里的各個地名候選的匹配距離與匹配距離最小的地名候選的匹配距離 之差與該最小匹配距離的比值,當(dāng)該比值大于預(yù)定的域值時,則判斷其 與圖像相差過大,將其排除。因此,在本發(fā)明中并不需要對所有的候選 地名都進行評估。即,當(dāng)判斷的圖像與候選地名相差過大時,則無需進 行下一步的比較(具體參看圖5,6的說明),由此縮短了識別時間。此時, 還可以通過單字符地名識別單元El和地名校驗單元5,通過將單字符識 別結(jié)果與整體識別結(jié)果相結(jié)合,對整體識別出的地名進行篩選。類似地, 各級地名區(qū)域?qū)⒈恢饌€識別。很多時候,地名識別的第一個候選對象往 往不正確;相反,正確的結(jié)果有可能會是另外的候選。因此,隨后對所形 成的各相應(yīng)路徑的匹配距離進行計算,找到平均匹配距離最小的路徑, 將其確定為最終的地名路徑。因此本發(fā)明采用的多候選遞歸識別提高了 識別的正確性。此外,在與平均匹配距離最小的路徑相近的路徑有多條 時,也可通過單字符地名識別單元E1和地名校驗單元5,通過將單字符 識別結(jié)果與整體識別結(jié)果相結(jié)合,對該多條路徑中有分歧的地名圖像的 整體識別的候選地名進行篩選。
單字符地名識別單元El將提取在該關(guān)鍵字符限定區(qū)域之內(nèi)的,單字 符區(qū)域檢測單元1得到的單字符區(qū)域的特征,并將它們的特征將與單字 符字典之內(nèi)的字符特征對比,逐個識別。地名被識別之后,地名校驗單 元5將整體的識別結(jié)果和單字符識別結(jié)果相結(jié)合,并最終檢驗識別結(jié)果。這樣,實現(xiàn)了單字符區(qū)域識別結(jié)果與遞歸和整體識別結(jié)果的結(jié)合,提高 了識別的正確性。
下面對圖3中的各模塊進行逐一介紹。 圖4是圖3所示的單字符區(qū)域檢測單元1的方框圖。 圖4中,連通域標(biāo)示單元34通過連通域檢測算法(參見坊7 e27z ec/f s /!roce5"5"i"g jfefere"ce, Bob Fisher, Simon Perkins, Ashley Walker and Erik Wolfart. Depa rtment of Artificial Intelligence University of Edinburgh, UK.
http://www. cee. hw. ac. uk/hipr/html/label. html),標(biāo)示出輸入圖像中 所有的連通域。連通域是圖像前景色(通常為黑色)像素點的集合,在此 集合中,任何兩個像素點都能通過該集合內(nèi)的像素相連通。
候選單字符區(qū)域確定單元35將根據(jù)標(biāo)示出的連通域的大小、位置及 其與相鄰連通域之間距離等信息,將相應(yīng)的連通域合并為新的連通域, 這些新的連通域則為候選的單字符區(qū)域。比如,假設(shè)輸入地址圖像為橫 向書寫,當(dāng)連通域A在連通域B之上,則B和A應(yīng)該屬于同一字符,那 么B和A則應(yīng)當(dāng)被合并為一新的連通域。具體地,連通域的合并可參見 美國專利US 6,535,619 Bl中圖11A, 11B, IIC及其說明。
平均字符大小計算單元36將濾除由候選單字符區(qū)域確定單元35得
到的新的連通域中明顯大小異常的連通域,并計算得到剩下的連通域及 字符的平均大小。也即,假設(shè)<^(/ = 1,2,..., )為所有的 個由候選單字
符區(qū)域確定單元35得到的連通域,并且連通域cq其寬度表示為
附d晰CC,),高度表示為/^g&(CC,)。則濾除所有滿足下面任一條件的^^ 。
(1) 附c^(CC》 < 『CC,w - 7\蟲,
(2) 附礎(chǔ)(CC" >『CCw +7\,,,,A,。W
(3) 服洲CC》 <臟一
(4) He妙,(CC4) > /fCQ咖+ r、妙,—
其中Cw表示從所有附礎(chǔ)(co (/=1'2"",w。。)中所得的中位數(shù), HCCm*表示從所有//e妙"CC》(i=l,2,...,;^)中所得的中位數(shù), T^^—^為兩個正的預(yù)設(shè)閾值。中位數(shù)的計算詳見阮秋琦編著的《數(shù)字厫像必湮學(xué)A第325頁,該書由電子工業(yè)出版社出版。
像素投影單元37豎直投影輸入地址圖像(假如圖像是水平書寫)或
水平投影輸入地址圖像(假如圖像是豎直書寫)。對圖像進行豎直(或水
平)投影將得到圖像橫向(縱向)每點的黑色像素的數(shù)目。
臨時候選分割點提取單元38和臨時候選分割點確認(rèn)單元39用來將
由單字符區(qū)域確定單元35輸出的新的連通域分割為真實的字符區(qū)域,即
用來將相連字符分割為獨立的單一字符。
根據(jù)像素投影單元37得到的黑色像素數(shù)量,臨時候選分割點提取單
元38提取出滿足下列兩個條件的位置點為臨時候選分割點。這些位置點
就是相連字符的可能分割點。
條件1:該位置點為投影得到的黑色像素數(shù)量直方圖的極小值點 條件2:該位置點上的黑色像素數(shù)量小于一預(yù)設(shè)閾值r力^ 候選分割點的提取例如可以采用美國專利公開US 6,535,619 Bl
中公開的方法。
臨時候選分割點確認(rèn)單元39將確定由臨時候選分割點提取單元38 得到的臨時分割點是否為真正的相鄰字符區(qū)域分割點。
如果輸入的字符圖形是水平書寫的,那么對任一待分割連通域,如 果某臨時候選分割點位于從該連通域起始位置起的1/2平均字符寬度的 倍數(shù)位置處附近的區(qū)域,則該候選點就確定為分割點。具體而言,假設(shè) 尸,((Ki〈s,i為一正整數(shù))為一連通域的從起始位置起的1/2平均字符寬 度的倍數(shù)位置點,如果存在某個分割點G f/7i滿足
尸/ —Tht|elta<C 〈=ThdelUi + 尸/
則C確定為一分割點。該連通域則在該點C被豎直分割為兩個新的 連通域。
如果輸入的字符圖形是豎直書寫的,那么對任一待分割連通域,如 果某臨時候選分割點位于從該連通域起始位置起的1/2平均字符寬度的 倍數(shù)位置處附近的區(qū)域,則該候選點就確定為分割點。具體而言,假設(shè) 尸,((Ki〈s,i為一正整數(shù))為一連通域的從起始位置起的1/2平均字符寬 度的倍數(shù)位置點,如果存在某個分割點G //7i滿足<formula>formula see original document page 14</formula>
則C確定為一分割點。該連通域則在該點C被水平分割為兩個新的 連通域。
圖5是根據(jù)本發(fā)明實施例的關(guān)鍵字符提取單元2的方框圖。 在圖5中,候選關(guān)鍵字符提取單元20將從單字符區(qū)域檢測單元1輸 入的單字符區(qū)域(或連通域)中,提取候選的關(guān)鍵字符。關(guān)鍵字符路徑 識別單元21將參考地址分級結(jié)構(gòu)知識單元24(其為可提供地名分級知識 的數(shù)據(jù)庫、程序等),確定出合理的關(guān)鍵字符路徑。關(guān)鍵字符路徑過濾單 元22儲存多條關(guān)鍵字符路徑,計算出各條路徑中關(guān)鍵字符的平均匹配距 離(即各級地名匹配距離之和與地址級數(shù)的比值),并由小到大排列所有 的路徑,最后選取前K條關(guān)鍵字路徑,作為最終的關(guān)鍵字路徑。其中K 是一個預(yù)設(shè)的正整數(shù)。
具體而言,輸入了地址圖像進行識別時,首先從輸入的圖形中提取 連通域,再由候選關(guān)鍵字符提取單元20從該連通域中提取關(guān)鍵字符(具 體參見后文圖6說明)。然后經(jīng)過整合關(guān)鍵字符,由關(guān)鍵字符路徑確定單 元21確定出一條符合地名分級知識的關(guān)鍵字符路徑。該關(guān)鍵字符路徑描 述了關(guān)鍵字符的先后順序,其中前面的關(guān)鍵字符是其后關(guān)鍵字符的上級 行政單位。例如,省-市-鎮(zhèn)就是一條關(guān)鍵字符路徑,而省-鎮(zhèn)-市則不是, 因為鎮(zhèn)不能下轄市,而市的行政級別則可以下轄鎮(zhèn)。然后在關(guān)鍵字符路 徑過濾單元22中,根據(jù)關(guān)鍵字符提取的識別結(jié)果中各個關(guān)鍵字符的平均 匹配距離。對各條關(guān)鍵字符路徑進行排序。在地名區(qū)域的提取和識別中, 只有平均匹配距離最小的《條字符路徑才被評估,其中《是預(yù)設(shè)的一個 正常數(shù)。比如輸入地址是"北京市朝陽區(qū)",如果這里"京"和"市"所 對應(yīng)的圖像區(qū)域被識別成關(guān)鍵字市,"區(qū)"所對應(yīng)的區(qū)域被識別成關(guān)鍵 字區(qū)。那么這里的關(guān)鍵字路徑則是市("京")-區(qū)("區(qū)"),市("市")-區(qū)("區(qū)")。此時計算市("京")-區(qū)("區(qū)")的"京"和"區(qū)"識別 為市和區(qū)的平均匹配距離,和("市")-區(qū)("區(qū)")里的"市"和"區(qū)" 識別為市和區(qū)的平均匹配距離。平均匹配距離越大的關(guān)鍵字則越不可能 為正確的關(guān)鍵字路徑,越應(yīng)當(dāng)被濾除。因此在地名區(qū)域提取和識別中,并不需要和傳統(tǒng)方法一樣評估所有的關(guān)鍵字符路徑,而只需要選擇平均匹
配距離最小的前K條關(guān)鍵字符路徑(K為一預(yù)設(shè)正整數(shù)),從而提高了地址識別的效率和正確性。
圖6是根據(jù)本發(fā)明實施例的候選關(guān)鍵字符提取單元20的方框圖。特征提取單元42在從單字符區(qū)域檢測單元1中輸入的連通域(即單字符區(qū)域)所對應(yīng)的圖像中提取特征向量。字典匹配單元43參考關(guān)鍵字符字典單元41,將特征提取單元42輸出的特征向量與關(guān)鍵字符字典中的關(guān)鍵字符特征向量相匹配,輸出可能的候選關(guān)鍵字符。候選關(guān)鍵字符確認(rèn)單元44確認(rèn)這些選出的候選關(guān)鍵字符是否為真正的關(guān)鍵字符。
具體而言,當(dāng)從單字符區(qū)域檢測單元1中輸入了連通域時,首先由特征提取單元42提取連通域的特征。然后,字典匹配單元43將從該連通域圖像中提取的特征向量(記為/CC,.)和關(guān)鍵字字典里所有關(guān)鍵字的特征向量(記為_/^^,* = 1,2,3...,22,中文地址一共有22個關(guān)鍵字符,分別為
省,市,區(qū),弄,路,街,村,鄉(xiāng),鎮(zhèn),港,灣,縣,道,里,同,巷,樓,州,旗,胡,莊,坊)相匹配。如果存在某個關(guān)鍵字符/Tc,它與該連通域的匹配距離
z^s^r,, i^》j、于一個預(yù)設(shè)閾值r;^,則該連通域被判斷為可能候選關(guān)鍵
字符《c。匹配距離Z j's(tC,, Kc^定義yCCi與,e3^的歐式距離,艮卩Z^(CC,,Kc )=|| /CC廣/fe^ ||= 2(/CQ — /fce>%)2
丄文^疲沒^/CC,與ife^的維數(shù)為歷。
因此,候選關(guān)鍵字符提取單元20將單字符區(qū)域僅和有限個(在漢字的情況下為22個)關(guān)鍵字符進行匹配,而無需如傳統(tǒng)方法那樣與所有上千漢字字符進行匹配。從而提高了系統(tǒng)效率和關(guān)鍵字識別精度。
此外,如果在對一個連通域的識別中,與z a^s^)個候選對象的匹
配距離小于預(yù)設(shè)閾值IT^,則該連通域?qū)⒈蛔R別為乙個可能的關(guān)鍵字符。
因此,例如,如果一個連通域的可能關(guān)鍵字符為"省"和"市",則將該連通域識別為"省"和"市"兩個關(guān)鍵字符。這樣一來則可以降低丟失正確字符的風(fēng)險,而地址識別的正確性會有所提高。
此外,在候選關(guān)鍵字符確認(rèn)單元44中,如果連通域CC;的候選關(guān)鍵字對象存在厶個關(guān)鍵字符沉,& ,…,a;入(& , & ,…,兄已按匹配距離
由小到大進行排序)該連通域只被識別為符合條件/與CC,,《)< 77 血_4
的關(guān)鍵字符,其中D^c《式)表示關(guān)鍵字凡與連通域o:,的匹配距離,7^,o是一個正的常數(shù),表示一個預(yù)設(shè)閾值。采用該種關(guān)鍵字濾除方法,將會保留和第一候選相近的關(guān)鍵字,并在后面的關(guān)鍵字路徑確定和地名匹配中評估。如果,某個關(guān)鍵字不滿足上面的條件,說明該關(guān)鍵字的匹配距離與第一候選的匹配距離相差很遠(yuǎn),則不大可能為正確的關(guān)鍵字,應(yīng)該被濾除。因此,關(guān)鍵字符提取之后的地名區(qū)域提取和識別,并不用評估所有可能的關(guān)鍵字符,由此提高了地址識別的效率和正確性。
圖7是依據(jù)本發(fā)明實施例的整體地名識別單元4的方框圖。如圖7所示,地名匹配單元27從地名區(qū)域提取單元3輸入的與各級地名相對應(yīng)的圖像中提取特征,并與地名詞典單元54 (其存儲有地名數(shù)據(jù)庫、地名詞典等)中存儲的地名特征進行匹配,由此輸出j至7Vc個候選對象。候選地名評估單元28對這1至Ab個候選對象進行評估,從中確定若干個候選對象作為下級地址的上級行政單位。遞歸匹配評估單元29計算所有的候選地址的平均距離,并從中選出具有最小平均匹配距離的地址。地名匹配單元27包括特征提取單元(未示出),用于提取地名圖像中的特征向量;以及匹配單元,將所提取的特征向量與地名詞典中的地名的特征向量進行匹配,尋找所有的可能候選地名。
因此,由于地名識別的第一候選往往不是正確的地名,所以本發(fā)明的多候選遞歸識別方法將會極大地提高系統(tǒng)的識別精度。而且,采用地名評估,不必要遍歷所有的候選,從而提高了系統(tǒng)的識別效率。
圖8是依據(jù)本發(fā)明實施例的整體地名識別單元4的示意性工作流程圖。
假設(shè)在輸入的地址圖像中有^級關(guān)鍵字符。在步驟SF1中設(shè)定地址識別從第i=l級開始。在步驟SF2中進行第i級地名匹配。在地名匹配中,如果存在上級地址,則將從該第i級地名所對應(yīng)的地名圖像中所提取的特征與地名詞典中其上級地址所轄的、被第i級地名關(guān)鍵字所限定的地名相匹配。產(chǎn)生1至^C個地名候選,并對這些地名候選按匹配距離進
行小到大排序。在步驟SF3設(shè)定候選序號計數(shù)器從k從2幵始。在步驟SF4計算第k個地名候選距離與第一候選距離之差和第一候選距離的比率。在步驟S5判斷是否該比率大于一預(yù)定閾值7/^或者已是最后一個候選。具體講,如果[Z^(CaWl *) - Z^(ca"^,)] / Z^(o "",) < 7V,或者判斷當(dāng)前
候選己是最后一個候選時,那么進入步驟SF7,保留l至k個候選作為上級行政單位用于下一級的地名識別。這里,加(Om凡)表示在第一級地名
識別當(dāng)中的第A個候選對象的匹配距離,匹配距離表示由關(guān)鍵字符限定
的圖像與候選對象的相異程度,其值越小,表示當(dāng)前判斷的圖像與候選對象的差異越小,即越接近。其計算將在下文說明。7\,是一個正的常數(shù),
系一個預(yù)設(shè)閾值,大于該閾值說明當(dāng)前判斷的圖像與候選對象相差過大,無需進行下一步的比較。另外,由于地名候選按匹配距離排列,如果當(dāng)前候選的計算比率大于7T^,則后面的候選的比率也一定會大于該閾值,從
而無須進行評估。另一方面,如果在步驟S5判斷該比率并不大于預(yù)定閾值r力&并且不是最后一個候選,則在步驟SF6增加K值后,返回步驟SF4。當(dāng)所有候選評估完畢時,保留了 1至k個候選作為下級地名匹配的上級地址。由此可見,各級地址匹配保留的候選地名數(shù)目k為動態(tài)變化,有可能不同,當(dāng)候選的匹配距離與第一候選的匹配距離相差很大,該候選不大可能為正確的地名,則最后的k將為一較小的數(shù);反之,將會以較大的數(shù)。
在步驟SF8判斷是否所有N級地名己被識別,如果不是,則在步驟SF9中將I值增加后,進行下一級地名匹配。比如,在進行第二級地名匹配時,需要在第一級候選地名輸出的上級行政單位的范圍中,將第一、二個關(guān)鍵字符之間的圖形與由上級地名所轄的,由第二個關(guān)鍵字符所限定的行政單位的地名進行匹配。舉例來說,如果第一級候選地名為北京和北海,第一個關(guān)鍵字為市,第二個關(guān)鍵字為區(qū),那么作為一種地址可能,第一和第二關(guān)鍵字符之間的圖像則要和北京市下轄的所有取名進行匹配,作為另外一種地址可能,第一和第二關(guān)鍵字符之間的圖像則要和北海市下轄的所有取名進行匹配。并輸出從1到Afc的多個可能的候選對象。當(dāng)各級地名匹配結(jié)束,即SF8判斷為是(最后一級地名無需進行地名 候選評估,因為沒有下級地名,因此無需輸出其地名候選為下轄地名的上 級地名),由SF10累加每條候選地址內(nèi)的全部地名的匹配距離。SF11根據(jù) SF10得到的累加匹配距離對候選地址進行排序,并輸出具有最小累加匹 配距離的地址作為識別結(jié)果。
應(yīng)當(dāng)注意的是,上面的過程是個遞歸過程,也即第i級地名匹配要分 別以第i-1級的所得的所有k個候選作為上級地址進行匹配。同理,第i 級地名匹配所得的候選地名經(jīng)過步驟SF7后的k個候選地名也都作為下 一級的地名匹配的上級地址。
匹配距離歷'5"《朋cg定義為第/個候選地名的特征向量乃與對應(yīng)的 從地名圖像提取的特征向量K的歐式距離,艮P:
上面假設(shè)特征向量A特征向量^量的維數(shù)為m。
圖8僅僅是整體地名識別工作流程的一個示例。在整體地名識別過 程中,步驟SF2中的匹配結(jié)果可以進一步通過地名校驗單元與單字符地 名識別的結(jié)果相結(jié)合,對所得的候選地址進行篩選,然后再進行SF3之 后的過程,這樣可以提高地名識別的精度。類似地,也可將SF7的識別 結(jié)果通過地名校驗單元與單字符地名識別的結(jié)果相結(jié)合,對所得的候選 地址進行篩選。地名校驗單元5與單字符地名識別單元El將在后文介紹。
圖9示例性地示出了依據(jù)本發(fā)明的實施例的遞歸與整體識別地址的 方法。
圖9中,假設(shè)輸入的原始手寫圖像字符是"北京市朝陽區(qū)",則其關(guān) 鍵字符路徑是"市-區(qū)"。該路徑"市-區(qū)"中包括的關(guān)鍵字符將從輸入圖 像中由關(guān)鍵字符提取單元2提取出來。
然后,對第一個關(guān)鍵字符限定的圖像進行提取,就能分割出地名區(qū) 域R1和R2。通過圖8所示的步驟SF2整體識別R1,輸出Afc個(此處假 設(shè)為3)候選對象SR1。針對每一個候選對象,輸出的還有其匹配距離, 說明了圖形Rl與地名字典中的地名的相異程度。結(jié)果Rl分別與北海、 北京、北屯相比,距離為230、 240和310。所以,相較于北京和北屯,Rl更可能是北海;而相較于北屯,Rl更可能是北京。
然后,所有Nc個候選對象都將受到評估,看其是否可以作為下一級 地名(比如第二級地名)的上級行政單位。北屯與北海之差與北海的比 率為(310-230)/230,較大,北京與北海之差與北海的比率為 (240-230)/230,較小,則北屯不太可能是Rl的真實地名,在SR2中被 排除。具體而言,假設(shè)預(yù)定閾值為0.25,因為(3K)-230)/230〉0.25而 (240-230)/230<0.25,則北屯被排除,北海和北京被繼續(xù)用作上級行政 單位。
然后,重復(fù)上面的步驟對第二級地名進行識別。如果上一級是北海, 根據(jù)地名詞典,北海所轄范圍內(nèi)所有的區(qū)的真實地名圖形將與R2地名相 對照,輸出^c個候選對象,這些候選對象及其匹配距離在SR3中示出。 如果上一級是北京,根據(jù)地名詞典,北京所轄范圍內(nèi)所有的區(qū)的真實地 名圖形將與R2地名相對照,輸出Nc候選對象,這些候選對象及其匹配 距離在SR4中示出。
結(jié)果是,如SR5所示,所有候選對象路徑中,當(dāng)與所有其它候選路 徑進行(比如北海+銀海)比較時,候選對象路徑北京+朝陽的平均匹配 距離最小,為(240+160)/2=200。因此,識別結(jié)果輸出為北京市朝陽區(qū)。
圖10是依據(jù)本發(fā)明實施例的單字符地名識別單元的方框圖。
如上所述,單字符地名識別單元和地名校驗單元可對整體地名識別 中識別出多個可能候選地名進行篩選。此外還能對整體地名識別單元4 中的匹配評估單元的評估結(jié)果(即地名路徑)中與最小平均匹配距離比 較接近的結(jié)果(如果有的話)進行篩選確定。
如圖10所示,單字符地名識別單元El包含特征提取單元61、字典 匹配單元62、和單字符字典單元59。
特征提取單元61將逐個提取包含在地名區(qū)域提取單元3提取的地名 區(qū)域之內(nèi)的、由單字符區(qū)域檢測單元1輸出的單字符區(qū)域的特征。字典 匹配單元62隨后將特征提取單元61得到的各單字符區(qū)域的特征與單字 符字典單元59內(nèi)存儲的單字符漢字特征進行匹配。輸出每個單字符區(qū)域 的從1到N個候選對象。5的方框圖。
基于單字符地名識別單元El的地名識別結(jié)果和整體地名識別單元4 所得的地名識別結(jié)果,地名校驗單元5將對其進行校驗和組合。圖11是 根據(jù)本發(fā)明實施例的地名校驗單元5的方框圖。如圖11所示,地名校驗 單元5中包括編輯距離計算單元55、整體識別與單字符識別結(jié)合單元58。
編輯距離計算單元55將計算出單字符識別單元El所得地名結(jié)果和 所有合乎關(guān)鍵字符限定的、包含在上一級地名識別出的地址所轄地名之 間的編輯距離。遞歸與整體識別與單字符識別結(jié)合單元58利用編輯距離 計算單元55把整體地名識別單元4所得結(jié)果與單字符識別單元El所得 結(jié)果相結(jié)合。根據(jù)整體地名識別單元4所得的候選順序或者隊列,整體 識別及單字符識別結(jié)合單元58將計算出各個地名的總體排名,最終輸出 排名最前的地名。
具體的地名校驗過程如下-
首先,編輯距離計算單元55運用動態(tài)規(guī)劃(參見E. Ukkonen,《簡 論近似串匹配》,Comp. Theory, Springer-Verlag, LNCS, 158巻, 487-495頁,1983年?;蛘逽. B. Needleman和C. D. Wunsch,《兩 種蛋白質(zhì)的氨基酸序列相似性研究所用的普遍方法》,Molec. Biol 雜志,48巻,443-453頁,1970年)來計算方程(1)(在后定義)中所 定義的各個由某個關(guān)鍵字符所限定的、包含在上一級地名所轄區(qū)域以 內(nèi)的合理地名與單字符識別單元E1所得的結(jié)果/F之間的編輯距離。編輯 距離表示將單字符單元識別結(jié)果通過插入、替換、和刪除等操作,變?yōu)槟?一合理地名的操作數(shù)(具體在后定義)。因此,當(dāng)某一合理地名的編輯距離 小時,則說明該地名和單字符識別結(jié)果相差很小,當(dāng)某一合理地名的編輯 距離大時,則說明該地名和單字識別結(jié)果相差很大。
在本發(fā)明中,編輯距離的定義如下
假設(shè)S為一 /7維向量,表示一有n個字符的地名,^為一 Wxm矩陣, 其中Kj表示輸入的地名圖像中第2'個單字符區(qū)域或連通域的第J'個識別
候選,K則表示第i個單字符區(qū)域或連通域的識別結(jié)果,即為一"維識別
候選列表。那么,5"和F之間的編輯距離就是考慮調(diào)整候選,通過插入、與k之間的代價計算如
下
1 如果v_/ c^aw)"^如果3y (1)
Aw
其中A是輸入的地名圖像中單字符區(qū)域的總數(shù),^是該地名圖像中 每個單字符區(qū)域的識別的候選數(shù)。
因此,如果某個連通域的識別候選w中存在待匹配地名5"中的某字符
&,則該字符越在候選隊列厭的前面(即存在小的丄匹配距離,滿足 ^ =&),匹配代價越小,則《越有可能是& 。反之,該字符越在候選隊列 k的前面(即存在大的j,匹配距離,滿足^;&),匹配代價越大,則k越 有可能不是& 。
整體識別與單字符識別結(jié)合單元58利用編輯距離計算單元55,通過 下列步驟將整體識別結(jié)果與單字符地名識別結(jié)果相結(jié)合-
(1) 計算每個在上級地名所轄之內(nèi)的,以當(dāng)前關(guān)鍵字限定的地名Ai
的權(quán)重。權(quán)重按照如下方程計算
A) - (1 - rt) x i a";t一五D( A) + d x ! (2)
其中,A'是整體地名識別單元4所得的第i個候選地名,f/ ""
表示Ai的編輯距離,/ 朋^j^n 表示與單字識別候選矩陣的編輯距
離的排序位置,H等于ro〃/7oY^^i"A。 ro"/7GYW(^'"表示對f"a" 取整。
(2) 由小到大排序所有上級地名所轄之內(nèi)的,以當(dāng)前關(guān)鍵字限定的地 名Ai的權(quán)重。并取最小的Ai作為當(dāng)前識別地名。
如果Zi的編輯距離非常小,說明單字符識別結(jié)果的可靠性就較高, 分給/ 朋Aj叨Q"的權(quán)重a-f"就多;如果力i的編輯距離很大,則H很 大,那么整體識別單位所得的候選排序i就在計算權(quán)重中起較大的作用。 也就是說,如果A'的編輯距離足夠小,單字符識別的結(jié)果可信;如果所 有合理地址的編輯距離都足夠大,那么單字符識別的結(jié)果就不大可信, 這時需要輸出整體地名識別單元所得的識別結(jié)果作為合并地名。因為合 并了整體地名識別單元所得的識別結(jié)果和單字符識別的結(jié)果,系統(tǒng)正確性的得到了很大的提高。
圖12是根據(jù)本發(fā)明的地址校驗的例示圖.
在圖12中,(A)、 (B)的輸入地址圖像實際地址為"武漢市二盛一 巷"。假設(shè)此時第一級地名武漢已被識出,關(guān)鍵字巷也被識別出。(A)例 示了對"二盛一"圖像區(qū)域內(nèi)的由單字符區(qū)域檢測單元1所得的單字符 區(qū)域的單字識別結(jié)果。W,、 W2、W3分別表示對"二"、"盛"、"一"單 字區(qū)域的識別候選列。假設(shè)候選數(shù)目為3。 (B)例示了對"二盛一"圖像 區(qū)域釆用整體識別得到的地名候選,假設(shè)在武漢市內(nèi)的巷的地名只有三 個,分別為"二盛","二盛一",和"二旺一"。
根據(jù)地名校驗,(A)中的W—W,,W2,WJ矩陣與所有的在武漢市所轄范 圍之內(nèi)的、被"巷"所限定的地名(gP "二盛","二盛一",和"二旺 一")的編輯距離將被計算。比如"二盛"和W通過動態(tài)規(guī)劃,其最小的 編輯距離將在把"二"匹配為Wi ,"盛"匹配為W2,同時增加一空的字 符(記為NULL)和W3匹配.其匹配代價為
Cost( "二" , W,) = (2-l)/(3*3)=l/9;
Cost("盛",W2) = (l-1) /(3*3)=0;
Cost (NULL, W3)=l:
因此,W和"二盛"的編輯距離為1/9+0+1=10/9;
同理,W和"二盛一"的編輯距離計算過程如下
Cost("二", W》=(2-l)/(3X3)=l/9;
Cost("盛",W2) = (l-1) /(3X3)=0;
Cost(" — ", W3) = (2-1) /(3X3)=l/9;
因此,W和"二盛一"的編輯距離為1/9+0+1/9=2/9;
同理,W和"二旺一"的編輯距離計算過程如下
Cost("二", W》=(2—1)/(3X3) =1/9;
Cost("旺",W2) = (l-1) /(3X3)=1;
Cost(" — ", W3) = (2-1) /(3X3)=l/9;
因此,W和"二旺一"的編輯距離為1/9+1+1/9=11/9;
所以,所有在武漢市所轄的巷的地名的編輯距離排序為"二盛一","二盛","二旺一"。
根據(jù)校驗規(guī)則(l),因為此時"二盛一"的編輯距離為1/9最小,所 以"二盛一"被校驗為正確的地名.
圖13是依據(jù)本發(fā)明實施例的據(jù)識單元的方框圖。
如圖13所示,據(jù)識單元6包含特征提取單元63、據(jù)識確認(rèn)單元64 和據(jù)識訓(xùn)練單元65。
具體而言,特征提取單元63從各級地名圖像區(qū)域提取特征 ",k, …,其中,k (0〈i〈N+l)為從第i級地名提取的特征,N 為地名的總的級數(shù)。據(jù)識確認(rèn)單元64將從特征提取單元63得到的特征 傳入由據(jù)識訓(xùn)練單元65得到的映射函數(shù)f中,并計算該函數(shù) f(R,y。K,…,w)的函數(shù)值。如果該值大于O,則接收該識別結(jié)果為正 確的地址,否則,拒絕該識別結(jié)果。
據(jù)識訓(xùn)練單元65,用一套從真實地址圖像中收集而來的訓(xùn)練集合進 行訓(xùn)練。對于不伺的地址樣品,各級地名識別的匹配距離被收集起來作 為特征。如果正確識別了地址樣品,該地址圖像將標(biāo)記為接受或+1,反 之則標(biāo)記為拒識或-l。
其根據(jù)為《圖形識別支持向量機器教程》(克里斯多佛 J C 巴格 斯,發(fā)表于《采集數(shù)據(jù)及發(fā)掘知識》,第二巻,2, 121-167頁,1998)。 映射函數(shù)(下文稱為分類器)可以在訓(xùn)練數(shù)據(jù)中自動完成根據(jù)特征進行 分類的過程。該分類器將作為新地址評估的拒識規(guī)則,根據(jù)該功能所得 出的結(jié)果為肯定(〉0)還是否定(<0)來確定是拒識還是接受識別結(jié)果。此 項功能可以針對地址質(zhì)量相應(yīng)生成適應(yīng)性的拒識規(guī)則,從而提高地址識 別的可靠度。
圖14示出了依據(jù)本發(fā)明實施例的地址識別裝置的詳細(xì)方框圖。 如圖14所示,依據(jù)本發(fā)明的地址識別裝置包括單字符區(qū)域檢測單元 1、候選關(guān)鍵字符提取單元20、關(guān)鍵字符路徑選取單元15、地名區(qū)域提 取單元3,單字符識別單元E1、遞歸和整體地名識別單元4、地名校驗單 元5、單字符識別單元69以及據(jù)識單元6。單字符區(qū)域檢測單元1包括 連通域標(biāo)識單元34、候選單字符區(qū)域確定單元35、平均字符大小計算單元36、像素投影單元37、候選臨時分離點提取單元38、以及候選臨時分 離點確定單元39。
連通域標(biāo)識單元34從輸入的二元化的圖像中標(biāo)識出連通域。候選單 字符區(qū)域確定單元35根據(jù)標(biāo)識出的連通域的大小、位置及其與相鄰連通 域間的距離等信息,綜合各個連通域,最終確定出候選單字符區(qū)域。
平均字符大小計算單元36將濾除與其它連通域大小不符的圖形, 并計算出平均的字符大小。
像素投影單元37豎直投影輸入地址圖像(假如圖像是水平書寫)或 水平投影輸入地址圖像(假如圖像是豎直書寫)。對圖像進行豎直(或水 平)投影將得到圖像橫向(縱向)每點的黑色像素的數(shù)目。
臨時候選分割點提取單元38和臨時候選分割點確認(rèn)單元39用來分 割由單字符區(qū)域確定單元35輸出的新的連通域為真實的字符區(qū)域,即用 來分割相連字符為獨立的單一字符。
臨時候選分割點確認(rèn)單元39將確定出由臨時候選分割點提取單元 38得到的臨時分割點是否為真正的相鄰字符區(qū)域分割點。
關(guān)鍵字符詞典41收錄存儲了所有關(guān)鍵字符的特征。
關(guān)鍵字符候選提取單元20中包括特征提取單元42、詞典匹配單元 43、以及候選關(guān)鍵字符確認(rèn)單元44。
特征提取單元42提取單字符區(qū)域檢測單元1分離出來的區(qū)域的特 征。詞典匹配單元43將把特征提取單元42提取出來的特征與儲存在關(guān) 鍵字符詞典41中的特征進行匹配,輸出從1到N個候選字符。然后,關(guān) 鍵字符候選確定單元44將確定候選的關(guān)鍵字符是否是真實的關(guān)鍵字符。 如果該候選的關(guān)鍵字符的匹配距離與第一個候選字符之比小于預(yù)定的閾 值,那么它就是一個真的關(guān)鍵字符。
地址多級結(jié)構(gòu)知識單元24中存儲了地址分級結(jié)構(gòu)的知識。例如,關(guān) 鍵字符省可以包含關(guān)鍵字符市,但關(guān)鍵字符市就不能包括省。
關(guān)鍵字符路徑選擇單元15包括關(guān)鍵字符路徑識別單元21和關(guān)鍵字 符路徑過濾單元22。
關(guān)鍵字符路徑識別單元21將參考地址分級結(jié)構(gòu)知識單元24,確定出合理的關(guān)鍵字符路徑。關(guān)鍵字符路徑過濾單元22中將儲存多條關(guān)鍵字
符路徑,計算出各條路徑中關(guān)鍵字符的平均匹配距離,最終輸出K條關(guān) 鍵路徑,其中K是一個預(yù)設(shè)的整常數(shù)。
地名區(qū)域提取單元3將提取出某一條關(guān)鍵字符路徑中某一個關(guān)鍵字 符限定的地名區(qū)域。
地名詞典54中存儲了地址中各個地名的特征向量。
對于地名提取單元3中提取出來的地名,整體地名識別單元4將逐 個地進行整體識別。整體地名識別單元4中包括特征地名匹配單元27,候 選地名評估單元,遞歸匹配評估單元29.
地名匹配單元27從與各級地名相對應(yīng)的圖像中提取特征,并與地名 詞典單元54中存儲的地名特征進行匹配,由此輸出7至7Vfc個候選對象。 候選地名評估單元28對這1至Wc個候選對象進行評估,從中確定若干個 候選對象作為下級地址的上級行政單位。遞歸匹配評估單元29計算所有 的候選地址的平均距離,并從中選出具有最小平均匹配距離的地址為最 后的識別結(jié)果。
單字符詞典單元59中存儲了地址中各個字符的特征向量。
單字符識別單元El將逐個識別單字符區(qū)域檢測單元40輸出的單字 符區(qū)域,這些單字符區(qū)域包含在地名區(qū)域提取單元51提取的地名區(qū)域內(nèi)。 單字符識別單元El中包含了特征提取單元61和詞典匹配單元62。
針對單字符區(qū)域檢測單元40所得的單字符區(qū)域,特征提取單元61 將提取它們的特征向量,這些單字符區(qū)域包含在地名區(qū)域提取單元51提 取的地名區(qū)域內(nèi)。然后,詞典匹配單元62將把特征提取單元61所得的 特征向量與單字符詞典單元59中存儲的特征向量相比較,輸出每個單字 符區(qū)域的從l到N個候選對象.
針對單字符識別單元El所得的地名識別結(jié)果和整體地名識別單元4 所得的地名識別結(jié)果,地名校驗單元5將對其進行校驗并合并。地名校 驗單元68中包括編輯距離計算單元55,以及合并單元58。
編輯距離計算單元55將計算出單字符識別單元El所得結(jié)果和所有 合乎關(guān)鍵字符限定、包含在上一級地名識別出的地址以內(nèi)的地名之間的編輯距離。遞歸與整體識別及單字符識別的聯(lián)合單元58將把整體地名識 別單元4所得結(jié)果與單字符識別單元El所得結(jié)果相結(jié)合。遞歸與整體識 別及單字符識別的聯(lián)合單元58將計算出各個地名的總體排名,最終輸出 排名最前的地名。
單字符識別單元69將識別那些既不是地名又不是關(guān)鍵字符的圖形。 它包括了特征提取單元61和詞典參考單元62。
拒識訓(xùn)練單元65將根據(jù)所得的一批地址訓(xùn)練支持向量機分類器。 拒識單元6將確定是否接受識別結(jié)果,它包括特征提取單元63和拒 識確定單元64。特征提取單元63將提取特征向量。根據(jù)拒識訓(xùn)練單元 65輸出的支持向量機分類器,拒識確定單元64將確定并輸出是否接受識 別結(jié)果。
最后,如果結(jié)果未遭到拒識,拒識評估單元6將輸出識別結(jié)果,反 之輸出錯誤。
前面對本發(fā)明實施例的描述是示例性和說明性的,并不是排他性的, 也不是為了將本發(fā)明限制到所公開的確切形式。顯然,對于本領(lǐng)域的普 通技術(shù)人員,很多修改和變型是顯而易見的。選擇并說明這些實施例是 為了最好地說明本發(fā)明的原理及其實際應(yīng)用。從而使得本領(lǐng)域的其他技 術(shù)人員能夠理解用于各種實施例的本發(fā)明以及本發(fā)明適于特殊使用目的 的變型。例如本發(fā)明也可應(yīng)用于日語和韓文手寫地名的識別。此外,在 本文中使用匹配距離來判斷相似程度,但判斷相似程度也可使用匹配距 離以外的方法,例如特征向量之間的余弦夾角,特征向量之間的街區(qū)距 離等,因此本發(fā)明的匹配距離應(yīng)作廣泛的解釋,是本領(lǐng)域技術(shù)人員所能 想到的相似程度的定量表示。
權(quán)利要求
1、一種整體地名識別方法,包括用于識別含有某一行政級別地名的地名圖像中的地名的整體識別步驟,所述整體識別步驟包括提取步驟,提取所述地名圖像的特征向量;匹配步驟,將所提取的特征向量與地名字典中的地名的特征向量相匹配,尋找所有可能候選地名;其特征在于,當(dāng)所述地名字典中的地名的特征向量與所提取的特征向量的匹配距離小于預(yù)定閾值時就將該地名判斷為可能候選地名。
2、 根據(jù)權(quán)利要求1所述的整體地名識別方法,其特征在于,所述整 體識別步驟還包括候選地名評估的步驟,在所述匹配步驟中獲得多個可 能候選地名時,按預(yù)定的規(guī)則對所述多個可能候選地名進行篩選。
3、 根據(jù)權(quán)利要求2所述的整體地名識別方法,其特征在于,所述預(yù) 定規(guī)則為只選取匹配距離與第一可能候選地名的匹配距離之差和第一可 能候選地名的匹配距離的比小于預(yù)定閾值的可能候選地名,所述第一可 能候選地名為對所述多個可能候選地名根據(jù)匹配距離排序后,排名第一 的可能候選地名。
4、 根據(jù)權(quán)利要求l、 2或3所述的整體地名識別方法,其特征在于, 所述整體識別步驟還包括單字符識別的步驟,識別所述地名圖像中的各單字符區(qū)域中的字符 的候選字符;地名校驗的步驟,根據(jù)單字符識別步驟的地名識別結(jié)果對整體識別 步驟的地名識別結(jié)果進行篩選。
5、 根據(jù)權(quán)利要求4所述的整體地名識別方法,其特征在于,所述地 名校驗的步驟包括以下步驟計算所述整體識別步驟的各地名識別結(jié)果與所述單字符識別步驟的 地名識別結(jié)果之間的編輯距離的步驟;計算所述各編輯距離的排序位置的步驟;根據(jù)所述編輯距離的排序位置依據(jù)以下公式計算權(quán)重的步驟<formula>formula see original document page 3</formula>在該公式中,A'是所述整體地名識別步驟所得的第i個候選地名, 朋""表示Ai的編輯距離,/ 朋t朋""表示該編輯距離的排序位置,W 等于row7c/但""j'"A, roi7/7jTii7(^y"表示對^ ""取整,k是所述地 名圖像中單字符區(qū)域的總數(shù),weight (Ai)表示該第i個候選地名的權(quán)重;根據(jù)所計算出的權(quán)重,對所述整體識別步驟的地名識別結(jié)果迸行篩選。
6、 根據(jù)權(quán)利要求l一3任一項所述的整體地名識別方法,其特征在 于,所述地名整體識別步驟還包括匹配評估的步驟,當(dāng)所述整體識別步 驟為分別含有行政級別依次降低的地名的多個地名圖像分別識別出一個 或更多個候選地名時,計算由相對應(yīng)的最高一級候選地址到最低一級候 選地址所形成的各條路徑的平均匹配距離;并只選取所述平均匹配距離 最小的路徑。
7、 根據(jù)權(quán)利要求4所述的整體地名識別方法,其特征在于,所述地 名整體識別步驟還包括匹配評估的步驟,當(dāng)所述整體識別步驟為分別含 有行政級別依次降低的地名的多個地名圖像分別識別出一個或更多個候 選地名時,計算由相對應(yīng)的最高一級候選地址到最低一級候選地址所形 成的各條路徑的平均匹配距離;并只選取所述平均匹配距離最小的路徑。
8、 根據(jù)權(quán)利要求7所述的方法,還包括單字符識別的步驟,當(dāng)多條路徑存在和最小平均匹配距離比較接近 的平均匹配距離時,對在該多條路徑中具有多個可能候選地名的地名圖 像進行單字符識別;地名校驗的步驟,根據(jù)單字符識別步驟的地名識別結(jié)果對該地名圖 像的可能候選地名進行篩選;所述地名校驗的步驟包括以下步驟計算所述地名圖像的各可能候選地名與所述單字符識別步驟的地名 識別結(jié)果的編輯距離的步驟;計算所述各編輯距離的排序位置的步驟;根據(jù)所述編輯距離的排序位置依據(jù)以下公式計算權(quán)重的步驟<formula>formula see original document page 4</formula>在該公式中,A'是所地名圖像的第i個可能候選地名,W(^ 表示Ai的編輯距離,Wa;7A—W""表示該編輯距離的排序位置,H等于 i^7/7flY朋(^'"A, T^/;^伍Z^i"表示對^Z ""取整,k是所述地名圖 像中單字符區(qū)域的總數(shù),weight (Ai)表示該第i個候選地名的權(quán)重; 根據(jù)所計算出的權(quán)重,確定最終候選地名。
9、 根據(jù)權(quán)利要求8所述的方法,還包括 地名拒識的步驟,用于接受或拒絕所述最終候選路徑; 所述地名拒識步驟包括 提取各級地名區(qū)域的特征的步驟;利用拒識訓(xùn)練所得的映射函數(shù)對所提取的各級地名區(qū)域的特征進行 分析的步驟;根據(jù)分析的結(jié)果判斷接受還是拒識所述地址的步驟。
10、 一種整體地名識別裝置,包括 提取單元,提取所輸入的地名圖像的特征向量; 地名字典單元,用于保存地名;匹配單元,將所提取的特征向量與地名字典中的地名的特征向量相 匹配,尋找所有可能候選地名及其匹配距離;其特征在于,當(dāng)所述地名字典中的地名的特征向量與所提取的特征 向量的匹配距離小于預(yù)定閾值時,所述匹配單元就將該地名判斷為可能 候選地名。
11、 根據(jù)權(quán)利要求10所述的整體地名識別裝置,其特征在于,還包 括候選地名評估單元,當(dāng)所述匹配單元得到多個可能候選地名時,依據(jù) 一定的規(guī)則對所述多個可能候選地名進行過濾。 .
12、 根據(jù)權(quán)利要求11所述的整體地名識別裝置,其特征在于,所述 預(yù)定規(guī)則為僅選取匹配距離與第一可能候選地名的匹配距離之差和該第 一可能候選地名的匹配距離的比小于預(yù)定閾值的可能候選地名,所述第 一可能候選地名為對所述多個可能候選地名根據(jù)匹配距離排序后,排名 第一的可能候選地名。
13、 根據(jù)權(quán)利要求IO、 11或12所述的整體地名識別裝置,還包括:匹配評估單元,當(dāng)所述地名識別裝置輸入了分別含有行政級別依次 降低的多個地名圖像,對這些地名圖像的識別形成了行政級別從高到低 的多條地址路徑時,所述匹配評估單元用于對所述多條路徑進行評估, 確定最終候選路徑。
14、 根據(jù)權(quán)利要求13所述的裝置,其特征在于,所述匹配評估單元 分別計算各路徑的平均匹配距離,將所述平均匹配距離最小的路徑判斷 為最終候選路徑。
15、 根據(jù)權(quán)利要求13所述的裝置,其特征在于,還包括拒識單元, 所述拒識單元用于確定接受或拒絕所識別出的各地址。
16、 根據(jù)權(quán)利要求15所述的裝置,其特征在于,所述拒識單元包括-特征提取單元,用于提取各地名區(qū)域的特征;拒識訓(xùn)練單元,用于進行拒識訓(xùn)練獲得映射函數(shù);拒識確認(rèn)單元,用于利用所述映射函數(shù),根據(jù)所提取的各級地名區(qū) 域的特征判斷接受還是拒識所述地址。
17、 根據(jù)權(quán)利要求13所述的裝置,還包括單字符識別單元,當(dāng)多條路徑存在和最小平均匹配距離比較接近的 平均匹配距離時,對在該多條路徑中具有多個可能候選地名的地名圖像進行單字符識別;或者在所述匹配單元為一個地名圖像識別出多個可能 候選地名時,對該有多個可能候選地名的地名圖像進行單字符識別;地名校驗單元,根據(jù)單字符識別單元的地名識別結(jié)果和匹配評估單 元的輸出結(jié)果,對所述有多個可能候選地名的地名圖像的候選地名進行 篩選。
18、 根據(jù)權(quán)利要求17所述的裝置,其特征在于,所述地名校驗單元包括編輯距離計算單元,用于分別計算所述由多個可能候選地名的地名圖像的各個候選地名與單字符識別單元的地名識別結(jié)果的編輯距離;整體識別與單字符識別結(jié)合單元,用于根據(jù)所述編輯距離計算單元 所計算出的編輯距離確定所述有分歧地名圖像的最終整體地址。
全文摘要
本發(fā)明涉及整體地名識別方法和整體地名識別裝置。該整體地名識別方法包括用于識別含有某一行政級別地名的地名圖像中的地名的整體識別步驟,所述整體識別步驟包括提取步驟,提取所述地名圖像的特征向量;匹配步驟,將所提取的特征向量與地名字典中的地名的特征向量相匹配,尋找所有可能候選地名;其特征在于,當(dāng)所述地名字典中的地名的特征向量與所提取的特征向量的匹配距離小于預(yù)定閾值時就將該地名判斷為可能候選地名。
文檔編號G06K9/00GK101645134SQ200910002280
公開日2010年2月10日 申請日期2005年7月29日 優(yōu)先權(quán)日2005年7月29日
發(fā)明者堀田悅伸, 俊 孫, 直井聰, 黃開竹 申請人:富士通株式會社