本發(fā)明涉及一種地址標準化方法。
背景技術(shù):
百分之八十的商業(yè)活動都離不開地址。準確的地址,不僅可幫助商業(yè)機構(gòu)和政府機關(guān)減少郵件費用,甚至還可降低欺詐風(fēng)險,促進社會和諧發(fā)展。對于商業(yè)機構(gòu)來說,如何能在第一時間判斷出錯誤地址,不完整地址,并提醒客戶相關(guān)的正確地址,進而通過地理信息系統(tǒng)將這些地址空間化表達,實現(xiàn)各種信息在不同部門,不同行業(yè)之間的數(shù)據(jù)共享,這是提升競爭力和獲益能力的關(guān)鍵。
目前商業(yè)社會和政府部門都存有大量與地址有關(guān)的地理位置信息,這些數(shù)據(jù)大多是非空間信息,無法通過地理信息系統(tǒng)來實現(xiàn)行業(yè)之間的數(shù)據(jù)共享。因此,城市地址信息空間化是數(shù)字城市建設(shè)的重要組成部分。
地理編碼技術(shù)正是實現(xiàn)城市地址信息空間化的方法,它提供了一種將文本描述的地址信息轉(zhuǎn)換為地理坐標的方式,通過編碼技術(shù)和地址匹配來確定此地址數(shù)據(jù)在電子地圖上對應(yīng)的地理實體位置。通過地理編碼技術(shù),大量的社會經(jīng)濟數(shù)據(jù)將變成坐標化的空間信息,從而進行更快速有效的空間分析,為政府決策和商業(yè)決策提供支持。
國內(nèi)的地理編碼技術(shù)研究起步比較晚而且進展比較緩慢,從上世紀80年代才逐步開展了城市地址編碼的研究工作。最早是北京市城市規(guī)劃設(shè)計研究院1988年開始《北京市城市地理編碼》的研究,并組織相關(guān)單位編制了《城市基礎(chǔ)地理信息系統(tǒng)技術(shù)規(guī)范》提出了地名、門牌和樓牌的采集原則。之后還建設(shè)了北京市的地址編碼數(shù)據(jù)庫,研究了地址數(shù)據(jù)的采集工藝流程,建立了標準地址模型。隨后,國內(nèi)的其他城市如上海、大連、廣州等,在建設(shè)城市地理信息系統(tǒng)的同時也開展了地理編碼的研究。
國內(nèi)一些公司和科研單位也在研究適合我國使用的地址編碼技術(shù)和標準,并開發(fā)了一些應(yīng)用軟件,例如:
北京長地公司的“尋址神”;北大方正的“小紅帽物流管理系統(tǒng)”;超圖的“客戶關(guān)系管理系統(tǒng)”;supermapobjects.net/java6r中的地址匹配模塊提供了中文地址模糊匹配搜索的功能。
圖信時代研發(fā)的地理編碼系統(tǒng)mapworldgeocodingsystem,包括數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)清洗以及地址匹配三個子系統(tǒng)。建設(shè)了基礎(chǔ)地理信息庫,可以對不同的精度要求提供地址匹配服務(wù),并將結(jié)果定位到地圖上進行可視化展示與應(yīng)用。geocoding服務(wù)返回的結(jié)果可包括:地址的經(jīng)緯度信息,國家行政區(qū)劃代碼,6位郵編號碼,人口普查信息鄉(xiāng)鎮(zhèn)街道名等等。
山海易繪的地址編碼系統(tǒng)提供了比較全面的地址信息編碼和匹配方案,可以快速地將以自然語言描述的地址信息定位到地圖上,使得以前傳統(tǒng)的mis數(shù)據(jù)和gis數(shù)據(jù)可以互相融合利用。
mapgis-ems是中地公司自主研發(fā)的面向嵌入式終端的gis開發(fā)平臺,全面應(yīng)用構(gòu)件技術(shù)、中間件技術(shù),整合最新的gis技術(shù)、嵌入式操作系統(tǒng)和網(wǎng)絡(luò)通訊技術(shù),實現(xiàn)了利用地址簿進行快速地址查詢及實現(xiàn)了模糊地址匹配。
由于區(qū)域面積比較小,地址編碼的工作量相應(yīng)的就比較小。因此,香港特別行政區(qū)和臺灣省的地址匹配精確度相對于大陸是比較高的。香港的匹配精度可達到街道門牌和建筑物,臺灣省可以達到街道和主要景點。
不同行業(yè)或部門都有自己不同的需求,以不同的形式采集、處理和傳播空間信息,因此采集的地址數(shù)據(jù)的格式和質(zhì)量有很大區(qū)別,存在輸入拼寫錯誤或者表達模糊、地址殘缺等情況。比如由于地址規(guī)范不統(tǒng)一,同一個地址可能有好幾種不同寫法。同樣一個小區(qū),開發(fā)商可能一個叫法,銷售商另外一個,老百姓約定俗成又是一個。銀行a可能記下來一個,保險公司b又是另外一個,水,電,煤,有線,電信,寬帶等等各行其是。
前述由于地址規(guī)范不統(tǒng)一,導(dǎo)致的同一個地址可能有好幾種不同寫法的問題,除了對商業(yè)機構(gòu)本身造成困擾,也會對機關(guān)間的合作造成極大不便,客戶信息無法充分整合,資源極大浪費。歸根到底,這是由于地址不規(guī)范,不完整,不準確的原因。
因此,在進行地理編碼之前,需要將這些來源不同的混亂數(shù)據(jù)進行清洗和預(yù)處理,并按照確定的標準地址模型進行修改,使地址數(shù)據(jù)用一致的形式表現(xiàn)出來。
技術(shù)實現(xiàn)要素:
為解決地址不規(guī)范不統(tǒng)一造成的前述問題,根據(jù)本發(fā)明的一個方面,提出一種地址標準化方法,又叫做地址規(guī)范化方法,其通過地址拆分、修改或去除錯誤地址、完善模糊地址等方法對地址數(shù)據(jù)進行處理,使其滿足確定的地址模型的要求。具體技術(shù)方案包括:
建立地址分層系統(tǒng)模型,并針對每個層級預(yù)置字典庫;
根據(jù)字典庫確定每個層級的地址要素通名;
接收第三方地址信息;
按照通名,利用正則表達式對第三方地址信息初步劃分層級;
將正則表達式劃分的結(jié)果與地址分層系統(tǒng)進行正則匹配;
對匹配成功后不完整的地址信息進行補齊;
將補齊后的地址信息作為標準地址保存在標準地址庫;以及
將標準化結(jié)果匯總輸出。
進一步地,在正則匹配的步驟之后還包括:
分詞匹配步驟,對接收的無法匹配或無法拆分的部分地址信息進行分詞匹配處理;以及
地址信息修正的步驟,將分詞后仍無法匹配的地址信息按照預(yù)置的修正標準與標準地址庫進行對比修正,如果得到的修正結(jié)果唯一,則將地址信息替換為修正后的地址信息,并將修正后的地址信息保存在標準地址庫中。
進一步地,修正標準包括通名修正、別名修正、舊名修正、同音修正和別字修正。
進一步地,地址分層系統(tǒng)為四級六層地址分層系統(tǒng);四級分別為行政區(qū)級、路弄級、樓棟級和室級;六層分別為屬于行政區(qū)級的區(qū)縣、街道、居委,屬于路弄級的路弄,屬于樓棟級的樓號和屬于室級的室號。
進一步地,分詞匹配處理采用逆向最大匹配法。
根據(jù)本發(fā)明的另一個方面,提出一種地址標準化裝置,包括:
地址分層系統(tǒng)模型建立單元,地址分層系統(tǒng)模型建立單元被配置為建立地址分層系統(tǒng)模型,并針對每個層級預(yù)置字典庫;
通名確定單元,通名確定單元根據(jù)字典庫確定每個層級的地址要素通名;
接收單元,接收單元接收第三方地址信息;
層級劃分單元,層級劃分單元按照通名,利用正則表達式對第三方地址信息初步劃分層級;
正則匹配單元,正則匹配單元將正則表達式劃分的結(jié)果與地址分層系統(tǒng)進行正則匹配;
補齊單元,補齊單元對匹配成功后不完整的地址信息進行補齊;
存儲單元,存儲單元將補齊后的地址信息作為標準地址保存在標準地址庫中;以及
輸出單元,輸出單元將標準化結(jié)果匯總輸出。
進一步地,還包括:
分詞匹配單元,分詞匹配單元對接收的無法匹配或無法拆分的部分地址進行分詞匹配處理;以及
地址信息修正單元,地址信息修正單元將分詞后仍無法匹配的地址信息按照預(yù)置的修正標準與標準地址庫進行對比修正,如果得到的修正結(jié)果唯一,則將地址信息替換為修正后的地址信息,并將修正后的地址信息保存在標準地址庫中。
根據(jù)本發(fā)明的另一個方面,提出一種非易失性存儲介質(zhì),在存儲介質(zhì)上存儲有地址標準化程序,地址標準化程序被計算機執(zhí)行以實施前述的地址標準化方法。
根據(jù)本發(fā)明的另一個方面,提出一種計算機,包括:
存儲器,存儲器存儲有計算機可以執(zhí)行的地址標準化程序;以及
處理器,連接至存儲器,并且被配置為執(zhí)行地址標準化程序以實現(xiàn)前述的地址標準化方法。
本發(fā)明是地址匹配的重要組成部分,不論是標準地址編碼數(shù)據(jù)庫的建設(shè),還是原始地址匹配,都要通過地址標準化這一過程才能完成。本發(fā)明能夠有效解決前述地址規(guī)范不統(tǒng)一的問題,為商業(yè)機構(gòu)鋪橋墊路,打造智慧城市的基礎(chǔ)。
附圖說明
圖1是根據(jù)本發(fā)明的一個實施例的四級六層地址分層系統(tǒng)示意圖。
圖2是根據(jù)本發(fā)明的一個實施例的地址標準化方法流程圖。
圖3是根據(jù)本發(fā)明的另一實施例的地址標準化方法流程圖。
圖4是根據(jù)本發(fā)明的一個實施例的正向最大匹配法的分詞流程示意圖。
圖5是根據(jù)本發(fā)明的一個實施例的更細層次的分層模型示意圖。
圖6是根據(jù)本發(fā)明的一個實施例的地址標準化裝置示意圖。
具體實施方式
下面結(jié)合具體實施例和附圖對本發(fā)明做進一步說明。
要進行地址的標準化,首先要確定一個當前適用的標準地址模型。地址模型的建立要結(jié)合中文地址的特點。中文地址通常有以下特點:
1.日常生活中所用的地址很多都不是傳統(tǒng)的街道地址形式。例如地址字段上海市武東路財大科技園13f,對比正確的地址上海市楊浦區(qū)武東路財大科技園13f,缺少了必要的“區(qū)”以及道路信息,這加大了地址匹配的難度。
2.由于一些歷史遺留問題,或者地方性的約定俗成的習(xí)慣,有些地名地址還是歷史地址,沒有重新規(guī)劃命名,也造成了城市地名地址的偏僻、混亂或重復(fù)現(xiàn)象。
3.漢語字符串的組成較之英文多了一層,英文單詞獨立成詞且有符號進行分割,而漢語詞組是由字組成的,而且中文地址的表達沒有空格或者逗號之類的符號。
下面首先引入一些地址組成的基本概念:
1.地址串:就是一般的地址,日常的通信門牌地址。例如:上海市楊浦區(qū)武東路198號。
2.地址要素:組成地址串的若干詞組,如前述的地址就是由4個地址要素組成的,分別是“上海市”、“楊浦區(qū)”、“武東路”和“198號”,每個地址要素相對獨立。
3.地址通名:顧名思義,就是地址要素中通用的那些字段。例如:地址要素“楊浦區(qū)”中“區(qū)”為地址通名,“武東路”中“路”為地址通名。地址要素都表示一個地理區(qū)域,按照這個區(qū)域的范圍大小,可以把地址要素分類。同一類地址要素的字符串中都有相同的字段,這些字段就是地址通名。
4.地址專名:例如:“楊浦區(qū)”中“楊浦”為地址專名。地址要素中去掉地址通名后剩余的部分就稱為地址專名。城市的地址模型是一種復(fù)雜的層次模型。為了準確地分析并描述地址模型,需要確定最小地址要素,最小地址要素是指不可再分的地址要素,具有最小的地址意義。
例如,漢中路就是一個最小地址要素,如果再將漢中路拆分為漢、中和路就沒有意義了。
根據(jù)本發(fā)明的一個實施例,可以將地址要素分為3大類,分別是:行政區(qū)界、地址部分和子地址部分。
1.行政區(qū)界
行政區(qū)劃部分:它包括以下幾層:
國家:可以缺省;
省級:可缺省。通名:省、直轄市、自治區(qū)、特別行政區(qū);
市級:不能為空。通名:市、盟、自治州等;
區(qū)縣:可以為空。通名:區(qū)、(縣級)市、縣、旗等;
鄉(xiāng)級:鄉(xiāng)、鎮(zhèn)、街道辦等;
村級:社區(qū)、小區(qū)、村、莊、屯、里等。
2.地址部分:它是一條地址數(shù)據(jù)的核心組成部分,描述地址的具體內(nèi)容。這部分不可以為空。它主要包括:道路和門牌號。
道路通名:路、街、道、大街、大道、胡同、巷、弄、條等。
門牌通名:號、#等。
3.子地址部分:它是一條地址數(shù)據(jù)中剩余的部分,描述地址的補充信息。該部分可以為空。它包括樓牌號、住宅小區(qū)、社區(qū)。
社區(qū)通名:社區(qū)、園等。
住宅小區(qū)通名:小區(qū)、公寓、苑、花園、街坊等。例:翠園小區(qū)。
樓牌號通名:門、棟、號樓、樓、館、堂等。
根據(jù)本發(fā)明的一個實施例,結(jié)合國家和區(qū)域標準,提出四級六層的地址分層系統(tǒng)模型,如圖1所示,并針對每個層級預(yù)置一個字典庫。字典庫包括該層級的通用信息,例如,以上海為例,圖1中的區(qū)縣層可以包括上海的16個轄區(qū)。此外,地址舊名也可以納入字典庫中,并與新名建立映射關(guān)系,例如,原來的上海南市區(qū),其對應(yīng)于現(xiàn)在的黃浦區(qū)。
需要注意的是,該四級六層的地址分層系統(tǒng)僅僅是分層模型的一個示范性實例,在其他實施例中,也可以采用其他層級劃分方式。
根據(jù)本發(fā)明的一個實施例的地址標準化裝置如圖6所示,包括:地址分層系統(tǒng)模型建立單元,所述地址分層系統(tǒng)模型建立單元被配置為建立地址分層系統(tǒng)模型,并針對每個層級預(yù)置字典庫;通名確定單元,所述通名確定單元根據(jù)所述字典庫確定每個層級的地址要素通名;接收單元(圖中未示出),所述接收單元接收第三方地址信息;層級劃分單元,所述層級劃分單元按照所述通名,利用正則表達式對所述第三方地址信息初步劃分層級;正則匹配單元,所述正則匹配單元將正則表達式劃分的結(jié)果與所述地址分層系統(tǒng)進行正則匹配;分詞匹配單元,所述分詞匹配單元對接收的無法匹配或無法拆分的部分地址進行分詞匹配處理;地址信息修正單元,所述地址信息修正單元將所述分詞后仍無法匹配的地址信息按照預(yù)置的修正標準與標準地址庫進行對比修正,如果得到的修正結(jié)果唯一,則將所述地址信息替換為修正后的地址信息,并將修正后的地址信息保存在所述標準地址庫中;補齊單元,所述補齊單元對匹配成功后不完整的地址信息進行補齊;存儲單元,所述存儲單元將所述補齊后的地址信息作為標準地址保存在標準地址庫中;以及輸出單元(圖中未示出),所述輸出單元將標準化結(jié)果匯總輸出??蛇x擇地,在一些實施例中,根據(jù)不同需求,可以包括其他合適的單元,以上單元中的一部分也可以省略。
下面參照圖2介紹根據(jù)本發(fā)明的一個實施例的地址標準化方法。根據(jù)本發(fā)明的一個實施例,建立四級六層的地址分層系統(tǒng)(步驟s201)后,根據(jù)所述字典庫確定每個層級的地址要素通名(步驟s202),接收批量的第三方地址(步驟s203)后,按照所述通名,利用正則表達式對地址信息初步劃分層級(步驟s204)。
根據(jù)本發(fā)明的一個實施例的地址解析正則表達式處理方法如下:
首先進行地址預(yù)處理,包括以下步驟:
1.去除地址進行前后和中間空格,去除“:”、“.”等特殊符號,去除地址中以“下”結(jié)尾的,縣替換“區(qū)”,去除“農(nóng)場村”(農(nóng)場路除外);
2.去除區(qū)縣(解析到區(qū)縣返回)、鎮(zhèn),去除地址中的“復(fù)式”關(guān)鍵字;
3.去除帶“層”信息,“號幢”替換“號”,去除帶“幢”信息,去除帶“單元”的信息。
可選擇地,在其他實施例中,根據(jù)不同需求,以上地址預(yù)處理的步驟可以包括其他未示出的步驟,也可以省略其中的一些或者全部。
地址預(yù)處理后,首先利用正則表達式進行常規(guī)正則匹配(步驟s205),解析出路、弄、樓棟號、室等常規(guī)信息。
隨后,進行非常規(guī)正則匹配,包括:小區(qū)樓棟匹配:小區(qū)、樓棟特殊關(guān)鍵字;路弄樓棟匹配:路弄、樓棟特殊關(guān)鍵字;小區(qū)樓棟房間匹配:小區(qū)、樓棟、房間特殊關(guān)鍵字匹配;房間解析方法:匹配地址中“全幢室”、“樓層-室”等??蛇x擇地,根據(jù)不同地區(qū)的地址特點,還可以加入其它正則匹配方式。
查看匹配結(jié)果(步驟s206),對于匹配成功后的地址信息與地址分層系統(tǒng)模型進行對比,判斷地址信息是否完整(步驟s207),對其中不完整的地址信息按照四級六層的系統(tǒng)模型進行補齊(步驟s208);對于補齊后的地址信息,將保存為標準地址庫(步驟s210);對于其余匹配不上的地址信息,輸出列表并保存(步驟s209);最后將信息匯總輸出(步驟s211),可選擇地,可以同時輸出匹配率等信息,其中匹配率的計算方式為:匹配通過的地址數(shù)量/全部地址數(shù)量。
根據(jù)本發(fā)明的一個實施例,在以上步驟完成后,可選擇地,可以人工對匹配不上的地址進行檢查,確定入庫或修改的地址,通過更新程序更新。
下面根據(jù)附圖3介紹根據(jù)本發(fā)明的另一實施例的地址標準化方法。如圖3所示,步驟s301-s306與前述實施例的步驟s201-s206相同,此處不再贅述。與前述實施例不同的是,在正則匹配的步驟之后,還包括分詞匹配的步驟和地址信息修正的步驟。
而對于步驟s306中被判斷為無法匹配或無法拆分的部分地址可以進行分詞匹配處理(步驟s307)?,F(xiàn)有的中文分詞方法多種多樣,都各有自己的特點。常用的中文分詞方法概括可以分為四大類:基于字典匹配的分詞方法、基于理解的分詞方法、基于統(tǒng)計的分詞方法和基于語義的分詞方法。由于基于語義的分詞方法實現(xiàn)難度大,目前研究較少而不成熟,故不在本研究范圍之內(nèi)。下面詳細的介紹其他幾種方法。
1.基于字典的分詞方法
又叫做基于字符串的分詞方法或機械分詞方法。由于這種方法是基于詞典的,因此要事先準備好一個“充分大的”分詞詞典,“充分大”就是說字典包含的詞語盡量多,盡可能的減少未登錄詞。然后將待切分的漢語字符串,如句子,按照一定的掃描規(guī)則與詞典中的詞條進行匹配。如果在詞典中找到了句子中的某個字符串,則將這個詞切分出來,這就成功匹配識別出一個詞。待切分句子可以按照任意長度或順序分為若干字符串,所以要進行數(shù)次匹配,才能將句子切分為詞。
在字典中進行查詢匹配時的規(guī)則有很多種,根據(jù)掃描方向的不同,可以分為正向匹配和逆向匹配;按照不同長度優(yōu)先匹配的情況,可以分為最大(最長)匹配和最小(最短)匹配。目前最常用的是最大匹配法,有正向和逆向兩種方式。由于漢語單字成詞的特點,最小匹配法一般很少使用。下面分別介紹基于字符串的幾種分詞方法:
(1)正向最大匹配法
最大匹配,意思就是說用最長的中文切分方式,使切分結(jié)果中的詞組盡可能最大長度而其總數(shù)最少。例如,待切分的中文句子“武東路上的財大科技園”,如果在詞典中匹配成功就將詞切分出來,那么切分的結(jié)果應(yīng)該是“武東路/上/的/財大/科技園”。而按照最大匹配的原則,“財大科技園”就是一個詞,有時更符合我們的要求。
它的基本思想是:首先創(chuàng)建一個用于自動分詞的中文詞典,可以得知詞典中的最長詞條的漢字個數(shù),假設(shè)個數(shù)為n。然后,取待切分句子的前n個字符作為匹配字段,在分詞詞典中進行字段的查詢匹配。如果詞典中有這樣的字段,則匹配成功。這樣,由n個字符組成的字段被切分出來,作為一個詞。如果詞典中不存在這樣的字段,則匹配失敗,將字段末尾減去一個漢字,剩下的n-1個字符作為新的字段,再進行匹配,如此重復(fù),直到匹配成功為止。例如句子“武東路上的財大科技園”,假設(shè)字典的最長詞長為5,它的正向最大匹配法的分詞流程如圖4所示。
這種分詞方法過程比較簡單,切分精度與中文詞典的數(shù)據(jù)量和數(shù)據(jù)結(jié)構(gòu)有關(guān),分詞正確率并不是很高。實驗表明,該分詞方法的錯誤率為1/169。
(2)逆向最大匹配法。
它的分詞過程與正向最大匹配法基本相同,不再重復(fù)說明。它與正向最大匹配法不同的是從句子末尾開始切分,如果匹配不成功則減掉最前面的一個字。逆向最大匹配的切分精度略高于正向。通過實驗表明,其分詞錯誤率為1/245。從以上實驗可以看出,逆向匹配的切分精度相對于正向匹配要略高,而且歧義現(xiàn)象也較少。
(3)最少切分詞方法,就是使切分后得到得詞組數(shù)量盡可能的少。
(4)逐詞遍歷法。
這種方法比較另類,它是把詞典中的詞與待切分句子進行匹配,詞典中的每個詞全部都要與切分目標句子匹配一遍。
另外還有很多中文分詞方法,如設(shè)立切分標志法、最佳匹配法、聯(lián)想匹配法、二次掃描法等等。
2.基于理解的分詞方法
它一般有三個部分:分詞子系統(tǒng)、句法語義子系統(tǒng)和總控部分。專家系統(tǒng)分詞法和神經(jīng)網(wǎng)絡(luò)分詞法等都是基于理解的分詞方法。這種方法要利用語法、句法分析來進行分詞,還要結(jié)合語義分析,根據(jù)上下文提供的信息來分析詞的切分,判斷分詞歧義現(xiàn)象。這是一種人工智能的分詞方法,需要使用大量的語言知識和信息,也可以應(yīng)用在本發(fā)明的實施例中。
3.基于統(tǒng)計的分詞方法
這種方法又稱為無字典分詞,也也就是說不用分詞詞典。在概率學(xué)上,單個字組合成詞組的概率是比較大的。當相鄰的字經(jīng)常在語句中出現(xiàn),那么這幾個相鄰字很有可能就是一個詞。因此字與字相鄰出現(xiàn)的概率或頻率能較好反映成詞的可信度。在對待切分語言資料分詞的時候,統(tǒng)計相鄰字組合出現(xiàn)的頻度。如果相鄰字組合出現(xiàn)的頻率遠大于單個字出現(xiàn)的頻率之積,超過了某個閾值,則認為相鄰的字串就是一個詞組。該方法需要應(yīng)用很多統(tǒng)計模型,主要有:n元文法模型、隱markov模型和最大熵模型等。
以上分詞方法各有優(yōu)劣,根據(jù)本發(fā)明的一個實施例,優(yōu)選基于字符串的逆向最大匹配法,在具體的應(yīng)用中,這些方法均可以單獨或組合使用,以便提高分詞的速度和精度。
根據(jù)本發(fā)明的一個實施例,在分詞階段,可以不局限于標準地址四級六層的層次結(jié)構(gòu),先劃分為較細的層次,如圖5所示,以便于進行邏輯判斷,在最終標準化輸出時根據(jù)映射關(guān)系轉(zhuǎn)化為標準層次。
分詞匹配完后再次查看匹配結(jié)果(步驟s308),判斷地址信息是否完整(步驟s312),對于其中不完整的地址信息按照四級六層的系統(tǒng)模型進行補齊(步驟s313)。
根據(jù)本發(fā)明的一個實施例,在分詞匹配后,還包括對于無法匹配的部分地址按照層次結(jié)構(gòu)分別進行修正的步驟(步驟s309)。修正可以包括以下幾類:
1.通名修正
和標準庫相比,名稱相同而通名不同(或通名缺失),如果修正結(jié)果唯一,則進行自動修正,并標記類型為通名修正。
比如寶安路與寶安公路
比如號甲與甲號
2.別名修正
針對有多個別名的小區(qū),小區(qū)名稱無法與標準庫中的小區(qū)名稱匹配上,但可以和小區(qū)別名匹配上的,取得小區(qū)地址,并替換小區(qū)名稱為標準名稱,同時標記類型為別名修正。
除了名稱之外,地址也存在地址別名的情況。如漢中路333弄。處理方法參照別名修正。
3.舊名修正
針對行政區(qū)、道路、地址存在舊名的情況,名稱無法標準名稱匹配,但可以和舊名匹配上的,用新名替換舊名,并標記類型為舊名修正。
4.同音修正
和標準庫相比,文字不同而發(fā)音相同,如果修正結(jié)果唯一,則進行自動修正,并標記類型為同音修正。比如浦東大道與普東大道。
5.別字修正
和標準庫相比,名稱無法標準名稱匹配,但可以和別字匹配上的,如果修正結(jié)果唯一,則進行自動修正,并標記類型為通名修正。比如大渡河路與大渡可路。
當然,修正的結(jié)果并不能保證百分百的正確,在本實施例中,可以根據(jù)統(tǒng)計結(jié)果為各種修正結(jié)果賦予不同的置信度,在出現(xiàn)沖突時,優(yōu)選置信度較高的結(jié)果作為最終結(jié)果。
判斷修正是否成功(步驟s310),對于修正成功的地址信息,判斷地址信息是否完整(步驟s312),對其中不完整的地址信息按照四級六層的系統(tǒng)模型進行補齊(步驟s313)。
補齊操作后,將補齊后的地址信息保存為標準地址庫(步驟s314)。對于其余匹配不上的、修正不成功的地址及小區(qū),輸出列表并保存(步驟s311),最后將信息匯總輸出(步驟s315),可選擇地,可以同時輸出匹配率等信息,其中匹配率的計算方式為:匹配通過的地址數(shù)量/全部地址數(shù)量。
根據(jù)本發(fā)明的實施例,在修正完成后,可選擇地,可以人工對匹配不上的地址進行檢查,確定入庫或修改的地址,通過更新程序更新。
下面介紹標準地址的匹配方法。地址數(shù)據(jù)經(jīng)過清洗和規(guī)范化,并由地址分詞處理得到一系列的地址要素詞組,然后將這些地址要素按照一定的規(guī)則在標準地址庫中進行查詢匹配的過程,就是數(shù)據(jù)庫匹配。顯然,如何減少查詢和比較的次數(shù),關(guān)系到匹配的效率和成功率。一種方法是采集的地址信息和地址庫中的信息一一對應(yīng),但該方法精度高卻效率低。為了提高地址匹配的效率,在與數(shù)據(jù)庫進行匹配之前,可以根據(jù)地址中地址要素的組成形式來制定地址匹配的規(guī)則,以及地址匹配的模式。地址的組成形式有很多,常見的包括以下幾類,如:街道+門牌,街道+門牌+樓牌,住宅小區(qū)+樓牌,街道+建筑物等。
常見的地址匹配的方式有三種:定位到街道,定位到區(qū)域的,如居民小區(qū)、配送點式區(qū)域等,以及兩種方式結(jié)合的方法。另外還有基于郵政編碼的和基于邊界的地址匹配方法。
1.定位到街道的方法
是通過道路名和門牌號碼進行匹配。這種匹配方式的標準地址庫中每一個路段都具有道路名和起止門牌號碼信息,在地理編碼時,首先根據(jù)地址信息中道路名找到參考主題中相同名稱的路段(一般情況下有多個路段),然后根據(jù)地址信息中的門牌號及每個路段的起止門牌號碼信息找到門牌號所在路段,最后根據(jù)門牌號及該路段的起止門牌號碼信息進行內(nèi)插確定該記錄在該路段上的位置。這種方式利用了數(shù)值逼近方法中的插值原理進行模糊定位。另外,如果待匹配地址的門牌號在數(shù)據(jù)庫中查找不到,可以查找和它最臨近的建筑物門牌號,由此來輔助定位,可以提高插值定位的精度。
插值定位的方法不受道路形狀的影響,定位的精度比較高,它是根據(jù)地址記錄的門牌號以及其與街道的垂直距離進行準確的定位。這種方法比較適用于國外的定位到街道的地址匹配,因為國外的門牌號碼一般是按奇偶數(shù)分別排在路的兩端,門牌號的分布比較有規(guī)律,這樣插值時點位的位置不會出現(xiàn)太大的誤差。然而我國的道路門牌號體系復(fù)雜多樣,存在很多問題。例如城市建設(shè)中道路拆除或者改名,但門牌號沒有重新編制、門牌號丟失、門牌樓牌混編等情況。這些問題使得利用插值方法時容易出現(xiàn)較大的誤差,定位的精確度不高。
2.定位到區(qū)域的方法
待匹配地址具有區(qū)域?qū)傩杂涗洠诘刂窋?shù)據(jù)庫中查詢與之相應(yīng)的區(qū)域?qū)傩杂涗洸⑦M行比較,若匹配成功,則將記錄以點要素的形式生成在地圖的相應(yīng)區(qū)域內(nèi)。若匹配失敗,可以利用地址模型的層級關(guān)系,查找上一級地址要素來進行模糊定位。
這種方法的定位精度與數(shù)據(jù)庫中地址的區(qū)域?qū)傩运淼目臻g范圍大小有關(guān),空間范圍越小則精度越高。如定位到居民小區(qū)的精度高于定位到行政區(qū)的精度。
優(yōu)選地,本實施例中將定位到街道的方法與定位到區(qū)域的方法結(jié)合起來使用,以提高匹配的精度。在其他實施例中,也可以單獨使用其中的一種或者其他未進行說明的匹配方法。
根據(jù)本發(fā)明的又一實施例,還包括一種分易失性存儲介質(zhì),在存儲介質(zhì)上存儲有地址標準化程序,地址標準化程序被計算機執(zhí)行以實施前述地址標準化方法。
根據(jù)本發(fā)明的又一實施例,還包括一種計算機,包括:存儲器,存儲有計算機可以執(zhí)行的地址標準化程序;以及處理器,連接至存儲器,并且被配置為執(zhí)行地址標準化程序以實現(xiàn)前述地址標準化。
上面結(jié)合附圖對本發(fā)明的實施例做了詳細說明,但本發(fā)明并不限于上述實施例,在本領(lǐng)域普通技術(shù)人員所具備的知識范圍內(nèi),在不脫離本發(fā)明宗旨的前提下做出的各種變化,均應(yīng)歸屬于本發(fā)明專利涵蓋范圍。