專利名稱:一種興趣點地址信息處理的方法和裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種信息處理技術(shù),尤其涉及一種興趣點地址信息處理的方法和裝置。
背景技術(shù):
地理信息系統(tǒng)(GIS,Geographic Information System)是用于采集、存儲、管理、 處理、檢索、分析和表達地理空間數(shù)據(jù)的計算機系統(tǒng),是分析和處理海量地理數(shù)據(jù)的系統(tǒng)。 地理信息是指直接或間接與地球上的空間位置有關(guān)的信息,又稱為空間信息。隨著科技的進步和數(shù)據(jù)處理能力的提高,GIS系統(tǒng)所涉及的地理范圍正在逐漸的 擴大,從某些城市范圍擴大到全國范圍,最大的甚至發(fā)展到全球范圍。隨著地理范圍的擴 大,其涉及到的數(shù)據(jù)也隨之增大。海量數(shù)據(jù)的管理和應(yīng)用已經(jīng)成為其制約應(yīng)用到電子地圖 服務(wù)系統(tǒng)的嚴重瓶頸。目前在電子地圖服務(wù)系統(tǒng)中,得到地址名稱的途徑主要是通過POI (興趣點,Point of Interest)的采集,POI作為整個電子地圖系統(tǒng)的靈魂,占據(jù)著主導作用。隨著科技的進 步,采集POI的手段日益增多車采、步行PDA采集,電話采集、網(wǎng)絡(luò)搜索等一系列手段,使得 POI信息的產(chǎn)量愈加豐富,同時降低了采集成本,而且有著利用率高,更新速度快等優(yōu)點。但 同時,隨著POI信息數(shù)量的增多,也出現(xiàn)了因POI信息不規(guī)范所帶來的一系列問題,例如POI 名稱混亂,導致POI名稱與實地的真實名稱不符,從而POI檢索困難,電子地圖顯示混亂,甚 至出現(xiàn)同一個地點會同時存在多個不同的POI名稱來表示。
發(fā)明內(nèi)容
本發(fā)明的實施例提供了一種興趣點地址信息處理的方法和裝置,可解決現(xiàn)有技術(shù) POI地址信息不規(guī)范所帶來的問題。本發(fā)明的實施例提供了一種興趣點地址信息處理的方法,包括獲取興趣點地址 信息;根據(jù)配置文件對所述興趣點地址信息進行處理,以獲得規(guī)范的興趣點地址信息,所述 配置文件包括興趣點地址信息規(guī)范規(guī)則。本發(fā)明的實施例還提供了一種興趣點地址信息處理的裝置,包括獲取單元,用于 獲取興趣點地址信息;規(guī)范單元,用于根據(jù)配置文件對所述興趣點地址信息進行處理,以獲 得規(guī)范的興趣點地址信息,所述配置文件包括興趣點地址信息規(guī)范規(guī)則。根據(jù)本發(fā)明實施例,可以將同一 POI地址信息的多種表示進行規(guī)范化處理,得到 唯一的規(guī)范信息,便于今后處理;這樣,當在大比例尺下,可使地圖顯示的內(nèi)容不過于繁冗, 同時盡可能多的顯示POI地址信息;因此,對政府機關(guān)、服務(wù)機構(gòu)等比較嚴肅的地址信息, 通過該方法進行規(guī)范化,減少被投訴的可能性。
圖1示出了本發(fā)明實施例的興趣點地址信息處理的流程;
4
圖2示出了本發(fā)明實施例的根據(jù)配置文件對所述興趣點地址信息進行處理的流 程;圖3示出了本發(fā)明實施例的興趣點地址信息處理的裝置。
具體實施例方式為了便于本領(lǐng)域一般技術(shù)人員理解和實現(xiàn)本發(fā)明,現(xiàn)結(jié)合附圖描繪本發(fā)明的實施 例。實施例一本實施例提供了一種興趣點地址信息處理的方法。該方法包括下列步驟將包含 POI地址名稱的源文件進行統(tǒng)一管理放在指定目錄下;設(shè)置配置文件,所述配置文件包括 大類關(guān)鍵字,其可按行業(yè)進行劃分;子關(guān)鍵字群,其包括興趣點地址信息的至少一個關(guān)鍵 字;處理方法群,其包括規(guī)范規(guī)則,用于根據(jù)所述興趣地址信息的關(guān)鍵字獲得所述規(guī)范的興 趣點地址信息。為了提高興趣點地址信息處理效率,對配置文件進行結(jié)構(gòu)優(yōu)化處理,即,將 每一條配置信息按優(yōu)先級進行排序,同時對每一條配置信息賦予相應(yīng)的ID(身份標識)編 號,所述優(yōu)先級可按照子關(guān)鍵字群中關(guān)鍵字的數(shù)量來確定,即,數(shù)量越多,優(yōu)先級越高;將優(yōu) 化后的配置信息按照“ID號”、“大類關(guān)鍵字”、“子關(guān)鍵字群”、“處理方法群”的排列方式進行 分類生成配置文件;對源文件中的POI地址名稱與配置文件進行匹配,將匹配成功的地址 名稱進行相應(yīng)的規(guī)范處理并放入簡稱列表文件,同時指出處理所用的方法ID和地址名稱 所在源文件的位置,這一過程還可篩選出匹配失敗的地址名稱放入日志文件并指出匹配失 敗原因;檢查所生成的名稱簡稱無誤后,根據(jù)所記錄的源文件的位置將簡稱添加到源文件 當中;將軟件處理過程中生成各種列表文件或日志文件全部追加到歷史日志文件中。下面結(jié)合附圖和具體實施方式
對本發(fā)明做進一步詳細的說明圖1示出了本發(fā)明實施例的一種興趣點地址信息處理的流程,包括如下步驟步驟101、設(shè)置配置文件。配置文件包括興趣點地址信息規(guī)范規(guī)則,該規(guī)范規(guī)則包括大類關(guān)鍵字,其為POI 地址信息所屬類別,如可根據(jù)行業(yè)進行劃分的部分POI地址信息;子關(guān)鍵字群,其包括興趣 點地址信息的至少一個關(guān)鍵字;處理方法群,其包括處理規(guī)則,用于根據(jù)所述興趣點地址信 息的關(guān)鍵字獲得所述規(guī)范的興趣點地址信息。其中,大類關(guān)鍵字可根據(jù)行業(yè)進行分類而獲得的部分POI地址信息。其作用是判 斷地址名稱屬于哪個大類的名稱,例如“銀行”、“酒店”等。這樣做的好處是,把所有的配置 信息分成多個大類,系統(tǒng)在遍歷配置信息之前,只要先遍歷大類關(guān)鍵字即可將其中屬于其 他大類的所有配置信息忽略,從而降低系統(tǒng)的時間復雜度,同時能夠更加提高系統(tǒng)的內(nèi)存 利用率。子關(guān)鍵字群,其主要作用是在匹配大類關(guān)鍵字成功后,在該大類所屬的所有子關(guān) 鍵字群進行匹配,從而確定所需要進行規(guī)范變換所使用的方法。子關(guān)鍵字群是由關(guān)鍵字和 特殊分隔符號組成,例如“銀行I分理處I取款機”,由三個關(guān)鍵詞“銀行”、“分理處”、“取款 機”和特殊分隔符號“ I ”組成,這些關(guān)鍵字要求在匹配的地址名稱中存在,同時要求關(guān)鍵字 出現(xiàn)的順序也不能發(fā)生改變,這樣就可以鎖定地址名稱信息的結(jié)構(gòu),為正確的規(guī)范處理奠 定了基石。
處理方法群,其主要作用是確定所使用的規(guī)范規(guī)則,處理方法群中定義了一系列 處理方法,按類型劃分分為兩種必須處理方法群和臨時處理方法群,兩種方法的區(qū)別在 于,必須處理方法群中方法在子關(guān)鍵字與源文件中的POI地址名稱匹配時必須通過,否則 判定為POI地址名稱匹配處理失??;臨時處理方法群中的方法在進行匹配時不影響整個地 址名稱的匹配進程,即方法匹配失敗也不會判定整個地址名稱匹配處理失敗。這樣分類的 好處在于可以增加匹配文件設(shè)計的靈活性,同時減少匹配文件撰寫的工作量。處理方法由若干個處理模式組成,每個處理模式定義了處理操作。根據(jù)POI地址信息與小類關(guān)鍵字的匹配方式的不同可分為六種處理模式兩個關(guān) 鍵字之間部分的處理模式(簡單表示為“關(guān)鍵字1 關(guān)鍵字2 處理操作”),對POI中存在 該兩個關(guān)鍵字之間的部分進行處理操作;關(guān)鍵字之前部分的處理模式(簡單表示為“ I關(guān)鍵 字處理操作”),對關(guān)鍵字之前的部分進行處理操作;關(guān)鍵字之后部分的處理模式(簡單表 示為“關(guān)鍵字I 處理操作”),對關(guān)鍵字之后的部分進行處理操作;關(guān)鍵字本身處理模式(簡 單表示為“關(guān)鍵字處理操作”),對關(guān)鍵字本身進行處理操作;括號部分處理模式(簡單表 示為“0 處理操作”),對括號之間的部分進行處理操作;整個部分處理模式(簡單表示為 “ & A & 處理操作”),將整個地址名稱信息作為待轉(zhuǎn)化內(nèi)容進行操作。處理操作包括轉(zhuǎn)換操作(簡單表示為提取的字符串> _轉(zhuǎn)換的目標字符串), 即將所提取的字符串轉(zhuǎn)換為目標字符串;刪除操作(簡單表示為<d>指定的刪除部分,或 <dA>),即刪除所提取字符串中指定的刪除部分或刪除所提取信息的全部內(nèi)容。在上述處理 模式中,“之前” “之后” “之間”可以包括本關(guān)鍵詞(在關(guān)鍵字之后加上“+”:關(guān)鍵字+),也 可以不包括本關(guān)鍵詞。步驟102,根據(jù)配置文件對所述興趣點地址信息進行處理,以獲得規(guī)范的興趣點地
址f曰息。參照圖2,地址名稱匹配的步驟主要包括步驟200、讀取POI地址名稱。步驟201、將POI地址名稱與大類關(guān)鍵字進行匹配,并判斷POI地址名稱中是否包 含大類關(guān)鍵字,若是,則執(zhí)行步驟203,否則執(zhí)行步驟202。步驟202、判斷當前大類關(guān)鍵字是否為最后一條大類關(guān)鍵字,如果否,取下一個大 類關(guān)鍵字作為當前大類關(guān)鍵字,并返回步驟201,如果是,則判斷當前POI地址名稱是否為最后一條POI地址名稱,如果是,則結(jié)束,否則,取 下一個POI地址名稱作為當前POI地址名稱,并返回步驟201。步驟203、將該大類關(guān)鍵字對應(yīng)的子關(guān)鍵字群與當前POI地址名稱進行匹配,若匹 配成功,則執(zhí)行步驟205,否則,執(zhí)行步驟204。匹配規(guī)則為,地址名稱中包含子關(guān)鍵字群中所有的關(guān)鍵字,同時要求地址名稱中 關(guān)鍵字的順序與子關(guān)鍵字群中的順序相同。步驟204、判斷當前子關(guān)鍵字群是否為最后一條子關(guān)鍵字群,若是,則執(zhí)行步驟 200 對下一 POI地址名稱進行匹配,否則,取下一個子關(guān)鍵字群作為當前子關(guān)鍵字群,并返 回步驟203。步驟205、子關(guān)鍵字群匹配成功后,進行與子關(guān)鍵字群相應(yīng)的處理方法群的規(guī)范處理。
6
步驟206、規(guī)范處理成功后將變換后的名稱放入規(guī)范列表文件。步驟207、判斷當前POI地址名稱是否為最后一條POI地址名稱,若是,則結(jié)束,否 則,取下一條POI地址名稱作為當前POI地址名稱,并返回步驟200。下面舉一例子來說明本發(fā)明的POI地址信息處理過程。配置文件如下表所示。
ID大類關(guān)鍵字小類關(guān)鍵字處理方法1旅游區(qū)風景I旅游區(qū)風景旅游區(qū):<dA>2名勝區(qū)風景I名勝區(qū)風景名勝區(qū)<dA>3銀行銀行I儲蓄所I取款機儲蓄所~取款機:<dA>儲蓄所儲蓄所->儲蓄$中國工商銀行中國 工商銀行 工行4銀行銀行I分理處I取款機分理處廣取款機:<dA>取款機取款機->ATM中國工商銀行*->工 行設(shè)待處理的POI地址信息為中國工商銀行天生分理處ATM取款機首先將POI地址信息和大類關(guān)鍵字匹配,大類關(guān)鍵字中有“銀行”,所以匹配通過; 然后和銀行類的第一條配置信息的子關(guān)鍵字群匹配,發(fā)現(xiàn)無法匹配到“儲蓄所”,所以退出 該條配置信息,轉(zhuǎn)入下一條,子關(guān)鍵字群中三個關(guān)鍵字“銀行”、“分理處”和“取款機”都在 地址名稱中出現(xiàn),且出現(xiàn)前后順序相同,子關(guān)鍵字群匹配成功,進入處理方法群;首先處理 “分理處+ 取款機<dA> ” 把包括“分理處”在內(nèi)的“分理處”和“取款機”之間的部分刪 掉,即刪掉“分理處ATM”,剩余部分為“中國工商銀行天生取款機”;然后處理“取款機取款 機-> ATM”,即將“取款機”改為“ATM”,修改結(jié)果為“中國工商銀行天生ATM” ;至此,該條 地址匹配成功,最后進入臨時方法群查找合適的處理方法,結(jié)果找到一條“中國工商銀行
>工行”,將“中國工商銀行”改為“工行”,最終處理結(jié)果為“工行天生ATM” ;轉(zhuǎn)到下一條 地址名稱進行匹配,直至結(jié)束。實施例二本實施例提供了一種興趣點地址信息處理的裝置,包括獲取單元,用于獲取興趣 點地址信息;規(guī)范單元,用于根據(jù)配置文件對所述興趣點地址信息進行處理,以獲得規(guī)范的 興趣點地址信息,所述配置文件包括興趣點地址信息規(guī)范規(guī)則。所述興趣點地址信息規(guī)范規(guī)則包括子關(guān)鍵字群,其包括興趣點地址信息的關(guān)鍵 字;處理方法群,其包括規(guī)范規(guī)則,用于根據(jù)所述興趣點地址信息的關(guān)鍵字獲得所述規(guī)范的 興趣點地址信息;所述規(guī)范單元具體包括匹配單元,用于將興趣點地址信息與當前子關(guān) 鍵字群進行匹配,若匹配成功,則啟動處理單元,否則,啟動第一判斷單元;處理單元,用于 利用該子關(guān)鍵字群所對應(yīng)的處理方法群對所述興趣點地址信息進行處理,以獲得規(guī)范的興 趣點地址信息,結(jié)束本過程;第一判斷單元,用于判斷當前子關(guān)鍵字群是否為最后一個子關(guān) 鍵字群,若是,則結(jié)束本過程,否則將下一個子關(guān)鍵字群作為當前子關(guān)鍵字群,啟動匹配單 元,直至最后一個子關(guān)鍵字群為止。所述興趣點地址信息規(guī)范規(guī)則還包括大類關(guān)鍵字,其為興趣點地址信息所屬類 別;在執(zhí)行規(guī)范單元之前,所述裝置還包括預匹配單元,用于將興趣點地址信息與當前大 類關(guān)鍵字進行匹配,若匹配成功,則啟動匹配單元,否則,啟動第二判斷單元;第二判斷單 元,用于判斷當前大類關(guān)鍵字是否為最后一個大類關(guān)鍵字,若是,則結(jié)束本過程,否則將下
7一個大類關(guān)鍵字作為當前大類關(guān)鍵字,啟動預匹配單元,直至最后一個大類關(guān)鍵字為止。各個單元的詳細工作原理可參見實施例一中的描述內(nèi)容。根據(jù)本發(fā)明實施例,可以將同一 POI地址信息的多種表示進行規(guī)范化處理,得到 唯一的規(guī)范信息,便于今后處理;這樣,當在大比例尺下,可使地圖顯示的內(nèi)容不過于繁冗, 同時盡可能多的顯示POI地址信息;因此,對政府機關(guān)、服務(wù)機構(gòu)等比較嚴肅的地址信息, 通過該方法進行規(guī)范化,減少被投訴的可能性。雖然通過實施例描繪了本發(fā)明,但本領(lǐng)域普通技術(shù)人員知道,在不脫離本發(fā)明的 精神和實質(zhì)的情況下,就可使本發(fā)明有許多變形和變化,本發(fā)明的范圍由所附的權(quán)利要求 來限定。
權(quán)利要求
一種興趣點地址信息處理的方法,其特征在于,包括獲取興趣點地址信息;根據(jù)配置文件對所述興趣點地址信息進行處理,以獲得規(guī)范的興趣點地址信息,所述配置文件包括興趣點地址信息規(guī)范規(guī)則。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述興趣點地址信息規(guī)范規(guī)則包括子關(guān)鍵字群,其包括興趣點地址信息的關(guān)鍵字;處理方法群,其包括規(guī)范規(guī)則,用于根據(jù)所述子關(guān)鍵字群的關(guān)鍵字獲得所述規(guī)范的興 趣點地址信息。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述規(guī)范規(guī)則包括如下處理模式的任意 一種或其任意組合兩個關(guān)鍵字之間部分的處理模式、關(guān)鍵字之前部分的處理模式、關(guān)鍵字 之后部分的處理模式、關(guān)鍵字本身處理模式、括號部分處理模式和整個部分處理模式。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述處理模式包括處理操作,所述處理操 作包括刪除操作和/或轉(zhuǎn)換操作。
5.根據(jù)權(quán)利要求2至4其中之一所述的方法,其特征在于,所述根據(jù)配置文件對所述興 趣點地址信息進行處理獲得規(guī)范的興趣點地址信息具體包括將興趣點地址信息與當前子關(guān)鍵字群進行匹配,若匹配成功,則利用該子關(guān)鍵字群所 對應(yīng)的處理方法群對所述興趣點地址信息進行處理,以獲得規(guī)范的興趣點地址信息,結(jié)束 本過程,否則,判斷當前子關(guān)鍵字群是否為最后一個子關(guān)鍵字群,若是,則結(jié)束本過程,否則 將下一個子關(guān)鍵字群作為當前子關(guān)鍵字群,重復前一步驟興趣點地址信息與當前子關(guān)鍵 字群進行匹配,直至最后一個子關(guān)鍵字群為止。
6.根據(jù)權(quán)利要求2-4其中之一所述的方法,其特征在于,所述興趣點地址信息規(guī)范規(guī) 則還包括大類關(guān)鍵字,其為興趣點地址信息所屬類別。
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,在執(zhí)行所述根據(jù)配置文件對所述興趣點 地址信息進行處理獲得規(guī)范的興趣點地址信息之前,還執(zhí)行下列步驟將興趣點地址信息 與當前大類關(guān)鍵字進行匹配,若匹配成功,則執(zhí)行所述根據(jù)配置文件對所述興趣點地址信 息進行處理獲得規(guī)范的興趣點地址信息,否則,判斷當前大類關(guān)鍵字是否為最后一個大類 關(guān)鍵字,若是,則結(jié)束本過程,否則將下一個大類關(guān)鍵字作為當前大類關(guān)鍵字,重復前一步 驟將興趣點地址信息與當前大類關(guān)鍵字進行匹配,直至最后一個大類關(guān)鍵字為止。
8.一種興趣點地址信息處理的裝置,其特征在于,包括獲取單元,用于獲取興趣點地址信息;規(guī)范單元,用于根據(jù)配置文件對所述興趣點地址信息進行處理,以獲得規(guī)范的興趣點 地址信息,所述配置文件包括興趣點地址信息規(guī)范規(guī)則。
9.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述興趣點地址信息規(guī)范規(guī)則包括子關(guān) 鍵字群,其包括興趣點地址信息的關(guān)鍵字;處理方法群,其包括規(guī)范規(guī)則,用于根據(jù)所述興 趣點地址信息的關(guān)鍵字獲得所述規(guī)范的興趣點地址信息;所述規(guī)范單元具體包括匹配單元,用于將興趣點地址信息與當前子關(guān)鍵字群進行匹配,若匹配成功,則啟動處 理單元,否則,啟動第一判斷單元;處理單元,用于利用該子關(guān)鍵字群所對應(yīng)的處理方法群對所述興趣點地址信息進行處理,以獲得規(guī)范的興趣點地址信息,結(jié)束本過程;第一判斷單元,用于判斷當前子關(guān)鍵字群是否為最后一個子關(guān)鍵字群,若是,則結(jié)束本 過程,否則將下一個子關(guān)鍵字群作為當前子關(guān)鍵字群,啟動匹配單元,直至最后一個子關(guān)鍵 字群為止。
10.根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述興趣點地址信息規(guī)范規(guī)則還包括 大類關(guān)鍵字,其為興趣點地址信息所屬類別;在執(zhí)行規(guī)范單元之前,所述裝置還包括預匹配單元,用于將興趣點地址信息與當前 大類關(guān)鍵字進行匹配,若匹配成功,則啟動匹配單元,否則,啟動第二判斷單元;第二判斷單 元,用于判斷當前大類關(guān)鍵字是否為最后一個大類關(guān)鍵字,若是,則結(jié)束本過程,否則將下 一個大類關(guān)鍵字作為當前大類關(guān)鍵字,啟動預匹配單元,直至最后一個大類關(guān)鍵字為止。
全文摘要
本發(fā)明的實施例提供了一種興趣點地址信息處理的方法和裝置,可解決現(xiàn)有技術(shù)POI地址信息不規(guī)范所帶來的問題。本發(fā)明的實施例提供了一種興趣點地址信息處理的方法,包括獲取興趣點地址信息;根據(jù)配置文件對所述興趣點地址信息進行處理,以獲得規(guī)范的興趣點地址信息,所述配置文件包括興趣點地址信息規(guī)范規(guī)則。根據(jù)本發(fā)明實施例,可以將同一POI地址信息的多種表示進行規(guī)范化處理,得到唯一的規(guī)范信息,便于今后處理。
文檔編號G06F17/30GK101957821SQ20091008943
公開日2011年1月26日 申請日期2009年7月17日 優(yōu)先權(quán)日2009年7月17日
發(fā)明者王濤, 王琛 申請人:高德軟件有限公司