一種用于分揀的地址匹配方法
【專利摘要】本發(fā)明公開(kāi)了一種用于分揀的地址匹配方法。該方法包括:獲取郵件的地址信息,根據(jù)所述地址信息進(jìn)行數(shù)據(jù)清洗;利用中文分詞算法對(duì)所述數(shù)據(jù)清洗后的地址信息進(jìn)行解析處理,獲得分詞結(jié)果;根據(jù)所述分詞結(jié)果進(jìn)行郵件地址的匹配。本發(fā)明中,可實(shí)現(xiàn)郵件地址的自動(dòng)匹配,降低了分揀過(guò)程中人工的勞動(dòng)量,提高了匹配效率和成功率。
【專利說(shuō)明】—種用于分揀的地址匹配方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及郵政快遞領(lǐng)域,尤其涉及一種用于分揀的地址匹配方法。
【背景技術(shù)】
[0002]郵政快遞是一種具有郵遞功能的門(mén)對(duì)門(mén)物流活動(dòng),即指快遞公司通過(guò)公路,鐵路和空運(yùn)等交通工具,對(duì)客戶貨物進(jìn)行快速的投遞。隨著社會(huì)的高速發(fā)展,人們的生活也逐漸進(jìn)入了高速化時(shí)代,人們對(duì)物流行業(yè)提出了更高的要求,因此,從事郵政快遞的物流公司正迫切的需要提高自己的服務(wù),來(lái)滿足人們對(duì)信息、貨物等運(yùn)輸效率的需求。
[0003]目前在郵政、快遞領(lǐng)域的生產(chǎn)活動(dòng)中,分揀過(guò)程是必不可少的,這個(gè)過(guò)程需要由技術(shù)工人根據(jù)郵件地址分配到指定的格口,但由于郵件地址范圍廣、格式多樣,因此格口所包含的地址范圍憑人工記憶很難做到完全的準(zhǔn)確。
[0004]為了解決人工記憶地址的困難,現(xiàn)有的地址匹配方法中,多采用關(guān)鍵字匹配算法。即用戶先根據(jù)經(jīng)驗(yàn),將郵件上常見(jiàn)的地址關(guān)鍵字維護(hù)進(jìn)應(yīng)用系統(tǒng),并指定對(duì)應(yīng)的格口,后續(xù)再根據(jù)關(guān)鍵字進(jìn)行地址匹配,找到該郵件對(duì)應(yīng)的格口。
[0005]按照現(xiàn)有技術(shù)中的方法,需要針對(duì)每封郵件的特殊關(guān)鍵字進(jìn)行維護(hù),數(shù)據(jù)量特別大,而且出現(xiàn)新的地址信息時(shí),很可能會(huì)出現(xiàn)無(wú)法匹配的問(wèn)題。當(dāng)出現(xiàn)格口和地址之間的映射關(guān)系變更時(shí),還需要由人工進(jìn)行數(shù)據(jù)的調(diào)整。這些都導(dǎo)致了匹配效率低,人工維護(hù)工作量大,成功率下降等問(wèn)題。
【發(fā)明內(nèi)容】
[0006]本發(fā)明提供了一種用于分揀的地址匹配方法,以實(shí)現(xiàn)郵件地址的自動(dòng)匹配,提高郵件地址匹配的效率和成功率,提高人工維護(hù)的效率及降低分揀的出錯(cuò)率。
[0007]本發(fā)明的目的是通過(guò)以下技術(shù)方案實(shí)現(xiàn)的:
[0008]一種用于分揀的地址匹配方法,其特征在于,該方法包括以下步驟:
[0009]獲取郵件的地址信息,根據(jù)所述地址信息進(jìn)行數(shù)據(jù)清洗;
[0010]利用中文分詞算法對(duì)所述數(shù)據(jù)清洗后的地址信息進(jìn)行解析處理,獲得分詞結(jié)果;
[0011]根據(jù)所述分詞結(jié)果進(jìn)行郵件地址的匹配。
[0012]與現(xiàn)有技術(shù)相比,本發(fā)明實(shí)施例至少具有以下優(yōu)點(diǎn):
[0013]本發(fā)明實(shí)施例中,通過(guò)對(duì)郵件地址信息進(jìn)行數(shù)據(jù)清洗和中文分詞算法,得到地址的分詞結(jié)果,利用分詞結(jié)果可實(shí)現(xiàn)對(duì)郵件地址的自動(dòng)匹配,分揀過(guò)程就不再需要大量的人工參與,降低了人工的勞動(dòng)量,并能夠提高郵件地址匹配的效率和成功率,同時(shí)提高了人工維護(hù)的效率及降低分揀的出錯(cuò)率。
【專利附圖】
【附圖說(shuō)明】
[0014]圖1為本發(fā)明提出的一種用于分揀的地址匹配方法的流程示意圖;
[0015]圖2為本發(fā)明的一種實(shí)施方式步驟S103的具體流程示意圖。
【具體實(shí)施方式】
[0016]下面結(jié)合附圖對(duì)本發(fā)明的【具體實(shí)施方式】進(jìn)行詳細(xì)說(shuō)明:
[0017]如圖1所示,為本發(fā)明實(shí)施例提出的一種用于分揀的地址匹配方法的流程示意圖,該方法具體包括以下步驟:
[0018]步驟SlOl:獲取郵件的地址信息,根據(jù)地址信息進(jìn)行數(shù)據(jù)清洗。
[0019]由于郵件上用戶書(shū)寫(xiě)的收件人地址可能存在不規(guī)范的情況,因此需要先進(jìn)行數(shù)據(jù)的清晰,該過(guò)程包括:對(duì)郵件的地址信息進(jìn)行轉(zhuǎn)換大小寫(xiě)、轉(zhuǎn)換漢字的全角/半角等,所述數(shù)據(jù)清洗后的地址信息將用于后續(xù)的處理。
[0020]步驟S102:利用中文分詞算法對(duì)數(shù)據(jù)清洗后的地址信息進(jìn)行解析處理,獲得分詞結(jié)果。
[0021]為了后續(xù)有效的進(jìn)行匹配,利用中文分詞算法對(duì)上述數(shù)據(jù)清洗后的地址信息進(jìn)行解析處理,具體的,將該地址按照行政級(jí)別進(jìn)行分詞處理,該地址被解析為行政區(qū)域、街道、單位等部件,具體的,將地址分為單詞的組合,例如將地址分解為“省-地市-縣市-鄉(xiāng)鎮(zhèn)/街道-單位或門(mén)牌”等(如北京市海淀區(qū)增光路紫玉飯店=北京市+海淀區(qū)+增光路+紫玉飯店),分詞之后的結(jié)果將用于后續(xù)的處理。
[0022]步驟S103:根據(jù)分詞結(jié)果進(jìn)行郵件地址的匹配。
[0023]具體的,所述根據(jù)分詞結(jié)果進(jìn)行郵件地址的匹配,包括第一次匹配、第二次匹配、第三次匹配、第四次匹配。
[0024]如圖2所示,所述的步驟S103,具體包括以下步驟:
[0025]步驟S301:將分詞結(jié)果組合成標(biāo)準(zhǔn)地址,與行政區(qū)域進(jìn)行第一次匹配。
[0026]具體的,將得到的地址信息的分詞結(jié)果分別組合成標(biāo)準(zhǔn)的地址,例如組合成格式為“省-地市-縣市-鄉(xiāng)鎮(zhèn)/街道”的標(biāo)準(zhǔn)地址,之后按照“從高到低”的原則將上述標(biāo)準(zhǔn)地址與系統(tǒng)中的行政區(qū)域進(jìn)行匹配,即先匹配省份、再匹配地市、再匹配縣市、再匹配鄉(xiāng)鎮(zhèn)/街道等。一般情況下,城市范圍內(nèi)的地址應(yīng)匹配到街道,遠(yuǎn)郊地區(qū)的地址只需匹配到縣市或鄉(xiāng)鎮(zhèn)即可。如果匹配成功,則匹配結(jié)束并返回匹配成功的結(jié)果,具體的,該匹配成功的結(jié)果是所有匹配結(jié)果中舍最低級(jí)別的標(biāo)準(zhǔn)地址。否則,進(jìn)行第二次匹配。
[0027]步驟S302:根據(jù)分詞結(jié)果進(jìn)行第二次匹配。
[0028]具體的,所述的步驟S302,具體包括以下步驟:
[0029]步驟S3021、將分詞結(jié)果重新組合;
[0030]步驟S3022、過(guò)濾掉行政區(qū)域上下級(jí)不一致的組合;
[0031]步驟S3023、過(guò)濾掉單位信息不一致的組合;
[0032]步驟S3024、過(guò)濾掉街道信息不一致的組合;
[0033]步驟S3025、過(guò)濾掉重復(fù)的組合;
[0034]步驟S3026、過(guò)濾掉不符合書(shū)寫(xiě)習(xí)慣的組合。
[0035]在上述步驟S302中,如果在步驟S301中未匹配到正確結(jié)果,此時(shí),在執(zhí)行第二次匹配之前需要對(duì)分詞結(jié)果進(jìn)行重新的組合,重新組合的目的是避免因中文分詞結(jié)果的不正確,而導(dǎo)致不能匹配的情況。
[0036]步驟S303:根據(jù)分詞結(jié)果進(jìn)行第三次匹配。
[0037]具體的,對(duì)分詞結(jié)果中的街道信息進(jìn)行匹配,如果匹配成功,則返回匹配結(jié)果中街道名稱最長(zhǎng)的結(jié)果,否則,進(jìn)行第四次匹配。
[0038]步驟S304:根據(jù)分詞結(jié)果進(jìn)行第四次匹配。
[0039]具體的,對(duì)分詞結(jié)果中的單位地址進(jìn)行匹配,如果匹配成功,則返回匹配結(jié)果中單位名稱最長(zhǎng)的結(jié)果,否則返回?zé)o匹配結(jié)果。
[0040]需要進(jìn)一步指出的是,在具體的應(yīng)用場(chǎng)景中,在本發(fā)明提出的步驟SlOl之前,用戶需要預(yù)先維護(hù)一些基礎(chǔ)數(shù)據(jù),其中,包括格口與郵政編碼的對(duì)應(yīng)關(guān)系,郵政編碼與行政區(qū)域的對(duì)應(yīng)關(guān)系,行政區(qū)域與街道信息的對(duì)應(yīng)關(guān)系,以及行政區(qū)域與單位地址的對(duì)應(yīng)關(guān)系。其中,格口與郵政編碼的對(duì)應(yīng)關(guān)系需要由用戶進(jìn)行維護(hù)。格口用于存放對(duì)應(yīng)其行政區(qū)域的郵件和包裹,郵政快遞人員可以直接從對(duì)應(yīng)的格口中找到需要配送的郵件,并獲取郵件對(duì)應(yīng)的地址信息。
[0041]與現(xiàn)有技術(shù)相比,本發(fā)明實(shí)施例具有以下優(yōu)點(diǎn):
[0042]通過(guò)應(yīng)用本發(fā)明實(shí)施例的技術(shù)方案,在進(jìn)行貨物分揀的過(guò)程中,利用對(duì)郵件地址信息的數(shù)據(jù)清洗和中文分詞的結(jié)果,結(jié)合預(yù)先維護(hù)的格口的對(duì)應(yīng)關(guān)系,通過(guò)匹配查找到正確的行政區(qū)域,就可以快速的將郵件的地址與正確的格口進(jìn)行綁定,實(shí)現(xiàn)了郵件地址的自動(dòng)匹配,提高了郵政運(yùn)輸?shù)男?,大大降低了人工維護(hù)的工作量,可直接提高郵件地址匹配的效率和成功率。
[0043]以上所述,僅為本發(fā)明較佳的【具體實(shí)施方式】,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉本【技術(shù)領(lǐng)域】的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到的變化或替換,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)該以權(quán)利要求書(shū)的保護(hù)范圍為準(zhǔn)。
【權(quán)利要求】
1.一種用于分揀的地址匹配方法,其特征在于,該方法包括以下步驟: 獲取郵件的地址信息,根據(jù)所述地址信息進(jìn)行數(shù)據(jù)清洗; 利用中文分詞算法對(duì)所述數(shù)據(jù)清洗后的地址信息進(jìn)行解析處理,獲得分詞結(jié)果; 根據(jù)所述分詞結(jié)果進(jìn)行郵件地址的匹配。
2.如權(quán)利要求1所述的方法,其特征在于,所述根據(jù)地址信息進(jìn)行數(shù)據(jù)清洗,具體包括:對(duì)所述地址信息進(jìn)行轉(zhuǎn)換大小寫(xiě)、和轉(zhuǎn)換漢字的全角/半角。
3.如權(quán)利要求1所述的方法,其特征在于,所述利用中文分詞算法對(duì)所述數(shù)據(jù)清洗后的地址信息進(jìn)行解析處理,具體包括:利用中文分詞算法將所述地址信息解析為行政區(qū)域、街道和單位。
4.如權(quán)利要求1所述的方法,其特征在于,所述方法還包括: 預(yù)先維護(hù)一個(gè)基礎(chǔ)數(shù)據(jù),具體的:維護(hù)格口與郵政編碼的對(duì)應(yīng)關(guān)系,維護(hù)郵政編碼與行政區(qū)域的對(duì)應(yīng)關(guān)系,維護(hù)行政區(qū)域與街道信息的對(duì)應(yīng)關(guān)系,維護(hù)行政區(qū)域與單位地址的對(duì)應(yīng)關(guān)系。
5.如權(quán)利要求1所述的方法,其特征在于,所述根據(jù)分詞結(jié)果進(jìn)行郵件地址的匹配,包括第一次匹配、第二次匹配、第三次匹配、第四次匹配。
6.如權(quán)利要求5所述的方法,其特征在于,所述第一次匹配,具體為: 將所述分詞結(jié)果組合成標(biāo)準(zhǔn)地址,按照行政級(jí)別從高到低的原則與行政區(qū)域進(jìn)行匹配,如果匹配成功,則匹配結(jié)束并返回所述匹配成功的結(jié)果,否則進(jìn)行第二次匹配。
7.如權(quán)利要求6所述的方法,其特征在于,所述第二次匹配,具體為: 將所述分詞結(jié)果重新組合,過(guò)濾掉行政區(qū)域上下級(jí)不一致的組合,過(guò)濾掉單位信息不一致的組合,過(guò)濾掉街道信息不一致的組合,過(guò)濾掉重復(fù)的組合,過(guò)濾掉不符合書(shū)寫(xiě)習(xí)慣的組合,如果剩下唯一的組合,則匹配結(jié)束并返回所述唯一組合的結(jié)果,否則進(jìn)行第三次匹配。
8.如權(quán)利要求7所述的方法,其特征在于,所述第三次匹配,具體為: 對(duì)街道信息進(jìn)行匹配,并返回所述匹配結(jié)果中街道名稱最長(zhǎng)的結(jié)果,否則進(jìn)行第四次匹配。
9.如權(quán)利要求8所述的方法,其特征在于,所述第四次匹配,具體為: 對(duì)單位地址進(jìn)行匹配,并返回所述匹配結(jié)果中單位名稱最長(zhǎng)的結(jié)果,否則返回?zé)o匹配結(jié)果。
【文檔編號(hào)】G06F17/30GK104166679SQ201410323972
【公開(kāi)日】2014年11月26日 申請(qǐng)日期:2014年7月8日 優(yōu)先權(quán)日:2014年7月8日
【發(fā)明者】李科, 吳剛, 宮宇 申請(qǐng)人:北京迪威特科技有限公司