專利名稱:提取地理特征詞的方法和裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及數(shù)字地圖領(lǐng)域,特別是指一種提取地理特征詞的方法和裝置。
背景技術(shù):
現(xiàn)有技術(shù)中,地理特征詞一般為在通用的詞庫基礎(chǔ)上加上人工整理的有行政區(qū)劃,道路,鄉(xiāng)鎮(zhèn)等的地理信息特征詞,這種方式獲取的地理特征詞往往有限,尤其對一些標志性的興趣點(Point of Interest,P0I)特征詞很難獲取,同時缺少特征詞屬性,不能為地理信息數(shù)據(jù)分析提供基石,嚴重的影響地理信息數(shù)據(jù)的進一步分析。
發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問題是提供一種提取地理特征詞的方法和裝置,能夠驗證與擴展地理特征詞,快速的獲取地理特征詞屬性,為地理信息數(shù)據(jù)分析提供基石,有效提高數(shù)據(jù)分析的效率。為解決上述技術(shù)問題,本發(fā)明的實施例提供技術(shù)方案如下一方面,提供一種提取地理特征詞的方法,包括步驟A 根據(jù)原始地址數(shù)據(jù)和名稱數(shù)據(jù)獲取第一候選詞集合;步驟B 對所述第一候選詞集合進行驗證和擴展得到擴展詞集合,并對所述擴展詞集合中的詞進行篩選得到第二候選詞集合;步驟C:判斷所述第二候選詞集合與所述第一候選詞集合的比值大小,若所述比值不大于第一閾值,轉(zhuǎn)向步驟D,否則將所述第二候選詞集合替換所述第一候選詞集合,并返回步驟B;步驟D 保存得到的擴展詞集合作為地理特征詞集合。其中,所述步驟D還包括獲取所述地理特征詞集合中各個地理特征詞對應(yīng)的相關(guān)詞屬性、級別屬性、與其它地理特征詞之間的所屬關(guān)系。其中,所述根據(jù)原始地址數(shù)據(jù)和名稱數(shù)據(jù)獲取第一候選詞集合包括利用標記詞對原始地址數(shù)據(jù)和名稱數(shù)據(jù)進行切分,得到歧義切分詞集合A和無歧義切分詞集合B,對所述集合A進行去歧義處理得到集合C ;將集合B和集合C合并,并在合并后的集合中過濾掉不符合特征詞模式的詞,得到第一候選詞集合。其中,所述對所述第一候選詞集合進行驗證和擴展得到擴展詞集合包括獲得所述第一候選詞集合中的候選詞在通用的搜索引擎中進行搜索的返回結(jié)果, 其中所述搜索引擎能返回所述輸入詞的相關(guān)搜索詞語組合以及相關(guān)搜索標題,并能在所述輸入詞錯誤時返回糾正詞;若所述搜索引擎返回糾正詞,則將所述糾正詞輸入擴展詞集合;否則對獲取的搜索標題進行切分,所獲取的詞作為第一詞集合,將相關(guān)搜索詞語組合處出現(xiàn)的詞進行切分, 所獲取的詞作為第二詞集合;
將第一詞集合與第二詞集合共同出現(xiàn)的詞加入擴展詞集合,之后計算所述第一詞集合中剩下的詞的權(quán)重、所述第一詞集合中剩下的詞與所述輸入詞的編輯距離,挑選符合預(yù)設(shè)條件的詞加入擴展詞集合;計算所述第二詞集合中剩下的詞與所述輸入詞的編輯距離,挑選符合預(yù)設(shè)條件的詞加入擴展詞集合。其中,所述對所述擴展詞集合中的詞進行篩選得到第二候選詞集合包括將所述第一候選詞輸入已驗證詞集合中;從所述擴展詞集合中篩選出符合預(yù)設(shè)模式且不屬于所述已驗證詞集合中的詞加入所述第二候選詞集合。本發(fā)明實施例還提供了一種提取地理特征詞的裝置,包括第一處理模塊,用于根據(jù)原始地址數(shù)據(jù)和名稱數(shù)據(jù)獲取第一候選詞集合;第二處理模塊,用于對所述第一候選詞集合進行驗證和擴展得到擴展詞集合,并對所述擴展詞集合中的詞進行篩選得到第二候選詞集合;判斷模塊,用于判斷所述第二候選詞集合和所述第一候選詞集合的比值與第一閾值的大?。凰龅诙幚砟K還用于在所述判斷模塊判斷所述比值大于第一閾值時,將所述第二候選詞集合替換所述第一候選詞集合;保存模塊,用于在所述判斷模塊判斷比值不大于第一閾值時,保存得到的擴展詞集合作為地理特征詞集合。其中,所述保存模塊還用于獲取所述地理特征詞集合中各個地理特征詞對應(yīng)的相關(guān)詞屬性、級別屬性、與其它地理特征詞之間的所屬關(guān)系。其中,所述第一處理模塊包括第一切分子模塊,用于利用標記詞對原始地址數(shù)據(jù)和名稱數(shù)據(jù)進行切分,得到歧義切分詞集合A和無歧義切分詞集合B,對所述集合A進行去歧義處理得到集合C ;合并子模塊,用于將集合B和集合C合并,并在合并后的集合中過濾掉不符合特征詞模式的詞,得到第一候選詞集合。其中,所述第二處理模塊包括所述第二處理模塊包括搜索子模塊,用于獲得所述第一候選詞集合中的候選詞在通用的搜索引擎中進行搜索的返回結(jié)果,其中所述搜索引擎能返回所述輸入詞的相關(guān)搜索詞語組合以及相關(guān)搜索標題,并能在所述輸入詞錯誤時返回糾正詞;擴展詞獲取子模塊,用于若所述搜索引擎返回糾正詞,則將所述糾正詞輸入擴展詞集合;第二相關(guān)詞獲取子模塊,用于對獲取的搜索標題進行切分,所獲取的詞作為第一詞集合,將相關(guān)搜索詞語組合處出現(xiàn)的詞進行切分,所獲取的詞作為第二詞集合;擴展詞獲取子模塊還用于將第一詞集合與第二詞集合共同出現(xiàn)的詞加入擴展詞集合,之后計算所述第一詞集合中剩下的詞的權(quán)重、所述第一詞集合中剩下的詞與所述輸入詞的編輯距離,挑選符合預(yù)設(shè)條件的詞加入擴展詞集合;計算所述第二詞集合中剩下的詞與所述輸入詞的編輯距離,挑選符合預(yù)設(shè)條件的詞加入擴展詞集合。其中,所述第二處理模塊還包括
篩選子模塊,用于將所述第一候選詞輸入已驗證詞集合中,從所述擴展詞集合中篩選出符合預(yù)設(shè)模式且不屬于所述已驗證詞集合中的詞加入所述第二候選詞集合。本發(fā)明的實施例具有以下有益效果上述方案中,根據(jù)地理數(shù)據(jù)特點,利用規(guī)則與統(tǒng)計方法對名稱與地址數(shù)據(jù)進行切分獲取侯選詞,然后通過搜索引擎對候選詞進行驗證與擴充,并獲取特征詞的相關(guān)屬性。本發(fā)明能夠驗證與擴展地理特征詞,快速的獲取地理特征詞屬性,為地理信息數(shù)據(jù)分析提供基石,有效提高數(shù)據(jù)分析的效率。
圖1為本發(fā)明的實施例提取地理特征詞的方法流程示意圖;圖2為本發(fā)明的實施例提取地理特征詞的裝置結(jié)構(gòu)示意圖;圖3為本發(fā)明的實施例對地址/名稱數(shù)據(jù)進行處理的流程示意圖;圖4為本發(fā)明的實施例對候選詞的處理流程示意圖。
具體實施例方式為使本發(fā)明的實施例要解決的技術(shù)問題、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合附圖及具體實施例進行詳細描述。本發(fā)明的實施例提供一種提取地理特征詞的方法和裝置,能夠驗證與擴展地理特征詞,快速的獲取地理特征詞屬性,為地理信息數(shù)據(jù)分析提供基石,有效提高數(shù)據(jù)分析的效率。如圖1所示,本發(fā)明實施例提供了一種提取地理特征詞的方法,包括步驟101 根據(jù)原始地址數(shù)據(jù)和名稱數(shù)據(jù)獲取第一候選詞集合;步驟102 對第一候選詞集合進行驗證和擴展得到擴展詞集合,并對擴展詞集合中的詞進行篩選得到第二候選詞集合;步驟103 判斷第二候選詞集合與第一候選詞集合的比值大小,若比值不大于第一閾值,轉(zhuǎn)向步驟104,否則將第二候選詞集合替換第一候選詞集合,并返回步驟102 ;步驟104 保存得到的擴展詞集合作為地理特征詞集合。之后,還可以獲取并保存所述地理特征詞集合中各個地理特征詞對應(yīng)的特征詞相關(guān)詞屬性、級別和所屬關(guān)系。本發(fā)明提取地理特征詞的方法,根據(jù)地理數(shù)據(jù)特點,利用規(guī)則與統(tǒng)計方法對名稱與地址數(shù)據(jù)進行切分獲取侯選詞,然后對候選詞進行驗證與擴充,并獲取特征詞的相關(guān)屬性。本發(fā)明能夠驗證與擴展地理特征詞,快速的獲取地理特征詞屬性,為地理信息數(shù)據(jù)分析提供基石,有效提高數(shù)據(jù)分析的效率。如圖2所示,本發(fā)明實施例還提供了一種提取地理特征詞的裝置,包括第一處理模塊20,用于根據(jù)原始地址數(shù)據(jù)和名稱數(shù)據(jù)獲取第一候選詞集合;第二處理模塊21,用于對第一候選詞集合進行驗證和擴展得到擴展詞集合,并對擴展詞集合中的詞進行篩選得到第二候選詞集合;判斷模塊22,用于判斷第二候選詞集合和第一候選詞集合的比值與第一閾值的大??;
6
第二處理模塊21還用于在判斷模塊22判斷比值大于第一閾值時,將第二候選詞集合替換第一候選詞集合;保存模塊23,用于在判斷模塊22判斷比值不大于第一閾值時,保存得到的擴展詞集合作為地理特征詞集合。其中,保存模塊23還用于獲取地理特征詞集合中各個地理特征詞對應(yīng)的相關(guān)詞屬性、級別屬性、與其它地理特征詞之間的所屬關(guān)系。其中,第一處理模塊20進一步包括第一切分子模塊,用于利用標記詞對原始地址數(shù)據(jù)和名稱數(shù)據(jù)進行切分,得到歧義切分詞集合A和無歧義切分詞集合B,對集合A進行去歧義處理得到集合C ;合并子模塊,用于將集合B和集合C合并,并在合并后的集合中過濾掉不符合特征詞模式的詞,得到第一候選詞集合。其中,第二處理模塊21進一步包括搜索子模塊,用于獲得第一候選詞集合中的候選詞在通用的搜索引擎中進行搜索的返回結(jié)果,其中搜索引擎能返回輸入詞的相關(guān)搜索詞語組合以及相關(guān)搜索標題,并能在輸入詞錯誤時返回糾正詞,擴展詞獲取子模塊,用于若搜索引擎返回糾正詞,則將糾正詞輸入擴展詞集合;第二相關(guān)詞獲取子模塊,用于對獲取的搜索標題進行切分,所獲取的詞作為第一詞集合,將相關(guān)搜索詞語組合處出現(xiàn)的詞進行切分,所獲取的詞作為第二詞集合;擴展詞獲取子模塊還用于將第一詞集合與第二詞集合共同出現(xiàn)的詞加入擴展詞集合,之后計算第一詞集合中剩下的詞的權(quán)重、第一詞集合中剩下的詞與輸入詞的編輯距離,挑選符合預(yù)設(shè)條件的詞加入擴展詞集合;計算第二詞集合中剩下的詞與輸入詞的編輯距離,挑選符合預(yù)設(shè)條件的詞加入擴展詞集合。其中,第二處理模塊21還包括篩選子模塊,用于將第一候選詞輸入已驗證詞集合中,從擴展詞集合中篩選出符合預(yù)設(shè)模式且不屬于已驗證詞集合中的詞加入第二候選詞集合。本實施例的提取地理特征詞的裝置,根據(jù)地理數(shù)據(jù)特點,利用規(guī)則與統(tǒng)計方法對名稱與地址數(shù)據(jù)進行切分獲取侯選詞,然后通過搜索引擎對候選詞進行驗證與擴充,并獲取特征詞的相關(guān)屬性。本發(fā)明能夠驗證與擴展地理特征詞,快速的獲取地理特征詞屬性,為地理信息數(shù)據(jù)分析提供基石,有效提高數(shù)據(jù)分析的效率。下面對本發(fā)明的提取地理特征詞的方法進行詳細介紹。步驟1 首先是從原始地理數(shù)據(jù)中獲取原始地址數(shù)據(jù)和名稱數(shù)據(jù);從原始地理數(shù)據(jù)中分別抽取名稱數(shù)據(jù)與地址數(shù)據(jù),經(jīng)格式化處理后分別保存至文件name, txt與addr. txt。比如原始地理數(shù)據(jù)可以來自數(shù)據(jù)庫,文件等,從中可以抽取出名稱數(shù)據(jù)(例如澳門中心商場)和地址數(shù)據(jù)(例如王府井東大街8號);步驟2 根據(jù)原始地址數(shù)據(jù)和名稱數(shù)據(jù)獲取第一候選詞集合;如圖3所示為對地址/名稱數(shù)據(jù)進行處理的過程,首先對地址數(shù)據(jù)進行處理,根據(jù)地址數(shù)據(jù)特點,把地址數(shù)據(jù)包含的標記詞分成若干類,如數(shù)字標記詞,英文標記詞,門牌號前綴詞,方向詞等。標記詞為能代表地理特征的詞。比如大街,市,區(qū)。設(shè)定標記詞規(guī)則1, 根據(jù)規(guī)則1對地址數(shù)據(jù)進行切分,根據(jù)切分的結(jié)果獲取集合Al以及集合Bi,其中集合Bl為無歧義切分詞,集合Al為歧義切分詞。其中,標記詞規(guī)則1可以通過地址模式與標記詞特點指定,例如可以為首先利用標記詞(如市,區(qū),門,街,號,座,樓)進行粗分,如果里面涉及門排號或樓號,則采用門排號前綴+數(shù)字/字母+后綴的方式。切分后結(jié)果看是否符合地址模式(例如市+路+樓/號+POI名稱+樓/號),不符合再利用標記詞進行調(diào)整。比如地址數(shù)據(jù)“北京市西城區(qū)阜城門外大街2號萬通新世界廣場a座18樓”就可以根據(jù)標記詞分為“北京市I西城區(qū)I阜城門外I大街|2號I萬通新世界廣場|a座|18樓”,其中 “萬通新世界廣場”為無歧義切分詞,“阜城門外I大街”為歧義切分詞,可以通過地址模式判斷切分后的詞是否有歧義。集合Al與集合Bl合并為集合ABl。例如集合Al中包含“阜城門外I大街”,則可產(chǎn)生“阜城門外/阜城門外大街/大街”三個詞,與Bl中的“萬通新世界廣場”合并為集合ABl “阜城門外/阜城門外大街/大街/萬通新世界廣場”四個詞。獲取集合ABl在地址數(shù)據(jù)中的頻次,同時利用所獲取的頻次,對集合Al中的詞進行去歧義處理,得到集合Cl。例如A1 “阜城門外/阜城門外大街/大街”得到Cl “阜城門外/阜城門外大街”。將集合Bl和集合Cl合并得到D1,過濾Dl中不符合特征詞的詞(例如純數(shù)字; 存在不屬于特定英文字符數(shù)字(如#$%);單字等),得到的詞加入到第一候選詞集合中。利用名稱數(shù)據(jù)獲取候選詞集合的過程與上述過程類似,把名稱數(shù)據(jù)包含的標記詞分成若干類,設(shè)定標記詞規(guī)則2,根據(jù)規(guī)則2對名稱數(shù)據(jù)進行切分,根據(jù)切分的結(jié)果獲取集合A2以及集合B2,其中集合B2為無歧義切分詞,集合A2為歧義切分詞。集合A2與集合 B2合并為集合AB2,獲取集合AB2在名稱數(shù)據(jù)中的頻次,同時利用所獲取的頻次,對集合A2 中的詞進行去歧義處理,到集合C2。將集合B2和集合C2合并得到D2,過濾D2中不符合特征詞的詞(例如純數(shù)字;存在不屬于特定英文字符數(shù)字(如#$%);單字等),得到的詞加入到第一候選詞集合中。名稱數(shù)據(jù)與地址數(shù)據(jù)的標記詞不同,名稱的標記詞,主要是有限公司、經(jīng)營部、商店、市、區(qū)、鎮(zhèn)等。因為標記詞不同,所以切分的規(guī)則也不同,與地址數(shù)據(jù)最大的不同在于沒有號,樓,方向詞等模式,從名稱數(shù)據(jù)中主要是提取品牌詞,例如“上海市盧灣區(qū)萬順文化用品商店”切分結(jié)果為“上海市I盧灣區(qū)I萬順I(yè)文化用品I商店”,其中“萬順I(yè)文化用品” 才是所需要的詞;步驟3 對第一候選詞集合進行驗證和擴展得到擴展詞集合,并對擴展詞集合中的詞進行篩選得到第二候選詞集合;本步驟對第一候選詞集合中的詞進行逐一處理,如圖4所示為對其中一個候選詞的處理過程,對第一候選詞集合中的其他詞的處理過程與此處理過程類同。將候選詞作為搜索輸入詞,在通用的搜索引擎中進行搜索,其中搜索引擎能返回輸入詞的相關(guān)搜索詞語組合以及相關(guān)搜索標題,并能在輸入詞錯誤時返回糾正詞,可以利用現(xiàn)有很多搜索引擎如百度、google等的搜索結(jié)果實施本發(fā)明。在搜索引擎中對候選詞進行搜索,獲取返回結(jié)果前n(n為預(yù)設(shè)個數(shù))條的“標題”, “相關(guān)搜索”處出現(xiàn)的詞。如果存在搜索引擎糾正的詞,那么將糾正的詞直接加入擴展詞集合。比如在利用搜索引擎進行搜索時,在將“車公莊”作為輸入詞輸入搜索引擎中時,返回結(jié)果前η條標題其中包括“車公莊地圖_車公莊_北京地鐵車公莊站_車公莊周邊公交”, 相關(guān)搜索處出現(xiàn)的詞包括“車公莊美食”。利用通過特殊的字符(如‘,’ ‘! ’‘’ ‘!’等)對返回的搜索“標題”進行切分獲取詞短語,從中選擇包含特殊標記(如<em>,</em>)且詞語長度小于第二閥值的詞語,力口入詞集合1。其中,預(yù)設(shè)的規(guī)則為,特殊標記為與輸入詞相關(guān)的詞語做特殊顯示,第二閾值為輸入詞的一定倍數(shù)(如1. 5倍)且不大于預(yù)定閥值(如10),這樣利用該規(guī)則對“車公莊地圖_車公莊_北京地鐵車公莊站_車公莊周邊公交”進行切分,得到“車公莊地圖I車公莊I北京地鐵車公莊站I車公莊周邊公交”5個詞從中選擇包含特殊標記(如<em>,</em>) 且詞語長度小于第二閥值(3*1.5 = 5)的詞語為“車公莊地圖I車公莊”,將獲取的詞語加入集合1中。利用特殊字符切分對“相關(guān)搜索”處出現(xiàn)的詞進行切分,用該規(guī)則對“車公莊美食”進行切分,獲取到的詞語為“車公莊” “美食”,所獲取的詞語加入集合2。將集合1與集合2中共同出現(xiàn)的詞存入擴展詞集合,并從集合1與2中去除。通過返回的搜索“標題”計算集合1中剩下的詞的權(quán)重,判斷詞的權(quán)重是否符合預(yù)定規(guī)則,其中,預(yù)設(shè)規(guī)則可以為第一詞集合中某一詞的權(quán)重與前一個詞的權(quán)重的比值大于第五閾值,如符合則計算該詞與搜索輸入詞的編輯距離,將編輯距離小于第三閾值的詞加入擴展詞集合。其中,第三閾值根據(jù)搜索輸入詞的長度設(shè)置。計算集合2中剩下的詞與搜索輸入詞的編輯距離,將編輯距離小于第四閾值的詞加入擴展詞集合。其中如果擴展詞集合中包含搜索輸入詞,則該輸入詞為有效特征詞,把有效特征詞存入集合word,同時保存有效特征詞信息至exword. txt。從擴展詞集合中篩選出符合預(yù)設(shè)模式(例如不是純數(shù)字;不存在不屬于特定英文字符數(shù)字如;不是單字,詞的結(jié)尾不包含地址等模式的詞)且不在集合word的詞加入第二候選詞集合。比較第二候選詞集合與第一候選詞集合的比值大小,若比值不大于第一閾值,則轉(zhuǎn)向步驟4,否則將第二候選詞集合代替第一候選詞集合,重復(fù)步驟3 ;步驟4 保存得到的擴展詞集合作為地理特征詞集合,并獲取對應(yīng)的特征詞相關(guān)詞屬性、級別和所屬關(guān)系。將步驟3中得到的所有擴展詞集合中的詞存入集合word中,集合word為最終的地理特征詞集合,將通過exword. txt填充特征詞的相關(guān)詞屬性和級別屬性,并通過地址/ 名稱數(shù)據(jù),填充特征詞所屬關(guān)系。比如,在集合word中存在“北京醫(yī)科大學(xué)”這一地理特征詞,在exword. txt填充該詞的相關(guān)詞屬性為“北京京華醫(yī)科大學(xué)北京首都醫(yī)科大學(xué)北京協(xié)和醫(yī)科大學(xué)北京醫(yī)科大學(xué)醫(yī)院北醫(yī)大首都醫(yī)科大學(xué)”。特征詞級別屬性是通過標記詞與addr. txt來設(shè)定的由name獲取的詞統(tǒng)一為“品牌詞”這一級別第1步,通過標記詞劃分級別例如“海淀區(qū)”末尾為“區(qū)”這一標記詞,那么屬于“區(qū)縣”或者“社區(qū)”這一級別; “復(fù)興路”末尾為“路”這一標記詞,那么屬于“道路”這一級別;1第2步,利用addr. txt驗證與劃分級別例如北京市海淀區(qū)復(fù)興路61號嶸辰寫字樓b座227室切分后北京市I海淀區(qū)I復(fù)興路I 61號I嶸辰寫字樓|b座I 227室其中“海淀區(qū)”處于“市”與“路”級別之間;那么可以判斷“海淀區(qū)”為“區(qū)縣”這一級別而不為“社區(qū)”這一級別;同時“嶸辰寫字樓”處于“號”與“座”之間,那么可以判斷 “嶸辰寫字樓”為POI點這一級別。
特征詞所屬關(guān)系是通過分析addr. txt獲取的“北京市西城區(qū)”,例如北京市海淀區(qū)復(fù)興路61號嶸辰寫字樓b座227室切分后北京市I海淀區(qū)I復(fù)興路I 61號I嶸辰寫字樓|b座I 227室可獲取所屬關(guān)系“海淀區(qū)”屬于“北京市”;“復(fù)興路”屬于“海淀區(qū)”;“嶸辰寫字樓”屬于“北京市”。之后可以對地理特征詞集合進行審核,刪除權(quán)重低的特征詞、未能識別的特征詞級別、相矛盾的特征詞所屬關(guān)系以及權(quán)重低的特征詞的相關(guān)詞。所述方法實施例是與所述裝置實施例相對應(yīng)的,在方法實施例中未詳細描述的部分參照裝置實施例中相關(guān)部分的描述即可,在裝置實施例中未詳細描述的部分參照方法實施例中相關(guān)部分的描述即可。本領(lǐng)域普通技術(shù)人員可以理解,實現(xiàn)上述實施例方法中的全部或部分步驟是可以通過程序來指令相關(guān)的硬件來完成,所述的程序可以存儲于一計算機可讀取存儲介質(zhì)中, 該程序在執(zhí)行時,包括如上述方法實施例的步驟,所述的存儲介質(zhì),如磁碟、光盤、只讀存儲記憶體(Read-Only Memory, ROM)或隨機存儲記憶體(Random Access Memory, RAM)等。在本發(fā)明各方法實施例中,所述各步驟的序號并不能用于限定各步驟的先后順序,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,對各步驟的先后變化也在本發(fā)明的保護范圍之內(nèi)。以上所述是本發(fā)明的優(yōu)選實施方式,應(yīng)當(dāng)指出,對于本技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明所述原理的前提下,還可以作出若干改進和潤飾,這些改進和潤飾也應(yīng)視為本發(fā)明的保護范圍。
權(quán)利要求
1.一種提取地理特征詞的方法,其特征在于,包括步驟A 根據(jù)原始地址數(shù)據(jù)和名稱數(shù)據(jù)獲取第一候選詞集合;步驟B 對所述第一候選詞集合進行驗證和擴展得到擴展詞集合,并對所述擴展詞集合中的詞進行篩選得到第二候選詞集合;步驟C:判斷所述第二候選詞集合與所述第一候選詞集合的比值大小,若所述比值不大于第一閾值,轉(zhuǎn)向步驟D,否則將所述第二候選詞集合替換所述第一候選詞集合,并返回步驟B ;步驟D 保存得到的擴展詞集合作為地理特征詞集合。
2.根據(jù)權(quán)利要求1所述的提取地理特征詞的方法,其特征在于,所述步驟D還包括獲取所述地理特征詞集合中各個地理特征詞對應(yīng)的相關(guān)詞屬性、級別屬性、與其它地理特征詞之間的所屬關(guān)系。
3.根據(jù)權(quán)利要求2所述的提取地理特征詞的方法,其特征在于,所述根據(jù)原始地址數(shù)據(jù)和名稱數(shù)據(jù)獲取第一候選詞集合包括利用標記詞對原始地址數(shù)據(jù)和名稱數(shù)據(jù)進行切分,得到歧義切分詞集合A和無歧義切分詞集合B,對所述集合A進行去歧義處理得到集合C ;將集合B和集合C合并,并在合并后的集合中過濾掉不符合特征詞模式的詞,得到第一候選詞集合。
4.根據(jù)權(quán)利要求3所述的提取地理特征詞的方法,其特征在于,所述對所述第一候選詞集合進行驗證和擴展得到擴展詞集合包括獲得所述第一候選詞集合中的候選詞在通用的搜索引擎中進行搜索的返回結(jié)果,其中所述搜索引擎能返回所述輸入詞的相關(guān)搜索詞語組合以及相關(guān)搜索標題,并能在所述輸入詞錯誤時返回糾正詞;若所述搜索引擎返回糾正詞,則將所述糾正詞輸入擴展詞集合;否則對獲取的搜索標題進行切分,所獲取的詞作為第一詞集合,將相關(guān)搜索詞語組合處出現(xiàn)的詞進行切分,所獲取的詞作為第二詞集合;將第一詞集合與第二詞集合共同出現(xiàn)的詞加入擴展詞集合,之后計算所述第一詞集合中剩下的詞的權(quán)重、所述第一詞集合中剩下的詞與所述輸入詞的編輯距離,挑選符合預(yù)設(shè)條件的詞加入擴展詞集合;計算所述第二詞集合中剩下的詞與所述輸入詞的編輯距離,挑選符合預(yù)設(shè)條件的詞加入擴展詞集合。
5.根據(jù)權(quán)利要求4所述的提取地理特征詞的方法,其特征在于,對所述擴展詞集合中的詞進行篩選得到第二候選詞集合包括將所述第一候選詞輸入已驗證詞集合中;從所述擴展詞集合中篩選出符合預(yù)設(shè)模式且不屬于所述已驗證詞集合中的詞加入所述第二候選詞集合。
6.一種提取地理特征詞的裝置,其特征在于,包括第一處理模塊,用于根據(jù)原始地址數(shù)據(jù)和名稱數(shù)據(jù)獲取第一候選詞集合;第二處理模塊,用于對所述第一候選詞集合進行驗證和擴展得到擴展詞集合,并對所述擴展詞集合中的詞進行篩選得到第二候選詞集合;判斷模塊,用于判斷所述第二候選詞集合和所述第一候選詞集合的比值與第一閾值的大??;所述第二處理模塊還用于在所述判斷模塊判斷所述比值大于第一閾值時,將所述第二候選詞集合替換所述第一候選詞集合;保存模塊,用于在所述判斷模塊判斷比值不大于第一閾值時,保存得到的擴展詞集合作為地理特征詞集合。
7.根據(jù)權(quán)利要求6所述的提取地理特征詞的裝置,其特征在于,所述保存模塊還用于獲取所述地理特征詞集合中各個地理特征詞對應(yīng)的相關(guān)詞屬性、級別屬性、與其它地理特征詞之間的所屬關(guān)系。
8.根據(jù)權(quán)利要求7所述的提取地理特征詞的裝置,其特征在于,所述第一處理模塊包括第一切分子模塊,用于利用標記詞對原始地址數(shù)據(jù)和名稱數(shù)據(jù)進行切分,得到歧義切分詞集合A和無歧義切分詞集合B,對所述集合A進行去歧義處理得到集合C ;合并子模塊,用于將集合B和集合C合并,并在合并后的集合中過濾掉不符合特征詞模式的詞,得到第一候選詞集合。
9.根據(jù)權(quán)利要求8所述的提取地理特征詞的裝置,其特征在于,所述第二處理模塊包括搜索子模塊,用于獲得所述第一候選詞集合中的候選詞在通用的搜索引擎中進行搜索的返回結(jié)果,其中所述搜索引擎能返回所述輸入詞的相關(guān)搜索詞語組合以及相關(guān)搜索標題,并能在所述輸入詞錯誤時返回糾正詞;擴展詞獲取子模塊,用于若所述搜索引擎返回糾正詞,則將所述糾正詞輸入擴展詞集合;第二相關(guān)詞獲取子模塊,用于對獲取的搜索標題進行切分,所獲取的詞作為第一詞集合,將相關(guān)搜索詞語組合處出現(xiàn)的詞進行切分,所獲取的詞作為第二詞集合;擴展詞獲取子模塊還用于將第一詞集合與第二詞集合共同出現(xiàn)的詞加入擴展詞集合, 之后計算所述第一詞集合中剩下的詞的權(quán)重、所述第一詞集合中剩下的詞與所述輸入詞的編輯距離,挑選符合預(yù)設(shè)條件的詞加入擴展詞集合;計算所述第二詞集合中剩下的詞與所述輸入詞的編輯距離,挑選符合預(yù)設(shè)條件的詞加入擴展詞集合。
10.根據(jù)權(quán)利要求9所述的提取地理特征詞的方法,其特征在于,所述第二處理模塊還包括篩選子模塊,用于將所述第一候選詞輸入已驗證詞集合中,從所述擴展詞集合中篩選出符合預(yù)設(shè)模式且不屬于所述已驗證詞集合中的詞加入所述第二候選詞集合。
全文摘要
本發(fā)明提供一種提取地理特征詞的方法及裝置,屬于數(shù)字地圖領(lǐng)域。其中,該提取地理特征詞的方法,包括步驟A根據(jù)原始地址數(shù)據(jù)和名稱數(shù)據(jù)獲取第一候選詞集合;步驟B對所述第一候選詞集合進行驗證和擴展得到擴展詞集合,并對所述擴展詞集合中的詞進行篩選得到第二候選詞集合;步驟C判斷所述第二候選詞集合與所述第一候選詞集合的比值大小,若所述比值不大于第一閾值,轉(zhuǎn)向步驟D,否則將所述第二候選詞集合替換所述第一候選詞集合,并返回步驟B;步驟D保存得到的擴展詞集合作為地理特征詞集合。本發(fā)明實施例能夠有效提高數(shù)據(jù)分析的效率。
文檔編號G06F17/30GK102479230SQ20101057130
公開日2012年5月30日 申請日期2010年11月29日 優(yōu)先權(quán)日2010年11月29日
發(fā)明者羅麗俊, 鄒中心, 陳文斌 申請人:北京四維圖新科技股份有限公司