一種基于聚類確定poi名稱的系統(tǒng)及方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及電子地圖技術(shù)領(lǐng)域,具體而言,涉及一種基于聚類確定P0I名稱的系 統(tǒng)和一種基于聚類確定P0I名稱的方法。
【背景技術(shù)】
[0002] 興趣點(diǎn)(Point of Interest, P0I) -般是電子地圖中標(biāo)注的地理信息點(diǎn),通常包 含P0I標(biāo)識(shí)、P0I名稱、P0I類型、經(jīng)度、緯度等信息。P0I可以在地圖上標(biāo)注出來,帶有經(jīng)緯 度信息,可以用來查找并計(jì)算導(dǎo)航的地標(biāo)點(diǎn)或者建筑物,例如商場、停車場、學(xué)校、醫(yī)院、酒 店、飯店、超市、公園、旅游景點(diǎn)等。
[0003] 越來越多的用戶在電子地圖中查詢P0I,數(shù)據(jù)庫中存儲(chǔ)的P0I數(shù)據(jù)為P0I查詢提供 數(shù)據(jù)支撐。目前,對數(shù)據(jù)庫中的P0I數(shù)據(jù)進(jìn)行更新主要通過進(jìn)行數(shù)據(jù)實(shí)采,根據(jù)實(shí)采得到的 數(shù)據(jù)對數(shù)據(jù)庫中存儲(chǔ)的P0I數(shù)據(jù)進(jìn)行更新,或是從互聯(lián)網(wǎng)上的各個(gè)生活類信息網(wǎng)站上獲取 P0I數(shù)據(jù),只要獲取的數(shù)據(jù)包括P0I的名稱和地址,即可將該條數(shù)據(jù)確定為一條P0I數(shù)據(jù)。 由于P0I數(shù)據(jù)的獲取及更新方式的特點(diǎn),不可避免的導(dǎo)致互聯(lián)網(wǎng)上存在著各種各樣的P0I 數(shù)據(jù)。因此,從不同來源網(wǎng)站獲取的P0I數(shù)據(jù)中,有可能存在重復(fù)性數(shù)據(jù),即多條P0I數(shù)據(jù) 實(shí)際描述的是同一 P0I,其實(shí)際的P0I經(jīng)度、緯度相同,但是P0I名稱和P0I地址的描述方 式卻不同。重復(fù)性的P0I數(shù)據(jù)導(dǎo)致用戶無法快速、準(zhǔn)確的搜索到同一 P0I地理位置(經(jīng)緯 度)的P0I地址對應(yīng)的P0I名稱,影響用戶體驗(yàn)。
【發(fā)明內(nèi)容】
[0004] 鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決或 者減緩上述問題的基于聚類確定P0I名稱的系統(tǒng)和相應(yīng)的基于聚類確定P0I名稱的方法。
[0005] 根據(jù)本發(fā)明的一個(gè)方面,提供了一種基于聚類確定P0I名稱的系統(tǒng),該系統(tǒng)包括:
[0006] 地址數(shù)據(jù)抓取器,用于從網(wǎng)絡(luò)數(shù)據(jù)中抓取地址數(shù)據(jù);
[0007] 地址數(shù)據(jù)解析器,用于從抓取到的一個(gè)或多個(gè)地址數(shù)據(jù)中分別提取名稱字段和地 址信息;
[0008] 關(guān)鍵詞確定器,用于基于所述名稱字段確定一個(gè)或多個(gè)關(guān)鍵詞;
[0009] 關(guān)鍵詞聚類器,用于將對應(yīng)相同地址信息的所述關(guān)鍵詞進(jìn)行聚類,生成至少一個(gè) 類;
[0010] P0I名稱生成器,用于根據(jù)聚類后的關(guān)鍵詞確定此地址信息對應(yīng)的P0I名稱。
[0011] 優(yōu)選地,所述關(guān)鍵詞確定器進(jìn)一步包括:
[0012] 切詞單元,用于對所述名稱字段中的名稱進(jìn)行切詞處理生成分詞;
[0013] 關(guān)鍵詞獲取單元,用于根據(jù)所述分詞獲取所述地址數(shù)據(jù)的關(guān)鍵詞。
[0014] 優(yōu)選地,所述關(guān)鍵詞獲取單元進(jìn)一步包括:
[0015] 第一頻次統(tǒng)計(jì)模塊,用于統(tǒng)計(jì)對應(yīng)相同地址信息的每個(gè)分詞出現(xiàn)的頻次,作為第 一頻次;
[0016] 關(guān)鍵詞生成模塊,用于根據(jù)所述第一頻次生成所述地址數(shù)據(jù)的關(guān)鍵詞。
[0017] 優(yōu)選地,所述關(guān)鍵詞生成模塊選擇頻次最小并且是非地名的分詞作為所述地址數(shù) 據(jù)的關(guān)鍵詞。
[0018] 優(yōu)選地,所述P0I名稱生成器進(jìn)一步包括:
[0019] 頻率統(tǒng)計(jì)單元,用于計(jì)算各個(gè)類中名稱字段的出現(xiàn)頻率;
[0020] 類標(biāo)識(shí)名稱確定單元,用于將所述各個(gè)類中出現(xiàn)頻率最高的名稱字段作為類標(biāo)識(shí) 名稱;
[0021] P0I名稱確定單元,用于將每個(gè)類標(biāo)識(shí)名稱均作為P0I名稱。
[0022] 優(yōu)選地,所述P0I名稱生成器進(jìn)一步包括:
[0023] 頻率統(tǒng)計(jì)單元,用于計(jì)算各個(gè)類中名稱字段的出現(xiàn)頻率;
[0024] 類標(biāo)識(shí)名稱確定單元,用于將所述各個(gè)類中出現(xiàn)頻率最高的名稱字段作為類標(biāo)識(shí) 名稱;
[0025] P0I名稱確定單元,用于選擇出現(xiàn)頻率最高的類標(biāo)識(shí)名稱作為P0I名稱。
[0026] 根據(jù)本發(fā)明的另一個(gè)方面,提供了一種基于聚類確定P0I名稱的方法,包括:
[0027] 從網(wǎng)絡(luò)數(shù)據(jù)中抓取地址數(shù)據(jù);
[0028] 從抓取到的一個(gè)或多個(gè)地址數(shù)據(jù)中分別提取名稱字段和地址信息;
[0029] 基于所述名稱字段確定一個(gè)或多個(gè)關(guān)鍵詞;
[0030] 將對應(yīng)相同地址信息的所述關(guān)鍵詞進(jìn)行聚類,生成至少一個(gè)類;
[0031] 根據(jù)聚類后的關(guān)鍵詞確定此地址信息對應(yīng)的P0I名稱。
[0032] 優(yōu)選地,所述步驟:基于所述名稱字段確定一個(gè)或多個(gè)關(guān)鍵詞,進(jìn)一步包括 :
[0033] 對所述名稱字段中的名稱進(jìn)行切詞處理生成分詞;
[0034] 根據(jù)所述分詞獲取所述地址數(shù)據(jù)的關(guān)鍵詞。
[0035] 優(yōu)選地,所述步驟:根據(jù)所述分詞獲取所述地址數(shù)據(jù)的關(guān)鍵詞,進(jìn)一步包括 :
[0036] 統(tǒng)計(jì)對應(yīng)相同地址信息的每個(gè)分詞出現(xiàn)的頻次作為第一頻次;
[0037] 根據(jù)所述第一頻次生成所述地址數(shù)據(jù)的關(guān)鍵詞。
[0038] 優(yōu)選地,所述步驟根據(jù)所述第一頻次生成所述地址數(shù)據(jù)的關(guān)鍵詞具體為:
[0039] 選擇頻次最小并且是非地名的分詞作為所述地址數(shù)據(jù)的關(guān)鍵詞。
[0040] 優(yōu)選地,所述步驟:根據(jù)聚類后的關(guān)鍵詞確定此地址信息對應(yīng)的P0I名稱,進(jìn)一步 包括:
[0041] 計(jì)算各個(gè)類中名稱字段的出現(xiàn)頻率;
[0042] 將所述各個(gè)類中出現(xiàn)頻率最高的名稱字段作為類標(biāo)識(shí)名稱;
[0043] 將每個(gè)類標(biāo)識(shí)名稱均作為P0I名稱。
[0044] 優(yōu)選地,所述步驟:根據(jù)聚類后的關(guān)鍵詞確定此地址信息對應(yīng)的P0I名稱,進(jìn)一步 包括:
[0045] 計(jì)算各個(gè)類中名稱字段的出現(xiàn)頻率;
[0046] 將所述各個(gè)類中出現(xiàn)頻率最高的名稱字段作為類標(biāo)識(shí)名稱;
[0047] 選擇出現(xiàn)頻率最高的類標(biāo)識(shí)名稱作為P0I名稱。
[0048] 本發(fā)明的有益效果為:
[0049] 本發(fā)明對從網(wǎng)絡(luò)數(shù)據(jù)中抓取地址數(shù)據(jù)進(jìn)行名稱字段和地址信息的提取,基于名稱 字段確定一個(gè)或多個(gè)關(guān)鍵詞,并將對應(yīng)相同地址信息的關(guān)鍵詞進(jìn)行聚類,基于聚類后的關(guān) 鍵詞確定地址信息對應(yīng)的POI名稱,從而使得用戶能夠快速、準(zhǔn)確地搜索到同一經(jīng)、緯度的 POI地址對應(yīng)的POI名稱,改善用戶體驗(yàn)。
[0050]上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段, 而可依照說明書的內(nèi)容予以實(shí)施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠 更明顯易懂,以下特舉本發(fā)明的【具體實(shí)施方式】。
【附圖說明】
[0051] 通過閱讀下文優(yōu)選實(shí)施方式的詳細(xì)描述,各種其他的優(yōu)點(diǎn)和益處對于本領(lǐng)域普通 技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實(shí)施方式的目的,而并不認(rèn)為是對本發(fā)明 的限制。而且在整個(gè)附圖中,用相同的參考符號(hào)表示相同的部件。在附圖中:
[0052] 圖1示意性示出了本發(fā)明一個(gè)實(shí)施例的基于聚類確定P0I名稱的系統(tǒng)的框圖;
[0053] 圖2示意性示出了本發(fā)明另一個(gè)實(shí)施例的基于聚類確定P0I名稱的系統(tǒng)中的關(guān)鍵 詞確定器的框圖;
[0054] 圖3不意性不出了本發(fā)明另一個(gè)實(shí)施例的基于聚類確定P0I名稱的系統(tǒng)中的P0I 名稱生成器的框圖;
[0055] 圖4示意性示出了本發(fā)明另一個(gè)實(shí)施例的基于聚類確定P0I名稱的系統(tǒng)中的P0I 名稱生成器的框圖;
[0056] 圖5示意性示出了本發(fā)明一個(gè)實(shí)施例的基于聚類確定P0I名稱的方法的流程圖;
[0057] 圖6示意性示出了本發(fā)明另一個(gè)實(shí)施例的基于聚類確定P0I名稱的方法的步驟 S13的細(xì)分流程圖;
[0058] 圖7示意性示出了本發(fā)明另一個(gè)實(shí)施例的基于聚類確定P0I