亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于聚類確定poi名稱的系統(tǒng)及方法_2

文檔序號(hào):8258827閱讀:來源:國知局
名稱的方法的步驟 S15的細(xì)分流程圖;以及
[0059] 圖8示意性示出了本發(fā)明另一個(gè)實(shí)施例的基于聚類確定P0I名稱的方法的步驟 S15的細(xì)分流程圖。
【具體實(shí)施方式】
[0060]下面詳細(xì)描述本發(fā)明的實(shí)施例,所述實(shí)施例的示例在附圖中示出,其中自始至終 相同或類似的標(biāo)號(hào)表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附 圖描述的實(shí)施例是示例性的,僅用于解釋本發(fā)明,而不能解釋為對本發(fā)明的限制。
[0061] 本技術(shù)領(lǐng)域技術(shù)人員可以理解,除非特意聲明,這里使用的單數(shù)形式"一"、"一 個(gè)"、"所述"和"該"也可包括復(fù)數(shù)形式。應(yīng)該進(jìn)一步理解的是,本發(fā)明的說明書中使用的措 辭"包括"是指存在所述特征、整數(shù)、步驟、操作、元件和/或組件,但是并不排除存在或添加 一個(gè)或多個(gè)其他特征、整數(shù)、步驟、操作、元件、組件和/或它們的組。
[0062] 本技術(shù)領(lǐng)域技術(shù)人員可以理解,除非另外定義,這里使用的所有術(shù)語(包括技術(shù) 術(shù)語和科學(xué)術(shù)語),具有與本發(fā)明所屬領(lǐng)域中的普通技術(shù)人員的一般理解相同的意義。還應(yīng) 該理解的是,諸如通用字典中定義的那些術(shù)語,應(yīng)該被理解為具有與現(xiàn)有技術(shù)的上下文中 的意義一致的意義,并且除非被特定定義,否則不會(huì)用理想化或過于正式的含義來解釋。 [0063]圖1示出了本發(fā)明一個(gè)實(shí)施例的基于聚類確定P0I名稱的系統(tǒng)的框圖。
[0064] 參照圖1,本發(fā)明實(shí)施例的基于聚類確定P0I名稱的系統(tǒng),包括:
[0065] 地址數(shù)據(jù)抓取器11,用于從網(wǎng)絡(luò)數(shù)據(jù)中抓取地址數(shù)據(jù);
[0066] 地址數(shù)據(jù)解析器12,用于從抓取到的一個(gè)或多個(gè)地址數(shù)據(jù)中分別提取名稱字段和 地址信息;
[0067] 關(guān)鍵詞確定器13,用于基于所述名稱字段確定一個(gè)或多個(gè)關(guān)鍵詞;
[0068] 關(guān)鍵詞聚類器14,用于將對應(yīng)相同地址信息的所述關(guān)鍵詞進(jìn)行聚類,生成至少一 個(gè)類;
[0069] P0I名稱生成器15,用于根據(jù)聚類后的關(guān)鍵詞確定此地址信息對應(yīng)的P0I名稱。
[0070] 本發(fā)明實(shí)施例,基于搜索引擎利用網(wǎng)絡(luò)中的地址數(shù)據(jù),所述地址數(shù)據(jù)包括名稱字 段、地址信息以及多個(gè)相關(guān)P0I信息;本發(fā)明實(shí)施例中,所述多個(gè)相關(guān)P0I信息為對應(yīng)P0I 至少一個(gè)預(yù)設(shè)屬性的信息。進(jìn)一步地,所述預(yù)設(shè)屬性為經(jīng)緯度、地址、建筑物名稱或所囊括 單位名稱。
[0071] 本發(fā)明實(shí)施例,基于搜索引擎從網(wǎng)絡(luò)數(shù)據(jù)中抓取地址數(shù)據(jù),所述地址數(shù)據(jù)包括名 稱字段和地址信息,基于搜索引擎從互聯(lián)網(wǎng)上挖掘的地圖地址數(shù)據(jù),比如name :某某地產(chǎn) 集團(tuán)**分公司公司;address :林市林區(qū)8*財(cái)富中心A座寫字樓14樓,其中"某某地產(chǎn) 集團(tuán)林分公司公司"為P0I的名稱,"林市林區(qū)8*財(cái)富中心A座寫字樓14樓"為此P0I 的地址,通過對地址的經(jīng)緯度解析可以獲得此地址所在的經(jīng)緯度信息,比如地址"**市** 區(qū)8*財(cái)富中心A座寫字樓14樓"經(jīng)緯度解析得到的經(jīng)緯度為:東經(jīng):102. 733445北緯: 25. 08108。另外,需要統(tǒng)計(jì)P0I信息在互聯(lián)網(wǎng)上出現(xiàn)的次數(shù)以及記錄來源。
[0072] 所以,最終從互聯(lián)網(wǎng)上挖掘的地址數(shù)據(jù)對應(yīng)的不同信息來源的P0I信息的格式如 表1所示,具體如下:
[0073] 表1不同信息來源的P0I信息的格式表
[0074] L/1N丄I厶汐dd ^ * * I* d/丄厶J/<
【主權(quán)項(xiàng)】
1. 一種基于聚類確定POI名稱的系統(tǒng),該系統(tǒng)包括: 地址數(shù)據(jù)抓取器,用于從網(wǎng)絡(luò)數(shù)據(jù)中抓取地址數(shù)據(jù); 地址數(shù)據(jù)解析器,用于從抓取到的一個(gè)或多個(gè)地址數(shù)據(jù)中分別提取名稱字段和地址信 息; 關(guān)鍵詞確定器,用于基于所述名稱字段確定一個(gè)或多個(gè)關(guān)鍵詞; 關(guān)鍵詞聚類器,用于將對應(yīng)相同地址信息的所述關(guān)鍵詞進(jìn)行聚類,生成至少一個(gè)類; P0I名稱生成器,用于根據(jù)聚類后的關(guān)鍵詞確定此地址信息對應(yīng)的P0I名稱。
2. 如權(quán)利要求1所述的系統(tǒng),所述關(guān)鍵詞確定器進(jìn)一步包括: 切詞單元,用于對所述名稱字段中的名稱進(jìn)行切詞處理生成分詞; 關(guān)鍵詞獲取單元,用于根據(jù)所述分詞獲取所述地址數(shù)據(jù)的關(guān)鍵詞。
3. 如權(quán)利要求1-2任一項(xiàng)所述的系統(tǒng),所述關(guān)鍵詞獲取單元進(jìn)一步包括: 第一頻次統(tǒng)計(jì)模塊,用于統(tǒng)計(jì)對應(yīng)相同地址信息的每個(gè)分詞出現(xiàn)的頻次,作為第一頻 次; 關(guān)鍵詞生成模塊,用于根據(jù)所述第一頻次生成所述地址數(shù)據(jù)的關(guān)鍵詞。
4. 如權(quán)利要求1-3任一項(xiàng)所述的系統(tǒng),所述關(guān)鍵詞生成模塊選擇頻次最小并且是非地 名的分詞作為所述地址數(shù)據(jù)的關(guān)鍵詞。
5. 如權(quán)利要求1-4任一項(xiàng)所述的系統(tǒng),所述P0I名稱生成器進(jìn)一步包括: 頻率統(tǒng)計(jì)單元,用于計(jì)算各個(gè)類中名稱字段的出現(xiàn)頻率; 類標(biāo)識(shí)名稱確定單元,用于將所述各個(gè)類中出現(xiàn)頻率最高的名稱字段作為類標(biāo)識(shí)名 稱; P0I名稱確定單元,用于將每個(gè)類標(biāo)識(shí)名稱均作為P0I名稱。
6. 如權(quán)利要求1-4任一項(xiàng)所述的系統(tǒng),所述P0I名稱生成器進(jìn)一步包括: 頻率統(tǒng)計(jì)單元,用于計(jì)算各個(gè)類中名稱字段的出現(xiàn)頻率; 類標(biāo)識(shí)名稱確定單元,用于將所述各個(gè)類中出現(xiàn)頻率最高的名稱字段作為類標(biāo)識(shí)名 稱; P0I名稱確定單元,用于選擇出現(xiàn)頻率最高的類標(biāo)識(shí)名稱作為P0I名稱。
7. -種基于聚類確定P0I名稱的方法,包括: 從網(wǎng)絡(luò)數(shù)據(jù)中抓取地址數(shù)據(jù); 從抓取到的一個(gè)或多個(gè)地址數(shù)據(jù)中分別提取名稱字段和地址信息; 基于所述名稱字段確定一個(gè)或多個(gè)關(guān)鍵詞; 將對應(yīng)相同地址信息的所述關(guān)鍵詞進(jìn)行聚類,生成至少一個(gè)類; 根據(jù)聚類后的關(guān)鍵詞確定此地址信息對應(yīng)的P0I名稱。
8. 如權(quán)利要求7所述的方法,所述步驟;基于所述名稱字段確定一個(gè)或多個(gè)關(guān)鍵詞,進(jìn) 一步包括: 對所述名稱字段中的名稱進(jìn)行切詞處理生成分詞; 根據(jù)所述分詞獲取所述地址數(shù)據(jù)的關(guān)鍵詞。
9. 如權(quán)利要求7-8任一項(xiàng)所述的方法,所述步驟;根據(jù)所述分詞獲取所述地址數(shù)據(jù)的 關(guān)鍵詞,進(jìn)一步包括: 統(tǒng)計(jì)對應(yīng)相同地址信息的每個(gè)分詞出現(xiàn)的頻次作為第一頻次; 根據(jù)所述第一頻次生成所述地址數(shù)據(jù)的關(guān)鍵詞。
10. 如權(quán)利要求7-9任一項(xiàng)所述的方法,所述步驟根據(jù)所述第一頻次生成所述地址數(shù) 據(jù)的關(guān)鍵詞具體為: 選擇頻次最小并且是非地名的分詞作為所述地址數(shù)據(jù)的關(guān)鍵詞。
11. 如權(quán)利要求7-10任一項(xiàng)所述的方法,所述步驟;根據(jù)聚類后的關(guān)鍵詞確定此地址 信息對應(yīng)的POI名稱,進(jìn)一步包括: 計(jì)算各個(gè)類中名稱字段的出現(xiàn)頻率; 將所述各個(gè)類中出現(xiàn)頻率最高的名稱字段作為類標(biāo)識(shí)名稱; 將每個(gè)類標(biāo)識(shí)名稱均作為POI名稱。
12. 如權(quán)利要求7-11任一項(xiàng)所述的方法,所述步驟;根據(jù)聚類后的關(guān)鍵詞確定此地址 信息對應(yīng)的POI名稱,進(jìn)一步包括: 計(jì)算各個(gè)類中名稱字段的出現(xiàn)頻率; 將所述各個(gè)類中出現(xiàn)頻率最高的名稱字段作為類標(biāo)識(shí)名稱; 選擇出現(xiàn)頻率最高的類標(biāo)識(shí)名稱作為POI名稱。
【專利摘要】本發(fā)明涉及一種基于聚類確定POI名稱的系統(tǒng)和方法,其中,該方法包括:從網(wǎng)絡(luò)數(shù)據(jù)中抓取地址數(shù)據(jù);從抓取到的一個(gè)或多個(gè)地址數(shù)據(jù)中分別提取名稱字段和地址信息;基于所述名稱字段確定一個(gè)或多個(gè)關(guān)鍵詞;將對應(yīng)相同地址信息的所述關(guān)鍵詞進(jìn)行聚類,生成至少一個(gè)類;根據(jù)聚類后的關(guān)鍵詞確定此地址信息對應(yīng)的POI名稱。通過本發(fā)明的技術(shù)方案,使得用戶能夠快速、準(zhǔn)確地搜索到同一經(jīng)、緯度的POI地址對應(yīng)的POI名稱,改善用戶體驗(yàn)。
【IPC分類】G06F17-30
【公開號(hào)】CN104572955
【申請?zhí)枴緾N201410849123
【發(fā)明人】王智廣, 魏少俊
【申請人】北京奇虎科技有限公司, 奇智軟件(北京)有限公司
【公開日】2015年4月29日
【申請日】2014年12月29日
當(dāng)前第2頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
1