一種多源異構(gòu)的多屬性poi融合方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于電子地圖的數(shù)據(jù)處理與數(shù)據(jù)融合技術(shù)領(lǐng)域,尤其涉及一種多源異構(gòu)的 多屬性POI (Point Of Interest,興趣點(diǎn))融合方法。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)、移動(dòng)通信、移動(dòng)定位以及智能移動(dòng)終端的普及與應(yīng)用,位置服務(wù)已成 為提高出行能力、構(gòu)建智慧型的公眾服務(wù)、實(shí)現(xiàn)智能交通等的重要基礎(chǔ)支撐。理論上來說世 界上的一切人、事物、事件均可通過相應(yīng)的定位系統(tǒng)、傳感網(wǎng)、互聯(lián)網(wǎng)、通信網(wǎng)等泛在網(wǎng)絡(luò)被 賦予準(zhǔn)確的時(shí)間和空間戳印,在實(shí)時(shí)動(dòng)態(tài)獲取位置坐標(biāo)、位置屬性、位置關(guān)系、位置時(shí)間特 征等多源異構(gòu)信息的基礎(chǔ)上,通過歧義消除、信息融合等處理,建立語義關(guān)系一致、統(tǒng)一時(shí) 空地理關(guān)聯(lián)的位置服務(wù)地圖,將在公眾位置服務(wù)、政府部門決策、輿情態(tài)勢感知、人群行為 特性分析、流行病預(yù)測等方面發(fā)揮越來越重要的作用。
[0003] POI作為在位置服務(wù)地圖中表達(dá)地理實(shí)體及其位置信息(位置坐標(biāo)、位置屬性、位 置關(guān)系、位置時(shí)間特征)的重要載體,已隨著位置服務(wù)的發(fā)展成為一個(gè)重要的研宄方向。國 內(nèi)外的相關(guān)學(xué)者圍繞POI的獲取、志愿者POI的結(jié)構(gòu)化處理、POI的屬性表達(dá)、POI信息的融 合、POI的顯示等方面進(jìn)行了研宄,取得了大量的研宄成果,有的相關(guān)工作也申請(qǐng)了專利。
[0004] 不同來源的POI信息不僅在數(shù)據(jù)結(jié)構(gòu)上、組織形式等方面存在差異,而且各自的 信息內(nèi)容、完善和豐富程度、側(cè)重點(diǎn)、覆蓋范圍等方面也存在較大的差異。如何實(shí)現(xiàn)來源不 同的POI信息的融合,獲得邏輯一致的、結(jié)構(gòu)相同的、內(nèi)容更豐富的、覆蓋范圍更廣的POI信 息,進(jìn)而實(shí)現(xiàn)數(shù)據(jù)復(fù)用,已成為急需解決的問題。
[0005] 目前在POI信息融合方面國內(nèi)外研宄者提出的解決方案大致有如下幾種:基于 Ontology的技術(shù);基于空間屬性的技術(shù);基于非空間屬性的技術(shù);基于空間和非空間屬性 相結(jié)合的技術(shù)。但是通過分析這些技術(shù)和方法,會(huì)發(fā)現(xiàn)目前已有的方法尚存在以下缺陷:
[0006] 缺陷1、雖然基于空間和非空間屬性相結(jié)合的技術(shù)克服了單一基于空間屬性或者 單一基于非空間屬性技術(shù)的不足,更加全面的考慮了 POI的不同屬性,但是,在POI信息的 融合過程中,不同屬性的重要性及對(duì)整體的影響是不同的,現(xiàn)有的公開發(fā)表的研宄成果中 并沒有提出一種能夠合理的依據(jù)不同屬性重要性的進(jìn)行融合方法。
[0007] 缺陷2、在融合的過程中所使用的數(shù)據(jù)默認(rèn)都有至少一個(gè)的正例匹配數(shù),但是這在 現(xiàn)實(shí)情況中是不能保證的。例如,在一個(gè)POI來源的數(shù)據(jù)集中含有某POI,但是在另外的POI 來源的數(shù)據(jù)集中并不一定有代表相同地理實(shí)體的Ρ0Ι?,F(xiàn)有的方法沒有考慮這種情況會(huì)對(duì) 融合、參數(shù)的確定等方面產(chǎn)生的影響。
【發(fā)明內(nèi)容】
[0008] 為了解決上述問題,本發(fā)明提出了一種多源異構(gòu)的多屬性POI融合方法,通過針 對(duì)不同的屬性類型使用不同的屬性相似度計(jì)算方法,建立屬性相似度矩陣;通過使用屬性 的權(quán)重向量有區(qū)別的對(duì)待POI的不同屬性,建立了基于不同屬性權(quán)重的融合模型;通過使 用屬性相似度矩陣和屬性的權(quán)重向量的乘積獲得POI相似度向量,以更加符合實(shí)際情況的 方式確定各參數(shù)及閾值。實(shí)踐表明,本方法能夠達(dá)到較好的融合效率和準(zhǔn)確率,并且原理簡 單、實(shí)現(xiàn)方便,是一種更切合實(shí)際的POI融合方法。
[0009] 本發(fā)明所采用的技術(shù)方案是:一種多源異構(gòu)的多屬性POI融合方法,其特征在于, 包括以下步驟:
[0010] 步驟1 :確定需要進(jìn)行POI融合的空間范圍,從POI數(shù)據(jù)源A、B處獲得需要進(jìn)行融 合的數(shù)據(jù)集DA、Db,并分別對(duì)兩異構(gòu)屬性的數(shù)據(jù)集進(jìn)行去重處理;
[0011] 步驟2 :分別遍歷DA、DB*的每個(gè)Ρ0Ι,在遵循屬性相似度計(jì)算規(guī)則的前提下,計(jì)算 各POI每個(gè)屬性的相似度,得到屬性相似度矩陣·^ ;
[0012] 所述的屬性相似度計(jì)算規(guī)則為:如果一個(gè)屬性在第一個(gè)數(shù)據(jù)集中有而在第二個(gè)數(shù) 據(jù)集中沒有或者在第一個(gè)數(shù)據(jù)集中沒有而在第二個(gè)數(shù)據(jù)集中有,則該屬性的相似度S ij就 記為0 ;如果一個(gè)屬性在兩個(gè)數(shù)據(jù)集中均存在,則按照屬性相似度計(jì)算公式進(jìn)行相似度計(jì) 算;
[0013] 步驟3 :求解加權(quán)多屬性POI相似度向量
[0014] 步驟4 :令Da中的POI數(shù)據(jù)為P A,Db中的POI數(shù)據(jù)為P Β,計(jì)算POI相似度向量$中 各分量的最大值Max,并與閾值T進(jìn)行比較;
[0015] 步驟5 :當(dāng)Max彡T時(shí),表示PjP P 8是代表同一地理實(shí)體的POU^P JPPb進(jìn)行 不同屬性項(xiàng)的增加、同一屬性項(xiàng)屬性值的合并;否則不做任何處理。
[0016] 作為優(yōu)選,步驟2中所述的屬性的相似度,根據(jù)屬性類型分為空間屬性相似度、無 序標(biāo)稱屬性相似度、層次結(jié)構(gòu)屬性相似度、描述性屬性相似度;四類屬性相似度的計(jì)算公式 分別為:
[0017] (1)空間屬性相似度Sij,空間屬性是指POI的經(jīng)度和煒度屬性,相似度計(jì)算公式如 下:
【主權(quán)項(xiàng)】
1. 一種多源異構(gòu)的多屬性POI融合方法,其特征在于,包括以下步驟: 步驟1 :確定需要進(jìn)行P0I融合的空間范圍,從P0I數(shù)據(jù)源A、B處獲得需要進(jìn)行融合的 數(shù)據(jù)集DA、DB,并分別對(duì)兩異構(gòu)屬性的數(shù)據(jù)集進(jìn)行去重處理; 步驟2 :分別遍歷DA、%中的每個(gè)P0I,在遵循屬性相似度計(jì)算規(guī)則的前提下,計(jì)算各 P0I每個(gè)屬性的相似度su,得到屬性相似度矩陣5J; 所述的屬性相似度計(jì)算規(guī)則為:如果一個(gè)屬性在第一個(gè)數(shù)據(jù)集中有而在第二個(gè)數(shù)據(jù)集 中沒有或者在第一個(gè)數(shù)據(jù)集中沒有而在第二個(gè)數(shù)據(jù)集中有,則該屬性的相似度就記為 0 ;如果一個(gè)屬性在兩個(gè)數(shù)據(jù)集中均存在,則按照屬性相似度計(jì)算公式進(jìn)行相似度計(jì)算; 步驟3 :求解加權(quán)多屬性P0I相似度向量<; 步驟4 :令DA中的P0I數(shù)據(jù)為PA,DB中的P0I數(shù)據(jù)為PB,計(jì)算P0I相似度向量#中各分 量的最大值Max,并與閾值T進(jìn)行比較; 步驟5 :當(dāng)Max彡T時(shí),表示?4和?8是代表同一地理實(shí)體的P0I,對(duì)?4和?8進(jìn)行不同 屬性項(xiàng)的增加、同一屬性項(xiàng)屬性值的合并;否則不做任何處理。
2. 根據(jù)權(quán)利要求1所述的多源異構(gòu)的多屬性P0I融合方法,其特征在于:步驟2中所 述的屬性相似度,根據(jù)屬性類型分為空間屬性相似度、無序標(biāo)稱屬性相似度、層次結(jié)構(gòu)屬性 相似度、描述性屬性相似度;四類屬性相似度的計(jì)算公式分別為: (1) 空間屬性相似度s",空間屬性是指P0I的經(jīng)度和煒度屬性,相似度計(jì)算公式如下:
其中,Xi、Xj為P0I的經(jīng)度;yi、y」為P0I的煒度;dist為兩P0I的歐幾里得距離; (2) 無序標(biāo)稱屬性相似度\_,無序標(biāo)稱屬性是指無程度差別或次序的由字符串組成的 屬性,相似度計(jì)算公式如下:
其中,K、N2為兩字符串的長度;N'pN' 2為兩字符串中相同字符的數(shù)目;1\2為兩個(gè) 字符串中需要進(jìn)行字符替換的數(shù)目; (3) 層次結(jié)構(gòu)屬性相似度層次結(jié)構(gòu)屬性是指具有層次結(jié)構(gòu)關(guān)系的屬性,屬性值可 以是某一層的值或者不同層的值之間的組合,相似度計(jì)算公式如下:
其中,'、%為層次結(jié)構(gòu)屬性的概念向量;n為向量的維數(shù); (4) 描述性屬性相似度Sij,描述性屬性是指具有某一中心表達(dá)思想的自然語言或類似 g狄語言描試柹的屋柹.和仙麼訐曾公才加卞.
其中,M=i(V1 +V2);KUXY||M)、KLD(V2 ||M)為兩向量的相對(duì)熵;Vl、^為兩描述 性屬性的主題特征向量。
3. 根據(jù)權(quán)利要求1所述的多源異構(gòu)的多屬性POI融合方法,其特征在于:步驟2中所 述的屬性相似度矩陣《的計(jì)算方法為,分別計(jì)算兩數(shù)據(jù)集中POI的個(gè)數(shù)及每個(gè)POI有多少 個(gè)屬性;對(duì)比兩個(gè)屬性,如果兩數(shù)據(jù)集中POI的屬性個(gè)數(shù)相等,則該數(shù)值即為屬性相似度矩 陣的行數(shù);如果兩數(shù)據(jù)集中POI的屬性個(gè)數(shù)不相等,則選擇數(shù)量較小的一個(gè)數(shù)值作為屬 性相似度矩陣^的行數(shù);其計(jì)算公式如下:
其中,k為數(shù)據(jù)集04中的第k個(gè)POI;i為數(shù)據(jù)集DA*POI的第i個(gè)屬性;j為數(shù)據(jù)集DB中的第j個(gè)POI;s^為數(shù)據(jù)集DA中的第k個(gè)POI的第i個(gè)屬性與第DB中的第j個(gè)POI的 相對(duì)應(yīng)的屬性相似度;n為數(shù)據(jù)集DA、DB*POI的屬性個(gè)數(shù)的最小值;m為數(shù)據(jù)集DPOI 的總數(shù)。
4. 根據(jù)權(quán)利要求1所述的多源異構(gòu)的多屬性POI融合方法,其特征在于:步驟3中所 述的加權(quán)多屬性POI相似度向暈的計(jì)算公式如下:
其中,k為數(shù)據(jù)集04中的第k個(gè)POI; 為數(shù)據(jù)集04中的第k個(gè)POI與DB中的第1個(gè) POI的相似度;m為數(shù)據(jù)集DB*POI的總數(shù);af為數(shù)據(jù)集DA中的第k個(gè)POI的第1個(gè)屬性 的權(quán)重;n為數(shù)據(jù)集DA*POI的屬性的總數(shù);權(quán)重向量(a|% ^…,ag),向量各分量代表各 個(gè)屬性在POI融合過程中對(duì)整體的影響程度和重要性,也即各個(gè)屬性的權(quán)重。
5. 根據(jù)權(quán)利要求4所述的多源異構(gòu)的多屬性POI融合方法,其特征在于:所述的權(quán)重 向量(af,af…,a=)通過專家打分法、信息量權(quán)重法或回歸權(quán)重法取得。
6. 根據(jù)權(quán)利要求1所述的多源異構(gòu)的多屬性POI融合方法,其特征在于:步驟5中所 述的不同屬性項(xiàng)是指只出現(xiàn)在一個(gè)數(shù)據(jù)集中的屬性,將該屬性及屬性值作為融合后POI的 一個(gè)屬性及屬性值;所述的同一屬性項(xiàng)是指出現(xiàn)在兩個(gè)數(shù)據(jù)集中的屬性,將該屬性的屬性 值進(jìn)行合并作為融合后POI的該屬性的屬性值。
【專利摘要】本發(fā)明公開了一種多源異構(gòu)的多屬性POI融合方法,首先從POI數(shù)據(jù)源A、B處獲得需要進(jìn)行融合的數(shù)據(jù)集,并分別對(duì)兩異構(gòu)屬性的數(shù)據(jù)集進(jìn)行去重處理;分別遍歷兩數(shù)據(jù)集中的每個(gè)POI,在遵循屬性相似度計(jì)算規(guī)則的前提下,計(jì)算各POI每個(gè)屬性的相似度,得到屬性相似度矩陣;求解加權(quán)多屬性POI相似度向量;計(jì)算POI相似度向量中各分量的最大值Max,并與閾值T進(jìn)行比較;對(duì)代表同一地理實(shí)體的POI進(jìn)行不同屬性項(xiàng)的增加、同一屬性項(xiàng)屬性值的合并。該方法通過屬性對(duì)整體的重要性及影響程度不同,差異化的考慮POI的各不同類型屬性,更符合POI融合的實(shí)際操作,能夠顯著提高POI自動(dòng)融合的準(zhǔn)確率和效率。
【IPC分類】G06F17-30, G06K9-62
【公開號(hào)】CN104699818
【申請(qǐng)?zhí)枴緾N201510133728
【發(fā)明人】李霖, 邢小雨, 周冬波, 朱海紅, 蔣敏, 王維
【申請(qǐng)人】武漢大學(xué)
【公開日】2015年6月10日
【申請(qǐng)日】2015年3月25日