面向互聯(lián)網(wǎng)的地名地址提取與標(biāo)準(zhǔn)化方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種地名地址提取與標(biāo)準(zhǔn)化方法,具體涉及一種面向互聯(lián)網(wǎng)、基于互聯(lián)網(wǎng)信息文本信息的特征、對地名地址信息進(jìn)行提取與標(biāo)準(zhǔn)化的方法,該方法能夠為地理實體、互聯(lián)網(wǎng)事件等地理信息的空間定位提供技術(shù)基礎(chǔ)。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展,網(wǎng)絡(luò)成為地理信息的最大聚集處,互聯(lián)網(wǎng)地理信息已經(jīng)進(jìn)入大數(shù)據(jù)時代,未來10年至少80%以上的人機交互文本數(shù)據(jù)涉及地理信息,互聯(lián)網(wǎng)將成為不斷更新的大型地理信息數(shù)據(jù)庫,如何將這些地理信息挖掘出并利用到地理信息服務(wù)中是主要問題。
[0003]地名地址數(shù)據(jù)是最常用的社會公共信息資源,與大眾的日常生活緊密相關(guān),同時,地名地址信息也是政府基礎(chǔ)行政管理的基礎(chǔ)資源。將地名地址信息提取并標(biāo)準(zhǔn)化,使其轉(zhuǎn)化為地理信息服務(wù)的基礎(chǔ)成果,為大眾的生產(chǎn)生活提供支撐,已成為一項迫切的需要。
[0004]現(xiàn)有的地理位置信息挖掘算法主要是利用關(guān)鍵字匹配的方法,由于在互聯(lián)網(wǎng)環(huán)境下文本中的地名地址信息存在描述錯誤、不準(zhǔn)確、同音字、不夠標(biāo)準(zhǔn)等問題,所以基于關(guān)鍵字匹配的位置信息挖據(jù)算法準(zhǔn)確率較低,不足以滿足各行各業(yè)對地理信息的要求。
【發(fā)明內(nèi)容】
[0005]為解決現(xiàn)有技術(shù)的不足,本發(fā)明的目的在于提供一種對地名地址信息進(jìn)行提取與標(biāo)準(zhǔn)化的方法,該方法能夠大大提升互聯(lián)網(wǎng)地名地址信息提取及標(biāo)準(zhǔn)化的準(zhǔn)確性,從而為基于地名地址信息的地址匹配過程及地理實體、事件等相關(guān)地理信息的空間定位提供技術(shù)基礎(chǔ)。
[0006]為了實現(xiàn)上述目標(biāo),本發(fā)明采用如下的技術(shù)方案:
[0007]一種面向互聯(lián)網(wǎng)的地名地址提取與標(biāo)準(zhǔn)化方法,其特征在于,包括以下步驟:
[0008]—、建立地名地址基礎(chǔ)資源庫、形成地名表達(dá)模型和結(jié)構(gòu)化地名詞典;
[0009]二、自動解析及提取網(wǎng)頁信息;
[0010]三、切分文本信息,將文字描述的地名地址切分為結(jié)構(gòu)化的多個地址要素;
[0011]四、匹配識別地名地址信息;
[0012]五、基于認(rèn)知度提取地名地址信息;
[0013]六、標(biāo)準(zhǔn)化處理地名地址信息。
[0014]前述的面向互聯(lián)網(wǎng)的地名地址提取與標(biāo)準(zhǔn)化方法,其特征在于,在步驟一中,
[0015]對標(biāo)注的基礎(chǔ)地名地址樣本數(shù)據(jù)進(jìn)行多級地址的關(guān)聯(lián)分析以及各級地址及其描述信息的結(jié)構(gòu)化處理,通過建立關(guān)系數(shù)據(jù)庫形成用于地名地址識別的基礎(chǔ)資源庫以及地名表達(dá)模型和結(jié)構(gòu)化地名詞典,
[0016]前述標(biāo)注的基礎(chǔ)地名地址樣本數(shù)據(jù)包括:地名數(shù)據(jù)、國家基礎(chǔ)地名數(shù)據(jù)和國家行政區(qū)劃數(shù)據(jù),
[0017]前述用于地名地址識別的基礎(chǔ)資源庫包括:規(guī)則庫、模型庫和關(guān)聯(lián)關(guān)系庫。
[0018]前述的面向互聯(lián)網(wǎng)的地名地址提取與標(biāo)準(zhǔn)化方法,其特征在于,在步驟二中,
[0019]利用元搜索引擎技術(shù)進(jìn)行Web網(wǎng)頁的自動收錄,并根據(jù)HTML結(jié)構(gòu)和解析規(guī)則進(jìn)行Web網(wǎng)頁的自動解析和彳目息提取。
[0020]前述的面向互聯(lián)網(wǎng)的地名地址提取與標(biāo)準(zhǔn)化方法,其特征在于,在步驟三中,
[0021]利用步驟一建立的地名地址基礎(chǔ)資源庫,在中文自動分詞詞典的基礎(chǔ)上進(jìn)行擴充,對互聯(lián)網(wǎng)文本信息數(shù)據(jù)進(jìn)行切分,將文字描述的地名地址切分為結(jié)構(gòu)化的多個地址要素。
[0022]前述的面向互聯(lián)網(wǎng)的地名地址提取與標(biāo)準(zhǔn)化方法,其特征在于,在步驟四中,
[0023]利用地名地址以關(guān)鍵詞結(jié)尾的規(guī)律,構(gòu)建地名地址識別規(guī)則和表達(dá)模型,對已切分的數(shù)據(jù)結(jié)果進(jìn)行文本環(huán)境下的地名地址識別匹配,前述地名地址識別匹配包括:基于篇幅的地名地址識別和匹配、基于局部的地名地址識別和匹配。
[0024]前述的面向互聯(lián)網(wǎng)的地名地址提取與標(biāo)準(zhǔn)化方法,其特征在于,在步驟五中,
[0025]利用地名地址標(biāo)準(zhǔn)化表達(dá)方式和結(jié)構(gòu)化地名詞典進(jìn)行基于認(rèn)知度的地名地址提取,從而實現(xiàn)面向Web的中文地名地址自動識別和提取,提取的地名地址信息包括:地標(biāo)信息、著名景點、商圈。
[0026]前述的面向互聯(lián)網(wǎng)的地名地址提取與標(biāo)準(zhǔn)化方法,其特征在于,在步驟六中,
[0027]利用標(biāo)準(zhǔn)化地名地址模型,對提取的地名地址信息進(jìn)行標(biāo)準(zhǔn)化處理,最終輸出符合既定標(biāo)準(zhǔn)的地名地址結(jié)果。
[0028]本發(fā)明的有益之處在于:實現(xiàn)了互聯(lián)網(wǎng)網(wǎng)頁文本信息中文地名地址的自動識別、提取與標(biāo)準(zhǔn)化,提升了互聯(lián)網(wǎng)地名地址信息提取及標(biāo)準(zhǔn)化的準(zhǔn)確性,為基于地名地址信息的地址匹配過程及地理實體、事件等相關(guān)地理信息的空間定位提供了技術(shù)基礎(chǔ)。
【附圖說明】
[0029]圖1是本發(fā)明的地名地址提取與標(biāo)準(zhǔn)化方法的流程圖;
[0030]圖2是地名地址數(shù)據(jù)模型關(guān)系圖;
[0031 ] 圖3是地址表達(dá)模型圖;
[0032]圖4是標(biāo)準(zhǔn)化地名地址模型圖。
【具體實施方式】
[0033]本發(fā)明針對互聯(lián)網(wǎng)網(wǎng)頁中地名地址的存在方式及結(jié)構(gòu)特征,利用地名地址的識別規(guī)則及動態(tài)關(guān)系,以國家行政區(qū)劃信息、全國基礎(chǔ)地名地址庫為基礎(chǔ)進(jìn)行識別,研究多級地名地址表達(dá)模型與提取方法,再通過地名地址在文中的上下級語義關(guān)系,參考地名地址標(biāo)準(zhǔn)模型,實現(xiàn)互聯(lián)網(wǎng)網(wǎng)頁文本信息中文地名地址的自動識別、提取與標(biāo)準(zhǔn)化,從而提升了互聯(lián)網(wǎng)地名地址信息提取及標(biāo)準(zhǔn)化的準(zhǔn)確性,為基于地名地址信息的地址匹配過程及地理實體、事件等相關(guān)地理信息的空間定位提供了技術(shù)基礎(chǔ)。
[0034]為了使本發(fā)明的技術(shù)方案更加清楚、易于理解,以下結(jié)合附圖和具體實施例對本發(fā)明作進(jìn)一步詳細(xì)的介紹。
[0035]參照圖1,本發(fā)明的面向互聯(lián)網(wǎng)的地名地址提取與標(biāo)準(zhǔn)化方法,其包括以下步驟:
[0036]步驟一:建立地名地址基礎(chǔ)資源庫、地名表達(dá)模型和結(jié)構(gòu)化地名詞典
[0037]對標(biāo)注的地名數(shù)據(jù)、國家基礎(chǔ)地名數(shù)據(jù)、國家行政區(qū)劃數(shù)據(jù)等基礎(chǔ)地名地址樣本數(shù)據(jù)進(jìn)行多級地址的關(guān)聯(lián)分析以及各級地址及其描述信息的結(jié)構(gòu)化處理,形成用于地名地址識別的規(guī)則庫、模型庫和關(guān)聯(lián)關(guān)系庫等基礎(chǔ)資源庫以及地名表達(dá)模型和結(jié)構(gòu)化地名詞典。
[0038]1、樣本訓(xùn)練
[0039]通過訓(xùn)練樣本庫,建立地名地址信息的規(guī)則模型,同時抽取各級地名地址關(guān)聯(lián)關(guān)系,形成地名地址識別規(guī)則庫及動態(tài)的地名關(guān)聯(lián)關(guān)系庫。
[0040]地名地址識別規(guī)則庫:從真實文本語料庫抽取訓(xùn)練樣本,通過統(tǒng)計及分析得到統(tǒng)計結(jié)果以及針對地名地址信息特點總結(jié)出來的規(guī)則,形成地名地址識別規(guī)則庫。
[0041]動態(tài)地名關(guān)聯(lián)關(guān)系庫:從訓(xùn)練樣本庫中依據(jù)地名地址的概念決策方法,抽取地名地址的關(guān)系信息,參據(jù)如圖2所示的地名地址數(shù)據(jù)模型關(guān)系圖,形成動態(tài)的地名關(guān)聯(lián)關(guān)系庫。
[0042]2、模型構(gòu)建
[0043]通過對國家基礎(chǔ)地名數(shù)據(jù)和國家行政區(qū)劃數(shù)據(jù)進(jìn)行結(jié)構(gòu)化分析和關(guān)系處理,形成地名表達(dá)模型和結(jié)構(gòu)化地名詞典。
[0044]地名表達(dá)模型:從地名地址提取的應(yīng)用需求出發(fā),設(shè)計一個地名類型本體模型,該模型表達(dá)了地名類型之間的繼承關(guān)系以及對空間關(guān)系的約束依據(jù)地址編碼規(guī)則,結(jié)合地名數(shù)據(jù)的實際情況及規(guī)律,建立地名表達(dá)模型,為地名匹配地名提取做參考。
[0045]結(jié)構(gòu)化地名詞典:地名詞典是一個具有地理意義的字典或名錄,是一定區(qū)域內(nèi)的地理要素及其相互聯(lián)系的數(shù)據(jù)集合,主要描述地名的名稱、要素類型、空間位置等重要參考信息,編制結(jié)構(gòu)化的地名詞典,為后續(xù)基于認(rèn)知顯著度的地名提取打下基礎(chǔ)。
[0046]步驟二:自動解析及提取網(wǎng)頁信息
[0047]利用元搜索引擎技術(shù)進(jìn)行Web網(wǎng)頁的自動收錄,并根據(jù)HTML結(jié)構(gòu)和解析規(guī)則進(jìn)行Web網(wǎng)頁的自