
本發(fā)明涉及信息實體識別的分類和標(biāo)記技術(shù),尤其涉及一種基于區(qū)域編碼的網(wǎng)絡(luò)信息歸屬地索引標(biāo)記方法,可應(yīng)用于大數(shù)據(jù)領(lǐng)域的信息處理,主要用于信息歸屬地域的標(biāo)識。
背景技術(shù):
:網(wǎng)絡(luò)信息是指通過計算機網(wǎng)絡(luò)可以利用的各種信息資源的總和。具體的說是指所有以電子數(shù)據(jù)形式把文字、圖像、聲音以及動畫內(nèi)容的信息通過網(wǎng)絡(luò)通信共享出來的數(shù)據(jù)資源。中文地名的自動識別是命名實體識別任務(wù)中難度較大的任務(wù)之一,目的是從中文文本中自動準(zhǔn)確提取地理專用名詞。而這些文本信息中所包含或隱含的地域名稱,往往在識別的時候不大準(zhǔn)確,導(dǎo)致信息的歸屬地標(biāo)記也較為困難。目前常用的文本信息歸屬地名稱的標(biāo)記方法有:1)人工標(biāo)記法人工的從網(wǎng)頁信息中提取文本信息的關(guān)聯(lián)地域,主要憑借人的知識體系、文本內(nèi)容的語義解讀能力以及地域關(guān)鍵詞的查找方法來完成文本信息中所涉及歸屬地的分辨。歸屬地的索引標(biāo)記往往采用最為直接的地域名稱標(biāo)注來分門別類。2)網(wǎng)站備案號標(biāo)記法采用基于網(wǎng)站備案號的方法來進行地域標(biāo)記,根據(jù)網(wǎng)站下方的備案標(biāo)識號碼來判斷網(wǎng)站屬地,那么在此網(wǎng)站上發(fā)布的內(nèi)容則被視為與網(wǎng)站同處歸屬地。則歸屬地的索引往往標(biāo)記為備案號的地域簡稱?,F(xiàn)有技術(shù)的缺點如下:1)人工標(biāo)記法對人的要求高,執(zhí)行人的知識體系直接影響標(biāo)記結(jié)果,主觀影響因素多,雖然正確率較高,但是成本和效率低下,不適合大數(shù)據(jù)時代的數(shù)據(jù)分類標(biāo)記處理,最致命問題的在于通過地名直接標(biāo)記法是無法匹配上級地域信息的,無法做到地域關(guān)聯(lián)。2)相對人工標(biāo)記法,網(wǎng)站備案號標(biāo)記法雖然可以通過程序自動識別,去除人工干涉,但是其識別結(jié)果錯誤率較高。因為網(wǎng)站的地域往往與網(wǎng)站發(fā)表的信息內(nèi)容報道的歸屬地不一致。技術(shù)實現(xiàn)要素:本發(fā)明要解決的技術(shù)問題是提供一種基于區(qū)域編碼的網(wǎng)絡(luò)信息歸屬地索引標(biāo)記方法。該方法通過構(gòu)建地域code碼標(biāo)識庫,來對網(wǎng)絡(luò)信息內(nèi)容涉及的歸屬地進行分類,然后通過對網(wǎng)頁內(nèi)容進行地名解析,結(jié)合詞典庫地域標(biāo)識code碼來對網(wǎng)站發(fā)布的信息內(nèi)容進行歸屬地code碼匹配,匹配到的code碼用來對網(wǎng)絡(luò)信息進行歸屬地標(biāo)記。為了解決上述技術(shù)問題,本發(fā)明采用的技術(shù)方案是,基于區(qū)域編碼的網(wǎng)絡(luò)信息歸屬地索引標(biāo)記方法,包括以下步驟:一、code碼字符串定義行政區(qū)劃代碼,也稱行政代碼,它是國家行政機關(guān)的識別符號,一般執(zhí)行兩項國家標(biāo)準(zhǔn):《中華人民共和國行政區(qū)劃代碼》(gb/t2260-2007)和《縣以下行政區(qū)劃代碼編制規(guī)則》(gb/t10114-2003);行政代碼由6位到9位阿拉伯?dāng)?shù)字組成,行政代碼從左至右的含義是:第一、二位表示省(自治區(qū)、直轄市、特別行政區(qū));第三、四位表示市(地區(qū)、自治州、盟及國家直轄市所屬市轄區(qū)和縣的匯總碼);其中,01-20,51-70表示省直轄市;21-50表示地區(qū)(自治州、盟);第五、六位表示縣(市轄區(qū)、縣級市、旗);01-18表示市轄區(qū)或地區(qū)(自治州、盟)轄縣級市;21-80表示縣(旗);81-99表示省直轄縣級市;第七至九位表示鄉(xiāng)、鎮(zhèn)(街道辦事處)。下例:安徽省的行政代碼:340000;合肥市的行政代碼:340100;肥西縣的行政代碼:340123;三河鎮(zhèn)的行政代碼:340123101;那么,三河鎮(zhèn)code碼字符串定義則是由上級行政代碼與三河鎮(zhèn)的行政代碼組合而成,即為“340000340100340123340123101”。同理,肥西縣的code碼為:340000340100340123;則,合肥市的code碼為:340000340100;安徽省code碼為行政代碼本身。二、構(gòu)建地域詞典庫手動創(chuàng)建地域詞典庫映射表,初始化錄入行政地區(qū)數(shù)據(jù),根據(jù)上述code碼字符串定義方法,將行政代碼轉(zhuǎn)化為code碼,并存入地域詞典庫中。地域詞典庫包含主鍵id、地域名areaname、簡稱shortname、上級行政區(qū)parentid、經(jīng)度ing、緯度lat、區(qū)域?qū)蛹塴evel和code碼八個字段。四、待標(biāo)記文本解析選取任意網(wǎng)站中的一則報道內(nèi)容,下載超文本標(biāo)記語言(hypertextmarkuplanguage,縮寫為html)源碼,然后過濾掉所有的標(biāo)簽和特殊字符,最終形成干凈的文本內(nèi)容;通過條件隨機場(conditionalrandomfields,縮寫為crf)分詞技術(shù)對文本進行分詞,分成若干等分;利用隱馬爾科夫(hiddenmarkovmodel,縮寫為hmm)模型,對熟語料自動角色標(biāo)注,統(tǒng)計單詞的角色頻次和角色的轉(zhuǎn)移概率,訓(xùn)練出地域詞,并用“/ns”進行標(biāo)記;多個地名詞取頻率最高的地名詞,頻率一樣的取最后一個,如果沒有則可以通過網(wǎng)站ip的備案查詢到歸屬地,作為文中提及地域的歸屬地。五、創(chuàng)建索引標(biāo)記獲取網(wǎng)站信息中的地域后,從創(chuàng)建的地域詞典庫中讀取出相應(yīng)的code碼,并給此篇內(nèi)容標(biāo)記上此歸屬地標(biāo)識碼,存入到索引中,為后期提供數(shù)據(jù)查詢和統(tǒng)計使用。本發(fā)明的有益效果是:通過文本抽取技術(shù)、地域詞提取和ip網(wǎng)絡(luò)備案查詢方法,能夠更為準(zhǔn)確的確定出文本內(nèi)容所涉及歸屬地,再基于code碼地域詞典庫,將文本歸屬地以code碼的形式存儲,有效避免了直接用地名詞的無關(guān)聯(lián)性短板,方便數(shù)據(jù)的查詢和統(tǒng)計。附圖說明下面結(jié)合附圖和具體實施方式對本發(fā)明作進一步詳細的說明。圖1是本發(fā)明實施例的code碼的結(jié)構(gòu)定義示意圖。圖2是本發(fā)明實施例的網(wǎng)絡(luò)信息的歸屬地標(biāo)記流程圖。具體實施方式第一步:定義code碼1)收集行政代碼數(shù)據(jù),可以從《中華人民共和國國家統(tǒng)計局》官網(wǎng)下載數(shù)據(jù),地址分別是:行政區(qū)劃代碼http://www.stats.gov.cn/tjsj/tjbz/xzqhdm/城鄉(xiāng)區(qū)劃代碼http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2)自身與上級行政代碼字符串鏈接,形成code碼,如:“合肥市”行政代碼是340100,而它的上級行政區(qū)是“安徽省”(行政代碼:340000),所以它的code碼是“安徽省”+“合肥市”,即合肥市的code碼為“340000340100”。3)省級及直轄市code碼本身行政代碼,其他地區(qū)code碼均為上級字符串連接結(jié)果,按此方法依次生成所有地域code碼。code碼的結(jié)構(gòu)定義如圖1所示,示例:安徽省(行政代碼:340000)合肥市(行政代碼:340100)肥西縣(行政代碼:340123)三河鎮(zhèn)(行政代碼:340123101)那么,三河鎮(zhèn)code碼字符串定義則是由上級行政代碼與三河鎮(zhèn)的行政代碼組合而成,即為“340000340100340123340123101”。同理,肥西縣的code碼為:340000340100340123;則,合肥市的code碼為:340000340100;安徽省code碼為行政代碼本身。第二步:構(gòu)建地域詞典庫1)創(chuàng)建地域詞典庫,本典庫包含主鍵id、地域名areaname、簡稱shortname、上級行政區(qū)parentid、經(jīng)度ing、緯度lat、區(qū)域?qū)蛹塴evel和code碼八個字段。2)將整理好的code碼及區(qū)域數(shù)據(jù)初始化到地域詞典庫中去。地域詞典庫的結(jié)構(gòu)如表1所示。表1字段idshortnameareanameparentidlnglatlevelcode類型intvacharvacharintdoubledoubleintvachar說明主鍵地域名簡稱上級行政區(qū)經(jīng)度緯度區(qū)域?qū)蛹壘幋a第三步:待標(biāo)記文本解析網(wǎng)絡(luò)信息的歸屬地標(biāo)記流程如圖2所示。1)選取任意網(wǎng)站中的一則報道內(nèi)容,下載html(hypertextmarkuplanguage,超文本標(biāo)記語言)源碼,然后正則方法過濾掉所有的標(biāo)簽和特殊字符,最終形成干凈的文本內(nèi)容。2)角色標(biāo)注,對熟語料自動角色標(biāo)注,統(tǒng)計單詞的角色頻次、角色的轉(zhuǎn)移概率等,訓(xùn)練出一個模型,同時總結(jié)一些可用的模式串。使用如下地名識別角色:a:地名的上文b:地名的下文c:中國地名的首部d:中國地名的中部e:中國地名的末部g:中國地名的后綴ns:地名標(biāo)識在此基礎(chǔ)上拓充了cde分別為三字地名的三個字位,g為中國地名的后綴,ns為整個地址,這樣一般最多可以識別6字地名(cde地名+三字后綴)。3)地名識別,以“南翔向山東濰坊市昌樂縣紅河鎮(zhèn)黑牛溝村捐贈了挖掘機”為例,不進行地名識別時,會得出下列輸出:[南翔/ns,向/p,山東/ns,濰坊市/ns,昌樂縣/ns,紅河鎮(zhèn)/ns,黑/a,牛/n,溝/n,村/n,捐贈/v,了/ule,挖掘機/n]根據(jù)之前說過的原則,多個地名取頻率最高的地名,頻率一樣的取最后一個,最后一個標(biāo)記為/ns地名為“紅河鎮(zhèn)”。第四步:創(chuàng)建索引標(biāo)記1)獲取網(wǎng)站信息中的地域后,從創(chuàng)建的地域詞典庫中讀取出相應(yīng)的code碼,上例“紅河鎮(zhèn)”在地域詞典庫里的查詢出的code碼為:370000370700370725370725110,分解code碼可以看出,正好與存儲的數(shù)據(jù)對應(yīng),地級關(guān)系清晰。370000,370700,370725,370725110山東,濰坊市,昌樂縣,紅河鎮(zhèn)2)給此篇網(wǎng)絡(luò)信息標(biāo)記上370000370700370725370725110歸屬地標(biāo)識碼,存入到索引中,提供給后期的數(shù)據(jù)查詢和統(tǒng)計使用。3)查詢統(tǒng)計時用山東“370000”的碼就也能模糊匹配到紅河鎮(zhèn)的數(shù)據(jù),保證了數(shù)據(jù)的耦合度和關(guān)聯(lián)性。以上所述的本發(fā)明實施方式,并不構(gòu)成對本發(fā)明保護范圍的限定。任何在本發(fā)明的精神和原則之內(nèi)所作的修改、等同替換和改進等,均應(yīng)包含在本發(fā)明的權(quán)利要求保護范圍之內(nèi)。當(dāng)前第1頁12