基于區(qū)域編碼的網(wǎng)絡(luò)信息歸屬地索引標(biāo)記方法與流程

文檔序號：11386696閱讀：766來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

基于區(qū)域編碼的網(wǎng)絡(luò)信息歸屬地索引標(biāo)記方法與流程

本發(fā)明涉及信息實體識別的分類和標(biāo)記技術(shù)，尤其涉及一種基于區(qū)域編碼的網(wǎng)絡(luò)信息歸屬地索引標(biāo)記方法，可應(yīng)用于大數(shù)據(jù)領(lǐng)域的信息處理，主要用于信息歸屬地域的標(biāo)識。
背景技術(shù)：
：網(wǎng)絡(luò)信息是指通過計算機網(wǎng)絡(luò)可以利用的各種信息資源的總和。具體的說是指所有以電子數(shù)據(jù)形式把文字、圖像、聲音以及動畫內(nèi)容的信息通過網(wǎng)絡(luò)通信共享出來的數(shù)據(jù)資源。中文地名的自動識別是命名實體識別任務(wù)中難度較大的任務(wù)之一，目的是從中文文本中自動準(zhǔn)確提取地理專用名詞。而這些文本信息中所包含或隱含的地域名稱，往往在識別的時候不大準(zhǔn)確，導(dǎo)致信息的歸屬地標(biāo)記也較為困難。目前常用的文本信息歸屬地名稱的標(biāo)記方法有：1)人工標(biāo)記法人工的從網(wǎng)頁信息中提取文本信息的關(guān)聯(lián)地域，主要憑借人的知識體系、文本內(nèi)容的語義解讀能力以及地域關(guān)鍵詞的查找方法來完成文本信息中所涉及歸屬地的分辨。歸屬地的索引標(biāo)記往往采用最為直接的地域名稱標(biāo)注來分門別類。2)網(wǎng)站備案號標(biāo)記法采用基于網(wǎng)站備案號的方法來進行地域標(biāo)記，根據(jù)網(wǎng)站下方的備案標(biāo)識號碼來判斷網(wǎng)站屬地，那么在此網(wǎng)站上發(fā)布的內(nèi)容則被視為與網(wǎng)站同處歸屬地。則歸屬地的索引往往標(biāo)記為備案號的地域簡稱?，F(xiàn)有技術(shù)的缺點如下：1)人工標(biāo)記法對人的要求高，執(zhí)行人的知識體系直接影響標(biāo)記結(jié)果，主觀影響因素多，雖然正確率較高，但是成本和效率低下，不適合大數(shù)據(jù)時代的數(shù)據(jù)分類標(biāo)記處理，最致命問題的在于通過地名直接標(biāo)記法是無法匹配上級地域信息的，無法做到地域關(guān)聯(lián)。2)相對人工標(biāo)記法，網(wǎng)站備案號標(biāo)記法雖然可以通過程序自動識別，去除人工干涉，但是其識別結(jié)果錯誤率較高。因為網(wǎng)站的地域往往與網(wǎng)站發(fā)表的信息內(nèi)容報道的歸屬地不一致。技術(shù)實現(xiàn)要素：本發(fā)明要解決的技術(shù)問題是提供一種基于區(qū)域編碼的網(wǎng)絡(luò)信息歸屬地索引標(biāo)記方法。該方法通過構(gòu)建地域code碼標(biāo)識庫，來對網(wǎng)絡(luò)信息內(nèi)容涉及的歸屬地進行分類，然后通過對網(wǎng)頁內(nèi)容進行地名解析，結(jié)合詞典庫地域標(biāo)識code碼來對網(wǎng)站發(fā)布的信息內(nèi)容進行歸屬地code碼匹配，匹配到的code碼用來對網(wǎng)絡(luò)信息進行歸屬地標(biāo)記。為了解決上述技術(shù)問題，本發(fā)明采用的技術(shù)方案是，基于區(qū)域編碼的網(wǎng)絡(luò)信息歸屬地索引標(biāo)記方法，包括以下步驟：一、code碼字符串定義行政區(qū)劃代碼，也稱行政代碼，它是國家行政機關(guān)的識別符號，一般執(zhí)行兩項國家標(biāo)準(zhǔn)：《中華人民共和國行政區(qū)劃代碼》(gb/t2260-2007)和《縣以下行政區(qū)劃代碼編制規(guī)則》(gb/t10114-2003)；行政代碼由6位到9位阿拉伯?dāng)?shù)字組成，行政代碼從左至右的含義是：第一、二位表示省(自治區(qū)、直轄市、特別行政區(qū))；第三、四位表示市(地區(qū)、自治州、盟及國家直轄市所屬市轄區(qū)和縣的匯總碼)；其中，01-20，51-70表示省直轄市；21-50表示地區(qū)(自治州、盟)；第五、六位表示縣(市轄區(qū)、縣級市、旗)；01-18表示市轄區(qū)或地區(qū)(自治州、盟)轄縣級市；21-80表示縣(旗)；81-99表示省直轄縣級市；第七至九位表示鄉(xiāng)、鎮(zhèn)(街道辦事處)。下例：安徽省的行政代碼：340000；合肥市的行政代碼：340100；肥西縣的行政代碼：340123；三河鎮(zhèn)的行政代碼：340123101；那么，三河鎮(zhèn)code碼字符串定義則是由上級行政代碼與三河鎮(zhèn)的行政代碼組合而成，即為“340000340100340123340123101”。同理，肥西縣的code碼為：340000340100340123；則，合肥市的code碼為：340000340100；安徽省code碼為行政代碼本身。二、構(gòu)建地域詞典庫手動創(chuàng)建地域詞典庫映射表，初始化錄入行政地區(qū)數(shù)據(jù)，根據(jù)上述code碼字符串定義方法，將行政代碼轉(zhuǎn)化為code碼，并存入地域詞典庫中。地域詞典庫包含主鍵id、地域名areaname、簡稱shortname、上級行政區(qū)parentid、經(jīng)度ing、緯度lat、區(qū)域?qū)蛹塴evel和code碼八個字段。四、待標(biāo)記文本解析選取任意網(wǎng)站中的一則報道內(nèi)容，下載超文本標(biāo)記語言(hypertextmarkuplanguage，縮寫為html)源碼，然后過濾掉所有的標(biāo)簽和特殊字符，最終形成干凈的文本內(nèi)容；通過條件隨機場(conditionalrandomfields，縮寫為crf)分詞技術(shù)對文本進行分詞，分成若干等分；利用隱馬爾科夫(hiddenmarkovmodel，縮寫為hmm)模型，對熟語料自動角色標(biāo)注，統(tǒng)計單詞的角色頻次和角色的轉(zhuǎn)移概率，訓(xùn)練出地域詞，并用“/ns”進行標(biāo)記；多個地名詞取頻率最高的地名詞，頻率一樣的取最后一個，如果沒有則可以通過網(wǎng)站ip的備案查詢到歸屬地，作為文中提及地域的歸屬地。五、創(chuàng)建索引標(biāo)記獲取網(wǎng)站信息中的地域后，從創(chuàng)建的地域詞典庫中讀取出相應(yīng)的code碼，并給此篇內(nèi)容標(biāo)記上此歸屬地標(biāo)識碼，存入到索引中，為后期提供數(shù)據(jù)查詢和統(tǒng)計使用。本發(fā)明的有益效果是：通過文本抽取技術(shù)、地域詞提取和ip網(wǎng)絡(luò)備案查詢方法，能夠更為準(zhǔn)確的確定出文本內(nèi)容所涉及歸屬地，再基于code碼地域詞典庫，將文本歸屬地以code碼的形式存儲，有效避免了直接用地名詞的無關(guān)聯(lián)性短板，方便數(shù)據(jù)的查詢和統(tǒng)計。附圖說明下面結(jié)合附圖和具體實施方式對本發(fā)明作進一步詳細的說明。圖1是本發(fā)明實施例的code碼的結(jié)構(gòu)定義示意圖。圖2是本發(fā)明實施例的網(wǎng)絡(luò)信息的歸屬地標(biāo)記流程圖。具體實施方式第一步：定義code碼1)收集行政代碼數(shù)據(jù)，可以從《中華人民共和國國家統(tǒng)計局》官網(wǎng)下載數(shù)據(jù)，地址分別是：行政區(qū)劃代碼http：//www.stats.gov.cn/tjsj/tjbz/xzqhdm/城鄉(xiāng)區(qū)劃代碼http：//www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2)自身與上級行政代碼字符串鏈接，形成code碼，如：“合肥市”行政代碼是340100，而它的上級行政區(qū)是“安徽省”(行政代碼：340000)，所以它的code碼是“安徽省”+“合肥市”，即合肥市的code碼為“340000340100”。3)省級及直轄市code碼本身行政代碼，其他地區(qū)code碼均為上級字符串連接結(jié)果，按此方法依次生成所有地域code碼。code碼的結(jié)構(gòu)定義如圖1所示，示例：安徽省(行政代碼：340000)合肥市(行政代碼：340100)肥西縣(行政代碼：340123)三河鎮(zhèn)(行政代碼：340123101)那么，三河鎮(zhèn)code碼字符串定義則是由上級行政代碼與三河鎮(zhèn)的行政代碼組合而成，即為“340000340100340123340123101”。同理，肥西縣的code碼為：340000340100340123；則，合肥市的code碼為：340000340100；安徽省code碼為行政代碼本身。第二步：構(gòu)建地域詞典庫1)創(chuàng)建地域詞典庫，本典庫包含主鍵id、地域名areaname、簡稱shortname、上級行政區(qū)parentid、經(jīng)度ing、緯度lat、區(qū)域?qū)蛹塴evel和code碼八個字段。2)將整理好的code碼及區(qū)域數(shù)據(jù)初始化到地域詞典庫中去。地域詞典庫的結(jié)構(gòu)如表1所示。表1字段idshortnameareanameparentidlnglatlevelcode類型intvacharvacharintdoubledoubleintvachar說明主鍵地域名簡稱上級行政區(qū)經(jīng)度緯度區(qū)域?qū)蛹壘幋a第三步：待標(biāo)記文本解析網(wǎng)絡(luò)信息的歸屬地標(biāo)記流程如圖2所示。1)選取任意網(wǎng)站中的一則報道內(nèi)容，下載html(hypertextmarkuplanguage，超文本標(biāo)記語言)源碼，然后正則方法過濾掉所有的標(biāo)簽和特殊字符，最終形成干凈的文本內(nèi)容。2)角色標(biāo)注，對熟語料自動角色標(biāo)注，統(tǒng)計單詞的角色頻次、角色的轉(zhuǎn)移概率等，訓(xùn)練出一個模型，同時總結(jié)一些可用的模式串。使用如下地名識別角色：a：地名的上文b：地名的下文c：中國地名的首部d：中國地名的中部e：中國地名的末部g：中國地名的后綴ns：地名標(biāo)識在此基礎(chǔ)上拓充了cde分別為三字地名的三個字位，g為中國地名的后綴，ns為整個地址，這樣一般最多可以識別6字地名(cde地名+三字后綴)。3)地名識別，以“南翔向山東濰坊市昌樂縣紅河鎮(zhèn)黑牛溝村捐贈了挖掘機”為例，不進行地名識別時，會得出下列輸出：[南翔/ns，向/p，山東/ns，濰坊市/ns，昌樂縣/ns，紅河鎮(zhèn)/ns，黑/a，牛/n，溝/n，村/n，捐贈/v，了/ule，挖掘機/n]根據(jù)之前說過的原則，多個地名取頻率最高的地名，頻率一樣的取最后一個，最后一個標(biāo)記為/ns地名為“紅河鎮(zhèn)”。第四步：創(chuàng)建索引標(biāo)記1)獲取網(wǎng)站信息中的地域后，從創(chuàng)建的地域詞典庫中讀取出相應(yīng)的code碼，上例“紅河鎮(zhèn)”在地域詞典庫里的查詢出的code碼為：370000370700370725370725110，分解code碼可以看出，正好與存儲的數(shù)據(jù)對應(yīng)，地級關(guān)系清晰。370000，370700，370725，370725110山東，濰坊市，昌樂縣，紅河鎮(zhèn)2)給此篇網(wǎng)絡(luò)信息標(biāo)記上370000370700370725370725110歸屬地標(biāo)識碼，存入到索引中，提供給后期的數(shù)據(jù)查詢和統(tǒng)計使用。3)查詢統(tǒng)計時用山東“370000”的碼就也能模糊匹配到紅河鎮(zhèn)的數(shù)據(jù)，保證了數(shù)據(jù)的耦合度和關(guān)聯(lián)性。以上所述的本發(fā)明實施方式，并不構(gòu)成對本發(fā)明保護范圍的限定。任何在本發(fā)明的精神和原則之內(nèi)所作的修改、等同替換和改進等，均應(yīng)包含在本發(fā)明的權(quán)利要求保護范圍之內(nèi)。當(dāng)前第1頁12

完整全部詳細技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：董鄭江;周銀行;楊東;胡淦;陳煥;鄭中華
技術(shù)所有人：安徽博約信息科技股份有限公司
我是此專利的發(fā)明人

上一篇：一種能量分析檢測電路的制造方法與工藝
上一篇：一種時鐘同步裝置的制造方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

基于區(qū)域編碼的網(wǎng)絡(luò)信息歸屬地索引標(biāo)記方法與流程