亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

基于網(wǎng)絡(luò)文本的地震宏觀異常信息獲取與篩選方法_2

文檔序號:8361518閱讀:來源:國知局
k2, w2), . . . , (ekm, wm)} 其中,MKW為異常的事物主體關(guān)鍵詞組特征向量,mk為事物主體關(guān)鍵詞,n為事物主體 關(guān)鍵詞的數(shù)量;EKW為地震相關(guān)的關(guān)鍵詞組特征向量,ek為地震相關(guān)關(guān)鍵詞,m為地震相關(guān) 關(guān)鍵詞的數(shù)量;w為對應(yīng)關(guān)鍵詞在文檔中出現(xiàn)的次數(shù); 使用向量夾角余弦來計算主題相關(guān)度:
其中,W代表權(quán)值; 異常的事物主體關(guān)鍵詞組特征向量MKW的第i個特征權(quán)值為:
其中,tfi;j為關(guān)鍵詞i在j內(nèi)容塊中的詞頻,tl i為第i個關(guān)鍵詞的詞長,cbL為文本 長度; 地震相關(guān)的關(guān)鍵詞組特征向量EKW的第i個特征權(quán)值為:
如果當(dāng)前頁面相關(guān)度Topic>Rt,認(rèn)為當(dāng)前頁面符合地震宏觀異常這個主題;Rt為設(shè)定 的閾值,Rt的值由試驗確定;若文本不包含任何主題詞,取Topic = O ; (2)信息抽?。? 進(jìn)行地震關(guān)鍵詞的搜索,搜索結(jié)果中每條記錄的文本信息包含在一段javascript代 碼內(nèi),該段代碼前后所包含的文本信息部分前后結(jié)構(gòu)相同,使用正則表達(dá)式截取,截取該部 分代碼的正則表達(dá)式為: nick-name. + ? color :red. + ? class = \\" clear\\" >〇
7.根據(jù)權(quán)利要求4所述的基于網(wǎng)絡(luò)文本的地震宏觀異常信息獲取與篩選方法,其特征 在于,所述針對論壇網(wǎng)頁文本的地震宏觀異常主題優(yōu)先的信息獲取方法包括以下步驟: (1)判斷頁面相關(guān)性; 選擇符合進(jìn)行地震宏觀異常主題信息抽取的論壇貼吧,選取的關(guān)鍵詞組特征向量為可 能發(fā)生異常的事物主體,用向量表示為: MKff = {(Hik1, W1), (mk2, w2),. . . , (mkn, wn)} 其中,MKW為異常的事物主體關(guān)鍵詞組特征向量; 使用向量夾角余弦來計算主題相關(guān)度:
其中,W代表權(quán)值; 異常的事物主體關(guān)鍵詞組特征向量MKW的第i個特征權(quán)值為:
其中,tfi;j為關(guān)鍵詞i在j內(nèi)容塊中的詞頻,tl i為第i個關(guān)鍵詞的詞長,cbL為帖子 內(nèi)容文本長度; 如果當(dāng)前頁面相關(guān)度Topic>Rt,認(rèn)為當(dāng)前頁面符合地震宏觀異常這個主題;Rt為設(shè)定 的閾值,Rt的值由試驗確定;若文本不包含任何主題詞,取Topic = O ; (2) 判斷URL鏈接相關(guān)性; 貼吧的URL鏈接相關(guān)性只考慮錨文本,相關(guān)度計算公式為:
其中,tnA為事物主體關(guān)鍵詞的詞頻,tnl 事物主體關(guān)鍵詞長,urlL為錨文本長度; 通過計算Topicurt并與URL隊列中非初始URL比較排序,然后插入URL隊列相應(yīng)的位 置中; (3) 信息抽?。? 對每一頁內(nèi)容進(jìn)行解析,每一個帖子的URL鏈接在〈div class = 〃search_internal_ wrap j_search_internal〃> 和〈div class = 〃thread_list_bottom clearfix〃> 內(nèi)角軍析, 鏈接為標(biāo)簽<a>的href屬性值;進(jìn)入帖子后獲取帖子的標(biāo)題和每一層用戶發(fā)布的信息以及 信息發(fā)布的時間。
8.根據(jù)權(quán)利要求1所述的基于網(wǎng)絡(luò)文本的地震宏觀異常信息獲取與篩選方法,其特征 在于,所述地震宏觀異常文本信息的篩選方法包括以下步驟: (1) 情感詞標(biāo)記; 選取面對地震宏觀異?,F(xiàn)象時,人們可能表達(dá)出的愁苦、悲傷、慌亂、煩悶、急躁、驚訝、 疑惑7大類詞語作為基準(zhǔn),并根據(jù)文獻(xiàn)資料中出現(xiàn)的表示動物異常情形的詞匯,剩余的詞 語作為標(biāo)記文本主觀情感信息的情感詞; (2) 觀點詞標(biāo)記; 選取與地震相關(guān)的數(shù)據(jù),從中人工抽取一部分句子作為樣本集A,樣本集A中的句子不 包含任何情感詞,表達(dá)了信息發(fā)表者的個人觀點,每條句子包含主觀信息;另抽取與樣本集 A相同數(shù)量的句子作為樣本集B,樣本集B中的句子是不表達(dá)觀點的句子;對于抽取出的樣 本集,利用中文分詞,將所有句子的最小組成元素由字符變?yōu)樵~語;統(tǒng)計所有句子中所有詞 語的詞頻,并人工去除停止詞和與地震相關(guān)的詞語;所謂停止詞,是指在所有語言表達(dá)中出 現(xiàn)頻率都很高,會影響關(guān)鍵詞排名的詞; 計算樣本集A中詞語的詞頻TF值,計算樣本集A中的詞語在B中的逆文檔頻率IDF值, TF-IDF體現(xiàn)觀點詞的重要性以及與非主觀信息的區(qū)分度;具體公式如下: TF-IDFi= TF i; a X IDFi
其中,ni;A是詞11在樣本集A中出現(xiàn)的次數(shù),
為樣本集A中所有詞出現(xiàn)的次數(shù)總 和,K為樣本A中出現(xiàn)的觀點詞總數(shù);I DB I是樣本集的總文檔數(shù),D氣是樣本集B中出現(xiàn)詞 h的文檔數(shù),TF-IDF 最終的權(quán)值;經(jīng)過計算得出最終權(quán)值最大的前7個詞作為觀點詞; (3) 基于句子的主觀信息過濾; 公眾地震宏觀異常信息的主觀信息分類依賴于情感詞和觀點詞,依據(jù)貝葉斯定 理得到樣木幸觀神后騎概盡· P ("siih ier.t I Rmoti
on. Onini orO和樣木玄觀神生騎概盡· 詞語在整個文檔集中出現(xiàn)的情形服從伯努利分布,EJP 表示當(dāng)樣本文檔中出現(xiàn)該詞 時,取1,反之取0 ;Pu表示第i個詞在主觀文檔中出現(xiàn)的概率,P Ub表示第i個詞在非主 觀文檔中出現(xiàn)的概率; 根據(jù)待過濾文本中情感詞和觀點詞的出現(xiàn)狀況,計算出該文本的Filter值,若Filter 值大于1,則該文本信息屬于主觀信息; (4) 基于文本段的主觀信息過濾; 主觀句篩選方法是基于標(biāo)記的情感詞和觀點詞,未標(biāo)記詞相對而言是模糊不定的,抽 取出的主觀句也具有模糊性;用直覺模糊集表示具有模糊性的數(shù)據(jù)集合;句子是由連續(xù)的 詞語構(gòu)成的,之前抽取出的主觀句視為由詞組成的直覺模糊集; 對于一段地震宏觀異常文本,句子數(shù)量為m,主觀句子數(shù)量為η ;所有的主觀句子用集 合X = (X1, X2, ...,χη}表示,表達(dá)主觀信息的集合A = Kxi, Ea(X1), Oa(X1)) IxiE X}是集合 X上的直覺模糊集,Ea(Xi)表示句子元素 Xi內(nèi)情感詞的詞頻,Oa(X1)表示句子元素 Xi內(nèi)觀點 詞的詞頻;且X,有〇 < IA(Xi)+〇A(Xi) < 1,IA(Xi)表示既不是情感詞也不是觀點詞 的詞頻;令π A(Xi) = I-Ia(Xi)-OJxi),抽取出的文本的主觀信息量為:
當(dāng)E值超過設(shè)定的閾值時認(rèn)為該文本為主觀文本; (5)地震宏觀異常匹配; 地震宏觀異常在語義上的具體表述歸納為事物主體和事物可發(fā)生的變化、動作兩部 分;其中事物主體Object為名詞,事物出現(xiàn)的變化和動作Act由動詞或者形容詞組成,事物 發(fā)生的異?,F(xiàn)象Content表示為: Content = Object+Act 所有經(jīng)過主觀信息過濾的文本信息,符合此式則可視為地震宏觀異常;在進(jìn)行過濾時, 每個發(fā)生的異?,F(xiàn)象均有區(qū)別,每一個事物對應(yīng)一組異?,F(xiàn)象。
【專利摘要】本發(fā)明屬于文本數(shù)據(jù)挖掘領(lǐng)域,提供一種基于網(wǎng)絡(luò)文本的地震宏觀異常信息獲取與篩選方法,用于從互聯(lián)網(wǎng)收集并篩選地震宏觀異常文本信息。所述方法基于Heritrix框架,應(yīng)用地震宏觀異常主題描述詞組,分別針對一般網(wǎng)頁、貼吧和社交網(wǎng)絡(luò)三種信息來源定制了從地震宏觀異常主題相關(guān)性判別、鏈接排序到信息抽取的爬取策略,并進(jìn)一步針對爬取到的主題相關(guān)網(wǎng)頁,從主觀句判別、文本主觀性判別以及地震宏觀異常匹配三個方面進(jìn)行信息篩選。本發(fā)明為地震宏觀異常信息的網(wǎng)絡(luò)收集提供了科學(xué)、高效、準(zhǔn)確的技術(shù)手段,極大提高了信息獲取的效率。
【IPC分類】G06F17-30
【公開號】CN104679825
【申請?zhí)枴緾N201510004864
【發(fā)明人】李林, 方帥, 曹津, 張曉東, 趙明明, 王竹, 葉思菁, 姚曉闖, 朱德海
【申請人】中國農(nóng)業(yè)大學(xué)
【公開日】2015年6月3日
【申請日】2015年1月6日
當(dāng)前第2頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1