專利名稱:網(wǎng)絡(luò)信息抽取及處理的方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種數(shù)據(jù)處理方法及系統(tǒng),更具體地說,涉及一種計(jì)算機(jī)網(wǎng)絡(luò)上的各種信息特別是網(wǎng)上新聞的抽取及處理的方法及系統(tǒng)。
背景技術(shù):
當(dāng)今是一個(gè)信息爆炸的時(shí)代,隨著internet的飛速發(fā)展,人們?cè)絹碓接卸嗟耐ㄟ^網(wǎng)絡(luò)來獲得最新的咨詢信息。
現(xiàn)在,幾乎每個(gè)人都有看報(bào)紙的習(xí)慣,特別是一些對(duì)咨詢信息需求比較緊迫的個(gè)人和企業(yè),更加是要從很多的報(bào)紙上獲得自己需要的信息。我們幾乎能夠從網(wǎng)上看到所有的新聞,很多人已經(jīng)通過上網(wǎng)來獲取最新的新聞信息。但是,僅僅是上網(wǎng)看新聞并不能減少我們所需要的時(shí)間,我們?nèi)匀恍枰ㄗx一大篇的新聞才能知道這篇新聞描述的內(nèi)容,或者要察看很多的網(wǎng)頁之后才能得到我們所需要的咨詢信息。而且,網(wǎng)上的新聞一逝即過,很多人需要對(duì)多天以前的新聞進(jìn)行查詢,甚至需要對(duì)幾個(gè)月,一年前的新聞進(jìn)行查詢。這種情況下,通過網(wǎng)絡(luò)已經(jīng)不能滿足我們的要求的了。
傳統(tǒng)的基于統(tǒng)計(jì)的自動(dòng)摘要的方法,一般利用數(shù)理統(tǒng)計(jì)的方法給文檔中每一個(gè)詞都賦予一定的權(quán)值,計(jì)算權(quán)值的方法一般是通過計(jì)算詞在文章中的出現(xiàn)頻率來計(jì)算的。出現(xiàn)頻率高的詞,所具有的權(quán)值就更高。具有高權(quán)值的詞意味著這個(gè)詞是文章的中心。
文章的句子也是根據(jù)詞的權(quán)值來賦予的,當(dāng)我們給詞賦完權(quán)值之后,我們就能夠計(jì)算出每個(gè)句子的權(quán)值,權(quán)值越高的句子越能夠代表文章的中心思想。我們能夠直接用權(quán)值高的句子來產(chǎn)生摘要。
這種方法生成摘要的速度很快,但是由于出現(xiàn)頻率高的詞并不一定就是文章的中心思想,而且沒有進(jìn)行語法分析,用權(quán)值高的句子拼湊而成的摘要的可讀性也是比較差的。
但是,我們可以通過改進(jìn)賦予權(quán)值的方法和中心句子選擇的方法來達(dá)到比較能夠接受的效果。
中文自動(dòng)分詞是建立全文索引必須經(jīng)過的一個(gè)步驟。所謂分詞,就是把一句話、一篇文章中的詞逐個(gè)劃分出來。中文不像英文那樣,中文沒有明顯的切分標(biāo)志。詞的長(zhǎng)度不一,而且詞的定義也不同,存在一詞多義,同義詞等情形。所以中文自動(dòng)分詞存在著很大的難度。
現(xiàn)在比較流行的分詞的方法主要有以下幾種正向最大匹配法是最早提出的分詞方法,每次用最長(zhǎng)(如為6)的正向切分的詞和詞典的詞進(jìn)行匹配,如果匹配成功,則繼續(xù)往下分詞,否則刪除最后一個(gè)字,繼續(xù)匹配。
高頻優(yōu)先法這種方法是基于詞頻的統(tǒng)計(jì),字與字之間的構(gòu)成結(jié)合律,歧義劃分等現(xiàn)象提出來的。這種方法提高了分詞的效率,但是對(duì)于歧義無能為力,出錯(cuò)率沒有減低。
神經(jīng)網(wǎng)絡(luò)分詞法按照模擬人腦并行,分布處理和建立數(shù)值模型工作。它將分詞知識(shí)所分散隱式的方法存入神經(jīng)網(wǎng)絡(luò)內(nèi),通過自學(xué)習(xí)和訓(xùn)練修改內(nèi)部權(quán)值,以求達(dá)到較好效果的分詞結(jié)果。
專家系統(tǒng)分詞法這種分詞的方法從專家系統(tǒng)的角度把分詞的知識(shí)(包括常識(shí)性分詞知識(shí)和消除歧義切分的啟發(fā)性知識(shí)即歧義切分規(guī)則)從實(shí)現(xiàn)分詞過程的推理機(jī)中獨(dú)立出來。這樣從而實(shí)現(xiàn)了知識(shí)庫(kù)的維護(hù)和推理機(jī)的實(shí)現(xiàn)相互獨(dú)立了。它還具有發(fā)現(xiàn)交集性歧義字段和多義組合歧義字段的能力和一定的自學(xué)習(xí)能力。
現(xiàn)在的全文索引一般采用倒排文件作為索引機(jī)制,在倒排文件中保存詞目對(duì)應(yīng)的文檔編號(hào)的列表。
對(duì)于文本檢索來說,最有效的索引結(jié)構(gòu)則是倒排文件它是一個(gè)列表集合,每個(gè)詞目t對(duì)應(yīng)一條記錄,在記錄中列出了包含此詞目的所有文檔d的標(biāo)識(shí)符。
倒排文件可被視為文檔-詞目頻率矩陣的轉(zhuǎn)置,從(d,t)轉(zhuǎn)換為(t,d),因?yàn)樾袃?yōu)先的訪問比列優(yōu)先的訪問更為有效。
索引文件包含三部分詞典(invf.dict),倒排文件(invf)和兩者之間的映射文件(invf.idx)。索引文件結(jié)構(gòu)如圖2所示。
在詞典(invf.dict)中對(duì)于每個(gè)不同的詞目t,保存詞目字符串t、包含t的文檔總數(shù)f_t、t在整個(gè)文檔集合中總的出現(xiàn)次數(shù)F_t。
在映射文件(invf.idx)中對(duì)于每個(gè)不同的詞目t,保存指向相應(yīng)倒排列表起始地址的指針。
在倒排文件(invf)中對(duì)于每個(gè)不同的詞目t,保存包含t的每個(gè)文檔的標(biāo)識(shí)符d(順序的數(shù)值)、t在每個(gè)文檔d中的出現(xiàn)頻率fd,t,存儲(chǔ)為<d,fd,t>的列表。
另外和權(quán)重?cái)?shù)組Wd一起,就可以滿足布爾查詢(Boolean Query)和分級(jí)查詢(Ranked Query)的需要。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種網(wǎng)絡(luò)信息抽取及處理的方法及系統(tǒng),采用了計(jì)算機(jī)技術(shù)和自然語言處理技術(shù),能夠自動(dòng)的從各個(gè)指定的站點(diǎn)下載每天最新的新聞信息,并且進(jìn)行內(nèi)容抽取,分類,自動(dòng)摘要精簡(jiǎn)全文,且將全文儲(chǔ)存到本系統(tǒng)中,并進(jìn)行文本索引以便日后進(jìn)行高效的全文檢索。
為了實(shí)現(xiàn)上述的目的,本發(fā)明的技術(shù)方案如下一種網(wǎng)絡(luò)信息抽取及處理的方法,包括如下步驟一.新聞下載步驟包括如下步驟url分析步驟系統(tǒng)指定一定的url,程序能夠自動(dòng)的從這些url上分析出新聞的最終內(nèi)容url,而不用對(duì)每個(gè)新聞網(wǎng)站做一個(gè)特定的url模塊,采用給予url統(tǒng)計(jì)以及對(duì)url進(jìn)行相關(guān)性分析的方法,在一個(gè)含有最終內(nèi)容新聞連接地址的網(wǎng)頁,進(jìn)行統(tǒng)計(jì)和分析,找到有用的最終url地址;自動(dòng)抓取新聞網(wǎng)頁步驟將目標(biāo)地址中的鏈接頁面所有符合url格式的頁面進(jìn)行下載;垃圾過濾步驟實(shí)現(xiàn)對(duì)抓下來的新聞內(nèi)容網(wǎng)頁進(jìn)行垃圾過濾,除去其中的html標(biāo)簽以及一些無用的中文,最終得到中文向量信息;信息提取步驟對(duì)以上得到的中文向量進(jìn)行信息提取,前期實(shí)現(xiàn)能夠提取標(biāo)題和內(nèi)容,后期實(shí)現(xiàn)對(duì)web新聞內(nèi)容進(jìn)行特征提取相關(guān)性分析,文檔分類,排重處理等等;
二.自動(dòng)生成摘要步驟進(jìn)行分詞、特征詞分析、句子重要分析、生成摘要,并輸出摘要;三.生成全文索引步驟對(duì)所有已經(jīng)下載并且完成內(nèi)容抽取的新聞內(nèi)容文件進(jìn)行全文索引,包括如下步驟傳入步驟,傳入下一個(gè)文件名;索引判斷步驟,判斷是否已經(jīng)索引過,是則回到傳入步驟,否則進(jìn)入下一步;過濾步驟,過濾其中所有垃圾及無意義的詞;匹配分詞步驟,進(jìn)行詞典匹配分詞;ngram分詞步驟,進(jìn)行ngram分詞,以免詞典分詞有未能完全分出來的詞;更新步驟,對(duì)每一個(gè)詞都更新相關(guān)的索引文件,包括關(guān)鍵字和日期,類別索引;四.層次文本分類步驟是把一個(gè)新的文檔歸入一個(gè)給定的層次類別里的一個(gè)類里分類步驟;每份文檔僅僅只能被歸入一個(gè)類里,在層次類別里的每個(gè)類與許多詞匯和術(shù)語相關(guān)有較大權(quán)重一個(gè)給定的術(shù)語在層次中的一個(gè)層次上,而stopword在另一個(gè)層次上。被摘錄的文檔(財(cái)政的新聞)的特征詞在這個(gè)系統(tǒng)中被當(dāng)作術(shù)語和字匯使用;包括層次訓(xùn)練步驟和文檔分類步驟;層次訓(xùn)練是文檔分類的預(yù)處理,在分類之前,先對(duì)類別的層次進(jìn)行訓(xùn)練;訓(xùn)練的功能是要收集來自訓(xùn)練文檔的一組特征(特征詞),然后為每個(gè)節(jié)點(diǎn)(類別)在層次中分配特征權(quán)重,在文檔分類算法中,特征權(quán)重是用來為一份新的文檔計(jì)算類別等級(jí);文件分類步驟是在被訓(xùn)練階級(jí)組織之后,現(xiàn)在一份文件能被分類到一個(gè)類別,文件分類方法從根類別開始,根類別的所有子類別被分配等級(jí),它由下面等式計(jì)算Rcd=ΣfNfdWfc]]>c是一個(gè)類別,d是一份文件,f是一個(gè)在D中的特征,Rcd是c的等級(jí),Nfd是f出現(xiàn)在d中的次數(shù),Wfc是f在類別c中的權(quán)重;如果所有子類別的等級(jí)都是零的或負(fù)的,d被留在根類別;如果在子類別中有確定的正的最大的等級(jí)的類別,則該類別被選擇;如果該類別是一個(gè)葉類別,文件d被分到該類別;如果被選擇的類別不是葉類別,則在該類別的子類別中繼續(xù)進(jìn)行計(jì)算;因此,文件d能分到葉類別或內(nèi)部類別。
一種網(wǎng)絡(luò)信息抽取及處理的系統(tǒng),包括如下裝置一.新聞下載裝置包括如下裝置url分析裝置系統(tǒng)指定一定的url,程序能夠自動(dòng)的從這些url上分析出新聞的最終內(nèi)容url,而不用對(duì)每個(gè)新聞網(wǎng)站做一個(gè)特定的url模塊,采用給予url統(tǒng)計(jì)以及對(duì)url進(jìn)行相關(guān)性分析的方法,在一個(gè)含有最終內(nèi)容新聞連接地址的網(wǎng)頁,進(jìn)行統(tǒng)計(jì)和分析,找到有用的最終url地址;自動(dòng)抓取新聞網(wǎng)頁裝置將目標(biāo)地址中的鏈接頁面所有符合url格式的頁面進(jìn)行下載;垃圾過濾裝置實(shí)現(xiàn)對(duì)抓下來的新聞內(nèi)容網(wǎng)頁進(jìn)行垃圾過濾,除去其中的html標(biāo)簽以及一些無用的中文,最終得到中文向量信息;
信息提取裝置對(duì)以上得到的中文向量進(jìn)行信息提取,前期實(shí)現(xiàn)能夠提取標(biāo)題和內(nèi)容,后期實(shí)現(xiàn)對(duì)web新聞內(nèi)容進(jìn)行特征提取,相關(guān)性分析,文檔分類,排重處理等等;二.自動(dòng)生成摘要裝置進(jìn)行分詞、特征詞分析、句子重要分析、生成摘要,并輸出摘要;三.生成全文索引裝置對(duì)所有已經(jīng)下載并且完成內(nèi)容抽取的新聞內(nèi)容文件進(jìn)行全文索引,包括如下裝置傳入裝置,傳入下一個(gè)文件名;索引判斷裝置,判斷是否已經(jīng)索引過,是則回到傳入裝置,否則進(jìn)入下一步;過濾裝置,過濾其中所有垃圾及無意義的詞;匹配分詞裝置,進(jìn)行詞典匹配分詞;ngram分詞裝置,進(jìn)行ngram分詞,以免詞典分詞有未能完全分出來的詞;更新裝置,對(duì)每一個(gè)詞都更新相關(guān)的索引文件,包括關(guān)鍵字和日期,類別索引;四.層次文本分類裝置是把一個(gè)新的文檔歸入一個(gè)給定的層次類別里的一個(gè)類里分類裝置;每份文檔僅僅只能被歸入一個(gè)類里,在層次類別里的每個(gè)類與許多詞匯和術(shù)語相關(guān)有較大權(quán)重一個(gè)給定的術(shù)語在層次中的一個(gè)層次上,而stopword在另一個(gè)層次上。被摘錄的文檔(財(cái)政的新聞)的特征詞在這個(gè)系統(tǒng)中被當(dāng)作術(shù)語和字匯使用;包括層次訓(xùn)練裝置和文檔分類裝置;層次訓(xùn)練裝置是對(duì)文檔分類的預(yù)處理,在分類之前,先對(duì)類別的層次進(jìn)行訓(xùn)練;訓(xùn)練的功能是要收集來自訓(xùn)練文檔的一組特征(特征詞),然后為每個(gè)節(jié)點(diǎn)(類別)在層次中分配特征權(quán)重,在文檔分類算法中,特征權(quán)重是用來為一份新的文檔計(jì)算類別等級(jí);文件分類裝置是在被訓(xùn)練階級(jí)組織之后,現(xiàn)在一份文件能被分類到一個(gè)類別,文件分類方法從根類別開始,根類別的所有子類別被分配等級(jí),它由下面等式計(jì)算Rcd=ΣfNfdWfc]]>c是一個(gè)類別,d是一份文件,f是一個(gè)在D中的特征,Rcd是c的等級(jí),Nfd是f出現(xiàn)在d中的次數(shù),Wfc是f在類別c中的權(quán)重;如果所有子類別的等級(jí)都是零的或負(fù)的,d被留在根類別;如果在子類別中有確定的正的最大的等級(jí)的類別,則該類別被選擇;如果該類別是一個(gè)葉類別,文件d被分到該類別;如果被選擇的類別不是葉類別,則在該類別的子類別中繼續(xù)進(jìn)行計(jì)算;因此,文件d能分到葉類別或內(nèi)部類別。
由于采用上述的方法及系統(tǒng),能夠自動(dòng)每天從指定的web站點(diǎn)的指點(diǎn)版下載最新的新聞網(wǎng)頁源碼;能夠?qū)ο螺d的html code進(jìn)行分析,獲得其中有價(jià)值的新聞內(nèi)容;對(duì)分析出來的內(nèi)容進(jìn)行自動(dòng)摘要精簡(jiǎn);對(duì)分析出來的內(nèi)容進(jìn)行分詞并且索引,以供檢索之用;對(duì)分析出來的內(nèi)容進(jìn)行自動(dòng)分類。
圖1為現(xiàn)有的自動(dòng)下載網(wǎng)絡(luò)信息的方法及程序的系統(tǒng)結(jié)構(gòu)圖;圖2為現(xiàn)有的網(wǎng)絡(luò)信息處理方法的索引文件結(jié)構(gòu)圖;
圖3為本發(fā)明所述的網(wǎng)絡(luò)信息抽取及處理方法中的新聞下載步驟的流程圖;圖4為人民網(wǎng)的新聞中心的新聞列表頁面圖;圖5為分析得到token流的方法的流程圖;圖6為China.com財(cái)經(jīng)頻道頁面圖;圖7為http//www.chinahd.com/news/stock/2002-3/161628.htm的頁面圖;圖8為圖7的源代碼圖;圖9為某篇china.com財(cái)經(jīng)頻道的新聞網(wǎng)頁圖;圖10為圖9所述的新聞網(wǎng)頁經(jīng)內(nèi)容分析可得到的內(nèi)容信息圖;圖11為自動(dòng)生成摘要方法的流程圖;圖12為自動(dòng)生成摘要方法的分析圖;圖13為舉例說明的內(nèi)容儲(chǔ)存原文圖;圖14為根據(jù)本發(fā)明自動(dòng)生成的摘要圖;圖15為本發(fā)明所述的生成全文檢索步驟的流程圖;圖16為本發(fā)明所述的新聞查詢步驟的流程圖。
具體實(shí)施例方式
下面結(jié)合附圖和實(shí)施方式對(duì)本發(fā)明作進(jìn)一步詳細(xì)的說明我們僅考慮了自動(dòng)下載以及內(nèi)容分析的過程,沒有對(duì)每個(gè)網(wǎng)站構(gòu)造對(duì)應(yīng)的匹配模型,我們對(duì)新聞網(wǎng)站這一類型的站點(diǎn)實(shí)現(xiàn)了一個(gè)通用的算法,就是根據(jù)中文內(nèi)容出現(xiàn)的頻度和內(nèi)容親密的html tag出現(xiàn)的頻度和位置來確定那一部分是新聞內(nèi)容。將在后面的實(shí)現(xiàn)方法中進(jìn)行具體描述。
由于我們需要得到準(zhǔn)確性比較大的內(nèi)容,并對(duì)之進(jìn)行信息抽取傳遞給最終用戶,所以我們不需要robot進(jìn)行深層次的遞歸訪問。具體實(shí)現(xiàn)自動(dòng)下載的方法在后面具體介紹由于考慮到通用性,所以我們不考慮文本的網(wǎng)頁特征,考慮的是基于背景資料庫(kù)的純內(nèi)容的自動(dòng)摘要。
一種網(wǎng)絡(luò)信息抽取及處理的方法,包括如下步驟一、新聞下載步驟如圖3所示,新聞的自動(dòng)下載分為兩個(gè)部分,url分析以及源代碼抓取兩部分。由于java具有的網(wǎng)絡(luò)編程的優(yōu)點(diǎn),使得我們可以對(duì)網(wǎng)上的任意資源建立連接,形成一個(gè)流,就可以像操作本地文件一樣操作網(wǎng)絡(luò)上的資源。
1、url分析步驟系統(tǒng)指定一定的url,程序能夠自動(dòng)的從這些url上分析出新聞的最終內(nèi)容url。而不用對(duì)每個(gè)新聞網(wǎng)站做一個(gè)特定的url模塊。
采用給予url統(tǒng)計(jì)以及對(duì)url進(jìn)行相關(guān)性分析的方法,在一個(gè)含有最終內(nèi)容新聞連接地址的網(wǎng)頁,進(jìn)行統(tǒng)計(jì)和分析,找到我們有用的最終url地址。例如程序指定一定數(shù)量的已經(jīng)分過類的url。此url應(yīng)該是新聞的列表文件。即在此頁點(diǎn)擊新聞的鏈接即可打開新聞內(nèi)容頁面。
以人民網(wǎng)為例子這個(gè)頁面就是人民網(wǎng)的新聞中心的新聞列表頁面,如圖4所示。
通過對(duì)這個(gè)頁面進(jìn)行分析,我們可得出最終頁面的url格式為http//www.people.com.cn/GB/guoii/25/96/20020312/*.html存到相關(guān)的最終url格式文件中。
采用對(duì)html的token分析方法充分運(yùn)用java中的面向?qū)ο蟮乃枷?,我們將每個(gè)html源代碼文件看成一個(gè)對(duì)象,同時(shí)建立一個(gè)名為token的類,token用來描述html中一個(gè)有意義的字符串,并且由token繼承出來urltoken類,urltoken用來描述特征符合url格式的token。
這樣在進(jìn)行html源代碼分析的時(shí)候,我們將每個(gè)文件看成一個(gè)對(duì)象,同時(shí)就該文件中每一個(gè)html tag以及每一個(gè)html tag之間的字符串,我們都將他們看成一個(gè)字符串。
每個(gè)token所具有的屬性String tokenstr=null;//描述該token的串值int tokenloc=0;//該token在原文件中的位置int gbnum=0;//該token中具有的中文字符數(shù)量boolean iskeentag=false;//是否完全是一個(gè)內(nèi)容親密tokenFloat keenvalue=0;//與內(nèi)容的親密程度Token具有的比較特別的方法public boolean ishref(){String flag1=″href=″;int flag2=-1;if(tokenstr.索引Of(flag1)==flag2)return false;else
return true;}該方法用來判斷是否一個(gè)url html tag實(shí)際上,運(yùn)用oo的思想來進(jìn)行html源代碼分析,利用java中流的思想,我們建立了token流,結(jié)果證明,這樣做的效果是很好的1.程序結(jié)構(gòu)很清晰,oo思想得到了非常明顯的體現(xiàn)。
2.分析實(shí)現(xiàn)的效果很好,達(dá)到的準(zhǔn)確率高。
3.無需對(duì)每個(gè)網(wǎng)站定義特殊的分析stop標(biāo)志等。
4.只要屬于規(guī)范的html代碼,都能夠進(jìn)行正常處理。
分析得到token流的方法如圖5所示。
對(duì)每一個(gè)站點(diǎn)的任何一個(gè)新聞板塊,我們都定義以下幾個(gè)特征項(xiàng)該板塊所屬的類別,比如政治,工業(yè),體育等。這些類別也是由管理模塊定義的;該板塊所屬的服務(wù)器地址,比如news.sina.com.cn;該板塊所屬的當(dāng)前目錄(一般正規(guī)的網(wǎng)站,一個(gè)板塊的新聞都是在一個(gè)目錄下面);該板塊list頁面的路徑屬性,即絕對(duì)路徑還是相對(duì)路徑。
對(duì)url進(jìn)行分析,主要是由urlanalyse.class與contentanalyse.class兩個(gè)類實(shí)現(xiàn)的,主要實(shí)現(xiàn)了token流的分析。
分析的主要方法urlanalyse.class有一個(gè)方法geturl(stringfilename)先將源代碼轉(zhuǎn)化成token流讀入來,然后將每一個(gè)符合格式的url token與這個(gè)url后面的gbnum不等于0的token加入緩存的hashmap中,一般情況下,url后面的gbnum不等于0的token都是新聞的標(biāo)題。
例如China.com財(cái)經(jīng)頻道頁面如圖6所示。
經(jīng)過url分析之后,我們可以得到相關(guān)的hashmaphttp//finance.china.com/zh_cn/news/financenews/10001254/20020506/10255883.html十年投入6000億重慶要打造國(guó)際大都市http//finance.china.com/zh_cn/news/financenews/10001254/20020506/10255882.html1噸油賠四五百元稅控機(jī)拒收油票收現(xiàn)金http//finance.china.com/zh_cn/news/financenews/10001254/20020506/10255881.html香港旅游業(yè)——經(jīng)濟(jì)復(fù)蘇的一縷春風(fēng)在獲得這些之后,我們就將進(jìn)行自動(dòng)的抓取,將所有分析出來的url網(wǎng)頁源代碼都抓下來。
2、自動(dòng)抓取新聞網(wǎng)頁步驟每次啟動(dòng)程序,我們都要將目標(biāo)地址中的鏈接頁面所有符合url格式的頁面進(jìn)行下載。下載過程中并不進(jìn)行信息抽取等相關(guān)分析,以免加大負(fù)擔(dān),影響下載速度。對(duì)已經(jīng)下載過的頁面不再下載。下載要區(qū)分gb,big5等編碼因素的影響。
3、垃圾過濾模塊此步驟是實(shí)現(xiàn)對(duì)抓下來的新聞內(nèi)容網(wǎng)頁進(jìn)行垃圾過濾,除去其中的html標(biāo)簽以及一些無用的中文,最終得到中文向量信息。須在下載的同時(shí)在后臺(tái)線程運(yùn)行。后期可以考慮在得到的中文向量加入權(quán)值等相關(guān)信息。(權(quán)值根據(jù)文字出現(xiàn)的位置,前后的html標(biāo)簽等確定,需要一定數(shù)量的文檔進(jìn)行熟悉,訓(xùn)練)。
4、信息提取模塊對(duì)以上得到的中文向量進(jìn)行信息提取,前期實(shí)現(xiàn)能夠提取標(biāo)題和內(nèi)容。后期實(shí)現(xiàn)對(duì)web新聞內(nèi)容進(jìn)行特征提取,相關(guān)性分析,文檔分類,排重處理等等。保證通用性。保證較高的準(zhǔn)確率。前期的功能可以通過簡(jiǎn)單的方法實(shí)現(xiàn)(如a****中的詞在content b***c**d**中的出現(xiàn)次數(shù))實(shí)現(xiàn)。判斷哪一塊是內(nèi)容可以通過句子之間的距離以及前后的html標(biāo)簽判斷(標(biāo)簽都有一定權(quán)值)。
如圖7所示,來源http//www.chinahd.com/news/stock/2002-3/161628.htm。其源代碼如圖8所示,可見,內(nèi)容之間的距離都非常近,而且中間的html標(biāo)簽一般都是<p>,&nbsp,<br>(段落,空格,換行)之類的。我們可以通過距離和標(biāo)簽的特殊性來判斷內(nèi)容所在。
新聞內(nèi)容抽取不同于傳統(tǒng)的內(nèi)容抽取方法,我們不針對(duì)每一個(gè)網(wǎng)站構(gòu)造一個(gè)模型,在程序中,主要由contentanalyse.class和token.class等實(shí)現(xiàn)。
具體方法如下1、先將要抽取內(nèi)容的文件轉(zhuǎn)換為具體的token流;2、將token流按照內(nèi)容親密度進(jìn)行計(jì)算;3、將gb數(shù)量最集中以及親密度同時(shí)又是最高的連續(xù)token集合取出來;4、如果gb數(shù)量以及親密度不能同時(shí)符合以上要求,則直接cancel。
例如某篇china.com財(cái)經(jīng)頻道的新聞網(wǎng)頁如圖9所示。
經(jīng)過內(nèi)容分析之后,由于china.com是比較規(guī)范的網(wǎng)頁,我們一般能夠達(dá)到很高的準(zhǔn)確性,具體的測(cè)試數(shù)據(jù)在后面有詳細(xì)的說明。
內(nèi)容分析可得到的內(nèi)容信息如圖10所示。
在進(jìn)行存儲(chǔ)的時(shí)候,我們將會(huì)把新聞source,category,downloadtime,title,content等5部分全部?jī)?chǔ)存起來,作為關(guān)鍵字索引,日期等索引的建立來源,同時(shí)也是摘要的來源。
5、管理步驟實(shí)現(xiàn)對(duì)本機(jī)存儲(chǔ)的新聞數(shù)據(jù)進(jìn)行管理,如刪除,更新等。
二、自動(dòng)生成摘要步驟先對(duì)原始文檔進(jìn)行預(yù)處理,然后進(jìn)行分詞、特征詞分析、句子重要分析、生成摘要,并輸出摘要;自動(dòng)摘要步驟可以是一個(gè)獨(dú)立的步驟,需要與外部接口的API接口只有一個(gè)get摘要ion。其接口原型為public String get摘要ion(String FileName,boolean FileMode,intRatio)FileName參數(shù),根據(jù)FileMode來決定;如果FileMode=true,那么FileName則為文件名;否則,為待抽取的文檔本身FileMode參數(shù)是模式參數(shù)Ratio為抽比率,只允許0-100之間的整數(shù)自動(dòng)生成摘要步驟是一個(gè)獨(dú)立的步驟,有獨(dú)立的日志與事物處理模塊,摘要之是否完成不影響下載以及索引的進(jìn)行。
自動(dòng)摘要系統(tǒng)的系統(tǒng)流程如圖11所示。
分詞采用“無詞庫(kù)”分詞方法,采用詞頻,新舊算法思想一致,只做一些不必要的改進(jìn)以加快分詞速度。詞重----衡量是詞的可能性不必要的改進(jìn)以加快分詞速度。
P(w)=F(w)*L(w)c當(dāng)(F(w)>minFreq,L(w)>minLen)否則P(w)=0minFreq是預(yù)設(shè)的詞的出現(xiàn)最小頻率;通常≥2;降低不是詞的串minLen是預(yù)設(shè)的詞的最短詞長(zhǎng);通?!?;保證低頻詞不被分開c是預(yù)設(shè)的一個(gè)常值;通?!?;保證長(zhǎng)詞不被分開流程整文當(dāng)作一個(gè)字符串,從頭開始求子串,對(duì)所有子串求權(quán),取權(quán)高者作為詞(太多無用掃描),系統(tǒng)值取一個(gè)串,采用所有文件作為背景,這樣花去的掃描時(shí)間比較多。
特征詞的抽取,基本思想是基于詞的頻率,以及想對(duì)于背景知識(shí)庫(kù)的詞頻來統(tǒng)計(jì)。
算法P(w)=Fi(w)·(numdocadvnumdoc)·(L(w)-D)2]]>F(w)為詞出現(xiàn)的頻率L(w)為詞的長(zhǎng)度numdoc為該詞的在本文中出現(xiàn)次數(shù)advnumdoc為所有文檔中出現(xiàn)平均次數(shù)D預(yù)設(shè)的最短詞長(zhǎng)修改算法的原因有兩點(diǎn)
1、原算法必須使用大量的背景語料庫(kù)(BWID);因此會(huì)是系統(tǒng)耗費(fèi)更大的時(shí)間和空間;而新算法則是基于語料庫(kù)本身中出現(xiàn)的次數(shù)來進(jìn)行想對(duì)統(tǒng)計(jì)。
2、新算法也具有理論說服力。因?yàn)楸尘罢Z料庫(kù)是廣泛的,因此,一些常用詞頻率就會(huì)很多,這樣numdoc/advnumdoc基本相等;而當(dāng)一個(gè)特征詞,通常在本文中出現(xiàn)較多次,而在BWID中則不是那么多,平均下來就使numdoc/advnumdoc大。因此特征詞得權(quán)重也就大。具體如圖12所示。
句子的重要性與摘要的生成的關(guān)系T(s)=ΣTis0*s1*s2*m]]>對(duì)每一個(gè)句子按這個(gè)公式計(jì)算他們的權(quán)重。
Ti為句子組成的詞的權(quán)重S0為句子的總詞數(shù)S1為句子的字句數(shù)S2為數(shù)詞的個(gè)數(shù)m為整型常值,通常為1。
內(nèi)容儲(chǔ)存原文如圖13所示。
摘要后文章如圖14所示。
三、生成全文索引步驟本步驟需要對(duì)所有已經(jīng)下載并且完成內(nèi)容抽取的新聞內(nèi)容文件進(jìn)行全文索引,建立索引的過程實(shí)時(shí)的在后臺(tái)進(jìn)行建立索引的工作。自身也可以是一個(gè)獨(dú)立的步驟,所需要提供的接口參數(shù)只是一個(gè)文件名。
生成全文檢索步驟的流程如圖15所示,包括如下步驟傳入步驟,傳入下一個(gè)文件名;索引判斷步驟,判斷是否已經(jīng)索引過,是則回到傳入步驟,否則進(jìn)入下一步;過濾步驟,過濾其中所有垃圾及無意義的詞;匹配分詞步驟,進(jìn)行詞典匹配分詞;ngram分詞步驟,進(jìn)行ngram分詞,以免詞典分詞有未能完全分出來的詞;更新步驟,對(duì)每一個(gè)詞都更新相關(guān)的索引文件,包括關(guān)鍵字和日期,類別索引。
四、層次文本分類步驟是把一個(gè)新的文檔歸入一個(gè)給定的層次類別里的一個(gè)類里分類步驟。每份文檔僅僅只能被歸入一個(gè)類里。在層次類別里的每個(gè)類與許多詞匯和術(shù)語相關(guān),而且分類算法本身在層次中被反復(fù)調(diào)整。因此,有較大權(quán)重一個(gè)給定的術(shù)語在層次中的一個(gè)層次上,而stopword在另一個(gè)層次上。被摘錄的文檔(財(cái)政的新聞)的特征詞在這個(gè)系統(tǒng)中被當(dāng)作術(shù)語和字匯使用。
包括二部份層次訓(xùn)練步驟和文檔分類步驟,層次訓(xùn)練是文檔分類的預(yù)處理。在分類之前,先對(duì)類別的層次進(jìn)行訓(xùn)練;1.層次訓(xùn)練訓(xùn)練的功能是要收集來自訓(xùn)練文檔的一組特征(特征詞),然后為每個(gè)節(jié)點(diǎn)(類別)在層次中分配特征權(quán)重。在文檔分類算法中,特征權(quán)重是用來為一份新的文檔計(jì)算類別等級(jí)。
訓(xùn)練包括4個(gè)步驟1)收集來自葉子類的特征詞;層次中,對(duì)于每個(gè)葉子類的訓(xùn)練文檔(新聞)的特征詞,只有那些在單一訓(xùn)練文檔中出現(xiàn)2次以上或者在訓(xùn)練文檔集出現(xiàn)10次以上的特征詞才被收集,這些詞最后在摘要中出現(xiàn)。這些收集的特征詞表示了葉子類的特征。當(dāng)一個(gè)葉子類屬于某一個(gè)訓(xùn)練文檔集時(shí),父類就要包含該葉子類的特征。非葉子類的特征包括它的孩子節(jié)點(diǎn)的所有特征和在所有孩子節(jié)點(diǎn)中特征發(fā)生頻率的總和。
2)層次最優(yōu)化步驟最優(yōu)化用來解決在類別節(jié)和它的父母類別之間的競(jìng)爭(zhēng)。因?yàn)橐环菸募?新聞)只能在類別的層次組織中被指定為一個(gè)類別,當(dāng)在類別之間有競(jìng)爭(zhēng)的時(shí)候,運(yùn)算法則應(yīng)該為文件決定適當(dāng)?shù)念悇e。
包括如下步驟采集步驟,采集在一個(gè)類別中所有的特征;特征判斷步驟,判斷是否在父母中的特征頻率比在這個(gè)類別中大,是則到下一步驟,否則沒有操作;查繼步驟,查繼承者的特征目錄,找出繼承者高頻率和最低的頻率的特征;比率判斷步驟,判斷是否在高的頻率和最低的頻率之差與最高頻率的比率比門檻值大,是則到下一步驟,否則從所有的繼承者刪除該特征。只有父母保有該特征;刪除步驟,從繼承者中刪除該特征除非繼承者有該特征的最高頻率。
上述的方法法則能找出通常的特征,對(duì)父類別來說,它的繼承者擁有該特征和特征的頻率。
但是當(dāng)該特征的頻率沒有傳遞到繼承者時(shí)候,這意味著在繼承者中的最高頻率和最低頻率。通常的特征從所有的繼承者刪除除非繼承者包含通常的特征最高的頻率。因此,所有葉類別的特征和頻率向葉類別的上面除根類別之外的類別傳遞,在根類別他們將不參與任何的文件等級(jí)計(jì)算。
當(dāng)子類別保有它的時(shí)候,運(yùn)算法則不能直接將一個(gè)特征從父類別刪除。這是因?yàn)槲覀兛赡苄枰卣靼盐募鬟f到父類別;如果它不能傳遞到父類別它就沒法傳遞到子類別。因此,在比較低層次類別(子類別)的分歧被向上傳遞到上面的層次(父類別)。
3)分配類別特征權(quán)重步驟為類別的每個(gè)特征指定權(quán)重,有比較高的權(quán)重特征意味著它對(duì)類別是更重要的,在每個(gè)類別中所有的特征被分配權(quán)重,由下式定義Wfc=(λ+(1-λ)×Nfc/Mc)f正在每個(gè)存在的特征,c是類別,Wfc是被指定為特征的權(quán)重,λ是一個(gè)叁數(shù)并且現(xiàn)在設(shè)定為0.4,Nfc是f在c中出現(xiàn)的次數(shù),Mc是在c中任何的特征最大的頻率。
當(dāng)一個(gè)特征只出現(xiàn)在兄弟類別中的時(shí)候,但是不在c中它本身,它被指定為負(fù)權(quán)重。有負(fù)權(quán)重的特征被增加到c的特征列表。負(fù)權(quán)重由下式定義f正在每個(gè)存在的特征,c是類別,Wfc是被指定為特征的權(quán)重,λ是一個(gè)叁數(shù)并且現(xiàn)在設(shè)定為0.4,Nfp是f在c的父類別中出現(xiàn)的次數(shù),Mc是在c的父類別中任何的特征最大的頻率。
4)過濾每個(gè)類別的特征列表,每個(gè)類別的特征列表將被過濾。只有前面200個(gè)正特征和前面200個(gè)負(fù)特征被保留到該類別的最終特征列表中,無論是父類別還是葉類別。其他的特征將被拋棄。限制特征的數(shù)量是用來降低分類一個(gè)文件的計(jì)算復(fù)雜度。
2.文件分類方法在被訓(xùn)練階級(jí)組織之后,現(xiàn)在一份文件能被分類到一個(gè)類別,文件分類方法從根類別開始。
根類別的所有子類別被分配等級(jí),它由下面等式計(jì)算Rcd=ΣfNfdWfc]]>c是一個(gè)類別,d是一份文件,f是一個(gè)在D中的特征,Rcd是c的等級(jí),Nfd是f出現(xiàn)在d中的次數(shù),Wfc是f在類別c中的權(quán)重。
如果所有子類別的等級(jí)都是零的或負(fù)的,d被留在根類別。如果在子類別中有確定的正的最大的等級(jí)的類別,則該類別被選擇。如果該類別是一個(gè)葉類別,文件d被分到該類別。如果被選擇的類別不是葉類別,則在該類別的子類別中繼續(xù)進(jìn)行計(jì)算。因此,文件d能分到葉類別或內(nèi)部類別。
五、新聞查詢步驟如圖16所示,包括如下步驟提交步驟,用戶提交查詢條件;搜索步驟,對(duì)索引進(jìn)行搜索操作,得到結(jié)果集;返回步驟,將結(jié)果返回給用戶。
前面幾個(gè)步驟只是實(shí)現(xiàn)了后臺(tái)的自動(dòng)下載,自動(dòng)摘要,以及索引的建立,新聞查詢子系統(tǒng)實(shí)現(xiàn)的功能是與用戶的交互,能夠讓用戶在前臺(tái)進(jìn)行相關(guān)的新聞查詢,包括新聞關(guān)鍵字查詢,新聞?lì)悇e查詢,新聞日期查詢,新聞源查詢等。
六、日志以及事務(wù)處理步驟由于程序運(yùn)行的情況下經(jīng)常會(huì)遇到非正常性終止,比如突然死機(jī),突然斷電等。
這種情況下,我們必須保證后臺(tái)數(shù)據(jù)的完整性,如必須保證索引必須是完整的,即使是執(zhí)行到一半程序終止了,下次運(yùn)行仍然能夠恢復(fù)原有的索引結(jié)果,并且從失敗的位置開始從新進(jìn)行索引工作。
還有,對(duì)于下載和摘要等工作,為了不造成重復(fù)工作以及節(jié)省時(shí)間,那么也必須對(duì)他們的工作進(jìn)行紀(jì)錄。
Log文件系統(tǒng)功能1、下載線程的url分析模塊在分析url的時(shí)候,就先讀入計(jì)數(shù)文件,并載入最新的兩個(gè)log文件,用以判斷是否已經(jīng)下載過。
2、每當(dāng)下載一個(gè)新聞內(nèi)容網(wǎng)頁,就存儲(chǔ)相關(guān)的url至最新的log文件中。
3、在索引的過程中,必須先讀入索引的位置信息,然后讀入必須索引的log文件信息。然后對(duì)對(duì)應(yīng)的內(nèi)容文件進(jìn)行索引,同時(shí)更新索引log文件中的索引位置信息。
4、在摘要的過程中,必須先讀入摘要的位置信息,然后讀入必須摘要的log文件信息。然后對(duì)對(duì)應(yīng)的內(nèi)容文件進(jìn)行摘要,同時(shí)更新摘要log文件中的摘要位置信息。
5、每當(dāng)下載完一個(gè)文件的源代碼,分析出內(nèi)容,進(jìn)行完摘要,完成索引都要對(duì)這項(xiàng)工作進(jìn)行紀(jì)錄。以免事故發(fā)生無法處理,并可避免重復(fù)工作。
6、下載,摘要,索引三個(gè)線程永不停止,即使已經(jīng)完成了某項(xiàng)工作,比如摘要已經(jīng)完成,則重新load摘要的log文件,開始摘要。
七、管理步驟管理步驟主要實(shí)現(xiàn)對(duì)本機(jī)的數(shù)據(jù)管理,類別管理,新聞源管理,數(shù)據(jù)刪除的索引更新,日志更新等。
權(quán)利要求
1.一種網(wǎng)絡(luò)信息抽取及處理的方法,包括如下步驟一.新聞下載步驟包括如下步驟url分析步驟系統(tǒng)指定一定的url,程序能夠自動(dòng)的從這些url上分析出新聞的最終內(nèi)容url,而不用對(duì)每個(gè)新聞網(wǎng)站做一個(gè)特定的url模塊,采用給予url統(tǒng)計(jì)以及對(duì)url進(jìn)行相關(guān)性分析的方法,在一個(gè)含有最終內(nèi)容新聞連接地址的網(wǎng)頁,進(jìn)行統(tǒng)計(jì)和分析,找到有用的最終url地址;自動(dòng)抓取新聞網(wǎng)頁步驟將目標(biāo)地址中的鏈接頁面所有符合url格式的頁面進(jìn)行下載;垃圾過濾步驟實(shí)現(xiàn)對(duì)抓下來的新聞內(nèi)容網(wǎng)頁進(jìn)行垃圾過濾,除去其中的html標(biāo)簽以及一些無用的中文,最終得到中文向量信息;信息提取步驟對(duì)以上得到的中文向量進(jìn)行信息提取,前期實(shí)現(xiàn)能夠提取標(biāo)題和內(nèi)容,后期實(shí)現(xiàn)對(duì)web新聞內(nèi)容進(jìn)行特征提取,相關(guān)性分析,文檔分類,排重處理等等;二.自動(dòng)生成摘要步驟進(jìn)行分詞、特征詞分析、句子重要分析、生成摘要,并輸出摘要;三.生成全文索引步驟對(duì)所有已經(jīng)下載并且完成內(nèi)容抽取的新聞內(nèi)容文件進(jìn)行全文索引,包括如下步驟傳入步驟,傳入下一個(gè)文件名;索引判斷步驟,判斷是否已經(jīng)索引過,是則回到傳入步驟,否則進(jìn)入下一步;過濾步驟,過濾其中所有垃圾及無意義的詞;匹配分詞步驟,進(jìn)行詞典匹配分詞;ngram分詞步驟,進(jìn)行ngram分詞,以免詞典分詞有未能完全分出來的詞;更新步驟,對(duì)每一個(gè)詞都更新相關(guān)的索引文件,包括關(guān)鍵字和日期,類別索引;四.層次文本分類步驟是把一個(gè)新的文檔歸入一個(gè)給定的層次類別里的一個(gè)類里分類步驟;每份文檔僅僅只能被歸入一個(gè)類里,在層次類別里的每個(gè)類與許多詞匯和術(shù)語相關(guān)有較大權(quán)重一個(gè)給定的術(shù)語在層次中的一個(gè)層次上,而stopword在另一個(gè)層次上.被摘錄的文檔(財(cái)政的新聞)的特征詞在這個(gè)系統(tǒng)中被當(dāng)作術(shù)語和字匯使用;包括層次訓(xùn)練步驟和文檔分類步驟;層次訓(xùn)練是文檔分類的預(yù)處理,在分類之前,先對(duì)類別的層次進(jìn)行訓(xùn)練;訓(xùn)練的功能是要收集來自訓(xùn)練文檔的一組特征(特征詞),然后為每個(gè)節(jié)點(diǎn)(類別)在層次中分配特征權(quán)重,在文檔分類算法中,特征權(quán)重是用來為一份新的文檔計(jì)算類別等級(jí);文件分類步驟是在被訓(xùn)練階級(jí)組織之后,現(xiàn)在一份文件能被分類到一個(gè)類別,文件分類方法從根類別開始,根類別的所有子類別被分配等級(jí),它由下面等式計(jì)算Rcd=ΣfNfdWfc]]>c是一個(gè)類別,d是一份文件,f是一個(gè)在D中的特征,Rcd是c的等級(jí),Nfd是f出現(xiàn)在d中的次數(shù),Wfc是f在類別c中的權(quán)重;如果所有子類別的等級(jí)都是零的或負(fù)的,d被留在根類別;如果在子類別中有確定的正的最大的等級(jí)的類別,則該類別被選擇;如果該類別是一個(gè)葉類別,文件d被分到該類別;如果被選擇的類別不是葉類別,則在該類別的子類別中繼續(xù)進(jìn)行計(jì)算;因此,文件d能分到葉類別或內(nèi)部類別。
2.根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)信息抽取及處理的方法,其特征是所述的新聞下載步驟還包括管理步驟,實(shí)現(xiàn)對(duì)本機(jī)存儲(chǔ)的新聞數(shù)據(jù)進(jìn)行管理,如刪除,更新等。
3.根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)信息抽取及處理的方法,其特征是所述的方法還包括新聞查詢步驟,包括如下步驟提交步驟,用戶提交查詢條件;搜索步驟,對(duì)索引進(jìn)行搜索操作,得到結(jié)果集;返回步驟,將結(jié)果返回給用戶。
4.根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)信息抽取及處理方法,其特征是所述的方法還包括日志以及事務(wù)處理步驟,即使是執(zhí)行到一半終止了,下次運(yùn)行仍然能夠恢復(fù)原有的索引結(jié)果,并且從失敗的位置開始從新進(jìn)行索引工作,對(duì)于下載和摘要等工作進(jìn)行紀(jì)錄;下載線程的url分析模塊在分析url的時(shí)候,就先讀入計(jì)數(shù)文件,并載入最新的兩個(gè)日志文件,用以判斷是否已經(jīng)下載過;每當(dāng)下載一個(gè)新聞內(nèi)容網(wǎng)頁,就存儲(chǔ)相關(guān)的url至最新的日志文件中;在索引的過程中,必須先讀入索引的位置信息,然后讀入必須索引的日志文件信息;然后對(duì)對(duì)應(yīng)的內(nèi)容文件進(jìn)行索引,同時(shí)更新索引日志文件中的索引位置信息;在摘要的過程中,必須先讀入摘要的位置信息,然后讀入必須摘要的日志文件信息;然后對(duì)對(duì)應(yīng)的內(nèi)容文件進(jìn)行摘要,同時(shí)更新摘要日志文件中的摘要位置信息;每當(dāng)下載完一個(gè)文件的源代碼,分析出內(nèi)容,進(jìn)行完摘要,完成索引都要對(duì)這項(xiàng)工作進(jìn)行紀(jì)錄;下載,摘要,索引三個(gè)線程永不停止,即使已經(jīng)完成了某項(xiàng)工作,比如摘要已經(jīng)完成,則重新下載摘要的日志文件,開始摘要。
5.根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)信息抽取及處理的方法,其特征是所述的方法還包括管理步驟,管理步驟主要實(shí)現(xiàn)對(duì)本機(jī)的數(shù)據(jù)管理,類別管理,新聞源管理,數(shù)據(jù)刪除的索引更新,日志更新等。
6.根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)信息抽取及處理的方法,其特征是所述的自動(dòng)摘要步驟可以是一個(gè)獨(dú)立的步驟,需要與外部接口的API接口只有一個(gè)get摘要ion,其接口原型為public String get摘要ion(String FileName,boolean FileMode,intRatio)FileName參數(shù),根據(jù)FileMode來決定;如果FileMode=true,那么FileName則為文件名;否則,為待抽取的文檔本身;FileMode參數(shù)是模式參數(shù);Ratio為抽比率,只允許0-100之間的整數(shù)。
7.根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)信息抽取及處理的方法,其特征是所述的生成全文索引步驟可以是一個(gè)獨(dú)立的步驟,所需要提供的接口參數(shù)只是一個(gè)文件名。
8.根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)信息抽取及處理的方法,其特征是所述的新聞下載步驟中采用對(duì)html的token分析方法;充分運(yùn)用java中的面向?qū)ο蟮乃枷?,將每個(gè)html源代碼文件看成一個(gè)對(duì)象,同時(shí)建立一個(gè)名為token的類,token用來描述html中一個(gè)有意義的字符串,并且由token繼承出來urltoken類,urltoken用來描述特征符合url格式的token;在進(jìn)行html源代碼分析的時(shí)候,將每個(gè)文件看成一個(gè)對(duì)象,同時(shí)就該文件中每一個(gè)html tag以及每一個(gè)html tag之間的字符串,都將其看成一個(gè)字符串;每個(gè)token所具有的屬性為String tokenstr=null;//描述該token的串值 int tokenloc=0; //該token在原文件中的位置 int gbnum=0; //該token中具有的中文字符數(shù)量 boolean iskeentag=false;//是否完全是一個(gè)內(nèi)容親密token Float keenvalue=0; //與內(nèi)容的親密程度 Token具有的比較特別的方法 public boolean ishref() { String flag 1=″href=″; int flag2=-1; if(tokenstr.索引Of(flag1)==flag2) return false; else return true; }該方法用來判斷是否一個(gè)url html tag;對(duì)url進(jìn)行分析,主要是由urlanalyse.class與contentanalyse.class兩個(gè)類實(shí)現(xiàn)的,主要實(shí)現(xiàn)了token流的分析;分析的主要方法urlanalyse.class有一個(gè)方法geturl(stringfilename)先將源代碼轉(zhuǎn)化成token流讀入來,然后將每一個(gè)符合格式的url token與這個(gè)url后面的gbnum不等于0的token加入緩存的hashmap中,一般情況下,url后面的gbnum不等于0的token都是新聞的標(biāo)題。
9.根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)信息抽取及處理的方法,其特征是所述的自動(dòng)生成摘要步驟中分詞采用“無詞庫(kù)”分詞方法,采用詞頻,詞重——衡量是詞的可能性的算法公式P(w)=F(w)*L(w)c當(dāng)(F(w)>minFreq,L(w)>minLen)否則P(w)minFreq是預(yù)設(shè)的詞的出現(xiàn)最小頻率;通常≥2;降低不是詞的串minLen是預(yù)設(shè)的詞的最短詞長(zhǎng);通?!?;保證低頻詞不被分開c是預(yù)設(shè)的一個(gè)常值;通常≥4;保證長(zhǎng)詞不被分開;流程如下整文當(dāng)作一個(gè)字符串,從頭開始求子串,對(duì)所有子串求權(quán),取權(quán)高者作為詞(太多無用掃描),系統(tǒng)值取一個(gè)串,采用所有文件作為背景。
10.根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)信息抽取及處理的方法,其特征是所述的自動(dòng)生成摘要步驟中特征詞的抽取,基于詞的頻率以及想對(duì)于背景知識(shí)庫(kù)的詞頻來統(tǒng)計(jì),P(w)=Fi(w)·(numdocadvnumdoc)·(L(w)-D)c]]>F(w)為詞出現(xiàn)的頻率,L(w)為詞的長(zhǎng)度,numdoc為該詞的在本文中出現(xiàn)次數(shù),advnumdoc為所有文檔中出現(xiàn)平均次數(shù),D預(yù)設(shè)的最短詞長(zhǎng)。
11.根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)信息抽取及處理的方法,其特征是所述的自動(dòng)生成摘要步驟中句子的重要性與摘要的生成的關(guān)系T(s)·ΣTis0*s1*s2*m]]>對(duì)每一個(gè)句子按這個(gè)公式計(jì)算他們的權(quán)重;Ti為句子組成的詞的權(quán)重,S0為句子的總詞數(shù),S1為句子的字句數(shù),S2為數(shù)詞的個(gè)數(shù),m為整型常值,通常為1。
12.根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)信息抽取及處理的方法,其特征是所述的層次訓(xùn)練步驟包括4個(gè)步驟1)收集來自葉子類的特征詞層次中,對(duì)于每個(gè)葉子類的訓(xùn)練文檔(新聞)的特征詞,只有那些在單一訓(xùn)練文檔中出現(xiàn)2次以上或者在訓(xùn)練文檔集出現(xiàn)10次以上的特征詞才被收集,這些詞最后在摘要中出現(xiàn),這些收集的特征詞表示了葉子類的特征,當(dāng)一個(gè)葉子類屬于某一個(gè)訓(xùn)練文檔集時(shí),父類就要包含該葉子類的特征,非葉子類的特征包括它的孩子節(jié)點(diǎn)的所有特征和在所有孩子節(jié)點(diǎn)中特征發(fā)生頻率的總和;2)層次最優(yōu)化步驟最優(yōu)化用來解決在類別節(jié)和它的父母類別之間的競(jìng)爭(zhēng),因?yàn)橐环菸募?新聞)只能在類別的層次組織中被指定為一個(gè)類別,當(dāng)在類別之間有競(jìng)爭(zhēng)的時(shí)候,運(yùn)算法則應(yīng)該為文件決定適當(dāng)?shù)念悇e,包括如下步驟采集步驟,采集在一個(gè)類別中所有的特征;特征判斷步驟,判斷是否在父母中的特征頻率比在這個(gè)類別中大,是則到下一步驟,否則沒有操作;查繼步驟,查繼承者的特征目錄,找出繼承者高頻率和最低的頻率的特征;比率判斷步驟,判斷是否在高的頻率和最低的頻率之差與最高頻率的比率比門檻值大,是則到下一步驟,否則從所有的繼承者刪除該特征。只有父母保有該特征;刪除步驟,從繼承者中刪除該特征除非繼承者有該特征的最高頻率;3)分配類別特征權(quán)重步驟為類別的每個(gè)特征指定權(quán)重,有比較高的權(quán)重特征意味著它對(duì)類別是更重要的,在每個(gè)類別中所有的特征被分配權(quán)重,由下式定義Wfc=(λ+(1-λ)×Nfc/Mc)f正在每個(gè)存在的特征,c是類別,Wfc是被指定為特征的權(quán)重,λ是一個(gè)叁數(shù)并且現(xiàn)在設(shè)定為0.4,Nfc是f在c中出現(xiàn)的次數(shù),Mc是在c中任何的特征最大的頻率;當(dāng)一個(gè)特征只出現(xiàn)在兄弟類別中的時(shí)候,但是不在c中它本身,它被指定為負(fù)權(quán)重,有負(fù)權(quán)重的特征被增加到c的特征列表,負(fù)權(quán)重由下式定義Wfc=-(λ+(1-λ)×Nfp/Mp)f正在每個(gè)存在的特征,c是類別,Wfc是被指定為特征的權(quán)重,λ是一個(gè)叁數(shù)并且現(xiàn)在設(shè)定為0.4,Nfp是f在c的父類別中出現(xiàn)的次數(shù),Mc是在c的父類別中任何的特征最大的頻率;4)過濾每個(gè)類別的特征列表,每個(gè)類別的特征列表將被過濾,只有前面200個(gè)正特征和前面200個(gè)負(fù)特征被保留到該類別的最終特征列表中,無論是父類別還是葉類別,其他的特征將被拋棄。限制特征的數(shù)量是用來降低分類一個(gè)文件的計(jì)算復(fù)雜度。
13.一種網(wǎng)絡(luò)信息抽取及處理的系統(tǒng),其特征在于包括如下裝置一.新聞下載裝置包括如下裝置url分析裝置系統(tǒng)指定一定的url,程序能夠自動(dòng)的從這些url上分析出新聞的最終內(nèi)容url,而不用對(duì)每個(gè)新聞網(wǎng)站做一個(gè)特定的url模塊,采用給予url統(tǒng)計(jì)以及對(duì)url進(jìn)行相關(guān)性分析的方法,在一個(gè)含有最終內(nèi)容新聞連接地址的網(wǎng)頁,進(jìn)行統(tǒng)計(jì)和分析,找到有用的最終url地址;自動(dòng)抓取新聞網(wǎng)頁裝置將目標(biāo)地址中的鏈接頁面所有符合url格式的頁面進(jìn)行下載;垃圾過濾裝置實(shí)現(xiàn)對(duì)抓下來的新聞內(nèi)容網(wǎng)頁進(jìn)行垃圾過濾,除去其中的html標(biāo)簽以及一些無用的中文,最終得到中文向量信息;信息提取裝置對(duì)以上得到的中文向量進(jìn)行信息提取,前期實(shí)現(xiàn)能夠提取標(biāo)題和內(nèi)容,后期實(shí)現(xiàn)對(duì)web新聞內(nèi)容進(jìn)行特征提取,相關(guān)性分析,文檔分類,排重處理等等;二.自動(dòng)生成摘要裝置進(jìn)行分詞、特征詞分析、句子重要分析、生成摘要,并輸出摘要;三.生成全文索引裝置對(duì)所有已經(jīng)下載并且完成內(nèi)容抽取的新聞內(nèi)容文件進(jìn)行全文索引,包括如下裝置傳入裝置,傳入下一個(gè)文件名;索引判斷裝置,判斷是否已經(jīng)索引過,是則回到傳入裝置,否則進(jìn)入下一步;過濾裝置,過濾其中所有垃圾及無意義的詞;匹配分詞裝置,進(jìn)行詞典匹配分詞;ngram分詞裝置,進(jìn)行ngram分詞,以免詞典分詞有未能完全分出來的詞;更新裝置,對(duì)每一個(gè)詞都更新相關(guān)的索引文件,包括關(guān)鍵字和日期,類別索引;四.層次文本分類裝置是把一個(gè)新的文檔歸入一個(gè)給定的層次類別里的一個(gè)類里分類裝置;每份文檔僅僅只能被歸入一個(gè)類里,在層次類別里的每個(gè)類與許多詞匯和術(shù)語相關(guān)有較大權(quán)重一個(gè)給定的術(shù)語在層次中的一個(gè)層次上,而stopword在另一個(gè)層次上.被摘錄的文檔(財(cái)政的新聞)的特征詞在這個(gè)系統(tǒng)中被當(dāng)作術(shù)語和字匯使用;包括層次訓(xùn)練裝置和文檔分類裝置;層次訓(xùn)練裝置是對(duì)文檔分類的預(yù)處理,在分類之前,先對(duì)類別的層次進(jìn)行訓(xùn)練;訓(xùn)練的功能是要收集來自訓(xùn)練文檔的一組特征(特征詞),然后為每個(gè)節(jié)點(diǎn)(類別)在層次中分配特征權(quán)重,在文檔分類算法中,特征權(quán)重是用來為一份新的文檔計(jì)算類別等級(jí);文件分類裝置是在被訓(xùn)練階級(jí)組織之后,現(xiàn)在一份文件能被分類到一個(gè)類別,文件分類方法從根類別開始,根類別的所有子類別被分配等級(jí),它由下面等式計(jì)算Rcd=ΣfNfdWfc]]>c是一個(gè)類別,d是一份文件,f是一個(gè)在D中的特征,Rcd是c的等級(jí),Nfd是f出現(xiàn)在d中的次數(shù),Wfc是f在類別c中的權(quán)重;如果所有子類別的等級(jí)都是零的或負(fù)的,d被留在根類別;如果在子類別中有確定的正的最大的等級(jí)的類別,則該類別被選擇;如果該類別是一個(gè)葉類別,文件d被分到該類別;如果被選擇的類別不是葉類別,則在該類別的子類別中繼續(xù)進(jìn)行計(jì)算;因此,文件d能分到葉類別或內(nèi)部類別。
14.根據(jù)權(quán)利要求13所述的網(wǎng)絡(luò)信息抽取及處理的系統(tǒng),其特征是所述的新聞下載裝置還包括管理裝置,實(shí)現(xiàn)對(duì)本機(jī)存儲(chǔ)的新聞數(shù)據(jù)進(jìn)行管理,如刪除,更新等。
15.根據(jù)權(quán)利要求13所述的網(wǎng)絡(luò)信息抽取及處理系統(tǒng),其特征是所述的系統(tǒng)還包括新聞查詢裝置,包括如下裝置提交裝置,用戶提交查詢條件;搜索裝置,對(duì)索引進(jìn)行搜索操作,得到結(jié)果集;返回裝置,將結(jié)果返回給用戶。
16.根據(jù)權(quán)利要求13所述的網(wǎng)絡(luò)信息抽取及處理系統(tǒng),其特征是所述的系統(tǒng)還包括日志以及事務(wù)處理裝置,即使是執(zhí)行到一半終止了,下次運(yùn)行仍然能夠恢復(fù)原有的索引結(jié)果,并且從失敗的位置開始從新進(jìn)行索引工作,對(duì)于下載和摘要等工作進(jìn)行紀(jì)錄;下載線程的url分析模塊在分析url的時(shí)候,就先讀入計(jì)數(shù)文件,并載入最新的兩個(gè)日志文件,用以判斷是否已經(jīng)下載過;每當(dāng)下載一個(gè)新聞內(nèi)容網(wǎng)頁,就存儲(chǔ)相關(guān)的url至最新的日志文件中;在索引的過程中,必須先讀入索引的位置信息,然后讀入必須索引的日志文件信息;然后對(duì)對(duì)應(yīng)的內(nèi)容文件進(jìn)行索引,同時(shí)更新索引日志文件中的索引位置信息;在摘要的過程中,必須先讀入摘要的位置信息,然后讀入必須摘要的日志文件信息。然后對(duì)對(duì)應(yīng)的內(nèi)容文件進(jìn)行摘要,同時(shí)更新摘要日志文件中的摘要位置信息;每當(dāng)下載完一個(gè)文件的源代碼,分析出內(nèi)容,進(jìn)行完摘要,完成索引都要對(duì)這項(xiàng)工作進(jìn)行紀(jì)錄;下載,摘要,索引三個(gè)線程永不停止,即使已經(jīng)完成了某項(xiàng)工作,比如摘要已經(jīng)完成,則重新下載摘要的日志文件,開始摘要。
17.根據(jù)權(quán)利要求13所述的網(wǎng)絡(luò)信息抽取及處理的系統(tǒng),其特征是所述的系統(tǒng)還包括管理裝置,管理裝置主要實(shí)現(xiàn)對(duì)本機(jī)的數(shù)據(jù)管理,類別管理,新聞源管理,數(shù)據(jù)刪除的索引更新,日志更新等。
18.根據(jù)權(quán)利要求13所述的網(wǎng)絡(luò)信息抽取及處理的系統(tǒng),其特征是所述的自動(dòng)摘要裝置可以是一個(gè)獨(dú)立的裝置,需要與外部接口的API接口只有一個(gè)get摘要ion,其接口原型為public String get摘要ion(String FileName,boolean FileMode,intRatio)FileName參數(shù),根據(jù)FileMode來決定;如果FileMode=true,那么FileName則為文件名;否則,為待抽取的文檔本身;FileMode參數(shù)是模式參數(shù);Ratio為抽比率,只允許0-100之間的整數(shù)。
19.根據(jù)權(quán)利要求13所述的網(wǎng)絡(luò)信息抽取及處理的系統(tǒng),其特征是所述的生成全文索引裝置可以是一個(gè)獨(dú)立的裝置,所需要提供的接口參數(shù)只是一個(gè)文件名。
20.根據(jù)權(quán)利要求13所述的網(wǎng)絡(luò)信息抽取及處理的系統(tǒng),其特征是所述的新聞下載裝置中采用對(duì)html的token分析方法;充分運(yùn)用java中的面向?qū)ο蟮乃枷?,將每個(gè)html源代碼文件看成一個(gè)對(duì)象,同時(shí)建立一個(gè)名為token的類,token用來描述html中一個(gè)有意義的字符串,并且由token繼承出來urltoken類,urltoken用來描述特征符合url格式的token;在進(jìn)行html源代碼分析的時(shí)候,將每個(gè)文件看成一個(gè)對(duì)象,同時(shí)就該文件中每一個(gè)html tag以及每一個(gè)html tag之間的字符串,都將其看成一個(gè)字符串;每個(gè)token所具有的屬性為String tokenstr=null;//描述該token的串值 int tokenloc=0; //該token在原文件中的位置 int gbnum=0; //該token中具有的中文字符數(shù)量 boolean iskeentag=false;//是否完全是一個(gè)內(nèi)容親密token Float keenvalue=0; //與內(nèi)容的親密程度 Token具有的比較特別的方法 public boolean ishref() { String flag 1=″href=″; int flag2=-1; if(tokenstr.索引Of(flag1)=flag2) return false; else return true; }該方法用來判斷是否一個(gè)url html tag;對(duì)url進(jìn)行分析,主要是由urlanalyse.class與contentanalyse.class兩個(gè)類實(shí)現(xiàn)的,主要實(shí)現(xiàn)了token流的分析;分析的主要方法urlanalyse.class有一個(gè)方法geturl(stringfilename)先將源代碼轉(zhuǎn)化成token流讀入來,然后將每一個(gè)符合格式的url token與這個(gè)url后面的gbnum不等于0的token加入緩存的hashmap中,一般情況下,url后面的gbnum不等于0的token都是新聞的標(biāo)題。
21.根據(jù)權(quán)利要求13所述的網(wǎng)絡(luò)信息抽取及處理的系統(tǒng),其特征是所述的自動(dòng)生成摘要裝置中分詞采用“無詞庫(kù)”分詞方法,采用詞頻,當(dāng)P(w)=F(w)*L(w)c(F(w)>minFreq,L(w)>minLen)否則P(w)minFreq是預(yù)設(shè)的詞的出現(xiàn)最小頻率;通?!?;降低不是詞的串minLen是預(yù)設(shè)的詞的最短詞長(zhǎng);通?!?;保證低頻詞不被分開c是預(yù)設(shè)的一個(gè)常值;通?!?;保證長(zhǎng)詞不被分開;流程如下整文當(dāng)作一個(gè)字符串,從頭開始求子串,對(duì)所有子串求權(quán),取權(quán)高者作為詞(太多無用掃描),系統(tǒng)值取一個(gè)串,采用所有文件作為背景;
22.根據(jù)權(quán)利要求13所述的網(wǎng)絡(luò)信息抽取及處理的系統(tǒng),其特征是所述的自動(dòng)生成摘要裝置中特征詞的抽取,基于詞的頻率以及想對(duì)于背景知識(shí)庫(kù)的詞頻來統(tǒng)計(jì),P(w)=Fi(w)·(numdocadvnumdoc)·(L(w)-D)c]]>F(w)為詞出現(xiàn)的頻率,L(w)為詞的長(zhǎng)度,numdoc為該詞的在本文中出現(xiàn)次數(shù),advnumdoc為所有文檔中出現(xiàn)平均次數(shù),D預(yù)設(shè)的最短詞長(zhǎng)。
23.根據(jù)權(quán)利要求13所述的網(wǎng)絡(luò)信息抽取及處理的系統(tǒng),其特征是所述的自動(dòng)生成摘要裝置中句子的重要性與摘要的生成的關(guān)系T(s)·ΣTis0*s1*s2*m]]>對(duì)每一個(gè)句子按這個(gè)公式計(jì)算他們的權(quán)重;Ti為句子組成的詞的權(quán)重,S0為句子的總詞數(shù),S1為句子的字句數(shù),S2為數(shù)詞的個(gè)數(shù),m為整型常值,通常為1。
24.根據(jù)權(quán)利要求13所述的網(wǎng)絡(luò)信息抽取及處理系統(tǒng),其特征是所述的層次訓(xùn)練裝置包括4個(gè)裝置1)收集裝置收集來自葉子類的特征詞;層次中,對(duì)于每個(gè)葉子類的訓(xùn)練文檔(新聞)的特征詞,只有那些在單一訓(xùn)練文檔中出現(xiàn)2次以上或者在訓(xùn)練文檔集出現(xiàn)10次以上的特征詞才被收集,這些詞最后在摘要中出現(xiàn),這些收集的特征詞表示了葉子類的特征,當(dāng)一個(gè)葉子類屬于某一個(gè)訓(xùn)練文檔集時(shí),父類就要包含該葉子類的特征,非葉子類的特征包括它的孩子節(jié)點(diǎn)的所有特征和在所有孩子節(jié)點(diǎn)中特征發(fā)生頻率的總和;2)層次最優(yōu)化裝置最優(yōu)化用來解決在類別節(jié)和它的父母類別之間的競(jìng)爭(zhēng),因?yàn)橐环菸募?新聞)只能在類別的層次組織中被指定為一個(gè)類別,當(dāng)在類別之間有競(jìng)爭(zhēng)的時(shí)候,運(yùn)算法則應(yīng)該為文件決定適當(dāng)?shù)念悇e,包括如下裝置采集裝置,采集在一個(gè)類別中所有的特征;特征判斷裝置,判斷是否在父母中的特征頻率比在這個(gè)類別中大,是則到下一裝置,否則沒有操作;查繼裝置,查繼承者的特征目錄,找出繼承者高頻率和最低的頻率的特征;比率判斷裝置,判斷是否在高的頻率和最低的頻率之差與最高頻率的比率比門檻值大,是則到下一裝置,否則從所有的繼承者刪除該特征。只有父母保有該特征;刪除裝置,從繼承者中刪除該特征除非繼承者有該特征的最高頻率;3)分配類別特征權(quán)重裝置為類別的每個(gè)特征指定權(quán)重,有比較高的權(quán)重特征意味著它對(duì)類別是更重要的,在每個(gè)類別中所有的特征被分配權(quán)重,由下式定義Wfc=(λ+(1-λ)×Nfc/Mc)f正在每個(gè)存在的特征,c是類別,Wfc是被指定為特征的權(quán)重,λ是一個(gè)叁數(shù)并且現(xiàn)在設(shè)定為0.4,Nfc是f在c中出現(xiàn)的次數(shù),Mc是在c中任何的特征最大的頻率;當(dāng)一個(gè)特征只出現(xiàn)在兄弟類別中的時(shí)候,但是不在c中它本身,它被指定為負(fù)權(quán)重,有負(fù)權(quán)重的特征被增加到c的特征列表,負(fù)權(quán)重由下式定義Wfc=-(λ+(1-λ)×Nfp/Mp)f正在每個(gè)存在的特征,c是類別,Wfc是被指定為特征的權(quán)重,λ是一個(gè)叁數(shù)并且現(xiàn)在設(shè)定為0.4,Nfp是f在c的父類別中出現(xiàn)的次數(shù),Mc是在c的父類別中任何的特征最大的頻率;4)過濾裝置過濾每個(gè)類別的特征列表,每個(gè)類別的特征列表將被過濾,只有前面200個(gè)正特征和前面200個(gè)負(fù)特征被保留到該類別的最終特征列表中,無論是父類別還是葉類別,其他的特征將被拋棄。限制特征的數(shù)量是用來降低分類一個(gè)文件的計(jì)算復(fù)雜度。
全文摘要
一種網(wǎng)絡(luò)信息抽取及處理的方法及系統(tǒng),采用了人工智能與自然語言處理技術(shù),能夠自動(dòng)的從各個(gè)指定的站點(diǎn)下載每天最新的新聞信息,并且進(jìn)行內(nèi)容抽取,分類,自動(dòng)摘要精簡(jiǎn)全文,且將全文儲(chǔ)存,并進(jìn)行文本索引以便日后進(jìn)行高效的全文檢索。
文檔編號(hào)G06F17/27GK1536483SQ03109338
公開日2004年10月13日 申請(qǐng)日期2003年4月4日 優(yōu)先權(quán)日2003年4月4日
發(fā)明者陳文中 申請(qǐng)人:陳文中