一種文本分類方法和系統(tǒng)的制作方法
【專利摘要】本申請?zhí)峁┮环N文本分類系統(tǒng)和方法。該方法包括從具有類目關(guān)聯(lián)規(guī)則的資源提取詞條以及所述詞條之間的關(guān)聯(lián)規(guī)則,生成類目關(guān)聯(lián)規(guī)則庫;基于已有各領(lǐng)域的基礎(chǔ)類目生成基礎(chǔ)類目詞庫;預(yù)處理測試文本,提取測試文本的特征詞條;比對基礎(chǔ)類目詞庫中的詞條和類目關(guān)聯(lián)規(guī)則庫中的詞條,利用詞條的關(guān)聯(lián)規(guī)則對基礎(chǔ)類目詞庫中的詞條進行權(quán)重計算,并計算關(guān)聯(lián)規(guī)則庫中的詞條權(quán)重;用分類器依提取的特征詞條以及計算的詞條的權(quán)重,對測試文本進行分類。本申請的技術(shù)方案避免了不同語言環(huán)境下傳統(tǒng)文本分類中的跨語言平臺技術(shù)障礙問題,進而對一些新詞以及舊詞新概念僅對樹形關(guān)聯(lián)規(guī)則稍作修改,就實現(xiàn)新的文本分類器,無需顧慮傳統(tǒng)文本分類器中文本分部均勻問題。
【專利說明】一種文本分類方法和系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本申請專利申請涉及文本處理領(lǐng)域,尤其涉及一種文本分類的方法和系統(tǒng)。
【背景技術(shù)】
[0002]文本處理中最常見的是進行文本分類處理。文本分類一般包括文本的表達、分類器的選擇與訓(xùn)練、結(jié)果分類的評價與反饋等過程,其中文本的表達又可以細分為文本預(yù)處理、索引和統(tǒng)計、特征抽取等步驟。如圖1所示的文本分類流程圖。預(yù)處理是將原始語料格式化為同一格式,便于后續(xù)的統(tǒng)一處理;索引主要將文檔分解為基本處理單元,同時降低后續(xù)處理的開銷;統(tǒng)計的主要工作是總結(jié)出詞頻、項與分類的相關(guān)概率,生成關(guān)聯(lián)規(guī)則庫;特征抽取是從文檔中抽取出反應(yīng)特征文檔主題的特征;而分類器的主要工作是把測試文本的特征向量基于生成的關(guān)聯(lián)規(guī)則庫,進行文本的分類。在完成文本的分類后,要對分類器分類結(jié)果進行分析,進一步優(yōu)化分類規(guī)則,充實訓(xùn)練庫等。
[0003]目前文本分類技術(shù)的研究主要放在特征值抽取和分類器建模方面,以下是國內(nèi)現(xiàn)有的集中關(guān)于文本分類方面的專利技術(shù):
[0004]一種基于領(lǐng)域知識的短文本分類方法及文本分類系統(tǒng),用于解決信息【技術(shù)領(lǐng)域】中傳統(tǒng)文本分類方法不能較好的對對短文本進行分類的缺點。訓(xùn)練數(shù)據(jù)獲取模塊用來獲取進行訓(xùn)練的數(shù)據(jù)得到學(xué)習(xí)庫;數(shù)據(jù)與處理模塊,對所述學(xué)習(xí)庫進行信息抽取將無結(jié)構(gòu)化的數(shù)據(jù)處理為結(jié)構(gòu)化數(shù)據(jù);文本表示模塊采用向量空間模型對數(shù)據(jù)進行數(shù)學(xué)化表示;特征抽取模塊依據(jù)TFIDF算法對詞項集的重要性進行排序;模型建立模塊對每個詞項權(quán)值賦予不同的權(quán)重,并根據(jù)預(yù)先設(shè)定的分類規(guī)則分類。該方法和系統(tǒng),對傳統(tǒng)的分類器進行了一定的創(chuàng)新,在分類器中引入了領(lǐng)域詞語的概念,有效地增加了短文本的信息量,對短文本數(shù)據(jù)特別是網(wǎng)頁商品數(shù)據(jù)做基于不同詞項集的語義分析,并將語義分析的結(jié)果注入到分類器中,為商品數(shù)據(jù)信息注入了新的信息,從而提高文本分類的準(zhǔn)確率。
[0005]一種基于塊劃分及位置權(quán)重的文本分類方法包括:對輸入的訓(xùn)練或測試文本經(jīng)過基本的預(yù)處理后,提取文本中的段信息;將每一段視為一個基本的文本塊,對塊信息做統(tǒng)計分析,根據(jù)塊大小分布或預(yù)定義的塊比率,對文本內(nèi)容重新進行塊劃分,包括文本塊的合并等操作。提取特征詞、量化權(quán)重,并獲取特征詞對類別的后驗概率,然后分析具有最大后驗概率類別與文本類別標(biāo)簽相符的特征詞的分布,最后生成文本向量;利用分類器完成分類模型訓(xùn)練或文本分類。該方法可用于文本分類系統(tǒng)的文本表示階段,通過豐富傳統(tǒng)的利用特征詞構(gòu)建文本向量時對文本內(nèi)容信息的表達,提升文本分類效果。
[0006]一種基于領(lǐng)域知識的文本分類特征選擇及權(quán)重計算方法,該方法結(jié)合樣本統(tǒng)計與領(lǐng)域術(shù)語構(gòu)造領(lǐng)域分類特征空間,利用領(lǐng)域內(nèi)部知識關(guān)系,計算術(shù)語間的相似度,依此來調(diào)整分類特征向量相應(yīng)特征維權(quán)重。并采用支持向量機學(xué)習(xí)算法,建立領(lǐng)域文本分類模型,實現(xiàn)領(lǐng)域文本分類。對云南旅游領(lǐng)域與非旅游領(lǐng)域文本分類實驗結(jié)果表明,該方法分類準(zhǔn)確率比改進TFIDF特征權(quán)重方法的文本分類效果提高了 4個百分點。
[0007]—種基于概率主題詞的兩級組合文本分類方法采用的:一級分類:基于樸素貝葉斯分類方法,利用概率主題詞特征和拒絕條件判斷對測試文本分類;二級分類:再基于傳統(tǒng)特征提取方法提取出特征詞對被第一級拒絕分類的測試文本進行分類。此分級組合方法對文本進行分類,融和不同分類器的特點能夠非常快的在一級分類中對很多文本進行正確分類,大大提高文本分類系統(tǒng)效率,為文本分類系統(tǒng)實用化提供很好的處理方式;考慮文本特點提出概率主題詞,在適當(dāng)?shù)木芙^條件下,概率主題詞以很高的正確率完成大量文本分類任務(wù)。實驗證明本申請兩級組合與傳統(tǒng)單一分類相比,能夠大大減少時間消耗并能提高系統(tǒng)分類正確率。
[0008]傳統(tǒng)的文本分類技術(shù)如圖1所示首先需要制定一個邊界效應(yīng)較好的類目體系,并按照該類目體系搜集足夠的具有類目代表性的文本集合作為訓(xùn)練樣本,這一步工作往往是傳統(tǒng)的文本分類工作中時間開銷最大的工作。在搜集了足夠多,足夠好的訓(xùn)練文本101集合后,要對單個文本分類的預(yù)處理得到處理后的訓(xùn)練文本102,預(yù)處理,例如:包括中文分詞、生成停用詞表、中文特征選擇、文本向量表示等工作。成熟的中文分詞方法已經(jīng)有很多,如CDWS、n-gram、隱馬爾科夫模型等。文本語法組成部分的虛詞不僅在文章中出現(xiàn)頻率高,并對分詞幾乎沒有意義,即干擾分類,有是的文本維度過高,影響分類效率。如果原始數(shù)據(jù)是一些網(wǎng)頁數(shù)據(jù),還需要剔除掉網(wǎng)頁的插件、頁眉、頁腳等結(jié)構(gòu)噪聲。停用詞的自動生成技術(shù)還不成熟,目前主要通過導(dǎo)入已有的通用停用詞和人工標(biāo)注項目特需停用的方式來實現(xiàn),需要一定的時間開銷并給系統(tǒng)帶來一定的人為不穩(wěn)定性。大量的文本特征一方面會增加分類算法的空間復(fù)雜度和時間復(fù)雜度,另一方面可能包含了大量的噪音數(shù)據(jù),最終影響分類精度。目前主流的文本特征值選取方式有TFIDF、信息增益、互信息、X統(tǒng)計交叉熵等。對處理后的訓(xùn)練文本102進行特征選擇得到特征詞庫103。隨著文本長度以及文本數(shù)量的增加,文本特征值選取的計算開銷也呈線性增長趨勢?;谔卣鞯冗x定訓(xùn)練文本向量104后,傳統(tǒng)文本分類方法通過挖掘頻繁項集生成關(guān)聯(lián)規(guī)則庫105,再規(guī)則剪枝等方式生成分類器106。測試文本107經(jīng)過類似的預(yù)處理,得到處理后的測試文本108,基于特征等選定測試文本向量109后,利用分類器106分類得到類目200。
[0009]而且,現(xiàn)有的分類技術(shù)中,其關(guān)鍵規(guī)則庫對于新詞和停用詞的動態(tài)調(diào)節(jié)能力有限,隨著計算機技術(shù)的不斷發(fā)展和互聯(lián)網(wǎng)的迅速普及,越來越多的人們開始使用互聯(lián)網(wǎng)進行信息獲取。其網(wǎng)絡(luò)的海量的資源和不斷涌現(xiàn)出的文本資源不斷地挑戰(zhàn)著現(xiàn)有的關(guān)聯(lián)規(guī)則庫的擴展性和適應(yīng)性。華中師范大學(xué)蘇小康的碩士論文《基于維基百科構(gòu)建語義知識庫及其在文本分類領(lǐng)域的應(yīng)用研究》基于互聯(lián)網(wǎng)上存在的海量真實文本(比如維基百科),提出了一種分類數(shù)據(jù)庫的構(gòu)建方法。此方法采用語義標(biāo)簽為指代,語義指紋刻畫語義的形式化知識表示方法,從中提出一定規(guī)模的語料庫,對維基百科網(wǎng)頁之間的連接關(guān)系進行挖掘,自動構(gòu)建語義知識庫。但是此現(xiàn)有技術(shù)的重點是提供一種語義知識庫,并沒有給出基于此類知識庫的關(guān)聯(lián)規(guī)則相對應(yīng)的文本分類技術(shù)。
【發(fā)明內(nèi)容】
[0010]針對現(xiàn)有文本分類技術(shù)的缺陷,本申請的技術(shù)方案要解決的技術(shù)問題是提供了基于資源自動生成關(guān)聯(lián)規(guī)則庫并與基礎(chǔ)類目詞庫結(jié)合實現(xiàn)文本分類的方法和系統(tǒng),如,基于詞條關(guān)聯(lián)規(guī)則和基礎(chǔ)類目詞庫,通過分析資源的組織關(guān)聯(lián)結(jié)果,生成文本關(guān)鍵字關(guān)聯(lián)規(guī)則分類體系,構(gòu)造樸素貝葉斯分類器,對測試文本進行文本分類。[0011]本申請一種文本分類系統(tǒng),包括:關(guān)聯(lián)規(guī)則庫生成模塊,通過從具有類目關(guān)聯(lián)規(guī)則的資源提取詞條以及所述詞條之間的關(guān)聯(lián)規(guī)則,以生成類目關(guān)聯(lián)規(guī)則庫;基礎(chǔ)類目詞庫生成模塊,基于已有各領(lǐng)域的基礎(chǔ)類目生成基礎(chǔ)類目詞庫;文本預(yù)處理模塊,用于對測試文本進行預(yù)處理,以提取文本特征詞條;規(guī)則剪枝模塊,比對所述基礎(chǔ)類目詞庫中的詞條和所述類目關(guān)聯(lián)規(guī)則庫中的詞條,利用所述類目關(guān)聯(lián)規(guī)則庫中的詞條的關(guān)聯(lián)規(guī)則,對所述基礎(chǔ)類目詞庫中的詞條進行權(quán)重計算,并計算所述類目關(guān)聯(lián)規(guī)則庫中的詞條權(quán)重;分類器模塊,基于所述詞條的權(quán)重和提取的所述文本特征詞條,對所述測試文本進行分類。
[0012]對應(yīng)本申請的系統(tǒng)的一種文本分類方法,包括:從具有類目關(guān)聯(lián)規(guī)則的資源提取詞條以及所述詞條之間的關(guān)聯(lián)規(guī)則,以生成類目關(guān)聯(lián)規(guī)則庫;基于已有各領(lǐng)域的基礎(chǔ)類目,生成基礎(chǔ)類目詞庫;預(yù)處理測試文本,提取測試文本的特征詞條;比對所述基礎(chǔ)類目詞庫中的詞條和所述類目關(guān)聯(lián)規(guī)則庫中的詞條,利用所述類目關(guān)聯(lián)規(guī)則庫中的詞條的關(guān)聯(lián)規(guī)貝U,對所述基礎(chǔ)類目詞庫中的詞條進行權(quán)重計算,并計算所述關(guān)聯(lián)規(guī)則庫中的詞條權(quán)重;使用分類器,依據(jù)提取的所述特征詞條以及計算的詞條的權(quán)重,對所述測試文本進行分類。
[0013]本申請的技術(shù)方案,基于類目關(guān)聯(lián)規(guī)則和基礎(chǔ)類目詞庫的進行文本分類,避免了不同語言環(huán)境下傳統(tǒng)文本分類中的跨語言平臺技術(shù)障礙問題。與此同時,對一些新詞以及舊詞新概念,只要對各種類型(樹型、網(wǎng)狀、鏈型等)的關(guān)聯(lián)規(guī)則稍作修改,就可以實現(xiàn)新的文本分類器,無需顧慮傳統(tǒng)文本分類器中文本分部均勻問題。
【專利附圖】
【附圖說明】
[0014]為了更清楚地說明本申請實施例的技術(shù)方案,下面將對實施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本申請的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0015]圖1為傳統(tǒng)的文本分類示意圖。
[0016]圖2為本申請【具體實施方式】的文本分類系統(tǒng)圖。
[0017]圖3為本申請【具體實施方式】的樹形關(guān)聯(lián)規(guī)則示例。
[0018]圖4為本申請【具體實施方式】的復(fù)雜關(guān)聯(lián)規(guī)則示例。
[0019]圖5為本申請【具體實施方式】的根節(jié)點無標(biāo)注的單鏈路。
[0020]圖6為本申請【具體實施方式】的某些根節(jié)點無標(biāo)注的多鏈路。
[0021]圖7為本申請【具體實施方式】的環(huán)鏈剪枝策略。
【具體實施方式】
[0022]下面將結(jié)合本申請實施例中的附圖,對本申請實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本申請一部分實施例,而不是全部的實施例?;诒旧暾堉械膶嵤├?,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本申請保護的范圍。
[0023]本申請基于類目關(guān)聯(lián)規(guī)則和基礎(chǔ)類目詞庫進行文本分類的技術(shù),在下面的【具體實施方式】中,將以維基百科作為類目關(guān)聯(lián)規(guī)則庫的構(gòu)建基礎(chǔ)作為例子,但并不限于此。維基百科是一個基于Wiki技術(shù)的多語言百科全書協(xié)作計劃,也是一部用不同語言寫成的網(wǎng)路百科全書,其目標(biāo)及宗旨是為全人類提供自由的百科全書——用他們所選擇的語言來書寫而成的。截至2011年11月,已經(jīng)有超過3172萬的注冊用戶以及為數(shù)眾多的未注冊用戶貢獻了 282種語言超過2024萬篇的條目,其編輯次數(shù)已經(jīng)超過12億3192萬次。由于維基百科具有多語言參照類目體系,采用該樹形結(jié)構(gòu)關(guān)聯(lián)規(guī)則所建立的文本關(guān)聯(lián)規(guī)則分類體系,完全可以應(yīng)用到不同的語言系統(tǒng)中。其他的類似的各種百科數(shù)據(jù)庫,比如,百度數(shù)據(jù)庫,中國百科網(wǎng)等,和數(shù)字圖書館的分類索引詞條,都可以作為關(guān)聯(lián)規(guī)則庫的構(gòu)建基礎(chǔ)。對于其他拓?fù)浣Y(jié)構(gòu)的關(guān)聯(lián)規(guī)則,比如,網(wǎng)狀結(jié)構(gòu),鏈狀結(jié)構(gòu)等(任意或至少一種)關(guān)聯(lián)規(guī)則或其組合,本申請的方法和系統(tǒng)同樣適用。下文將結(jié)合附圖對本申請的技術(shù)方案進行介紹。
[0024]圖2是本申請的文本分類系統(tǒng)圖。該系統(tǒng)包含關(guān)聯(lián)規(guī)則庫生成模塊201,基礎(chǔ)類目詞庫生成模塊202,文本預(yù)處理模塊203,規(guī)則剪枝模塊204,分類器205幾部分組成。本實施例是基于維基百科的樹狀文本類目關(guān)聯(lián)規(guī)則,但并不限于此。
[0025]關(guān)聯(lián)規(guī)則庫生成模塊201,通過從具有類目關(guān)聯(lián)規(guī)則的資源提取詞條和這些詞條之間的規(guī)則,以生成類目關(guān)聯(lián)規(guī)則庫,在類目關(guān)聯(lián)規(guī)則庫中存儲這些詞條以及這些詞條之間的關(guān)聯(lián)規(guī)則。
[0026]比如,從維基百科(Wikipedia)等具有一定類目關(guān)聯(lián)規(guī)則的網(wǎng)絡(luò)資源中利用數(shù)據(jù)挖掘技術(shù)或者爬蟲技術(shù)提取詞條和詞條之間的規(guī)則,生成類目關(guān)聯(lián)規(guī)則庫,如利用爬蟲工具爬去維基百科的分類索引詞條,保存到一數(shù)據(jù)庫中。其需要根據(jù)一定的網(wǎng)頁分析算法以過濾與主題無關(guān)的鏈接,保留有用的鏈接并將其放入等待抓取的URL隊列,進而根據(jù)一定的搜索策略從隊列中選擇下一步要抓取的網(wǎng)頁URL,并重復(fù)抓取、選擇的動作,直到達到停止條件。以爬蟲程序進行網(wǎng)頁抓取為例,爬蟲抓取的網(wǎng)頁將會被系統(tǒng)存貯,進而進行分析、過濾,并建立索引,以便之后的查詢和檢索。其常用的搜索策略為深度優(yōu)先和廣度優(yōu)先。爬蟲程序獲得維基百科的分類索引詞條,比如:通信_>手機_〉頻率,中的三個詞條以及三個詞條之間的關(guān)聯(lián)關(guān)系,如此例子中即為一對一的父子關(guān)聯(lián)規(guī)則,通信(父)、手機(子),手機(父)、頻率(子),也可能一對多的關(guān)聯(lián)規(guī)則,即一個父,多個子。并將這些詞條以及詞條之間的關(guān)聯(lián)規(guī)則(類目關(guān)聯(lián)規(guī)則)保存到一個數(shù)據(jù)庫中,形成例如:頁面分類_>社會_>軍事_>軍事學(xué)_>線式作戰(zhàn),這樣的形式,生成類目關(guān)聯(lián)規(guī)則庫即關(guān)聯(lián)規(guī)則庫。參考鏈接如:
[0027]http://zh.wikipedia.0rg/wiki/ffikipedia:%E5%88%86%E9%A1%9E%E7%B4%A2%E5%BC%95。
[0028]基礎(chǔ)類目詞庫生成模塊202,生成基礎(chǔ)類目詞庫,其生成各領(lǐng)域的基礎(chǔ)類目,用于類目查詢,以確定文本分類領(lǐng)域。此模塊202基于現(xiàn)有/已有的各領(lǐng)域的基礎(chǔ)類目來生成基礎(chǔ)類目詞庫,可以通過下載現(xiàn)有/已有的基礎(chǔ)類目詞庫,比如QQ輸入法分類詞庫,保存到本地文件,以備使用。參考鏈接如:http://dict.py.qq.com/
[0029]基于上述類目關(guān)聯(lián)規(guī)則和基礎(chǔ)類目詞庫,能利用諸如樹形結(jié)構(gòu)的關(guān)聯(lián)規(guī)則建立文本關(guān)聯(lián)規(guī)則,有助于應(yīng)用于不同的語言系統(tǒng),即能跨語言平臺。類目關(guān)聯(lián)規(guī)則庫和基礎(chǔ)類目詞庫做好了后續(xù)剪枝處理和文本分類的數(shù)據(jù)準(zhǔn)備。
[0030]文本預(yù)處理模塊203用于對測試文本進行處理,提取文本特征詞條。其具有文本特征向量提取功能,對測試文本進行預(yù)處理,一個待測文本通過簡單的中文分詞處理,剔除一些助詞、副詞等虛詞,得到該文本的關(guān)鍵詞列表,并通過例如TFIDF以及關(guān)鍵詞長度計算出關(guān)鍵詞的分?jǐn)?shù)作為類目分類器205的輸入。[0031 ] 規(guī)則剪枝模塊204,用于比對所述基礎(chǔ)類目詞庫中的詞條和所述類目關(guān)聯(lián)規(guī)則庫中的詞條,利用所述類目關(guān)聯(lián)規(guī)則庫內(nèi)的詞條關(guān)聯(lián)規(guī)則,對所述基礎(chǔ)類目詞庫中的詞條進行權(quán)重計算,并計算所述關(guān)聯(lián)規(guī)則庫中的詞條的權(quán)重。規(guī)則剪枝模塊204在分類前,對上述類目關(guān)聯(lián)規(guī)則和基礎(chǔ)類目詞庫進行處理,利用諸如樹形結(jié)構(gòu)關(guān)聯(lián)規(guī)則建立詞條關(guān)聯(lián)規(guī)則和基礎(chǔ)類目詞庫的比對、分析、計算、修改,簡易地變更分類方式,保證跨語言平臺的文本分類,而無需顧慮傳統(tǒng)文本分類器的文本分布均勻。
[0032]根據(jù)規(guī)則剪枝算法,基于關(guān)聯(lián)規(guī)則庫生成模塊201和基礎(chǔ)類目詞庫生成模塊202(二者準(zhǔn)備的數(shù)據(jù)),分析詞條在關(guān)聯(lián)規(guī)則庫的關(guān)聯(lián)規(guī)則,對基礎(chǔ)類目詞庫中的詞條進行權(quán)重分析計算,并把權(quán)重信息送給分類器205,以備分類使用。規(guī)則剪枝模塊204的工作原理將在下文中介紹。
[0033]分類器模塊205,利用計算出來的詞條的權(quán)重,作為樸素貝葉斯分類器的先驗條件概率,即此詞條屬于某一類目的條件概率,對測試文本進行分類。最后完成文本分類獲得需要的類目。本實施方案采用樸素貝葉斯文本分類器對文本分類,其他類型的文本分類器,經(jīng)過適當(dāng)修改,也可以應(yīng)用到本申請中。
[0034]下面對規(guī)則剪枝模塊204的工作原理進行描述。規(guī)則剪枝模塊204接受來自對關(guān)聯(lián)規(guī)則庫模塊201的詞條關(guān)聯(lián)規(guī)則和來自于基礎(chǔ)類目詞庫生成模塊中生成的基礎(chǔ)類目詞庫的詞條,對詞庫中的詞條的權(quán)重進行計算。其剪枝處理包括了:1)進行基礎(chǔ)類目詞庫權(quán)重估計、2)初始化維基樹型結(jié)構(gòu)的類目關(guān)聯(lián)規(guī)則庫(關(guān)聯(lián)關(guān)系初始化)、3)采用迭代算法對關(guān)聯(lián)規(guī)則庫中所有節(jié)點權(quán)重進行計算、4)對特殊節(jié)點進行處理、5)對關(guān)聯(lián)規(guī)則中環(huán)狀關(guān)系進行剪切處理。
[0035]I)基礎(chǔ) 類目詞庫權(quán)重估計
[0036]假設(shè)存在N個不同類目的詞典⑶={Dict_l, Dict_2,…Dict_N},每個Diet文件中,含有M個單詞/詞組,Dict_i={fford_il, Word_i2,...., Word_iM},計算每個詞典內(nèi)單詞/詞組的權(quán)重w_weight: w_weight=l/DF, DF 即 Dictionary Frequency,當(dāng)前 word在不同詞典內(nèi)出現(xiàn)的頻度(次數(shù))。生成基礎(chǔ)類目詞庫權(quán)重表。比如,詞組“芯片頻率”出現(xiàn)在出_計算機}類和{D_手機}類中出現(xiàn),因此,此詞組的DF值為2,其屬于{D_計算機}類的條件概率P ({D_計算機} /”芯片頻率” )=1/2。并將詞條及其對應(yīng)的權(quán)重生成權(quán)重表。
[0037]2)初始化維基樹形結(jié)構(gòu)的關(guān)聯(lián)規(guī)則庫
[0038]查詢類目關(guān)聯(lián)規(guī)則庫中的詞條,例如,查詢維基百科的樹形文本類目詞庫中的詞條,如果在基礎(chǔ)類目詞庫的權(quán)重表中存在當(dāng)前詞條,則將權(quán)重表中的權(quán)重賦給當(dāng)前詞條,否則該詞條的類目信息為零(為未標(biāo)注節(jié)點),并把當(dāng)前節(jié)點記做“標(biāo)注節(jié)點”,并存儲各節(jié)點的信息于類目關(guān)聯(lián)規(guī)則庫中,該節(jié)點信息包括與其有關(guān)系的所有類目以及其相應(yīng)的權(quán)重,其格式比如:{類目1:權(quán)重1,類目2:權(quán)重2......}。例如:
[0039]維基百科中的詞條“紡織城街道”未在此詞典中出現(xiàn),則“紡織城街道”節(jié)點不做任何處理;
[0040]當(dāng)維基百科中的節(jié)點的詞條“渦輪增壓”只出現(xiàn)在詞典{D_機械}類中時,對“渦輪增壓”節(jié)點賦予W_ {渦輪增壓} = {D_機械:1};
[0041]當(dāng)維基百科節(jié)點中的詞條“芯片頻率”出現(xiàn)在{D_計算機}類和{D_手機}類中時,對“芯片頻率”節(jié)點賦予W_{芯片頻率}=出_計算機:0.5,手機:0.5}。[0042]3)采用迭代算法對類目關(guān)聯(lián)規(guī)則庫中所有節(jié)點進行權(quán)重計算
[0043]在初始化標(biāo)注節(jié)點后,對于沒有標(biāo)注的節(jié)點,需要考慮以下幾種關(guān)聯(lián)規(guī)則:如一對一、一對多的詞條之間的關(guān)聯(lián)規(guī)則。
[0044]查詢類目關(guān)聯(lián)規(guī)則庫中的詞條,如果在基礎(chǔ)類目詞庫的權(quán)重表中并不存在當(dāng)前詞條,在設(shè)置其類目信息為O后,存儲當(dāng)前詞條為未標(biāo)注節(jié)點在該類目關(guān)聯(lián)規(guī)則庫中。并依據(jù)當(dāng)前詞條與那些存在于基礎(chǔ)類目詞庫中的詞條之間的詞條規(guī)則關(guān)系,如一對一、一對多(參見a)、b)、C))來處理,以計算當(dāng)前詞條的權(quán)重。
[0045]a)當(dāng)未標(biāo)注的節(jié)點X自下而上檢索到某個標(biāo)注節(jié)點A,并且與節(jié)點A存在“1-1”的單鏈關(guān)系時(如圖3 (a)),節(jié)點X與節(jié)點A的深度比重為1,則節(jié)點X的與A的關(guān)聯(lián)規(guī)則為:X=A0 節(jié)點 w_we i ght_X=w_we i ght_A
[0046]b)當(dāng)節(jié)點X和上一層節(jié)點{A,B,...}存在“1-η”的多鏈關(guān)系時(如圖3 (b)),這η個父節(jié)點深度相同且均為標(biāo)注節(jié)點,則該節(jié)點到所有父節(jié)點的深度權(quán)值為1/η,則節(jié)點X與節(jié)點A之間的關(guān)聯(lián)規(guī)則為:
[0047]
【權(quán)利要求】
1.一種文本分類系統(tǒng),其特征在于,包括: 關(guān)聯(lián)規(guī)則庫生成模塊(201),通過從具有類目關(guān)聯(lián)規(guī)則的資源提取詞條以及所述詞條之間的關(guān)聯(lián)規(guī)則,以生成類目關(guān)聯(lián)規(guī)則庫; 基礎(chǔ)類目詞庫生成模塊(202),基于已有各領(lǐng)域的基礎(chǔ)類目生成基礎(chǔ)類目詞庫; 文本預(yù)處理模塊(203),用于對測試文本進行預(yù)處理,以提取文本特征詞條; 規(guī)則剪枝模塊(204),比對所述基礎(chǔ)類目詞庫中的詞條和所述類目關(guān)聯(lián)規(guī)則庫中的詞條,利用所述類目關(guān)聯(lián)規(guī)則庫中的詞條的關(guān)聯(lián)規(guī)則,對所述基礎(chǔ)類目詞庫中的詞條進行權(quán)重計算,并計算所述類目關(guān)聯(lián)規(guī)則庫中的詞條權(quán)重; 分類器模塊(205),基于所述詞條的權(quán)重和提取的所述文本特征詞條,對所述測試文本進行分類。
2.如權(quán)利要求1所述的系統(tǒng),其特征在于, 所述資源包括:百科知識庫和數(shù)字圖書館系統(tǒng)中的至少一個; 所述基礎(chǔ)類目詞庫中的 詞條的權(quán)重計算是基于該詞條在所述基礎(chǔ)類目詞庫中的各類目中出現(xiàn)的頻度; 所述詞條之間的關(guān)聯(lián)規(guī)則結(jié)構(gòu)包括:樹型結(jié)構(gòu)、鏈型結(jié)構(gòu)和網(wǎng)狀結(jié)構(gòu)中至少一種。
3.如權(quán)利要求1所述的系統(tǒng),其特征在于,所述關(guān)聯(lián)規(guī)則庫生成模塊(201)進一步被配置成:使用爬蟲程序生成所述類目關(guān)聯(lián)規(guī)則庫。
4.如權(quán)利要求1所述的系統(tǒng),其特征在于,所述規(guī)則剪枝模塊(204)進一步被配置成:將所述類目關(guān)聯(lián)規(guī)則庫中的詞條與所述基礎(chǔ)類目詞庫中的詞條比對,如果所述類目關(guān)聯(lián)規(guī)則庫中的詞條存在于所述基礎(chǔ)類目詞庫中,則根據(jù)所述基礎(chǔ)類目詞庫中的詞條的權(quán)重對所述關(guān)聯(lián)規(guī)則庫中的詞條進行權(quán)重賦值。
5.如權(quán)利要求4所述的系統(tǒng),其特征在于,所述規(guī)則剪枝模塊(204)進一步被配置成:如果所述類目關(guān)聯(lián)規(guī)則庫中的詞條不存在于所述基礎(chǔ)類目詞庫中,則根據(jù)在所述類目關(guān)聯(lián)規(guī)則庫中的該詞條、與存在于所述基礎(chǔ)類目詞庫中的所述類目關(guān)聯(lián)規(guī)則庫中的其他詞條的詞條關(guān)聯(lián)規(guī)則進行權(quán)重計算。
6.如權(quán)利要求5所述的系統(tǒng),其特征在于, 所述詞條關(guān)聯(lián)規(guī)則包括詞條之間:一對一關(guān)系或一對多關(guān)系; 所述關(guān)聯(lián)規(guī)則庫中的權(quán)重計算考慮所述類目關(guān)聯(lián)規(guī)則庫中各節(jié)點間的相對深度; 所述類目關(guān)聯(lián)規(guī)則庫中的詞條的權(quán)重計算通過迭代算法進行。
7.如權(quán)利要求1所述的系統(tǒng),其特征在于,所述分類器模塊(205)為樸素貝葉斯分類器,所述詞條的權(quán)重作為所述分類器的先驗條件概率,對所述測試文本進行分類。
8.一種文本分類方法,其特征在于,包括: 從具有類目關(guān)聯(lián)規(guī)則的資源提取詞條以及所述詞條之間的關(guān)聯(lián)規(guī)則,以生成類目關(guān)聯(lián)規(guī)則庫; 基于已有各領(lǐng)域的基礎(chǔ)類目,生成基礎(chǔ)類目詞庫; 預(yù)處理測試文本,提取測試文本的特征詞條; 比對所述基礎(chǔ)類目詞庫中的詞條和所述類目關(guān)聯(lián)規(guī)則庫中的詞條,利用所述類目關(guān)聯(lián)規(guī)則庫中的詞條的關(guān)聯(lián)規(guī)則,對所述基礎(chǔ)類目詞庫中的詞條進行權(quán)重計算,并計算所述關(guān)聯(lián)規(guī)則庫中的詞條權(quán)重;使用分類器,依據(jù)提取的所述特征詞條以及計算的詞條的權(quán)重,對所述測試文本進行分類。
9.如權(quán)利要求8所述的方法,其特征在于, 所述資源包括百科知識庫和數(shù)字圖書館系統(tǒng)中的至少一個; 所述基礎(chǔ)類目詞庫中的詞條的權(quán)重計算是基于該詞條在所述基礎(chǔ)類目詞庫中的各類目中出現(xiàn)的頻度; 所述詞條之間的關(guān)聯(lián)規(guī)則結(jié)構(gòu)包括:樹型結(jié)構(gòu)、鏈型結(jié)構(gòu)和網(wǎng)狀結(jié)構(gòu)中至少一種。
10.如權(quán)利要求8所述的方法,其特征在于,所述類目關(guān)聯(lián)規(guī)則庫是由爬蟲程序提取生成。
11.如權(quán)利要求8所述的方法,其特征在于,將所述類目關(guān)聯(lián)規(guī)則庫中的詞條與所述基礎(chǔ)類目詞庫中的詞條比對,如所述類目關(guān)聯(lián)規(guī)則庫中的詞條存在于所述基礎(chǔ)類目詞庫中,則根據(jù)所述基礎(chǔ)類目詞庫中的詞條的權(quán)重對所述關(guān)聯(lián)規(guī)則庫中的詞條進行權(quán)重賦值。
12.如權(quán)利要求11所述的方法,其特征在于,如果所述類目關(guān)聯(lián)規(guī)則庫中的詞條不存在于所述基礎(chǔ)類目詞庫中,則根據(jù)在所述類目關(guān)聯(lián)規(guī)則庫中的該詞條、與存在于所述基礎(chǔ)類目詞庫中的所述類目關(guān)聯(lián)規(guī)則庫中的其他詞條的詞條關(guān)聯(lián)規(guī)則進行權(quán)重計算。
13.如權(quán)利要求12所述的方法,其特征在于, 所述詞條關(guān)聯(lián)規(guī)則包括詞條之間一對一關(guān)系或一對多關(guān)系; 所述關(guān)聯(lián)規(guī)則庫中的權(quán)重計算考慮所述類目關(guān)聯(lián)規(guī)則庫中各節(jié)點間的相對深度; 所述類目關(guān)聯(lián)規(guī)則庫中的詞條的權(quán)重計算通過迭代算法進行。
14.如權(quán)利要求8所述的方法,其特征在于,所述分類器為樸素貝葉斯分類器,將所述詞條權(quán)重作為所述分類器的先驗條件概率,對所述測試文本進行分類。
【文檔編號】G06F17/30GK103927302SQ201310009087
【公開日】2014年7月16日 申請日期:2013年1月10日 優(yōu)先權(quán)日:2013年1月10日
【發(fā)明者】陳俊波, 李華康, 曾鵬程, 薛貴榮 申請人:阿里巴巴集團控股有限公司