亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

基于語義的藏文網(wǎng)頁文本分類方法

文檔序號:6594845閱讀:763來源:國知局
專利名稱:基于語義的藏文網(wǎng)頁文本分類方法
技術領域
本發(fā)明涉及數(shù)據(jù)預處理技術,尤其涉及一種基于語義的藏文網(wǎng)頁文本分類方法。
背景技術
隨著藏區(qū)信息化和經(jīng)濟化的飛速發(fā)展,藏族網(wǎng)民和網(wǎng)頁的規(guī)模正以驚人的速度增長,網(wǎng)絡成為藏語信息傳遞和共享的載體,也成為藏族人民發(fā)表輿論的場所。不當?shù)难哉摽赡芤疠浾摰膶Щ鹚?,負面的信息將對社會公共安全形成較大威脅。藏文網(wǎng)頁文本分類技術是藏文網(wǎng)絡輿情監(jiān)測技術實現(xiàn)的前提和基礎,具有重要的研究價值。基于藏文網(wǎng)絡的語義文本分類作為處理和組織大量網(wǎng)絡文本數(shù)據(jù)的關鍵技術,可以根據(jù)文本的內(nèi)容自動確定文本類別,方便用戶快速、準確地定位所需要的信息。然而,藏語本體知識庫資源缺乏,致使基于藏文語義層面的應用研究受到約束。而且在傳統(tǒng)的Web文本分類方法中,認為藏語的詞匯之間是 獨立的,忽略了詞語間同義詞、上下位關系等語義問題,丟失了很多重要的信息,導致分類結(jié)果不夠準確且計算量大。

發(fā)明內(nèi)容
本發(fā)明的目的是在于提供一種能對藏文網(wǎng)頁文本信息進行實時、高效的分類的方法。為實現(xiàn)上述目的,本發(fā)明提供了一種基于語義的藏文網(wǎng)頁文本分類方法,該方法包括:從藏文網(wǎng)頁中抽取用于表征該網(wǎng)頁的文本信息;對所述文本信息進行分詞處理,將所述經(jīng)過分詞處理得到的詞語表示為詞向量空間;根據(jù)預設的藏文分類本體,將所述通過詞向量空間表示的詞語映射到語義空間的概念中,得到待分類文本的語義空間;根據(jù)預設的訓練樣本集的語義空間,采用分類算法對所述待分類文本的語義空間進行分類。在上述方法中,所述從藏文網(wǎng)頁中抽取用于表征該網(wǎng)頁的文本信息包括:采用規(guī)則法從藏文網(wǎng)頁中抽取文本信息,將所得到的文本信息表示為X1 ;采用模板法從藏文網(wǎng)頁中抽取文本信息,將所得到的文本信息表示為X2 ;判斷X1與X2是否一致,如果不一致,則分別對X1與X2中每類信息進行比較,選擇每類信息中最優(yōu)信息的組合作為表征所述藏文網(wǎng)頁的文本信息。在上述方法中,所述文本信息中包括網(wǎng)頁的發(fā)布日期和網(wǎng)頁的標題;所述在對所述文本信息進行分詞處理之前,在從藏文網(wǎng)頁中抽取用于表征該網(wǎng)頁的文本信息之后還包括:根據(jù)所述網(wǎng)頁的發(fā)布日期和網(wǎng)頁的標題對所述藏文網(wǎng)頁進行去重處理;將所述網(wǎng)頁中的文本信息中的藏文文本的字符編碼方式轉(zhuǎn)換成統(tǒng)一碼Unicode字符編碼方式。在上述方法中,對所述文本信息進行分詞處理包括:利用字切分特征和字性庫先識別每一個字,同時依據(jù)字性特征或接續(xù)特征判斷出所述文本信息中的所有格助詞;通過標點符號和關聯(lián)詞對所述文本信息進行分句,根據(jù)所述格助詞將每個句子分塊;通過詞典對所述劃分成塊的所述文本信息進行分詞,得到各個詞語;在所得到的包含多個詞語的字串中含有某個緊縮詞時,判斷去掉該緊縮詞后的字串是否在詞典中存在,若是,則分詞成功,分詞結(jié)果為去除緊縮詞后字串和緊縮詞;若否,去掉緊縮詞并添加后置字后在詞典中查找,分詞結(jié)果是原字串加后置字后的詞和緊縮詞。在上述方法中,所述預設的藏文分類本體包括:對藏文分類語料進行藏語類別主題詞提??;從藏漢電子詞典獲取所述藏語類別主題詞的漢語釋義,參考知網(wǎng)Hownet漢語本體的語義,將所述藏語類別主題詞擴充為藏文分類本體中的概念;以樹狀層次結(jié)構描述所述概念的內(nèi)涵及所述概念間的上下位關系、整體-部分關系、同義關系、近義關系。在上述方法中,所述預設的訓練樣本集的語義空間包括:根據(jù)所述預設的藏文分類本體,將藏文分類語料中的通過詞向量空間表示的詞語映射到語義空間的概念中,得到訓練樣本集中各個樣本的語義空間。在上述方法中,所述采用分類算法對所述待分類文本的語義空間進行分類包括:計算待分類文本的語義空間與訓練樣本集的語義空間中每一個樣本的語義空間的加權語義網(wǎng)文本相似度;對所述加權語義網(wǎng)文本相似度的值進行從大到小排列,選取與前k個加權語義網(wǎng)文本相似度對應的訓練樣本的語義空間,其中,k為自然數(shù);在訓練樣本集的語義空間中查詢所述k個訓練樣本的語義空間各自歸屬的類,從中選擇包含樣本數(shù)最多的類作為所述待分類文本的語義空間歸屬的類。在上述方法中,根據(jù)以下公式計算加權語義網(wǎng)文本相似度:
權利要求
1.一種基于語義的藏文網(wǎng)頁文本分類方法,其特征在于,該方法包括: 從藏文網(wǎng)頁中抽取用于表征該網(wǎng)頁的文本信息; 對所述文本信息進行分詞處理,將所述經(jīng)過分詞處理得到的詞語表示為詞向量空間;根據(jù)預設的藏文分類本體,將所述通過詞向量空間表示的詞語映射到語義空間的概念中,得到待分類文本的語義空間; 根據(jù)預設的訓練樣本集的語義空間,采用分類算法對所述待分類文本的語義空間進行分類。
2.根據(jù)權利要求1所述的方法,其特征在于,所述從藏文網(wǎng)頁中抽取用于表征該網(wǎng)頁的文本信息包括: 采用規(guī)則法從藏文網(wǎng)頁中抽取文本信息,將所得到的文本信息表示為X1 ; 采用模板法從藏文網(wǎng)頁中抽取文本信息,將所得到的文本信息表示為X2 ; 判斷X1與X2是否一致,如果不一致,則分別對X1與X2中每類信息進行比較,選擇每類信息中最優(yōu)信息的組合作為表征所述藏文網(wǎng)頁的文本信息。
3.根據(jù)權利要求1所述的方法,其特征在于,所述文本信息中包括網(wǎng)頁的發(fā)布日期和網(wǎng)頁的標題; 所述在對所述文本信息進行分詞處理之前,在從藏文網(wǎng)頁中抽取用于表征該網(wǎng)頁的文本信息之后還包括: 根據(jù)所述網(wǎng)頁的發(fā)布日期和網(wǎng)頁的標題對所述藏文網(wǎng)頁進行去重處理; 將所述網(wǎng)頁中的文本信息中的藏文文本的字符編碼方式轉(zhuǎn)換成統(tǒng)一碼Unicode字符編碼方式。
4.根據(jù)權利要求1所述的方法,其特征在于,所述對所述文本信息進行分詞處理包括: 利用字切分特征和字性庫先識別每一個字,同時依據(jù)字性特征或接續(xù)特征判斷出所述文本信息中的所有格助詞; 通過標點符號和關聯(lián)詞對所述文本信息進行分句,根據(jù)所述格助詞將每個句子分塊; 通過詞典對所述劃分成塊的所述文本信息進行分詞,得到各個詞語; 在所得到的包含多個詞語的字串中含有某個緊縮詞時,判斷去掉該緊縮詞后的字串是否在詞典中存在,若是,則分詞成功,分詞結(jié)果為去除緊縮詞后字串和緊縮詞;若否,去掉緊縮詞并添加后置字后在詞典中查找,分詞結(jié)果是原字串加后置字后的詞和緊縮詞。
5.據(jù)權利要求1所述的方法,其特征在于,所述預設的藏文分類本體包括: 對藏文分類語料進行藏語類別主題詞提??; 從藏漢電子詞典獲取所述藏語類別主題詞的漢語釋義,參考知網(wǎng)Hownet漢語本體的語義,將所述藏語類別主題詞擴充為藏文分類本體中的概念; 以樹狀層次結(jié)構描述所述概念的內(nèi)涵及所述概念間的上下位關系、整體-部分關系、同義關系、近義關系。
6.根據(jù)權利要求1所述的方法,其特征在于,所述預設的訓練樣本集的語義空間包括:根據(jù)所述預設的藏文分類本體,將藏文分類語料中的通過詞向量空間表示的詞語映射到語義空間的概念中,得到訓練樣本集中各樣本的語義空間。
7.根據(jù)權利要求1所述的方法,其特征在于,所述采用分類算法對所述待分類文本的語義空間進行分類包括:計算待分類文本的語義空間與訓練樣本集的語義空間中每一個樣本的語義空間的加權語義網(wǎng)文本相似度; 對所述加權語義網(wǎng)文本相似度的值進行從大到小排列,選取與前k個加權語義網(wǎng)文本相似度對應的訓練樣本的語義空間,其中,k為自然數(shù); 在訓練樣本集的語義空間中查詢所述k個訓練樣本的語義空間各自歸屬的類,從中選擇包含樣本數(shù)最多的類作為所述待分類文本的語義空間歸屬的類。
8.根據(jù)權利要求7所述的方法,其特征在于,根據(jù)以下公式計算加權語義網(wǎng)文本相似度:
9.根據(jù)權利要求8所述的方法,其特征在于,根據(jù)以下公式計算概念語義相似度:
全文摘要
本發(fā)明涉及一種基于語義的藏文網(wǎng)頁文本分類方法。本發(fā)明首先從藏文網(wǎng)頁中抽取用于表征該網(wǎng)頁的文本信息,然后對所述文本信息進行分詞處理,將所述經(jīng)過分詞處理得到的詞語表示為詞向量空間,其次根據(jù)預設的藏文分類本體,將所述通過詞向量空間表示的詞語映射到語義空間的概念中,得到待分類文本的語義空間,最后根據(jù)預設的訓練樣本集的語義空間,采用分類算法對所述待分類文本的語義空間進行分類。本發(fā)明提供的基于語義的藏文網(wǎng)頁文本分類方法,通過對網(wǎng)頁進行預處理,并采用加權語義網(wǎng)文本相似度的KNN分類算法實現(xiàn)了對藏文網(wǎng)頁實時、高效的分類。
文檔編號G06F17/30GK103218444SQ20131014198
公開日2013年7月24日 申請日期2013年4月22日 優(yōu)先權日2013年4月22日
發(fā)明者胥桂仙 申請人:中央民族大學
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1