文本分類方法和裝置的制造方法【專利摘要】本發(fā)明公開了一種文本分類方法,所述方法包括:獲取待分類文本,在所述待分類文本中提取關(guān)鍵詞,以生成關(guān)鍵詞集合;對所述關(guān)鍵詞集合中的關(guān)鍵詞進(jìn)行分類以得到多組關(guān)鍵詞詞組,確定各所述關(guān)鍵詞詞組在所述關(guān)鍵詞集合中所占的比例;計(jì)算所述比例大于預(yù)設(shè)閾值的關(guān)鍵詞詞組對應(yīng)的各關(guān)鍵詞與預(yù)設(shè)的分類參數(shù)的相關(guān)程度值,根據(jù)所述相關(guān)程度值確定所述待分類文本所屬類別。本發(fā)明還公開了一種文本分類裝置。本發(fā)明實(shí)現(xiàn)了在對比文本分類過程中,不需要采用訓(xùn)練語料進(jìn)行分類器訓(xùn)練,提高了文本分類的效率。【專利說明】文本分類方法和裝置
技術(shù)領(lǐng)域:
[0001]本發(fā)明涉及數(shù)據(jù)處理
技術(shù)領(lǐng)域:
,尤其涉及一種文本分類方法和裝置?!?br>背景技術(shù):
】[0002]隨著網(wǎng)絡(luò)技術(shù)的快速發(fā)展,海量的信息資源以文本的形式存在。人們迫切的希望從爆炸式的信息浪潮中快速有效的找到自己感興趣的內(nèi)容。文本分類作為信息處理的重要研究方向,是解決文本信息發(fā)現(xiàn)的常用方法。[0003]文本分類技術(shù)在很多領(lǐng)域都有應(yīng)用,例如,將文本進(jìn)行分類,分類后的文本用于指導(dǎo)機(jī)器翻譯中翻譯模型的訓(xùn)練??梢?,文本分類的精度很重要,精度高的分類文本,可以在其應(yīng)用領(lǐng)域帶來有益效果,而如果文本分類的精度不夠,就會給使用這些分類文本的應(yīng)用帶來不利影響。[0004]在現(xiàn)有的文本分類方法中,通常都是采用訓(xùn)練語料進(jìn)行分類器訓(xùn)練,然后用訓(xùn)練后的分類器對文本進(jìn)行分類的方式進(jìn)行,分類效率低?!?br/>發(fā)明內(nèi)容】[0005]本發(fā)明的主要目的在于提供一種文本分類方法和裝置,旨在解決現(xiàn)有文本分類效率低下的技術(shù)問題。[0006]為實(shí)現(xiàn)上述目的,本發(fā)明提供的一種文本分類方法,所述文本分類方法包括:[0007]獲取待分類文本,在所述待分類文本中提取關(guān)鍵詞,以生成關(guān)鍵詞集合;[0008]對所述關(guān)鍵詞集合中的關(guān)鍵詞進(jìn)行分類以得到多組關(guān)鍵詞詞組,確定各所述關(guān)鍵詞詞組在所述關(guān)鍵詞集合中所占的比例;[0009]計(jì)算所述比例大于預(yù)設(shè)閾值的關(guān)鍵詞詞組對應(yīng)的各關(guān)鍵詞與預(yù)設(shè)的分類參數(shù)的相關(guān)程度值,根據(jù)所述相關(guān)程度值確定所述待分類文本所屬類別。[0010]優(yōu)選地,所述獲取待分類文本,在所述待分類文本中提取關(guān)鍵詞,以生成關(guān)鍵詞集合的步驟包括:[0011]獲取待分類文本,對所述待分類文本進(jìn)行預(yù)處理操作,得到預(yù)處理后的所述待分類文本;[0012]在預(yù)處理后的所述待分類文本中提取關(guān)鍵詞,以生成關(guān)鍵詞集合。[0013]優(yōu)選地,所述獲取待分類文本,對所述待分類文本進(jìn)行預(yù)處理操作,得到預(yù)處理后的所述待分類文本的步驟包括:[0014]獲取待分類文本,刪除所述待分類文本中的非相關(guān)文本和停用詞;[0015]通過分詞算法對刪除所述非相關(guān)文本和停用詞的待分類文本進(jìn)行分詞處理,得到預(yù)處理后的所述待分類文本。[0016]優(yōu)選地,所述計(jì)算所述比例大于預(yù)設(shè)閾值的關(guān)鍵詞詞組對應(yīng)的各關(guān)鍵詞與預(yù)設(shè)的分類參數(shù)的相關(guān)程度值,根據(jù)所述相關(guān)程度值確定所述待分類文本所屬類別的步驟包括:[0017]根據(jù)K最鄰近分類算法計(jì)算所述比例大于預(yù)設(shè)閾值的關(guān)鍵詞詞組對應(yīng)的各關(guān)鍵詞與預(yù)設(shè)的分類參數(shù)的相關(guān)程度值;[0018]將所述相關(guān)程度值大于預(yù)設(shè)相關(guān)程度值的分類參數(shù)所屬類別作為所述待分類文本所屬類別。[0019]優(yōu)選地,所述計(jì)算所述比例大于預(yù)設(shè)閾值的關(guān)鍵詞詞組對應(yīng)的各關(guān)鍵詞與預(yù)設(shè)的分類參數(shù)的相關(guān)程度值,根據(jù)所述相關(guān)程度值確定所述待分類文本所屬類別的步驟之后,還包括:[0020]將屬于同一類別的待分類文本存儲于同一個(gè)文件夾中,并根據(jù)所述待分類文本所屬類別所對應(yīng)的分類參數(shù)為所述待分類文本建立索引。[0021]此外,為實(shí)現(xiàn)上述目的,本發(fā)明還提供一種文本分類裝置,所述文本分類裝置包括:[0022]提取模塊,用于獲取待分類文本,在所述待分類文本中提取關(guān)鍵詞,以生成關(guān)鍵詞集合;[0023]分類模塊,用于對所述關(guān)鍵詞集合中的關(guān)鍵詞進(jìn)行分類以得到多組關(guān)鍵詞詞組,確定各所述關(guān)鍵詞詞組在所述關(guān)鍵詞集合中所占的比例;[0024]計(jì)算模塊,用于計(jì)算所述比例大于預(yù)設(shè)閾值的關(guān)鍵詞詞組對應(yīng)的各關(guān)鍵詞與預(yù)設(shè)的分類參數(shù)的相關(guān)程度值,根據(jù)所述相關(guān)程度值確定所述待分類文本所屬類別。[0025]優(yōu)選地,所述提取模塊包括:[0026]預(yù)處理單元,用于獲取待分類文本,對所述待分類文本進(jìn)行預(yù)處理操作,得到預(yù)處理后的所述待分類文本;[0027]提取單元,用于在預(yù)處理后的所述待分類文本中提取關(guān)鍵詞,以生成關(guān)鍵詞集合。[0028]優(yōu)選地,所述提取模塊還包括:[0029]刪除單元,用于獲取待分類文本,刪除所述待分類文本中的非相關(guān)文本和停用詞;[0030]分詞處理單元,用于通過分詞算法對刪除所述非相關(guān)文本和停用詞的待分類文本進(jìn)行分詞處理,得到預(yù)處理后的所述待分類文本。[0031]優(yōu)選地,所述計(jì)算模塊包括:[0032]計(jì)算單元,用于根據(jù)K最鄰近分類算法計(jì)算所述比例大于預(yù)設(shè)閾值的關(guān)鍵詞詞組對應(yīng)的各關(guān)鍵詞與預(yù)設(shè)的分類參數(shù)的相關(guān)程度值;[0033]處理單元,用于將所述相關(guān)程度值大于預(yù)設(shè)相關(guān)程度值的分類參數(shù)所屬類別作為所述待分類文本所屬類別。[0034]優(yōu)選地,所述文本分類裝置包括:[0035]存儲模塊,用于將屬于同一類別的待分類文本存儲于同一個(gè)文件夾中,并根據(jù)所述待分類文本所屬類別所對應(yīng)的分類參數(shù)為所述待分類文本建立索引。[0036]本發(fā)明通過在獲取的待分類文本中提取關(guān)鍵詞集合,對關(guān)鍵詞集合中的關(guān)鍵詞進(jìn)行分類以得到關(guān)鍵詞詞組,并確定各關(guān)鍵詞詞組在所述關(guān)鍵詞集合中所占的比例,根據(jù)所述比例大于預(yù)設(shè)閾值的關(guān)鍵詞詞組對應(yīng)的各關(guān)鍵詞與預(yù)設(shè)的分類參數(shù)的相關(guān)程度值確定待分類文本所屬類別。實(shí)現(xiàn)了在對比文本分類過程中,不需要采用訓(xùn)練語料進(jìn)行分類器訓(xùn)練,提高了文本分類的效率?!靖綀D說明】[0037]圖1為本發(fā)明文本分類方法的第一實(shí)施例的流程示意圖;[0038]圖2為本發(fā)明實(shí)施例中獲取待分類文本,在所述待分類文本中提取關(guān)鍵詞,以生成關(guān)鍵詞集合的一種流程示意圖;[0039]圖3為本發(fā)明文本分類方法的第二實(shí)施例的流程示意圖;[0040]圖4為本發(fā)明文本分類裝置的第一實(shí)施例的功能模塊示意圖;[0041]圖5為本發(fā)明實(shí)施例中提取模塊的一種功能模塊示意圖;[0042]圖6為本發(fā)明文本分類裝置的第二實(shí)施例的功能模塊示意圖。[0043]本發(fā)明目的的實(shí)現(xiàn)、功能特點(diǎn)及優(yōu)點(diǎn)將結(jié)合實(shí)施例,參照附圖做進(jìn)一步說明?!揪唧w實(shí)施方式】[0044]應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。[0045]本發(fā)明提供一種文本分類方法。[0046]參照圖1,圖1為本發(fā)明文本分類方法第一實(shí)施例的流程示意圖。[0047]在本實(shí)施例中,所述文本分類方法包括:[0048]步驟S10,獲取待分類文本,在所述待分類文本中提取關(guān)鍵詞,以生成關(guān)鍵詞集合;[0049]獲取待分類文本,所述獲取待分類文本的方法包括但不限于從所儲存文本的數(shù)據(jù)庫獲取,或者從其它終端,如手機(jī)、個(gè)人計(jì)算機(jī)中獲取等,所述待分類文本包括但不限于word文本、excel文本、PDF(PortableDocumentFormat,便攜式文檔格式)文本等。當(dāng)獲取到所述待分類文本時(shí),在所述待分類文本中提取關(guān)鍵詞,以生成所述待分類文本的關(guān)鍵詞集合。如當(dāng)獲取的待分類文本是名為“上班族保健養(yǎng)生知識”word文本時(shí),在所述“上班族保健養(yǎng)生知識”word文本中提取的關(guān)鍵詞集合為“上班族/社會/發(fā)展/生力軍/身體狀況/健康/保健/養(yǎng)生/久坐成疾/運(yùn)動/頸椎疾病/腰背痛/駝背/肥胖/脂肪/血液循環(huán)”。在具體實(shí)施例中,所述“上班族保健養(yǎng)生知識”word文本中的關(guān)鍵詞集合中的關(guān)鍵詞不限制于上述所列舉的詞語。[0050]步驟S20,對所述關(guān)鍵詞集合中的關(guān)鍵詞進(jìn)行分類以得到多組關(guān)鍵詞詞組,確定各所述關(guān)鍵詞詞組在所述關(guān)鍵詞集合中所占的比例;[0051]當(dāng)獲取到所述待分類文本中的關(guān)鍵詞集合時(shí),對所述關(guān)鍵詞集合中的關(guān)鍵詞進(jìn)行分類,確定所述關(guān)鍵詞集合中各關(guān)鍵詞的類別,以得到多組關(guān)鍵詞詞組,并計(jì)算每組關(guān)鍵詞詞組在所述關(guān)鍵詞集合所占的比例。如當(dāng)獲取到所述“上班族保健養(yǎng)生知識”word文本的關(guān)鍵詞集合為“上班族/社會/發(fā)展/生力軍/身體狀況/健康/保健/養(yǎng)生/久坐成疾/運(yùn)動/頸椎疾病/腰背痛/駝背/肥胖/脂肪/血液循環(huán)”時(shí),將所述“上班族保健養(yǎng)生知識”word文本中關(guān)鍵詞集合的關(guān)鍵詞分為(I)“上班族”,(2)“社會/發(fā)展”,(3)“生力軍”,(4)“身體狀況/健康/保健/養(yǎng)生/運(yùn)動”,(5)“久坐成疾/頸椎疾病/腰背痛/駝背/肥胖/脂肪/血液循環(huán)”這5組關(guān)鍵詞詞組,確定這5組關(guān)鍵詞詞組在所述“上班族保健養(yǎng)生知識”word文本的關(guān)鍵詞集合中所占比例分別為(I)1/16*100%=6.25%;(2)2/16*100%=12.5%;(3)1/16*100%=6.25%;(4)5/16*100%=31.25%;(5)7/16*100%=43.75%ο[0052]步驟S30,計(jì)算所述比例大于預(yù)設(shè)閾值的關(guān)鍵詞詞組對應(yīng)的各關(guān)鍵詞與預(yù)設(shè)的分類參數(shù)的相關(guān)程度值,根據(jù)所述相關(guān)程度值確定所述待分類文本所屬類別。[0053]當(dāng)確定各關(guān)鍵詞詞組在所述關(guān)鍵詞集合中所占的比例時(shí),判斷所述各關(guān)鍵詞詞組在所述關(guān)鍵詞集合中所占的比例是否大于預(yù)設(shè)閾值。若某種關(guān)鍵詞詞組在所述關(guān)鍵詞集合中所占的比例小于或者等于所述預(yù)設(shè)閾值,則將該關(guān)鍵詞詞組從所述關(guān)鍵詞集合中移除;若某種關(guān)鍵詞詞組在所述關(guān)鍵詞集合中所占的比例大于所述預(yù)設(shè)閾值,則計(jì)算所述比例大于所述預(yù)設(shè)閾值的關(guān)鍵詞詞組對應(yīng)的各關(guān)鍵詞與預(yù)設(shè)的分類參數(shù)的相關(guān)程度值,根據(jù)所述比例大于所述預(yù)設(shè)閾值的關(guān)鍵詞詞組對應(yīng)的各關(guān)鍵詞與預(yù)設(shè)的分類參數(shù)的相關(guān)程度值的大小確定所述待分類文本所屬類別。所述預(yù)設(shè)閾值根據(jù)所述關(guān)鍵詞集合中關(guān)鍵詞的個(gè)數(shù)和所述關(guān)鍵詞集合中關(guān)鍵詞詞組的組數(shù)確定。如當(dāng)所述“上班族保健養(yǎng)生知識”word文本所對應(yīng)的預(yù)設(shè)閾值為20%時(shí),則只計(jì)算所述“上班族保健養(yǎng)生知識”word文本中第(4)組和第(5)組的關(guān)鍵詞詞組對應(yīng)的各關(guān)鍵詞與預(yù)設(shè)的分類參數(shù)的相關(guān)程度值,根據(jù)第(4)組和第(5)組中的各個(gè)關(guān)鍵詞與預(yù)設(shè)的分類參數(shù)的相關(guān)程度值確定所述待分類文本所屬類別。[0054]進(jìn)一步地,所述步驟S30包括:[0055]步驟a,根據(jù)K最鄰近分類算法計(jì)算所述比例大于預(yù)設(shè)閾值的關(guān)鍵詞詞組對應(yīng)的各關(guān)鍵詞與預(yù)設(shè)的分類參數(shù)的相關(guān)程度值;[0056]步驟b,將所述相關(guān)程度值大于預(yù)設(shè)相關(guān)程度值的分類參數(shù)所屬類別作為所述待分類文本所屬類別。[0057]當(dāng)確定各關(guān)鍵詞詞組在所述關(guān)鍵詞集合中所占的比例時(shí),確定所述關(guān)鍵詞集合中所述比例大于預(yù)設(shè)閾值的各關(guān)鍵詞詞組,根據(jù)K最鄰近分類算法計(jì)算所述比例大于預(yù)設(shè)閾值的關(guān)鍵詞詞組對應(yīng)的各關(guān)鍵詞與預(yù)設(shè)的分類參數(shù)的相關(guān)程度值,將所述相關(guān)程度值大于預(yù)設(shè)相關(guān)程度值的分類參數(shù)所屬類別作為所述待分類文本所屬的類別。所述預(yù)設(shè)相關(guān)程度值可以根據(jù)具體需要而設(shè)置,若想將所述待分類文本進(jìn)行一個(gè)簡單的分類,則可以將所述預(yù)設(shè)相關(guān)程度值設(shè)置小一點(diǎn),反之,可以將所述預(yù)設(shè)相關(guān)程度值設(shè)置大一點(diǎn)。所述K最鄰近分類算法的思路是:如果一個(gè)樣本在特征空間中的k個(gè)最相似(即特征空間中最鄰近)的樣本中的大多數(shù)屬于某一個(gè)類別,則該樣本也屬于這個(gè)類別。[0058]需要說明的是,所述待分類文本可能只屬于一個(gè)類別,也可能屬于多個(gè)類別。如所述“上班族保健養(yǎng)生知識”word文本可以屬于“養(yǎng)生”類別,也可以屬于“生活”類別。[0059]進(jìn)一步地,當(dāng)根據(jù)K最鄰近分類算法計(jì)算所述比例大于預(yù)設(shè)閾值的關(guān)鍵詞詞組對應(yīng)的各關(guān)鍵詞與預(yù)設(shè)的分類參數(shù)的相關(guān)程度值時(shí),可以將計(jì)算所得的相關(guān)程度值按照從大到小排序,將最大的相關(guān)程度值所對應(yīng)的分類參數(shù)所屬類別作為所述待分類文本的所屬類別,此時(shí),所述待分類文本只屬于一個(gè)類別。[0060]本實(shí)施例通過在獲取的待分類文本中提取關(guān)鍵詞集合,對關(guān)鍵詞集合中的關(guān)鍵詞進(jìn)行分類以得到關(guān)鍵詞詞組,并確定各關(guān)鍵詞詞組在所述關(guān)鍵詞集合中所占的比例,根據(jù)所述比例大于預(yù)設(shè)閾值的關(guān)鍵詞詞組對應(yīng)的各關(guān)鍵詞與預(yù)設(shè)的分類參數(shù)的相關(guān)程度值確定待分類文本所屬類別。實(shí)現(xiàn)了在對比文本分類過程中,不需要采用訓(xùn)練語料進(jìn)行分類器訓(xùn)練,提高了文本分類的效率。[0061]參照圖2,圖2為本發(fā)明實(shí)施例中獲取待分類文本,在所述待分類文本中提取關(guān)鍵詞,以生成關(guān)鍵詞集合的一種流程示意圖。[0062]在本實(shí)施例中,所述步驟SlO包括:[0063]步驟S11,獲取待分類文本,對所述待分類文本進(jìn)行預(yù)處理操作,得到預(yù)處理后的所述待分類文本;[0064]當(dāng)獲取到所述待分類文本時(shí),解析所述待分類文本,對所述待分類文本進(jìn)行預(yù)處理操作,得到預(yù)處理后的所述待分類文本。[0065]進(jìn)一步地,所述步驟SII包括:[0066]步驟C,獲取待分類文本,刪除所述待分類文本中的非相關(guān)文本和停用詞;[0067]當(dāng)獲取到所述待分類文本后,解析所述待分類文本,得到所述待分類文本中的非相關(guān)文本和停用詞,所述待分類文本的非相關(guān)文本包括但不限于word文本中的照片、數(shù)學(xué)公式、數(shù)字等,所述待分類文本的停用詞是在信息檢索中,為節(jié)省存儲空間和提高搜索效率,在處理自然語言數(shù)據(jù)(或文本)之前或之后會自動過濾掉某些字或詞,如“一個(gè)”、“三天兩頭”、“不再”、“么”、“今天”、“具體來說”、“大多數(shù)”等。當(dāng)?shù)玫剿龃诸愇谋局械姆窍嚓P(guān)文本和停用詞之后,刪除所述待分類文本中的非相關(guān)文本和停用詞。[0068]步驟d,通過分詞算法對刪除所述非相關(guān)文本和停用詞的待分類文本進(jìn)行分詞處理,得到預(yù)處理后的所述待分類文本。[0069]當(dāng)將所述待分類文本中的非相關(guān)文本和停用詞刪除后,通過分詞算法對刪除所述非相關(guān)文本和停用詞的待分類文本進(jìn)行分詞處理,得到預(yù)處理后的待分類文本。所述分詞算法就是將連續(xù)的字序列按照一定的規(guī)范重新組合成詞序列的過程,現(xiàn)有的分詞算法包括基于字符串匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計(jì)的分詞方法;而按照是否與詞性標(biāo)注過程相結(jié)合,又可以分為單純分詞方法和分詞與標(biāo)注相結(jié)合的一體化方法。[0070]進(jìn)一步地,當(dāng)?shù)玫剿鲱A(yù)處理后的待分類文本時(shí),獲取所述預(yù)處理后的待分類文本中的人名、地名、機(jī)構(gòu)名、產(chǎn)品名、商標(biāo)名等,將所述預(yù)處理后的待分類文本中的人名、地名、機(jī)構(gòu)名、產(chǎn)品名、商標(biāo)名等刪除。如得到的所述預(yù)處理后的待分類文本中某句話為“小明/朋友/湖南/鳳凰古城/旅游”,則刪除該句話中的“小明/湖南/鳳凰古城”,得到的這句話為“朋友/旅游”。[0071]步驟S12,在預(yù)處理后的所述待分類文本中提取關(guān)鍵詞,以生成關(guān)鍵詞集合。[0072]當(dāng)?shù)玫筋A(yù)處理后的所述待分類文本時(shí),在預(yù)處理后的所述待分類文本中提取關(guān)鍵詞,將從預(yù)處理后的所述待分類文本中所提取的關(guān)鍵詞組合成關(guān)鍵詞集合。[0073]本實(shí)施例通過獲取到待分類文本時(shí),對該待分類文本進(jìn)行預(yù)處理操作,刪除所述待分類文本中的非相關(guān)文本和停用詞,進(jìn)一步提高文本分類的效率。[0074]參照圖3,圖3為本發(fā)明文本分類方法的第二實(shí)施例的流程示意圖,基于第一實(shí)施例提出本發(fā)明文本分類方法的第二實(shí)施例。[0075]在本實(shí)施例中,所述文本分類方法還包括:[0076]步驟S40,將屬于同一類別的待分類文本存儲于同一個(gè)文件夾中,并根據(jù)所述待分類文本所屬類別所對應(yīng)的分類參數(shù)為所述待分類文本建立索引。[0077]當(dāng)確定所述待分類文本所屬類別后,獲取屬于同一類別的待分類文本,將屬于同一類別的待分類文本存儲于同一個(gè)文件夾中,并根據(jù)所述待分類文本所屬類別所對應(yīng)的分類參數(shù)為所述待分類文本建立索引,進(jìn)一步地,還可以根據(jù)所述待分類文本所屬類別所對應(yīng)的分類參數(shù),以及所述待分類文本所屬類別為所述待分類文本建立索引,以供用戶根據(jù)所建立的索引管理和查找所述待分類文本。如將屬于“菜譜”這一類別的待分類文本存儲于同一個(gè)文件夾中。如屬于“菜譜”這一類別中某個(gè)待分類文本所對應(yīng)的分類參數(shù)為“青瓜/雞蛋”,則為該待分類文本建立的索引為“青瓜”、“雞蛋”、“菜譜”。[0078]本實(shí)施例通過將屬于同一類別的待分類文本存儲于同一個(gè)文件夾中,并根據(jù)所述待分類文本所屬類別所對應(yīng)的分類參數(shù)為所述待分類文本建立索引,方便了用戶對待分類文本的管理和查看。[0079]本發(fā)明進(jìn)一步提供一種文本分類裝置。[0080]參照圖4,圖4為本發(fā)明文本分類裝置的第一實(shí)施例的功能模塊示意圖。[0081]在本實(shí)施例中,所述文本分類裝置包括:[0082]提取模塊10,用于獲取待分類文本,在所述待分類文本中提取關(guān)鍵詞,以生成關(guān)鍵詞集合;[0083]獲取待分類文本,所述獲取待分類文本的方法包括但不限于從所儲存文本的數(shù)據(jù)庫獲取,或者從其它終端,如手機(jī)、個(gè)人計(jì)算機(jī)中獲取等,所述待分類文本包括但不限于word文本、excel文本、PDF(PortableDocumentFormat,便攜式文檔格式)文本等。當(dāng)獲取到所述待分類文本時(shí),在所述待分類文本中提取關(guān)鍵詞,以生成所述待分類文本的關(guān)鍵詞集合。如當(dāng)獲取的待分類文本是名為“上班族保健養(yǎng)生知識”word文本時(shí),在所述“上班族保健養(yǎng)生知識”word文本中提取的關(guān)鍵詞集合為“上班族/社會/發(fā)展/生力軍/身體狀況/健康/保健/養(yǎng)生/久坐成疾/運(yùn)動/頸椎疾病/腰背痛/駝背/肥胖/脂肪/血液循環(huán)”。在具體實(shí)施例中,所述“上班族保健養(yǎng)生知識”word文本中的關(guān)鍵詞集合中的關(guān)鍵詞不限制于上述所列舉的詞語。[0084]分類模塊20,用于對所述關(guān)鍵詞集合中的關(guān)鍵詞進(jìn)行分類以得到多組關(guān)鍵詞詞組,確定各所述關(guān)鍵詞詞組在所述關(guān)鍵詞集合中所占的比例;[0085]當(dāng)獲取到所述待分類文本中的關(guān)鍵詞集合時(shí),對所述關(guān)鍵詞集合中的關(guān)鍵詞進(jìn)行分類,確定所述關(guān)鍵詞集合中各關(guān)鍵詞的類別,以得到多組關(guān)鍵詞詞組,并計(jì)算每組關(guān)鍵詞詞組在所述關(guān)鍵詞集合所占的比例。如當(dāng)獲取到所述“上班族保健養(yǎng)生知識”word文本的關(guān)鍵詞集合為“上班族/社會/發(fā)展/生力軍/身體狀況/健康/保健/養(yǎng)生/久坐成疾/運(yùn)動/頸椎疾病/腰背痛/駝背/肥胖/脂肪/血液循環(huán)”時(shí),將所述“上班族保健養(yǎng)生知識”word文本中關(guān)鍵詞集合的關(guān)鍵詞分為(I)“上班族”,(2)“社會/發(fā)展”,(3)“生力軍”,(4)“身體狀況/健康/保健/養(yǎng)生/運(yùn)動”,(5)“久坐成疾/頸椎疾病/腰背痛/駝背/肥胖/脂肪/血液循環(huán)”這5組關(guān)鍵詞詞組,確定這5組關(guān)鍵詞詞組在所述“上班族保健養(yǎng)生知識”word文本的關(guān)鍵詞集合中所占比例分別為(I)1/16*100%=6.25%;(2)2/16*100%=12.5%;(3)1/16*100%=6.25%;(4)5/16*100%=31.25%;(5)7/16*100%=43.75%ο[0086]計(jì)算模塊30,用于計(jì)算所述比例大于預(yù)設(shè)閾值的關(guān)鍵詞詞組對應(yīng)的各關(guān)鍵詞與預(yù)設(shè)的分類參數(shù)的相關(guān)程度值,根據(jù)所述相關(guān)程度值確定所述待分類文本所屬類別。[0087]當(dāng)確定各關(guān)鍵詞詞組在所述關(guān)鍵詞集合中所占的比例時(shí),判斷所述各關(guān)鍵詞詞組在所述關(guān)鍵詞集合中所占的比例是否大于預(yù)設(shè)閾值。若某種關(guān)鍵詞詞組在所述關(guān)鍵詞集合中所占的比例小于或者等于所述預(yù)設(shè)閾值,則將該關(guān)鍵詞詞組從所述關(guān)鍵詞集合中移除;若某種關(guān)鍵詞詞組在所述關(guān)鍵詞集合中所占的比例大于所述預(yù)設(shè)閾值,則計(jì)算所述比例大于所述預(yù)設(shè)閾值的關(guān)鍵詞詞組對應(yīng)的各關(guān)鍵詞與預(yù)設(shè)的分類參數(shù)的相關(guān)程度值,根據(jù)所述比例大于所述預(yù)設(shè)閾值的關(guān)鍵詞詞組對應(yīng)的各關(guān)鍵詞與預(yù)設(shè)的分類參數(shù)的相關(guān)程度值的大小確定所述待分類文本所屬類別。所述預(yù)設(shè)閾值根據(jù)所述關(guān)鍵詞集合中關(guān)鍵詞的個(gè)數(shù)和所述關(guān)鍵詞集合中關(guān)鍵詞詞組的組數(shù)確定。如當(dāng)所述“上班族保健養(yǎng)生知識”word文本所對應(yīng)的預(yù)設(shè)閾值為20%時(shí),則只計(jì)算所述“上班族保健養(yǎng)生知識”word文本中第(4)組和第(5)組的關(guān)鍵詞詞組對應(yīng)的各關(guān)鍵詞與預(yù)設(shè)的分類參數(shù)的相關(guān)程度值,根據(jù)第(4)組和第(5)組中的各個(gè)關(guān)鍵詞與預(yù)設(shè)的分類參數(shù)的相關(guān)程度值確定所述待分類文本所屬類別。[0088]進(jìn)一步地,所述計(jì)算模塊30包括:[0089]計(jì)算單元,用于根據(jù)K最鄰近分類算法計(jì)算所述比例大于預(yù)設(shè)閾值的關(guān)鍵詞詞組對應(yīng)的各關(guān)鍵詞與預(yù)設(shè)的分類參數(shù)的相關(guān)程度值;[0090]處理單元,用于將所述相關(guān)程度值大于預(yù)設(shè)相關(guān)程度值的分類參數(shù)所屬類別作為所述待分類文本所屬類別。[0091]當(dāng)確定各關(guān)鍵詞詞組在所述關(guān)鍵詞集合中所占的比例時(shí),確定所述關(guān)鍵詞集合中所述比例大于預(yù)設(shè)閾值的各關(guān)鍵詞詞組,根據(jù)K最鄰近分類算法計(jì)算所述比例大于預(yù)設(shè)閾值的關(guān)鍵詞詞組對應(yīng)的各關(guān)鍵詞與預(yù)設(shè)的分類參數(shù)的相關(guān)程度值,將所述相關(guān)程度值大于預(yù)設(shè)相關(guān)程度值的分類參數(shù)所屬類別作為所述待分類文本所屬的類別。所述預(yù)設(shè)相關(guān)程度值可以根據(jù)具體需要而設(shè)置,若想將所述待分類文本進(jìn)行一個(gè)簡單的分類,則可以將所述預(yù)設(shè)相關(guān)程度值設(shè)置小一點(diǎn),反之,可以將所述預(yù)設(shè)相關(guān)程度值設(shè)置大一點(diǎn)。所述K最鄰近分類算法的思路是:如果一個(gè)樣本在特征空間中的k個(gè)最相似(即特征空間中最鄰近)的樣本中的大多數(shù)屬于某一個(gè)類別,則該樣本也屬于這個(gè)類別。[0092]需要說明的是,所述待分類文本可能只屬于一個(gè)類別,也可能屬于多個(gè)類別。如所述“上班族保健養(yǎng)生知識”word文本可以屬于“養(yǎng)生”類別,也可以屬于“生活”類別。[0093]進(jìn)一步地,當(dāng)根據(jù)K最鄰近分類算法計(jì)算所述比例大于預(yù)設(shè)閾值的關(guān)鍵詞詞組對應(yīng)的各關(guān)鍵詞與預(yù)設(shè)的分類參數(shù)的相關(guān)程度值時(shí),可以將計(jì)算所得的相關(guān)程度值按照從大到小排序,將最大的相關(guān)程度值所對應(yīng)的分類參數(shù)所屬類別作為所述待分類文本的所屬類別,此時(shí),所述待分類文本只屬于一個(gè)類別。[0094]本實(shí)施例通過在獲取的待分類文本中提取關(guān)鍵詞集合,對關(guān)鍵詞集合中的關(guān)鍵詞進(jìn)行分類以得到關(guān)鍵詞詞組,并確定各關(guān)鍵詞詞組在所述關(guān)鍵詞集合中所占的比例,根據(jù)所述比例大于預(yù)設(shè)閾值的關(guān)鍵詞詞組對應(yīng)的各關(guān)鍵詞與預(yù)設(shè)的分類參數(shù)的相關(guān)程度值確定待分類文本所屬類別。實(shí)現(xiàn)了在對比文本分類過程中,不需要采用訓(xùn)練語料進(jìn)行分類器訓(xùn)練,提高了文本分類的效率。[0095]參照圖5,圖5為本發(fā)明本發(fā)明實(shí)施例中提取模塊的一種功能模塊示意圖。[0096]在本實(shí)施例中,所述提取模塊10包括:[0097]預(yù)處理單元11,用于獲取待分類文本,對所述待分類文本進(jìn)行預(yù)處理操作,得到預(yù)處理后的所述待分類文本;[0098]當(dāng)獲取到所述待分類文本時(shí),解析所述待分類文本,對所述待分類文本進(jìn)行預(yù)處理操作,得到預(yù)處理后的所述待分類文本。[0099]進(jìn)一步地,所述提取模塊10還包括:[0100]刪除單元,用于獲取待分類文本,刪除所述待分類文本中的非相關(guān)文本和停用詞;[0101]當(dāng)獲取到所述待分類文本后,解析所述待分類文本,得到所述待分類文本中的非相關(guān)文本和停用詞,所述待分類文本的非相關(guān)文本包括但不限于word文本中的照片、數(shù)學(xué)公式、數(shù)字等,所述待分類文本的停用詞是在信息檢索中,為節(jié)省存儲空間和提高搜索效率,在處理自然語言數(shù)據(jù)(或文本)之前或之后會自動過濾掉某些字或詞,如“一個(gè)”、“三天兩頭”、“不再”、“么”、“今天”、“具體來說”、“大多數(shù)”等。當(dāng)?shù)玫剿龃诸愇谋局械姆窍嚓P(guān)文本和停用詞之后,刪除所述待分類文本中的非相關(guān)文本和停用詞。[0102]分詞處理單元,用于通過分詞算法對刪除所述非相關(guān)文本和停用詞的待分類文本進(jìn)行分詞處理,得到預(yù)處理后的所述待分類文本。[0103]當(dāng)將所述待分類文本中的非相關(guān)文本和停用詞刪除后,通過分詞算法對刪除所述非相關(guān)文本和停用詞的待分類文本進(jìn)行分詞處理,得到預(yù)處理后的待分類文本。所述分詞算法就是將連續(xù)的字序列按照一定的規(guī)范重新組合成詞序列的過程,現(xiàn)有的分詞算法包括基于字符串匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計(jì)的分詞方法;而按照是否與詞性標(biāo)注過程相結(jié)合,又可以分為單純分詞方法和分詞與標(biāo)注相結(jié)合的一體化方法。[0104]進(jìn)一步地,當(dāng)?shù)玫剿鲱A(yù)處理后的待分類文本時(shí),獲取所述預(yù)處理后的待分類文本中的人名、地名、機(jī)構(gòu)名、產(chǎn)品名、商標(biāo)名等,將所述預(yù)處理后的待分類文本中的人名、地名、機(jī)構(gòu)名、產(chǎn)品名、商標(biāo)名等刪除。如得到的所述預(yù)處理后的待分類文本中某句話為“小明/朋友/湖南/鳳凰古城/旅游”,則刪除該句話中的“小明/湖南/鳳凰古城”,得到的這句話為“朋友/旅游”。[0105]提取單元12,用于在預(yù)處理后的所述待分類文本中提取關(guān)鍵詞,以生成關(guān)鍵詞集入口ο[0106]當(dāng)?shù)玫筋A(yù)處理后的所述待分類文本時(shí),在預(yù)處理后的所述待分類文本中提取關(guān)鍵詞,將從預(yù)處理后的所述待分類文本中所提取的關(guān)鍵詞組合成關(guān)鍵詞集合。[0107]本實(shí)施例通過獲取到待分類文本時(shí),對該待分類文本進(jìn)行預(yù)處理操作,刪除所述待分類文本中的非相關(guān)文本和停用詞,進(jìn)一步提高文本分類的效率。[0108]參照圖6,圖6為本發(fā)明文本分類裝置的第二實(shí)施例的功能模塊示意圖,基于第一實(shí)施例提出本發(fā)明文本分類裝置的第二實(shí)施例。[0109]在本實(shí)施例中,所述文本分類裝置還包括:[0110]存儲模塊40,用于將屬于同一類別的待分類文本存儲于同一個(gè)文件夾中,并根據(jù)所述待分類文本所屬類別所對應(yīng)的分類參數(shù)為所述待分類文本建立索引。[0111]當(dāng)確定所述待分類文本所屬類別后,獲取屬于同一類別的待分類文本,將屬于同一類別的待分類文本存儲于同一個(gè)文件夾中,并根據(jù)所述待分類文本所屬類別所對應(yīng)的分類參數(shù)為所述待分類文本建立索引,進(jìn)一步地,還可以根據(jù)所述待分類文本所屬類別所對應(yīng)的分類參數(shù),以及所述待分類文本所屬類別為所述待分類文本建立索引,以供用戶根據(jù)所建立的索引管理和查找所述待分類文本。如將屬于“菜譜”這一類別的待分類文本存儲于同一個(gè)文件夾中。如屬于“菜譜”這一類別中某個(gè)待分類文本所對應(yīng)的分類參數(shù)為“青瓜/雞蛋”,則為該待分類文本建立的索引為“青瓜”、“雞蛋”、“菜譜”。[0112]本實(shí)施例通過將屬于同一類別的待分類文本存儲于同一個(gè)文件夾中,并根據(jù)所述待分類文本所屬類別所對應(yīng)的分類參數(shù)為所述待分類文本建立索引,方便了用戶對待分類文本的管理和查看。[0113]上述本發(fā)明實(shí)施例序號僅僅為了描述,不代表實(shí)施例的優(yōu)劣。通過以上的實(shí)施方式的描述,本領(lǐng)域的技術(shù)人員可以清楚地了解到上述實(shí)施例方法可借助軟件加必需的通用硬件平臺的方式來實(shí)現(xiàn),當(dāng)然也可以通過硬件,但很多情況下前者是更佳的實(shí)施方式?;谶@樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說對現(xiàn)有技術(shù)做出貢獻(xiàn)的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計(jì)算機(jī)軟件產(chǎn)品存儲在一個(gè)存儲介質(zhì)(如ROM/RAM、磁碟、光盤)中,包括若干指令用以使得一臺終端設(shè)備(可以是手機(jī),計(jì)算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個(gè)實(shí)施例所述的方法。[0114]以上僅為本發(fā)明的優(yōu)選實(shí)施例,并非因此限制本發(fā)明的專利范圍,凡是利用本發(fā)明說明書及附圖內(nèi)容所作的等效結(jié)構(gòu)或等效流程變換,或直接或間接運(yùn)用在其他相關(guān)的
技術(shù)領(lǐng)域:
,均同理包括在本發(fā)明的專利保護(hù)范圍內(nèi)。【主權(quán)項(xiàng)】1.一種文本分類方法,其特征在于,所述文本分類方法包括:獲取待分類文本,在所述待分類文本中提取關(guān)鍵詞,以生成關(guān)鍵詞集合;對所述關(guān)鍵詞集合中的關(guān)鍵詞進(jìn)行分類以得到多組關(guān)鍵詞詞組,確定各所述關(guān)鍵詞詞組在所述關(guān)鍵詞集合中所占的比例;計(jì)算所述比例大于預(yù)設(shè)閾值的關(guān)鍵詞詞組對應(yīng)的各關(guān)鍵詞與預(yù)設(shè)的分類參數(shù)的相關(guān)程度值,根據(jù)所述相關(guān)程度值確定所述待分類文本所屬類別。2.如權(quán)利要求1所述的文本分類方法,其特征在于,所述獲取待分類文本,在所述待分類文本中提取關(guān)鍵詞,以生成關(guān)鍵詞集合的步驟包括:獲取待分類文本,對所述待分類文本進(jìn)行預(yù)處理操作,得到預(yù)處理后的所述待分類文本;在預(yù)處理后的所述待分類文本中提取關(guān)鍵詞,以生成關(guān)鍵詞集合。3.如權(quán)利要求2所述的文本分類方法,其特征在于,所述獲取待分類文本,對所述待分類文本進(jìn)行預(yù)處理操作,得到預(yù)處理后的所述待分類文本的步驟包括:獲取待分類文本,刪除所述待分類文本中的非相關(guān)文本和停用詞;通過分詞算法對刪除所述非相關(guān)文本和停用詞的待分類文本進(jìn)行分詞處理,得到預(yù)處理后的所述待分類文本。4.如權(quán)利要求1所述的文本分類方法,其特征在于,所述計(jì)算所述比例大于預(yù)設(shè)閾值的關(guān)鍵詞詞組對應(yīng)的各關(guān)鍵詞與預(yù)設(shè)的分類參數(shù)的相關(guān)程度值,根據(jù)所述相關(guān)程度值確定所述待分類文本所屬類別的步驟包括:根據(jù)K最鄰近分類算法計(jì)算所述比例大于預(yù)設(shè)閾值的關(guān)鍵詞詞組對應(yīng)的各關(guān)鍵詞與預(yù)設(shè)的分類參數(shù)的相關(guān)程度值;將所述相關(guān)程度值大于預(yù)設(shè)相關(guān)程度值的分類參數(shù)所屬類別作為所述待分類文本所屬類別。5.如權(quán)利要求1至4任一項(xiàng)所述的文本分類方法,其特征在于,所述計(jì)算所述比例大于預(yù)設(shè)閾值的關(guān)鍵詞詞組對應(yīng)的各關(guān)鍵詞與預(yù)設(shè)的分類參數(shù)的相關(guān)程度值,根據(jù)所述相關(guān)程度值確定所述待分類文本所屬類別的步驟之后,還包括:將屬于同一類別的待分類文本存儲于同一個(gè)文件夾中,并根據(jù)所述待分類文本所屬類別所對應(yīng)的分類參數(shù)為所述待分類文本建立索引。6.一種文本分類裝置,其特征在于,所述文本分類裝置包括:提取模塊,用于獲取待分類文本,在所述待分類文本中提取關(guān)鍵詞,以生成關(guān)鍵詞集合;分類模塊,用于對所述關(guān)鍵詞集合中的關(guān)鍵詞進(jìn)行分類以得到多組關(guān)鍵詞詞組,確定各所述關(guān)鍵詞詞組在所述關(guān)鍵詞集合中所占的比例;計(jì)算模塊,用于計(jì)算所述比例大于預(yù)設(shè)閾值的關(guān)鍵詞詞組對應(yīng)的各關(guān)鍵詞與預(yù)設(shè)的分類參數(shù)的相關(guān)程度值,根據(jù)所述相關(guān)程度值確定所述待分類文本所屬類別。7.如權(quán)利要求6所述的文本分類裝置,其特征在于,所述提取模塊包括:預(yù)處理單元,用于獲取待分類文本,對所述待分類文本進(jìn)行預(yù)處理操作,得到預(yù)處理后的所述待分類文本;提取單元,用于在預(yù)處理后的所述待分類文本中提取關(guān)鍵詞,以生成關(guān)鍵詞集合。8.如權(quán)利要求7所述的文本分類裝置,其特征在于,所述提取模塊還包括:刪除單元,用于獲取待分類文本,刪除所述待分類文本中的非相關(guān)文本和停用詞;分詞處理單元,用于通過分詞算法對刪除所述非相關(guān)文本和停用詞的待分類文本進(jìn)行分詞處理,得到預(yù)處理后的所述待分類文本。9.如權(quán)利要求6所述的文本分類裝置,其特征在于,所述計(jì)算模塊包括:計(jì)算單元,用于根據(jù)K最鄰近分類算法計(jì)算所述比例大于預(yù)設(shè)閾值的關(guān)鍵詞詞組對應(yīng)的各關(guān)鍵詞與預(yù)設(shè)的分類參數(shù)的相關(guān)程度值;處理單元,用于將所述相關(guān)程度值大于預(yù)設(shè)相關(guān)程度值的分類參數(shù)所屬類別作為所述待分類文本所屬類別。10.如權(quán)利要求6至9任一項(xiàng)所述的文本分類裝置,其特征在于,所述文本分類裝置包括:存儲模塊,用于將屬于同一類別的待分類文本存儲于同一個(gè)文件夾中,并根據(jù)所述待分類文本所屬類別所對應(yīng)的分類參數(shù)為所述待分類文本建立索引。【文檔編號】G06K9/62GK105893606SQ201610260819【公開日】2016年8月24日【申請日】2016年4月25日【發(fā)明人】張銳【申請人】深圳市永興元科技有限公司