一種文檔分類(lèi)的方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001 ]本發(fā)明涉及計(jì)算機(jī)技術(shù)領(lǐng)域,特別涉及一種文檔分類(lèi)的方法及裝置。
【背景技術(shù)】
[0002]隨著可續(xù)技術(shù)的發(fā)展,自然語(yǔ)言處理技術(shù)得到了前所未有的重視和長(zhǎng)足的進(jìn)展,并已發(fā)展成為一門(mén)相對(duì)獨(dú)立的學(xué)科,備受關(guān)注,而如今隨著互聯(lián)網(wǎng)+、大數(shù)據(jù)等熱門(mén)理念和技術(shù)的備受矚目,各行業(yè)對(duì)網(wǎng)絡(luò)上網(wǎng)頁(yè)文本數(shù)據(jù)的充分利用正在展開(kāi)各種嘗試,而自然語(yǔ)言處理技術(shù)則是在這些網(wǎng)頁(yè)文本處理和分析、利用的任務(wù)中充當(dāng)主力軍作用。
[0003]現(xiàn)有技術(shù)中,對(duì)網(wǎng)頁(yè)文本數(shù)據(jù)的處理主要基于預(yù)先設(shè)定固定的分類(lèi)方法,該分類(lèi)方法的難以根據(jù)用戶(hù)的需求進(jìn)行調(diào)整。舉例來(lái)說(shuō),分類(lèi)結(jié)果的準(zhǔn)確率難以滿足用戶(hù)的需求,但是,用戶(hù)也很難對(duì)分類(lèi)方法進(jìn)行調(diào)整,已到達(dá)用戶(hù)的準(zhǔn)確率要求。通過(guò)上述描述可見(jiàn),現(xiàn)有技術(shù)中的分類(lèi)方法不夠靈活。
【發(fā)明內(nèi)容】
[0004]本發(fā)明提供了一種文檔分類(lèi)的方法及裝置,能夠更加靈活地進(jìn)行文檔分類(lèi)。
[0005]—方面,本發(fā)明提供了一種文檔分類(lèi)的方法,包括:
[0006]S1:獲取多個(gè)訓(xùn)練文檔,確定每個(gè)訓(xùn)練文檔對(duì)應(yīng)的類(lèi)別;
[0007]S2:根據(jù)每個(gè)類(lèi)別對(duì)應(yīng)的訓(xùn)練文檔,確定每個(gè)類(lèi)別的特征向量,所述特征向量包括:在對(duì)應(yīng)的當(dāng)前類(lèi)別中出現(xiàn)的詞串,每個(gè)詞串出現(xiàn)在當(dāng)前類(lèi)別的出現(xiàn)概率;
[0008]S3:獲取當(dāng)前待分類(lèi)文檔,從當(dāng)前待分類(lèi)文檔中,提取當(dāng)前待分類(lèi)文檔的匹配特征向量,所述匹配特征向量包括:當(dāng)前待分類(lèi)文檔中出現(xiàn)的待匹配詞串;
[0009]S4:根據(jù)所述匹配特征向量中的待匹配詞串和每個(gè)類(lèi)別的特征向量中的出現(xiàn)概率,確定所述匹配特征向量與每個(gè)類(lèi)別的特征向量的相似度;
[0010]S5:將相似度最高的特征向量對(duì)應(yīng)的類(lèi)別作為所述當(dāng)前待分類(lèi)文檔的類(lèi)別。
[0011]進(jìn)一步地,所述S2,包括:
[0012]將每個(gè)類(lèi)別對(duì)應(yīng)的訓(xùn)練文檔處理成純文本文檔,對(duì)每個(gè)訓(xùn)練文檔對(duì)應(yīng)的純文本文檔進(jìn)行分詞,獲得每個(gè)訓(xùn)練文檔對(duì)應(yīng)的多個(gè)單詞;
[0013]將每個(gè)訓(xùn)練文檔中相鄰的預(yù)設(shè)值個(gè)單詞組成詞串,確定每個(gè)詞串對(duì)應(yīng)的類(lèi)別的出現(xiàn)概率;
[0014]根據(jù)每個(gè)類(lèi)別對(duì)應(yīng)的訓(xùn)練文檔中的每個(gè)詞串在對(duì)應(yīng)的類(lèi)別的出現(xiàn)概率,確定每個(gè)類(lèi)別的特征向量。
[0015]進(jìn)一步地,所述S3,包括:
[0016]將當(dāng)前待分類(lèi)文檔處理成純文本文檔,對(duì)當(dāng)前待分類(lèi)文檔對(duì)應(yīng)的純文本文檔進(jìn)行分詞,獲得當(dāng)前待分類(lèi)文檔對(duì)應(yīng)的多個(gè)單詞;
[0017]將當(dāng)前待分類(lèi)文檔中相鄰的所述預(yù)設(shè)值個(gè)單詞組成詞串;
[0018]根據(jù)當(dāng)前待分類(lèi)文檔中的詞串確定所述匹配特征向量。
[0019]進(jìn)一步地,所述S4,包括:
[0020]根據(jù)每個(gè)類(lèi)別的特征向量,確定每個(gè)所述待匹配詞串在每個(gè)類(lèi)別的出現(xiàn)概率;
[0021]針對(duì)每個(gè)類(lèi)別,確定所述當(dāng)前待分類(lèi)文檔的所有待匹配詞串在當(dāng)前類(lèi)別的出現(xiàn)概率之和,將當(dāng)前類(lèi)別對(duì)應(yīng)的出現(xiàn)概率之和作為當(dāng)前類(lèi)別對(duì)應(yīng)的相似度。
[0022]進(jìn)一步地,在所述S2之后,在所述S3之前,還包括:
[0023]Al:獲取多個(gè)測(cè)試文檔,確定每個(gè)測(cè)試文檔的實(shí)際類(lèi)別;
[0024]A2:從每個(gè)測(cè)試文檔中,獲取待測(cè)試詞串;
[0025]A3:根據(jù)每個(gè)類(lèi)別的特征向量,確定每個(gè)待測(cè)試詞串在每個(gè)類(lèi)別的出現(xiàn)概率;
[0026]A4:針對(duì)每個(gè)類(lèi)別,確定所述當(dāng)前測(cè)試文檔的所有待測(cè)試詞串在當(dāng)前類(lèi)別的出現(xiàn)概率之和;
[0027]A5:將出現(xiàn)概率之和最大的類(lèi)別作為所述當(dāng)前測(cè)試文檔對(duì)應(yīng)的匹配類(lèi)別;
[0028]A6:根據(jù)每個(gè)測(cè)試文檔的匹配類(lèi)別和每個(gè)測(cè)試文檔的實(shí)際類(lèi)別,確定每個(gè)類(lèi)別對(duì)應(yīng)的分類(lèi)準(zhǔn)確率;
[0029]A7:分別判斷每個(gè)類(lèi)別對(duì)應(yīng)的分類(lèi)準(zhǔn)確率是否大于等于預(yù)設(shè)準(zhǔn)確率閾值,如果是,則執(zhí)行步驟S3,否則,執(zhí)行步驟AS;
[0030]AS:將所述多個(gè)測(cè)試文檔作為所述訓(xùn)練文檔,執(zhí)行步驟SI。
[0031]另一方面,本發(fā)明提供了一種文檔分類(lèi)的裝置,包括:
[0032]第一獲取單元,用于獲取多個(gè)訓(xùn)練文檔,確定每個(gè)訓(xùn)練文檔對(duì)應(yīng)的類(lèi)別;
[0033]訓(xùn)練單元,用于根據(jù)每個(gè)類(lèi)別對(duì)應(yīng)的訓(xùn)練文檔,確定每個(gè)類(lèi)別的特征向量,所述特征向量包括:在對(duì)應(yīng)的當(dāng)前類(lèi)別中出現(xiàn)的詞串,每個(gè)詞串出現(xiàn)在當(dāng)前類(lèi)別的出現(xiàn)概率;
[0034]第二獲取單元,用于獲取當(dāng)前待分類(lèi)文檔,從當(dāng)前待分類(lèi)文檔中,提取當(dāng)前待分類(lèi)文檔的匹配特征向量,所述匹配特征向量包括:當(dāng)前待分類(lèi)文檔中出現(xiàn)的待匹配詞串;
[0035]確定單元,用于根據(jù)所述匹配特征向量中的待匹配詞串和每個(gè)類(lèi)別的特征向量中的出現(xiàn)概率,確定所述匹配特征向量與每個(gè)類(lèi)別的特征向量的相似度;
[0036]分類(lèi)單元,用于將相似度最高的特征向量對(duì)應(yīng)的類(lèi)別作為所述當(dāng)前待分類(lèi)文檔的類(lèi)別。
[0037]進(jìn)一步地,所述訓(xùn)練單元,用于將每個(gè)類(lèi)別對(duì)應(yīng)的訓(xùn)練文檔處理成純文本文檔,對(duì)每個(gè)訓(xùn)練文檔對(duì)應(yīng)的純文本文檔進(jìn)行分詞,獲得每個(gè)訓(xùn)練文檔對(duì)應(yīng)的多個(gè)單詞,將每個(gè)訓(xùn)練文檔中相鄰的預(yù)設(shè)值個(gè)單詞組成詞串,確定每個(gè)詞串對(duì)應(yīng)的類(lèi)別的出現(xiàn)概率,根據(jù)每個(gè)類(lèi)別對(duì)應(yīng)的訓(xùn)練文檔中的每個(gè)詞串在對(duì)應(yīng)的類(lèi)別的出現(xiàn)概率,確定每個(gè)類(lèi)別的特征向量。
[0038]進(jìn)一步地,所述第二獲取單元,用于將當(dāng)前待分類(lèi)文檔處理成純文本文檔,對(duì)當(dāng)前待分類(lèi)文檔對(duì)應(yīng)的純文本文檔進(jìn)行分詞,獲得當(dāng)前待分類(lèi)文檔對(duì)應(yīng)的多個(gè)單詞,將當(dāng)前待分類(lèi)文檔中相鄰的所述預(yù)設(shè)值個(gè)單詞組成詞串,根據(jù)當(dāng)前待分類(lèi)文檔中的詞串確定所述匹配特征向量。
[0039]進(jìn)一步地,所述確定單元,用于根據(jù)每個(gè)類(lèi)別的特征向量,確定每個(gè)所述待匹配詞串在每個(gè)類(lèi)別的出現(xiàn)概率,針對(duì)每個(gè)類(lèi)別,確定所述當(dāng)前待分類(lèi)文檔的所有待匹配詞串在當(dāng)前類(lèi)別的出現(xiàn)概率之和,將當(dāng)前類(lèi)別對(duì)應(yīng)的出現(xiàn)概率之和作為當(dāng)前類(lèi)別對(duì)應(yīng)的相似度。
[0040]進(jìn)一步地,該裝置還包括:測(cè)量單元,用于執(zhí)行:
[0041 ] Al:獲取多個(gè)測(cè)試文檔,確定每個(gè)測(cè)試文檔的實(shí)際類(lèi)別;
[0042]A2:從每個(gè)測(cè)試文檔中,獲取待測(cè)試詞串;
[0043]A3:根據(jù)每個(gè)類(lèi)別的特征向量,確定每個(gè)待測(cè)試詞串在每個(gè)類(lèi)別的出現(xiàn)概率;
[0044]A4:針對(duì)每個(gè)類(lèi)別,確定所述當(dāng)前測(cè)試文檔的所有待測(cè)試詞串在當(dāng)前類(lèi)別的出現(xiàn)概率之和;
[0045]A5:將出現(xiàn)概率之和最大的類(lèi)別作為所述當(dāng)前測(cè)試文檔對(duì)應(yīng)的匹配類(lèi)別;
[0046]A6:根據(jù)每個(gè)測(cè)試文檔的匹配類(lèi)別和每個(gè)測(cè)試文檔的實(shí)際類(lèi)別,確定每個(gè)類(lèi)別對(duì)應(yīng)的分類(lèi)準(zhǔn)確率;
[0047]A7:分別判斷每個(gè)類(lèi)別對(duì)應(yīng)的分類(lèi)準(zhǔn)確率是否大于等于預(yù)設(shè)準(zhǔn)確率閾值,如果是,則觸發(fā)所述第二獲取單元,否則,執(zhí)行步驟AS;
[0048]AS:將所述多個(gè)測(cè)試文檔作為所述訓(xùn)練文檔,執(zhí)行所述第一獲取單元。
[0049]本發(fā)明提供的一種文檔分類(lèi)的方法及裝置,通過(guò)訓(xùn)練文檔對(duì)每種類(lèi)別進(jìn)行訓(xùn)練,得到每種類(lèi)別對(duì)應(yīng)的特征向量,確定待分類(lèi)文檔的匹配特征向量與每種類(lèi)別的特征向量的相似度,確定與匹配特征向量相似度最高的特征向量對(duì)應(yīng)的類(lèi)別作為待分類(lèi)文檔的類(lèi)另IJ,當(dāng)分類(lèi)結(jié)果不能達(dá)到用戶(hù)要求時(shí),可以通過(guò)調(diào)整訓(xùn)練文檔來(lái)更新特征向量,使得分類(lèi)結(jié)果能夠更加符合用戶(hù)需求,能夠更加靈活地進(jìn)行文檔分類(lèi)。
【附圖說(shuō)明】
[0050]為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0051]圖1是本發(fā)明一實(shí)施例提供的一種文檔分類(lèi)的方法的流程圖;
[0052]圖2是本發(fā)明一實(shí)施例提供的另一種文檔分類(lèi)的方法的流程圖;
[0053]圖3是本發(fā)明一實(shí)