一種文檔分類(lèi)的方法及裝置的制造方法

文檔序號(hào)：9865655閱讀：307來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種文檔分類(lèi)的方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001 ]本發(fā)明涉及計(jì)算機(jī)技術(shù)領(lǐng)域，特別涉及一種文檔分類(lèi)的方法及裝置。
【背景技術(shù)】
[0002]隨著可續(xù)技術(shù)的發(fā)展，自然語(yǔ)言處理技術(shù)得到了前所未有的重視和長(zhǎng)足的進(jìn)展，并已發(fā)展成為一門(mén)相對(duì)獨(dú)立的學(xué)科，備受關(guān)注，而如今隨著互聯(lián)網(wǎng)+、大數(shù)據(jù)等熱門(mén)理念和技術(shù)的備受矚目，各行業(yè)對(duì)網(wǎng)絡(luò)上網(wǎng)頁(yè)文本數(shù)據(jù)的充分利用正在展開(kāi)各種嘗試，而自然語(yǔ)言處理技術(shù)則是在這些網(wǎng)頁(yè)文本處理和分析、利用的任務(wù)中充當(dāng)主力軍作用。
[0003]現(xiàn)有技術(shù)中，對(duì)網(wǎng)頁(yè)文本數(shù)據(jù)的處理主要基于預(yù)先設(shè)定固定的分類(lèi)方法，該分類(lèi)方法的難以根據(jù)用戶(hù)的需求進(jìn)行調(diào)整。舉例來(lái)說(shuō)，分類(lèi)結(jié)果的準(zhǔn)確率難以滿足用戶(hù)的需求，但是，用戶(hù)也很難對(duì)分類(lèi)方法進(jìn)行調(diào)整，已到達(dá)用戶(hù)的準(zhǔn)確率要求。通過(guò)上述描述可見(jiàn)，現(xiàn)有技術(shù)中的分類(lèi)方法不夠靈活。

【發(fā)明內(nèi)容】

[0004]本發(fā)明提供了一種文檔分類(lèi)的方法及裝置，能夠更加靈活地進(jìn)行文檔分類(lèi)。
[0005]—方面，本發(fā)明提供了一種文檔分類(lèi)的方法，包括:
[0006]S1:獲取多個(gè)訓(xùn)練文檔，確定每個(gè)訓(xùn)練文檔對(duì)應(yīng)的類(lèi)別；
[0007]S2:根據(jù)每個(gè)類(lèi)別對(duì)應(yīng)的訓(xùn)練文檔，確定每個(gè)類(lèi)別的特征向量，所述特征向量包括:在對(duì)應(yīng)的當(dāng)前類(lèi)別中出現(xiàn)的詞串，每個(gè)詞串出現(xiàn)在當(dāng)前類(lèi)別的出現(xiàn)概率；
[0008]S3:獲取當(dāng)前待分類(lèi)文檔，從當(dāng)前待分類(lèi)文檔中，提取當(dāng)前待分類(lèi)文檔的匹配特征向量，所述匹配特征向量包括:當(dāng)前待分類(lèi)文檔中出現(xiàn)的待匹配詞串；
[0009]S4:根據(jù)所述匹配特征向量中的待匹配詞串和每個(gè)類(lèi)別的特征向量中的出現(xiàn)概率，確定所述匹配特征向量與每個(gè)類(lèi)別的特征向量的相似度；
[0010]S5:將相似度最高的特征向量對(duì)應(yīng)的類(lèi)別作為所述當(dāng)前待分類(lèi)文檔的類(lèi)別。
[0011]進(jìn)一步地，所述S2，包括:
[0012]將每個(gè)類(lèi)別對(duì)應(yīng)的訓(xùn)練文檔處理成純文本文檔，對(duì)每個(gè)訓(xùn)練文檔對(duì)應(yīng)的純文本文檔進(jìn)行分詞，獲得每個(gè)訓(xùn)練文檔對(duì)應(yīng)的多個(gè)單詞；
[0013]將每個(gè)訓(xùn)練文檔中相鄰的預(yù)設(shè)值個(gè)單詞組成詞串，確定每個(gè)詞串對(duì)應(yīng)的類(lèi)別的出現(xiàn)概率；
[0014]根據(jù)每個(gè)類(lèi)別對(duì)應(yīng)的訓(xùn)練文檔中的每個(gè)詞串在對(duì)應(yīng)的類(lèi)別的出現(xiàn)概率，確定每個(gè)類(lèi)別的特征向量。
[0015]進(jìn)一步地，所述S3，包括:
[0016]將當(dāng)前待分類(lèi)文檔處理成純文本文檔，對(duì)當(dāng)前待分類(lèi)文檔對(duì)應(yīng)的純文本文檔進(jìn)行分詞，獲得當(dāng)前待分類(lèi)文檔對(duì)應(yīng)的多個(gè)單詞；
[0017]將當(dāng)前待分類(lèi)文檔中相鄰的所述預(yù)設(shè)值個(gè)單詞組成詞串；
[0018]根據(jù)當(dāng)前待分類(lèi)文檔中的詞串確定所述匹配特征向量。
[0019]進(jìn)一步地，所述S4，包括:
[0020]根據(jù)每個(gè)類(lèi)別的特征向量，確定每個(gè)所述待匹配詞串在每個(gè)類(lèi)別的出現(xiàn)概率；
[0021]針對(duì)每個(gè)類(lèi)別，確定所述當(dāng)前待分類(lèi)文檔的所有待匹配詞串在當(dāng)前類(lèi)別的出現(xiàn)概率之和，將當(dāng)前類(lèi)別對(duì)應(yīng)的出現(xiàn)概率之和作為當(dāng)前類(lèi)別對(duì)應(yīng)的相似度。
[0022]進(jìn)一步地，在所述S2之后，在所述S3之前，還包括:
[0023]Al:獲取多個(gè)測(cè)試文檔，確定每個(gè)測(cè)試文檔的實(shí)際類(lèi)別；
[0024]A2:從每個(gè)測(cè)試文檔中，獲取待測(cè)試詞串；
[0025]A3:根據(jù)每個(gè)類(lèi)別的特征向量，確定每個(gè)待測(cè)試詞串在每個(gè)類(lèi)別的出現(xiàn)概率；
[0026]A4:針對(duì)每個(gè)類(lèi)別，確定所述當(dāng)前測(cè)試文檔的所有待測(cè)試詞串在當(dāng)前類(lèi)別的出現(xiàn)概率之和；
[0027]A5:將出現(xiàn)概率之和最大的類(lèi)別作為所述當(dāng)前測(cè)試文檔對(duì)應(yīng)的匹配類(lèi)別；
[0028]A6:根據(jù)每個(gè)測(cè)試文檔的匹配類(lèi)別和每個(gè)測(cè)試文檔的實(shí)際類(lèi)別，確定每個(gè)類(lèi)別對(duì)應(yīng)的分類(lèi)準(zhǔn)確率；
[0029]A7:分別判斷每個(gè)類(lèi)別對(duì)應(yīng)的分類(lèi)準(zhǔn)確率是否大于等于預(yù)設(shè)準(zhǔn)確率閾值，如果是，則執(zhí)行步驟S3，否則，執(zhí)行步驟AS;
[0030]AS:將所述多個(gè)測(cè)試文檔作為所述訓(xùn)練文檔，執(zhí)行步驟SI。
[0031]另一方面，本發(fā)明提供了一種文檔分類(lèi)的裝置，包括:
[0032]第一獲取單元，用于獲取多個(gè)訓(xùn)練文檔，確定每個(gè)訓(xùn)練文檔對(duì)應(yīng)的類(lèi)別；
[0033]訓(xùn)練單元，用于根據(jù)每個(gè)類(lèi)別對(duì)應(yīng)的訓(xùn)練文檔，確定每個(gè)類(lèi)別的特征向量，所述特征向量包括:在對(duì)應(yīng)的當(dāng)前類(lèi)別中出現(xiàn)的詞串，每個(gè)詞串出現(xiàn)在當(dāng)前類(lèi)別的出現(xiàn)概率；
[0034]第二獲取單元，用于獲取當(dāng)前待分類(lèi)文檔，從當(dāng)前待分類(lèi)文檔中，提取當(dāng)前待分類(lèi)文檔的匹配特征向量，所述匹配特征向量包括:當(dāng)前待分類(lèi)文檔中出現(xiàn)的待匹配詞串；
[0035]確定單元，用于根據(jù)所述匹配特征向量中的待匹配詞串和每個(gè)類(lèi)別的特征向量中的出現(xiàn)概率，確定所述匹配特征向量與每個(gè)類(lèi)別的特征向量的相似度；
[0036]分類(lèi)單元，用于將相似度最高的特征向量對(duì)應(yīng)的類(lèi)別作為所述當(dāng)前待分類(lèi)文檔的類(lèi)別。
[0037]進(jìn)一步地，所述訓(xùn)練單元，用于將每個(gè)類(lèi)別對(duì)應(yīng)的訓(xùn)練文檔處理成純文本文檔，對(duì)每個(gè)訓(xùn)練文檔對(duì)應(yīng)的純文本文檔進(jìn)行分詞，獲得每個(gè)訓(xùn)練文檔對(duì)應(yīng)的多個(gè)單詞，將每個(gè)訓(xùn)練文檔中相鄰的預(yù)設(shè)值個(gè)單詞組成詞串，確定每個(gè)詞串對(duì)應(yīng)的類(lèi)別的出現(xiàn)概率，根據(jù)每個(gè)類(lèi)別對(duì)應(yīng)的訓(xùn)練文檔中的每個(gè)詞串在對(duì)應(yīng)的類(lèi)別的出現(xiàn)概率，確定每個(gè)類(lèi)別的特征向量。
[0038]進(jìn)一步地，所述第二獲取單元，用于將當(dāng)前待分類(lèi)文檔處理成純文本文檔，對(duì)當(dāng)前待分類(lèi)文檔對(duì)應(yīng)的純文本文檔進(jìn)行分詞，獲得當(dāng)前待分類(lèi)文檔對(duì)應(yīng)的多個(gè)單詞，將當(dāng)前待分類(lèi)文檔中相鄰的所述預(yù)設(shè)值個(gè)單詞組成詞串，根據(jù)當(dāng)前待分類(lèi)文檔中的詞串確定所述匹配特征向量。
[0039]進(jìn)一步地，所述確定單元，用于根據(jù)每個(gè)類(lèi)別的特征向量，確定每個(gè)所述待匹配詞串在每個(gè)類(lèi)別的出現(xiàn)概率，針對(duì)每個(gè)類(lèi)別，確定所述當(dāng)前待分類(lèi)文檔的所有待匹配詞串在當(dāng)前類(lèi)別的出現(xiàn)概率之和，將當(dāng)前類(lèi)別對(duì)應(yīng)的出現(xiàn)概率之和作為當(dāng)前類(lèi)別對(duì)應(yīng)的相似度。
[0040]進(jìn)一步地，該裝置還包括:測(cè)量單元，用于執(zhí)行:
[0041 ] Al:獲取多個(gè)測(cè)試文檔，確定每個(gè)測(cè)試文檔的實(shí)際類(lèi)別；
[0042]A2:從每個(gè)測(cè)試文檔中，獲取待測(cè)試詞串；
[0043]A3:根據(jù)每個(gè)類(lèi)別的特征向量，確定每個(gè)待測(cè)試詞串在每個(gè)類(lèi)別的出現(xiàn)概率；
[0044]A4:針對(duì)每個(gè)類(lèi)別，確定所述當(dāng)前測(cè)試文檔的所有待測(cè)試詞串在當(dāng)前類(lèi)別的出現(xiàn)概率之和；
[0045]A5:將出現(xiàn)概率之和最大的類(lèi)別作為所述當(dāng)前測(cè)試文檔對(duì)應(yīng)的匹配類(lèi)別；
[0046]A6:根據(jù)每個(gè)測(cè)試文檔的匹配類(lèi)別和每個(gè)測(cè)試文檔的實(shí)際類(lèi)別，確定每個(gè)類(lèi)別對(duì)應(yīng)的分類(lèi)準(zhǔn)確率；
[0047]A7:分別判斷每個(gè)類(lèi)別對(duì)應(yīng)的分類(lèi)準(zhǔn)確率是否大于等于預(yù)設(shè)準(zhǔn)確率閾值，如果是，則觸發(fā)所述第二獲取單元，否則，執(zhí)行步驟AS;
[0048]AS:將所述多個(gè)測(cè)試文檔作為所述訓(xùn)練文檔，執(zhí)行所述第一獲取單元。
[0049]本發(fā)明提供的一種文檔分類(lèi)的方法及裝置，通過(guò)訓(xùn)練文檔對(duì)每種類(lèi)別進(jìn)行訓(xùn)練，得到每種類(lèi)別對(duì)應(yīng)的特征向量，確定待分類(lèi)文檔的匹配特征向量與每種類(lèi)別的特征向量的相似度，確定與匹配特征向量相似度最高的特征向量對(duì)應(yīng)的類(lèi)別作為待分類(lèi)文檔的類(lèi)另IJ，當(dāng)分類(lèi)結(jié)果不能達(dá)到用戶(hù)要求時(shí)，可以通過(guò)調(diào)整訓(xùn)練文檔來(lái)更新特征向量，使得分類(lèi)結(jié)果能夠更加符合用戶(hù)需求，能夠更加靈活地進(jìn)行文檔分類(lèi)。
【附圖說(shuō)明】
[0050]為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案，下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹，顯而易見(jiàn)地，下面描述中的附圖是本發(fā)明的一些實(shí)施例，對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講，在不付出創(chuàng)造性勞動(dòng)的前提下，還可以根據(jù)這些附圖獲得其他的附圖。
[0051]圖1是本發(fā)明一實(shí)施例提供的一種文檔分類(lèi)的方法的流程圖；
[0052]圖2是本發(fā)明一實(shí)施例提供的另一種文檔分類(lèi)的方法的流程圖；
[0053]圖3是本發(fā)明一實(shí)

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2 3 4

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：唐旋;毛立花;王傳超;
技術(shù)所有人：浪潮軟件集團(tuán)有限公司;
我是此專(zhuān)利的發(fā)明人

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢(xún)。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

文檔分類(lèi)方法相關(guān)技術(shù)

射線裝置分類(lèi)辦法相關(guān)技術(shù)

射線裝置分類(lèi)相關(guān)技術(shù)

文檔分類(lèi)相關(guān)技術(shù)

文檔分類(lèi)管理相關(guān)技術(shù)

我的世界分類(lèi)裝置相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種文檔分類(lèi)的方法及裝置的制造方法