亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

文本分類方法和裝置的制造方法

文檔序號(hào):9787498閱讀:304來(lái)源:國(guó)知局
文本分類方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001 ]本發(fā)明涉及計(jì)算機(jī)技術(shù)領(lǐng)域,尤其涉及一種文本分類方法和裝置。
【背景技術(shù)】
[0002]文本分類是指在預(yù)定的分類體系下,對(duì)文本進(jìn)行分類標(biāo)注的過(guò)程,能夠?yàn)橐鈭D識(shí)別等提供數(shù)據(jù)基礎(chǔ)。目前,文本分類方法可分為以下幾個(gè)步驟:I)確定分類體系,主要根據(jù)需求確定分類的類別數(shù)和類別名稱;2)收集訓(xùn)練數(shù)據(jù),主要通過(guò)人工編輯或者網(wǎng)絡(luò)爬蟲(chóng)等方法為每個(gè)分類類別收集相應(yīng)的訓(xùn)練數(shù)據(jù);3)對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行分詞處理;4)模型訓(xùn)練,對(duì)獲得的分詞進(jìn)行特征提取,然后進(jìn)行模型訓(xùn)練;5)對(duì)輸入的文本進(jìn)行分類,基于預(yù)先訓(xùn)練好的模型對(duì)輸入的文本進(jìn)行分類。
[0003]但是,上述文本分類方法主要存在以下幾個(gè)缺陷:當(dāng)模型中無(wú)法對(duì)當(dāng)前文本進(jìn)行分類時(shí),需要根據(jù)當(dāng)前文本重新訓(xùn)練模型,因此需要大量的高質(zhì)量的訓(xùn)練語(yǔ)料進(jìn)行模型訓(xùn)練,工作量大,人工成本高,訓(xùn)練的模型魯棒性差,穩(wěn)定性差。

【發(fā)明內(nèi)容】

[0004]本發(fā)明旨在至少在一定程度上解決相關(guān)技術(shù)中的技術(shù)問(wèn)題之一。為此,本發(fā)明的一個(gè)目的在于提出一種文本分類方法,能夠降低工作量,降低人工成本,并提升模型訓(xùn)練效率,訓(xùn)練的模型穩(wěn)定性高,魯棒性好。
[0005]本發(fā)明的第二個(gè)目的在于提出一種文本分類裝置。
[0006]為了實(shí)現(xiàn)上述目的,本發(fā)明第一方面實(shí)施例提出了一種文本分類方法,包括:接收輸入的文本數(shù)據(jù),并將所述文本數(shù)據(jù)切分為多個(gè)分詞;對(duì)所述多個(gè)分詞進(jìn)行歸一化,并生成所述文本數(shù)據(jù)對(duì)應(yīng)的歸一化結(jié)果;以及將所述歸一化結(jié)果轉(zhuǎn)換為語(yǔ)義特征,并基于預(yù)設(shè)分類模型對(duì)所述語(yǔ)義特征進(jìn)行分類。
[0007]本發(fā)明實(shí)施例的文本分類方法,通過(guò)接收輸入的文本數(shù)據(jù),并將文本數(shù)據(jù)切分為多個(gè)分詞,對(duì)多個(gè)分詞進(jìn)行歸一化,并生成文本數(shù)據(jù)對(duì)應(yīng)的歸一化結(jié)果,以及將歸一化結(jié)果轉(zhuǎn)換為語(yǔ)義特征,并基于預(yù)設(shè)分類模型對(duì)語(yǔ)義特征進(jìn)行分類,只需對(duì)訓(xùn)練語(yǔ)料進(jìn)行歸一化,無(wú)需頻繁增加訓(xùn)練語(yǔ)料對(duì)模型進(jìn)行重新訓(xùn)練,降低了工作量,降低人工成本,并提升了模型訓(xùn)練效率,訓(xùn)練的模型穩(wěn)定性高,魯棒性好。
[0008]本發(fā)明第二方面實(shí)施例提出了一種文本分類裝置,包括:接收模塊,用于接收輸入的文本數(shù)據(jù),并將所述文本數(shù)據(jù)切分為多個(gè)分詞;歸一化模塊,用于對(duì)所述多個(gè)分詞進(jìn)行歸一化,并生成所述文本數(shù)據(jù)對(duì)應(yīng)的歸一化結(jié)果;以及分類模塊,用于將所述歸一化結(jié)果轉(zhuǎn)換為語(yǔ)義特征,并基于預(yù)設(shè)分類模型對(duì)所述語(yǔ)義特征進(jìn)行分類。
[0009]本發(fā)明實(shí)施例的文本分類裝置,通過(guò)接收輸入的文本數(shù)據(jù),并將文本數(shù)據(jù)切分為多個(gè)分詞,對(duì)多個(gè)分詞進(jìn)行歸一化,并生成文本數(shù)據(jù)對(duì)應(yīng)的歸一化結(jié)果,以及將歸一化結(jié)果轉(zhuǎn)換為語(yǔ)義特征,并基于預(yù)設(shè)分類模型對(duì)語(yǔ)義特征進(jìn)行分類,只需對(duì)訓(xùn)練語(yǔ)料進(jìn)行歸一化,無(wú)需頻繁增加訓(xùn)練語(yǔ)料對(duì)模型進(jìn)行重新訓(xùn)練,降低了工作量,降低人工成本,并提升了模型訓(xùn)練效率,訓(xùn)練的模型穩(wěn)定性高,魯棒性好。
【附圖說(shuō)明】
[0010]圖1是根據(jù)本發(fā)明一個(gè)實(shí)施例的文本分類方法的流程圖;
[0011]圖2是根據(jù)本發(fā)明一個(gè)實(shí)施例的建立預(yù)設(shè)分類模型的流程圖;
[0012]圖3是根據(jù)本發(fā)明一個(gè)實(shí)施例的文本分類裝置的結(jié)構(gòu)示意圖一;
[0013]圖4是根據(jù)本發(fā)明一個(gè)實(shí)施例的文本分類裝置的結(jié)構(gòu)示意圖二。
【具體實(shí)施方式】
[0014]下面詳細(xì)描述本發(fā)明的實(shí)施例,所述實(shí)施例的示例在附圖中示出,其中自始至終相同或類似的標(biāo)號(hào)表示相同或類似的元件或具有相同或類似功能的元件。下面通過(guò)參考附圖描述的實(shí)施例是示例性的,旨在用于解釋本發(fā)明,而不能理解為對(duì)本發(fā)明的限制。
[0015]下面參考附圖描述本發(fā)明實(shí)施例的文本分類方法和裝置。
[0016]圖1是根據(jù)本發(fā)明一個(gè)實(shí)施例的文本分類方法的流程圖。
[0017]如圖1所示,文本分類方法可包括:
[0018]S1、接收輸入的文本數(shù)據(jù),并將文本數(shù)據(jù)切分為多個(gè)分詞。
[0019]具體地,可接收輸入的文本數(shù)據(jù),然后可基于CRF模型(條件隨機(jī)場(chǎng),Condit1nalRandom Field)對(duì)文本數(shù)據(jù)進(jìn)行切分,將其切分為多個(gè)分詞。舉例來(lái)說(shuō),文本數(shù)據(jù)為“太原飛至青島的飛機(jī)”,可將其切分為“太原”、“飛至”、“青島”、“的”、“飛機(jī)”五個(gè)分詞。
[0020]S2、對(duì)多個(gè)分詞進(jìn)行歸一化,并生成文本數(shù)據(jù)對(duì)應(yīng)的歸一化結(jié)果。
[0021]下面繼續(xù)步驟SI中的例子進(jìn)行描述,在將文本數(shù)據(jù)“太原飛至青島的飛機(jī)”切分為“太原”、“飛至”、“青島”、“的”、“飛機(jī)”五個(gè)分詞之后,可對(duì)分詞進(jìn)行歸一化,“太原”和“青島”屬于City類,“飛至”可歸一化為“飛往”,則獲得的歸一化結(jié)果為“city/飛往/city/的/飛機(jī)” O
[0022]S3、將歸一化結(jié)果轉(zhuǎn)換為語(yǔ)義特征,并基于預(yù)設(shè)分類模型對(duì)語(yǔ)義特征進(jìn)行分類。
[0023]下面繼續(xù)步驟SI中的例子進(jìn)行描述,可將歸一化結(jié)果轉(zhuǎn)換為語(yǔ)義特征city、city_飛往、飛往、c i ty_飛往_c i ty、飛往_c i ty、飛往_。i ty—的、c i ty_的、c i tyJ^L飛機(jī),將上述語(yǔ)義特征與預(yù)先建立的分類模型進(jìn)行匹配,最終可得到匹配結(jié)果為Flight類。
[0024]下面詳細(xì)說(shuō)明一下建立預(yù)設(shè)分類模型的過(guò)程。
[0025]具體地,如圖2所示,可包括以下步驟:
[0026]SI 1、收集訓(xùn)練語(yǔ)料,并將訓(xùn)練語(yǔ)料切分為多個(gè)訓(xùn)練分詞。
[0027]具體地,可通過(guò)人工編輯或者網(wǎng)絡(luò)爬蟲(chóng)的方式抓取訓(xùn)練語(yǔ)料,然后基于CRF模型將訓(xùn)練語(yǔ)料切分為多個(gè)訓(xùn)練分詞。
[0028]S12、對(duì)多個(gè)訓(xùn)練分詞進(jìn)行歸一化,并生成多個(gè)訓(xùn)練分詞對(duì)應(yīng)的歸一化樣本。
[0029]其中,歸一化可包括基于規(guī)則的歸一化、基于實(shí)體識(shí)別的歸一化?;谝?guī)則的歸一化還可包括類別歸一化、同義詞歸一化、正則表達(dá)式歸一化等。舉例來(lái)說(shuō),“三體”、“誅仙”、“完美世界”、“大主宰”、“斗破蒼穹”均為小說(shuō)名,則可將它們歸為Novel類,即小說(shuō)類?!奥槠哦垢?、“干酪煽蟹”、“龍井蝦仁”、“胡蘿卜炒蛋”、“紅燒魚(yú)”均為菜名,則可將它們歸為Recipe類,即食譜類?!氨本薄ⅰ澳暇?、“合肥”、“太原”、“青島”均為城市名稱,則可將它們歸為City類,即城市類。再例如:“查詢”、“查一下”、“查下”、“查詢一下”均為查詢的意思,屬于同義詞,則可將它們歸為查詢類?!帮w往”、“飛向”、“飛至”、“飛到”均為飛往的意思,則可將它們歸為飛往類。
[0030]正則表達(dá)式歸一化則是對(duì)不可枚舉的實(shí)體進(jìn)行歸一化,例如:正則表達(dá)式Rad1_Channel: (fm| am|調(diào)頻|調(diào)幅)[0_9—二三四五六七八九十壹威參肆伍陸柒捌玖拾點(diǎn)\.] {I,1}?;谠撜齽t表達(dá)式,諸如FM98.2、調(diào)頻38.3、調(diào)幅101.2等滿足正則的短語(yǔ)均可歸為Rad1_Channel類別。再例如:正則表達(dá)式VideoJJnit:(第)[0_9—二三四五六七八九十壹貳叁肆伍陸柒捌玖拾]{I,10}(集I季)?;谠撜齽t表達(dá)式,諸如第I集、第23集、第三十五集等滿足正則的短語(yǔ)均可歸為Video_Unit類別。
[0031]基于實(shí)體識(shí)別的歸一化,主要是通過(guò)對(duì)語(yǔ)句中的實(shí)體進(jìn)行識(shí)別,再進(jìn)行分類的過(guò)程。例如:“我想去百度大廈”識(shí)別出的實(shí)體為“百度大廈”,則可將“百度大廈”歸為“Ρ0Ι”類,即地點(diǎn)類。再例如:“鄧紫棋的喜歡你”中識(shí)別出“鄧紫棋”和“喜歡你”兩個(gè)實(shí)體,則可將“鄧紫棋”歸為“PER”類,即人物類;將“喜歡你”歸類為“SONG”類,即歌曲類。
[0032]S13、基于漢語(yǔ)語(yǔ)言N-Gram模型將歸一化樣本轉(zhuǎn)換為N-Gram語(yǔ)義特征。
[0033]在本發(fā)明的一個(gè)實(shí)施例中,可采用三元的Tr1-Gram模型將歸一化樣本轉(zhuǎn)換為3-Gram語(yǔ)義特征,例如city、ci〖7_飛往、飛往、ci〖7_飛往_。ity、飛往_city、飛往_c1、city_的、cityJ^L 飛機(jī)。
[0034]S14、基于最大熵模型對(duì)N-Gram語(yǔ)義特征進(jìn)行訓(xùn)練,以生成預(yù)設(shè)分類模型。在本發(fā)明的一個(gè)實(shí)施例中,每個(gè)訓(xùn)練語(yǔ)料均對(duì)應(yīng)歸屬一種類別,可被看作為一個(gè)事件。大量的訓(xùn)練語(yǔ)料和對(duì)應(yīng)的類別可構(gòu)成一個(gè)事件集。而基于訓(xùn)練語(yǔ)料生成語(yǔ)義特征可作為事件發(fā)生的環(huán)境?;谏鲜霏h(huán)境條件去求解最優(yōu)的概率分布,使得概率分布最大化的滿足已知的分類約束條件,從而對(duì)這些訓(xùn)練語(yǔ)料進(jìn)行分類,進(jìn)而建立分類模型。
[0035]應(yīng)當(dāng)理解的是,生成預(yù)設(shè)分類模型不僅限于最大熵模型,也可采用其他模型生成分類模型。
[0036]本發(fā)明實(shí)施例的文本分類方法,通過(guò)接收輸入的文本數(shù)據(jù),并將文本數(shù)據(jù)切分為多個(gè)分詞,對(duì)多個(gè)分詞進(jìn)行歸一化,并生成文本數(shù)據(jù)對(duì)應(yīng)的歸一化結(jié)果,以及將歸一化結(jié)果轉(zhuǎn)換為語(yǔ)義特征,并基于預(yù)設(shè)分類模型對(duì)語(yǔ)義特征進(jìn)行分類,只需對(duì)訓(xùn)練語(yǔ)料進(jìn)行歸一化,無(wú)需頻繁增加訓(xùn)練語(yǔ)料對(duì)模型進(jìn)行重新訓(xùn)練,降低了工作量,降低人工成本,并提升了模型訓(xùn)練效率,訓(xùn)練的模型穩(wěn)定性高,魯棒性好。
[0037]為實(shí)現(xiàn)上述目的,本發(fā)明還提出一種文本分類裝置。
[0038]圖3是根據(jù)本發(fā)明一個(gè)實(shí)施例的文本分類裝置的結(jié)構(gòu)示意圖一。
[0039]如圖3所示,文本分類裝置可包括:接收模塊110、歸一化模塊120和分類模塊130。
[0040]接收模塊110用于接收輸入的文本數(shù)據(jù),并將文本數(shù)據(jù)切分為多個(gè)分詞。具體地,接收模塊110可接收輸入的文本數(shù)據(jù),然后可基于CRF模型(條件隨機(jī)場(chǎng),Condit1nalRandom Field)對(duì)文本數(shù)據(jù)進(jìn)行切分,將其切分為多個(gè)分詞。舉例來(lái)說(shuō),文本數(shù)據(jù)為“太原飛至青島的飛機(jī)”,可將其切分為“太原”、“飛至”、“青島”、“的”、“飛機(jī)”五個(gè)分詞。
[0041 ]歸一化模塊120用于對(duì)多個(gè)分詞進(jìn)行歸一化,并生成文本數(shù)據(jù)對(duì)應(yīng)的歸一化結(jié)果。下面繼續(xù)步驟SI中的例子進(jìn)行描述,在將文本數(shù)據(jù)“太原飛至青島的飛機(jī)”切分為“太原”、“飛至”、“青島”、“的”、“飛機(jī)”五個(gè)分詞之后,可對(duì)分詞進(jìn)行歸一化,“太原”和“青島”屬于City類,“飛至”可歸一化為“飛往”,貝鐵得的歸一化結(jié)果為“city/飛往/city/的/飛機(jī)”。
[0042]分類模塊130用于將歸一化結(jié)果轉(zhuǎn)換為語(yǔ)義特征,并基于預(yù)設(shè)分類模型對(duì)語(yǔ)義特征進(jìn)行分類。下面繼續(xù)步驟SI中的例子進(jìn)行描述,可將歸一化結(jié)果轉(zhuǎn)換為語(yǔ)義特征c
當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1