亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種跨語(yǔ)言情感分類方法

文檔序號(hào):6517540閱讀:520來(lái)源:國(guó)知局
一種跨語(yǔ)言情感分類方法
【專利摘要】本發(fā)明提供一種跨語(yǔ)言情感分類方法,包括以下步驟。S1、從語(yǔ)料庫(kù)獲取預(yù)設(shè)數(shù)目的已標(biāo)注英文語(yǔ)料以及未標(biāo)注的中文語(yǔ)料,將已標(biāo)注的英文語(yǔ)料翻譯成中文語(yǔ)料,并進(jìn)行標(biāo)注。S2、從所述中文語(yǔ)料中提取已標(biāo)注部分,將所述中文語(yǔ)料中剩余的未標(biāo)注部分進(jìn)行情感分類。S3、根據(jù)已標(biāo)注中文語(yǔ)料中正類分類正確的樣本數(shù)P、已標(biāo)注中文語(yǔ)料中負(fù)類分類正確的樣本數(shù)N,以及中文語(yǔ)料的總樣本數(shù)A,計(jì)算分類準(zhǔn)確率。
【專利說(shuō)明】一種跨語(yǔ)言情感分類方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及自然語(yǔ)言處理【技術(shù)領(lǐng)域】及機(jī)器學(xué)習(xí)領(lǐng)域,具體涉及一種跨語(yǔ)言情感分類方法。
【背景技術(shù)】
[0002]隨著網(wǎng)絡(luò)技術(shù)的高速發(fā)展,互聯(lián)網(wǎng)上產(chǎn)生了大量對(duì)于人物、事件、產(chǎn)品等進(jìn)行評(píng)論的文本信息,這些海量的觀點(diǎn)信息蘊(yùn)藏著巨大的利用價(jià)值。此外,網(wǎng)絡(luò)媒體的日益發(fā)達(dá),輿情監(jiān)督也顯得日益重要,政府或機(jī)構(gòu)迫切需要了解公眾的看法以做出合理的決策等。
[0003]文本情感分類是指對(duì)用戶發(fā)出的主觀性文本進(jìn)行分析和挖掘,從而對(duì)文本的情感傾向做出類別判斷,判斷其是表達(dá)褒義的(Positive)或貶義的(Negative)情感。目前相關(guān)領(lǐng)域中,對(duì)于單一語(yǔ)言的文本情感分類已成為業(yè)界討論的熱點(diǎn),但對(duì)于不同語(yǔ)言間的情感分類研究并不多。
[0004]由于英文情感分類研究起步較早,目前已有大量成熟的情感詞典和大量語(yǔ)料等可用資源。隨著信息技術(shù)的高速發(fā)展,網(wǎng)絡(luò)中逐漸出現(xiàn)不同語(yǔ)言表示的文本,例如,中文、德語(yǔ)、法語(yǔ)、日語(yǔ)等。這些大規(guī)模的文本包括產(chǎn)品評(píng)論、新聞、博客、微博等,同樣蘊(yùn)含著大量有價(jià)值的信息。因此,構(gòu)建多語(yǔ)言情感分類系統(tǒng)有很重要的理論研究意義和實(shí)用價(jià)值。
[0005]鑒于上述原因,本發(fā)明提供一種從多語(yǔ)言的角度出發(fā),充分考慮不同語(yǔ)言間的差距的跨語(yǔ)言的情感分類方法。
[0006]為了便于理解,首先對(duì)本發(fā)明涉及的常用名詞定義作出介紹:情感分類(Sentiment Classification),即一種將文本按照所表達(dá)的情感極性分為褒貶的分類任務(wù);跨語(yǔ)言情感分類(Mult1-class Classification),是指利用源語(yǔ)言對(duì)其他語(yǔ)言進(jìn)行情感分類;機(jī)器學(xué)習(xí)分類方法(Classification Methods Based on Machine Learning),是用于構(gòu)建分類器的統(tǒng)計(jì)學(xué)習(xí)方法,輸入是表示樣本的向量,輸出是樣本的類別標(biāo)簽。

【發(fā)明內(nèi)容】

[0007]本發(fā)明提供一種跨語(yǔ)言情感分類方法,包括以下步驟:
[0008]S1、從語(yǔ)料庫(kù)獲取預(yù)設(shè)數(shù)目的已標(biāo)注英文語(yǔ)料以及未標(biāo)注的中文語(yǔ)料,將已標(biāo)注的英文語(yǔ)料翻譯成中文語(yǔ)料,并進(jìn)行標(biāo)注;
[0009]S2、從所述中文語(yǔ)料中提取已標(biāo)注部分,將所述中文語(yǔ)料中剩余的未標(biāo)注部分進(jìn)行情感分類;
[0010]S3、根據(jù)已標(biāo)注中文語(yǔ)料中正類分類正確的樣本數(shù)P、已標(biāo)注中文語(yǔ)料中負(fù)類分類正確的樣本數(shù)N,以及中文語(yǔ)料的總樣本數(shù)A,計(jì)算分類準(zhǔn)確率。
[0011]優(yōu)選的,所述步驟SI中,所述英文語(yǔ)料及中文語(yǔ)料是從電子領(lǐng)域的語(yǔ)料庫(kù)獲取,同時(shí)還獲取中文測(cè)試語(yǔ)料。
[0012]優(yōu)選的,所述步驟SI中,使用計(jì)算機(jī)將已標(biāo)注的英文語(yǔ)料翻譯成中文語(yǔ)料,并進(jìn)行標(biāo)注。[0013]優(yōu)選的,所述步驟S2中,使用self-traning方法將所述中文語(yǔ)料中剩余的未標(biāo)注部分進(jìn)行半監(jiān)督的情感分類。
[0014]優(yōu)選的,在所述self-traning方法中,使用最大熵分類器對(duì)所述中文語(yǔ)料進(jìn)行分類。
[0015]優(yōu)選的,所述步驟S3中,計(jì)算分類準(zhǔn)確率的公式為準(zhǔn)確率=(P+N)/A。
[0016]優(yōu)選的,所述英文語(yǔ)料及中文語(yǔ)料均為已知情感極性的語(yǔ)料。
[0017]根據(jù)本發(fā)明提供的跨語(yǔ)言情感分類方法,由計(jì)算機(jī)將已標(biāo)注的英文語(yǔ)料翻譯成中文語(yǔ)料后再進(jìn)行標(biāo)注,并提取已標(biāo)注部分,有效利用了已標(biāo)注的英文語(yǔ)料。接下來(lái),將中文語(yǔ)料中剩余的未標(biāo)注部分進(jìn)行情感分類,并計(jì)算分類準(zhǔn)確率。如此,有效解決了中文分類中已標(biāo)注語(yǔ)料缺乏的問(wèn)題,提高了中文分類的效果。
【專利附圖】

【附圖說(shuō)明】
[0018]為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0019]圖1是本發(fā)明較佳實(shí)施例提供的跨語(yǔ)言情感分類方法流程圖。
【具體實(shí)施方式】
[0020]下文中將參考附圖并結(jié)合實(shí)施例來(lái)詳細(xì)說(shuō)明本發(fā)明。需要說(shuō)明的是,在不沖突的情況下,本申請(qǐng)中的實(shí)施例及實(shí)施例中的特征可以相互組合。
[0021]圖1是本發(fā)明較佳實(shí)施例提供的跨語(yǔ)言情感分類方法流程圖。如圖1所示,本發(fā)明較佳實(shí)施例提供的跨語(yǔ)言情感分類方法包括步驟SI?S3。
[0022]步驟S1:從語(yǔ)料庫(kù)獲取預(yù)設(shè)數(shù)目的已標(biāo)注英文語(yǔ)料以及未標(biāo)注的中文語(yǔ)料,將已標(biāo)注的英文語(yǔ)料翻譯成中文語(yǔ)料,并進(jìn)行標(biāo)注。
[0023]具體而言,所述英文語(yǔ)料及中文語(yǔ)料是從電子領(lǐng)域的語(yǔ)料庫(kù)獲取,同時(shí)還獲取中文測(cè)試語(yǔ)料。本實(shí)施例中,中英文語(yǔ)料取自于wanxiaojun語(yǔ)料的電子領(lǐng)域,其中包括已標(biāo)注的英文語(yǔ)料,未標(biāo)注的中文語(yǔ)料以及中文測(cè)試語(yǔ)料。本實(shí)施例中所有英文語(yǔ)料及中文語(yǔ)料均為已知情感極性的語(yǔ)料。
[0024]接下來(lái),使用計(jì)算機(jī)將已標(biāo)注的英文語(yǔ)料翻譯成中文語(yǔ)料,并進(jìn)行標(biāo)注。本實(shí)施例中,使用谷歌翻譯將英文已標(biāo)注語(yǔ)料翻譯成中文已標(biāo)注語(yǔ)料。由于英文已標(biāo)注語(yǔ)料資源豐富,并且內(nèi)容更新也比較快,從英文至中文的轉(zhuǎn)換保障了語(yǔ)料收集的規(guī)模和時(shí)效性。同時(shí),由計(jì)算機(jī)翻譯保證了英文語(yǔ)料和中文語(yǔ)料交互信息的可能性。
[0025]步驟S2:從所述中文語(yǔ)料中提取已標(biāo)注部分,將所述中文語(yǔ)料中剩余的未標(biāo)注部分進(jìn)行情感分類。
[0026]具體而言,除中文語(yǔ)料中已標(biāo)注部分外,其余是未標(biāo)注的部分,對(duì)該部分語(yǔ)料使用self-traning方法半監(jiān)督的情感分類。在self-traning方法中,使用最大熵分類器對(duì)所述中文語(yǔ)料進(jìn)行分類。
[0027]其中,self-traning方法利用英文已標(biāo)注語(yǔ)料翻譯成的中文文本,對(duì)中文未標(biāo)注文本進(jìn)行最大熵分類,根據(jù)分類器對(duì)未標(biāo)注中文預(yù)料的結(jié)果,選取可信度高的進(jìn)行標(biāo)注,并加入到已標(biāo)注文本,同時(shí)將對(duì)應(yīng)文本從未標(biāo)注文本剔除。本實(shí)施例中,為保證分類效果,可設(shè)置一次選取的文本數(shù)量,進(jìn)行多次循環(huán)選擇。
[0028]下面對(duì)最大熵分類器的工作原理作出介紹。最大熵分類方法是基于最大熵信息理論,其基本思想是在滿足系統(tǒng)當(dāng)前提供的所有條件下尋求分布最均勻的模型,將已知事實(shí)作為制約條件,求可使熵最大化的概率分布作為正確的概率分布。
[0029]在最大熵模型中,通常用二值特征函數(shù)表示特征函數(shù),定義如下:
【權(quán)利要求】
1.一種跨語(yǔ)言情感分類方法,其特征在于,包括以下步驟: 51、從語(yǔ)料庫(kù)獲取預(yù)設(shè)數(shù)目的已標(biāo)注英文語(yǔ)料以及未標(biāo)注的中文語(yǔ)料,將已標(biāo)注的英文語(yǔ)料翻譯成中文語(yǔ)料,并進(jìn)行標(biāo)注; 52、從所述中文語(yǔ)料中提取已標(biāo)注部分,將所述中文語(yǔ)料中剩余的未標(biāo)注部分進(jìn)行情感分類; 53、根據(jù)已標(biāo)注中文語(yǔ)料中正類分類正確的樣本數(shù)P、已標(biāo)注中文語(yǔ)料中負(fù)類分類正確的樣本數(shù)N,以及中文語(yǔ)料的總樣本數(shù)A,計(jì)算分類準(zhǔn)確率。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟SI中,所述英文語(yǔ)料及中文語(yǔ)料是從電子領(lǐng)域的語(yǔ)料庫(kù)獲取,同時(shí)還獲取中文測(cè)試語(yǔ)料。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟SI中,使用計(jì)算機(jī)將已標(biāo)注的英文語(yǔ)料翻譯成中文語(yǔ)料,并進(jìn)行標(biāo)注。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟S2中,使用self-traning方法將所述中文語(yǔ)料中剩余的未標(biāo)注部分進(jìn)行半監(jiān)督的情感分類。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,在所述self-traning方法中,使用最大熵分類器對(duì)所述中文語(yǔ)料進(jìn)行分類。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟S3中,計(jì)算分類準(zhǔn)確率的公式為準(zhǔn)確率=(P+N) /A。
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述英文語(yǔ)料及中文語(yǔ)料均為已知情感極性的語(yǔ)料。
【文檔編號(hào)】G06F17/30GK103530286SQ201310533688
【公開(kāi)日】2014年1月22日 申請(qǐng)日期:2013年10月31日 優(yōu)先權(quán)日:2013年10月31日
【發(fā)明者】李壽山, 汪蓉, 周國(guó)棟 申請(qǐng)人:蘇州大學(xué)
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1