亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種自動(dòng)更新的文檔情感分析系統(tǒng)及方法與流程

文檔序號(hào):11251060閱讀:600來(lái)源:國(guó)知局
一種自動(dòng)更新的文檔情感分析系統(tǒng)及方法與流程

本發(fā)明涉及人工智能技術(shù)領(lǐng)域,特別是一種自動(dòng)更新的文檔情感分析系統(tǒng)及對(duì)應(yīng)的方法。



背景技術(shù):

常用的文檔情感識(shí)別技術(shù)通常采用:先收集大量的情感詞,如高興、興奮、憤怒、悲傷等,并對(duì)每個(gè)情感詞進(jìn)行量化分值,然后將這些詞組成情感詞庫(kù)。使用時(shí)利用情感詞庫(kù)去和目標(biāo)文檔匹配,當(dāng)情感詞庫(kù)中的情感詞和目標(biāo)文檔中出現(xiàn)的詞匹配成功時(shí),即按之前量化的該詞的量化分值來(lái)進(jìn)行打分,最后將分?jǐn)?shù)匯總得到該篇文檔的情感指數(shù)。

舉例如下:

高興(1分)、憤怒(-1分)……

在某篇文檔中共出現(xiàn)高興50次,憤怒10次,當(dāng)該篇文檔最終的情感分?jǐn)?shù)為50+(-10)=40分。

如滿分是100分,當(dāng)出現(xiàn)評(píng)分是80以上、90以上或者負(fù)的90以下、80以下時(shí),其結(jié)果相對(duì)較準(zhǔn)確;但是,如果評(píng)分在50左右時(shí),則難以判斷,因?yàn)?0分時(shí)會(huì)有多種情況,比如整篇文檔出現(xiàn)的都是中性詞,或者有一半正向情感詞和一半負(fù)向情感詞,最后的分?jǐn)?shù)都有可能是50分。

因此,采用上述的文檔情感評(píng)分方法存在諸多弊端,首先情感詞庫(kù)不能自動(dòng)更新,需要人為的添加情感詞進(jìn)去,以及人為的為其賦予分值,影響結(jié)果的客觀性;其次,單純的分?jǐn)?shù)并不一定能夠完全反應(yīng)出文檔情感的真實(shí)情況。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明為解決上述問(wèn)題,提供了一種自動(dòng)更新的文檔情感分析系統(tǒng)及方法,不僅提高文檔情感評(píng)分的準(zhǔn)確性和客觀性,而且能夠自動(dòng)更新情感詞庫(kù),管理更方便。

為實(shí)現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案為:

一種自動(dòng)更新的文檔情感分析系統(tǒng),其包括:

情感詞庫(kù)構(gòu)建模塊,其通過(guò)收集初始情感詞,并計(jì)算每個(gè)初始情感詞的向量值,根據(jù)所述初始情感詞和對(duì)應(yīng)的向量值進(jìn)行構(gòu)建初始情感詞庫(kù);

情感詞匹配模塊,提取目標(biāo)文檔中的情感詞,根據(jù)向量值將提取的文檔情感詞與所述初始情感詞進(jìn)行匹配,并計(jì)算所述文檔情感詞與所述初始情感詞的向量值匹配度;

文檔情感評(píng)分模塊,根據(jù)所述向量值匹配度對(duì)所述文檔情感詞進(jìn)行統(tǒng)計(jì)評(píng)分,得到所述目標(biāo)文檔的情感值;

情感詞庫(kù)更新模塊,將向量值匹配度大于預(yù)設(shè)閾值的文檔情感詞加入到所述情感詞庫(kù),得到更新后的情感詞庫(kù)。

優(yōu)選的,所述的情感詞庫(kù)構(gòu)建模塊構(gòu)建初始情感詞庫(kù)時(shí),還進(jìn)一步對(duì)收集的初始情感詞進(jìn)行分類,包括以下類別:正向情感詞、負(fù)向情感詞、中性情感詞;所述的情感詞庫(kù)更新模塊更新情感詞庫(kù)時(shí),根據(jù)所述文檔情感詞所匹配的初始情感詞的類別,將所述文檔情感詞加入情感詞庫(kù)的對(duì)應(yīng)的類別中。

優(yōu)選的,所述的文檔情感評(píng)分模塊中,根據(jù)所述向量值匹配度對(duì)所述文檔情感詞進(jìn)行統(tǒng)計(jì)評(píng)分,當(dāng)所述向量值匹配度為100%完全匹配時(shí),則賦予所述文檔情感詞的評(píng)分為滿分;當(dāng)所述向量值匹配度為部分匹配時(shí),則賦予所述文檔情感詞的評(píng)分為滿分的對(duì)應(yīng)百分比。

優(yōu)選的,所述的文檔情感評(píng)分模塊中,根據(jù)所述向量值匹配度對(duì)所述文檔情感詞進(jìn)行統(tǒng)計(jì)評(píng)分,包括統(tǒng)計(jì)所述文檔情感詞的類別、評(píng)分、數(shù)量;即,所述目標(biāo)文檔的情感值=(正向情感詞的評(píng)分*數(shù)量)+(負(fù)向情感詞的評(píng)分*數(shù)量)+(中性情感詞的評(píng)分*數(shù)量)。

優(yōu)選的,所述的文檔情感評(píng)分模塊中,根據(jù)所述向量值匹配度對(duì)所述文檔情感詞進(jìn)行統(tǒng)計(jì)評(píng)分,是指將所述向量值匹配度大于預(yù)設(shè)閾值的文檔情感詞加入到評(píng)分統(tǒng)計(jì)中,并對(duì)所述向量值匹配度小于或等于預(yù)設(shè)閾值的文檔情感詞忽略不計(jì)。

對(duì)應(yīng)的,本發(fā)明還提供了一種自動(dòng)更新的文檔情感分析方法,其包括以下步驟:

a.收集初始情感詞,并計(jì)算每個(gè)初始情感詞的向量值,根據(jù)所述初始情感詞和對(duì)應(yīng)的向量值進(jìn)行構(gòu)建初始情感詞庫(kù);

b.提取目標(biāo)文檔中的情感詞,根據(jù)向量值將提取的文檔情感詞與所述初始情感詞進(jìn)行匹配,并計(jì)算所述文檔情感詞與所述初始情感詞的向量值匹配度;

c.根據(jù)所述向量值匹配度對(duì)所述文檔情感詞進(jìn)行統(tǒng)計(jì)評(píng)分,得到所述目標(biāo)文檔的情感值;

d.將向量值匹配度大于預(yù)設(shè)閾值的文檔情感詞加入到所述情感詞庫(kù),得到更新后的情感詞庫(kù)。

優(yōu)選的,所述的步驟a中構(gòu)建初始情感詞庫(kù)時(shí),還進(jìn)一步對(duì)收集的初始情感詞進(jìn)行分類,包括以下類別:正向情感詞、負(fù)向情感詞、中性情感詞;所述的步驟d中更新情感詞庫(kù)時(shí),根據(jù)所述文檔情感詞所匹配的初始情感詞的類別,將所述文檔情感詞加入情感詞庫(kù)的對(duì)應(yīng)的類別中。

優(yōu)選的,所述的步驟c中,根據(jù)所述向量值匹配度對(duì)所述文檔情感詞進(jìn)行統(tǒng)計(jì)評(píng)分,當(dāng)所述向量值匹配度為100%完全匹配時(shí),則賦予所述文檔情感詞的評(píng)分為滿分;當(dāng)所述向量值匹配度為部分匹配時(shí),則賦予所述文檔情感詞的評(píng)分為滿分的對(duì)應(yīng)百分比。

優(yōu)選的,所述的步驟c中,根據(jù)所述向量值匹配度對(duì)所述文檔情感詞進(jìn)行統(tǒng)計(jì)評(píng)分,包括統(tǒng)計(jì)所述文檔情感詞的類別、評(píng)分、數(shù)量;即,所述目標(biāo)文檔的情感值=(正向情感詞的評(píng)分*數(shù)量)+(負(fù)向情感詞的評(píng)分*數(shù)量)+(中性情感詞的評(píng)分*數(shù)量)。

優(yōu)選的,所述的步驟c中,根據(jù)所述向量值匹配度對(duì)所述文檔情感詞進(jìn)行統(tǒng)計(jì)評(píng)分,是指將所述向量值匹配度大于預(yù)設(shè)閾值的文檔情感詞加入到評(píng)分統(tǒng)計(jì)中,并對(duì)所述向量值匹配度小于或等于預(yù)設(shè)閾值的文檔情感詞忽略不計(jì)。

本發(fā)明的有益效果是:

1、利用情感詞匹配進(jìn)行循環(huán)自動(dòng)更新情感詞庫(kù),效率更高,準(zhǔn)確性更好;

2、利用向量值進(jìn)行情感詞的相似度匹配,并將匹配度較高的情感詞加入評(píng)分統(tǒng)計(jì),提高匹配范圍,便評(píng)分結(jié)果更接近真實(shí)情況;

3、加入匹配計(jì)數(shù),為最終結(jié)果值提供輔助性判斷。

附圖說(shuō)明

此處所說(shuō)明的附圖用來(lái)提供對(duì)本發(fā)明的進(jìn)一步理解,構(gòu)成本發(fā)明的一部分,本發(fā)明的示意性實(shí)施例及其說(shuō)明用于解釋本發(fā)明,并不構(gòu)成對(duì)本發(fā)明的不當(dāng)限定。在附圖中:

圖1為本發(fā)明一種自動(dòng)更新的文檔情感分析系統(tǒng)的結(jié)構(gòu)示意圖;

圖2為本發(fā)明一種自動(dòng)更新的文檔情感分析方法的流程簡(jiǎn)圖。

具體實(shí)施方式

為了使本發(fā)明所要解決的技術(shù)問(wèn)題、技術(shù)方案及有益效果更加清楚、明白,以下結(jié)合附圖及實(shí)施例對(duì)本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說(shuō)明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅用以解釋本發(fā)明,并不用于限定本發(fā)明。

如圖1所示,本發(fā)明的一種自動(dòng)更新的文檔情感分析系統(tǒng),其包括:

情感詞庫(kù)構(gòu)建模塊,其通過(guò)收集初始情感詞,并計(jì)算每個(gè)初始情感詞的向量值,根據(jù)所述初始情感詞和對(duì)應(yīng)的向量值進(jìn)行構(gòu)建初始情感詞庫(kù);

情感詞匹配模塊,提取目標(biāo)文檔中的情感詞,根據(jù)向量值將提取的文檔情感詞與所述初始情感詞進(jìn)行匹配,并計(jì)算所述文檔情感詞與所述初始情感詞的向量值匹配度;

文檔情感評(píng)分模塊,根據(jù)所述向量值匹配度對(duì)所述文檔情感詞進(jìn)行統(tǒng)計(jì)評(píng)分,得到所述目標(biāo)文檔的情感值;

情感詞庫(kù)更新模塊,將向量值匹配度大于預(yù)設(shè)閾值的文檔情感詞加入到所述情感詞庫(kù),得到更新后的情感詞庫(kù)。

其中,計(jì)算所述初始情感詞或所述文檔情感詞的向量值的方法,可采用w2v算法。

所述的情感詞庫(kù)構(gòu)建模塊構(gòu)建初始情感詞庫(kù)時(shí),還進(jìn)一步對(duì)收集的初始情感詞進(jìn)行分類,包括以下類別:正向情感詞、負(fù)向情感詞、中性情感詞。

所述的情感詞庫(kù)更新模塊更新情感詞庫(kù)時(shí),根據(jù)所述文檔情感詞所匹配的初始情感詞的類別,將所述文檔情感詞加入情感詞庫(kù)的對(duì)應(yīng)的類別中。

所述的文檔情感評(píng)分模塊中,根據(jù)所述向量值匹配度對(duì)所述文檔情感詞進(jìn)行統(tǒng)計(jì)評(píng)分,當(dāng)所述向量值匹配度為100%完全匹配時(shí),則賦予所述文檔情感詞的評(píng)分為滿分;當(dāng)所述向量值匹配度為部分匹配時(shí),則賦予所述文檔情感詞的評(píng)分為滿分的對(duì)應(yīng)百分比。例如,以滿分為1分為例:如情感詞庫(kù)中,初始情感詞為“高興”,匹配到文檔情感詞為“興奮”,其向量值匹配度為90%,則計(jì)0.9分。假設(shè)向量值匹配度的預(yù)設(shè)閾值為80%,由于該文檔情感詞“興奮”的匹配度90%超過(guò)預(yù)設(shè)閾值,則把“興奮”加入到情感詞庫(kù)中,并按初始情感詞“高興”的所屬類別,將“興奮”加入至正向情感詞的分組中,在下次計(jì)算文檔的情感值時(shí),“興奮”一詞作為情感詞庫(kù)直接使用。

所述的文檔情感評(píng)分模塊中,根據(jù)所述向量值匹配度對(duì)所述文檔情感詞進(jìn)行統(tǒng)計(jì)評(píng)分,除了計(jì)算評(píng)分的分值,情感詞的數(shù)量和類別也是重要參考數(shù)據(jù)。本實(shí)施例中的統(tǒng)計(jì)評(píng)分包括統(tǒng)計(jì)所述文檔情感詞的類別、評(píng)分、數(shù)量;其中,情感詞的數(shù)量可直接通過(guò)匹配次數(shù)進(jìn)行計(jì)數(shù),將匹配數(shù)量作為評(píng)估依據(jù)之一。所述目標(biāo)文檔的情感值=(正向情感詞的評(píng)分*數(shù)量)+(負(fù)向情感詞的評(píng)分*數(shù)量)+(中性情感詞的評(píng)分*數(shù)量)。例如,情感值的滿分100,最后得分為50,可能存在兩種情況:一是正向情感詞和負(fù)向情感詞匹配數(shù)量較為接近時(shí),可以判斷該篇文檔的情感具有爭(zhēng)議性;另一種是匹配成功的大多都是中性情感詞,可以判斷該篇文檔的情感為中立?,F(xiàn)有技術(shù)僅簡(jiǎn)單的計(jì)算分值是無(wú)法區(qū)別上述兩種情況,本發(fā)明的方法可根據(jù)評(píng)分統(tǒng)計(jì)結(jié)果區(qū)分相同分值的不同實(shí)際情況,使得分析結(jié)果更客觀。

所述的文檔情感評(píng)分模塊中,根據(jù)所述向量值匹配度對(duì)所述文檔情感詞進(jìn)行統(tǒng)計(jì)評(píng)分,是指將所述向量值匹配度大于預(yù)設(shè)閾值的文檔情感詞加入到評(píng)分統(tǒng)計(jì)中,并對(duì)所述向量值匹配度小于或等于預(yù)設(shè)閾值的文檔情感詞忽略不計(jì),一方面,可提供評(píng)分的準(zhǔn)確性,避免誤判;另一方面,減少計(jì)算量,提高分析效率。

如圖2所示,本發(fā)明還提供了一種自動(dòng)更新的文檔情感分析方法,其包括以下步驟:

a.收集初始情感詞,并計(jì)算每個(gè)初始情感詞的向量值,根據(jù)所述初始情感詞和對(duì)應(yīng)的向量值進(jìn)行構(gòu)建初始情感詞庫(kù);

b.提取目標(biāo)文檔中的情感詞,根據(jù)向量值將提取的文檔情感詞與所述初始情感詞進(jìn)行匹配,并計(jì)算所述文檔情感詞與所述初始情感詞的向量值匹配度;

c.根據(jù)所述向量值匹配度對(duì)所述文檔情感詞進(jìn)行統(tǒng)計(jì)評(píng)分,得到所述目標(biāo)文檔的情感值;

d.將向量值匹配度大于預(yù)設(shè)閾值的文檔情感詞加入到所述情感詞庫(kù),得到更新后的情感詞庫(kù)。

所述的步驟a中構(gòu)建初始情感詞庫(kù)時(shí),還進(jìn)一步對(duì)收集的初始情感詞進(jìn)行分類,包括以下類別:正向情感詞、負(fù)向情感詞、中性情感詞;所述的步驟d中更新情感詞庫(kù)時(shí),根據(jù)所述文檔情感詞所匹配的初始情感詞的類別,將所述文檔情感詞加入情感詞庫(kù)的對(duì)應(yīng)的類別中。

所述的步驟c中,根據(jù)所述向量值匹配度對(duì)所述文檔情感詞進(jìn)行統(tǒng)計(jì)評(píng)分,當(dāng)所述向量值匹配度為100%完全匹配時(shí),則賦予所述文檔情感詞的評(píng)分為滿分;當(dāng)所述向量值匹配度為部分匹配時(shí),則賦予所述文檔情感詞的評(píng)分為滿分的對(duì)應(yīng)百分比。

所述的步驟c中,根據(jù)所述向量值匹配度對(duì)所述文檔情感詞進(jìn)行統(tǒng)計(jì)評(píng)分,包括統(tǒng)計(jì)所述文檔情感詞的類別、評(píng)分、數(shù)量;即,所述目標(biāo)文檔的情感值=(正向情感詞的評(píng)分*數(shù)量)+(負(fù)向情感詞的評(píng)分*數(shù)量)+(中性情感詞的評(píng)分*數(shù)量)。

所述的步驟c中,根據(jù)所述向量值匹配度對(duì)所述文檔情感詞進(jìn)行統(tǒng)計(jì)評(píng)分,是指將所述向量值匹配度大于預(yù)設(shè)閾值的文檔情感詞加入到評(píng)分統(tǒng)計(jì)中,并對(duì)所述向量值匹配度小于或等于預(yù)設(shè)閾值的文檔情感詞忽略不計(jì)。

需要說(shuō)明的是,本說(shuō)明書中的各個(gè)實(shí)施例均采用遞進(jìn)的方式描述,每個(gè)實(shí)施例重點(diǎn)說(shuō)明的都是與其他實(shí)施例的不同之處,各個(gè)實(shí)施例之間相同相似的部分互相參見即可。對(duì)于方法實(shí)施例而言,由于其與系統(tǒng)實(shí)施例基本相似,所以描述的比較簡(jiǎn)單,相關(guān)之處參見系統(tǒng)實(shí)施例的部分說(shuō)明即可。

并且,在本文中,術(shù)語(yǔ)“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過(guò)程、方法、物品或者設(shè)備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過(guò)程、方法、物品或者設(shè)備所固有的要素。在沒有更多限制的情況下,由語(yǔ)句“包括一個(gè)……”限定的要素,并不排除在包括所述要素的過(guò)程、方法、物品或者設(shè)備中還存在另外的相同要素。另外,本領(lǐng)域普通技術(shù)人員可以理解實(shí)現(xiàn)上述實(shí)施例的全部或部分步驟可以通過(guò)硬件來(lái)完成,也可以通過(guò)程序來(lái)指令相關(guān)的硬件完成,所述的程序可以存儲(chǔ)于一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中,上述提到的存儲(chǔ)介質(zhì)可以是只讀存儲(chǔ)器,磁盤或光盤等。

上述說(shuō)明示出并描述了本發(fā)明的優(yōu)選實(shí)施例,應(yīng)當(dāng)理解本發(fā)明并非局限于本文所披露的形式,不應(yīng)看作是對(duì)其他實(shí)施例的排除,而可用于各種其他組合、修改和環(huán)境,并能夠在本文發(fā)明構(gòu)想范圍內(nèi),通過(guò)上述教導(dǎo)或相關(guān)領(lǐng)域的技術(shù)或知識(shí)進(jìn)行改動(dòng)。而本領(lǐng)域人員所進(jìn)行的改動(dòng)和變化不脫離本發(fā)明的精神和范圍,則都應(yīng)在本發(fā)明所附權(quán)利要求的保護(hù)范圍內(nèi)。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1