本發(fā)明涉及計算機應用領域,尤其涉及一種基于word2vec的輿情傾向性分析方法。
背景技術:
輿情是“輿論情況”的簡稱,是指在一定的社會空間內,圍繞中介性社會事件的發(fā)生、發(fā)展和變化,作為主體的民眾對作為客體的社會管理者、企業(yè)、個人及其他各類組織及其政治、社會、道德等方面的取向產(chǎn)生和持有的社會態(tài)度。新聞在傳播的過程中,越來越多的傾向性披露在公眾面前,這些正面積極的或負面消極的情感傾向潛移默化地影響著人們對時事動態(tài)的看法,影響了輿論的走勢。輿情傾向性分析研究正是在這種形勢下產(chǎn)生的,旨在通過對新聞文本進行分析,挖掘新聞潛在的傾向性,希望有助于公眾了解最新社會動態(tài),獲悉時事熱點和輿論輿情的最新發(fā)展和走勢;希望有助于監(jiān)管部門及時發(fā)現(xiàn)社會問題,構建文明和諧的輿論環(huán)境;希望有助于公司、企業(yè)或機關事業(yè)單位的決策者正確把握當前形勢并制定相應的策略。
目前主流的新聞搜索引擎都只是針對關鍵字對新聞進行檢索,想要獲得新聞的文本傾向性只能通過人工方法自行檢索和識別,但每天互聯(lián)網(wǎng)上更新的新聞數(shù)量十分龐大,通過人工進行新聞的傾向性檢索耗費大量的人力和物力,而且效率低下。輿情傾向性分析的實質是篇章級文本傾向性分析,由于新聞報道的篇幅較長,其中有些句子和對闡明主題貢獻較大,有些和主題關系不大,如果直接將整篇文章進行傾向性分析可能會影響算法的判別效果。
目前,使用最廣泛的文檔表示方法都是基于詞袋模型。詞袋模型將文檔看成是詞的集合,在該集合中,每個詞是相互獨立的,不考慮詞的順序、語法和語義信息,它將一篇文檔表示成與訓練詞匯集合相同維度的向量,向量中對應位置的值表示該文檔中該詞出現(xiàn)的次數(shù)。詞袋模型存在幾個主要問題:1)樣本空間的維數(shù)過高,增加計算的復雜度,易造成“維數(shù)災難”現(xiàn)象;2)詞袋模型不考慮詞與詞之間的語義關系,如“電腦”和“計算機”實際上是同一種東西,但通過詞袋模型比較它們的相似度為0,并且現(xiàn)有技術中的評價對象的粒度是詞語級的,無法做到篇章級的傾向性判斷,因此,亟需一種新的技術手段,能夠實現(xiàn)對篇章級的新聞文本的情感傾向性以及情感強度的判別。
技術實現(xiàn)要素:
鑒于以上所述現(xiàn)有技術的缺點,本發(fā)明提供一種基于word2vec的輿情傾向性分析方法,以解決上述技術問題,通過以word2vec為基礎,抽取新聞文本中的關鍵句,比較詞匯之間的相似度,并結合人工制定的語法規(guī)則,首先對每句關鍵句的情感傾向性進行打分,再通過加權歸一化方法實現(xiàn)對新聞文本的情感傾向性以及情感強度的判別。
本發(fā)明提供的基于word2vec的輿情傾向性分析方法,包括:
詞向量訓練階段:采集新聞數(shù)據(jù),通過word2vec深度學習模型對所述新聞數(shù)據(jù)進行訓練,獲取詞向量訓練結果,所述詞向量訓練結果包括每個詞語對應的向量表示;
關鍵句提取階段:對所述待分析新聞數(shù)據(jù)進行預處理,所述預處理至少包括對待分析的整篇新聞數(shù)據(jù)進行斷句和關鍵字提取,根據(jù)詞向量訓練結果計算待分析新聞數(shù)據(jù)中分句和關鍵詞的匹配程度,獲取與關鍵字匹配度最高的分句和該篇新聞數(shù)據(jù)的標題,并將其作為新聞關鍵句群;
傾向性判別階段:比較預處理處理后的新聞關鍵句群中的詞語和情感詞的相似度,獲取待分析新聞數(shù)據(jù)的情感評分,通過所述情感評分對新聞數(shù)據(jù)進行傾向性判別。
進一步,通過詞向量的余弦距離對詞語相似度進行度量,所述詞語相似度通過如下公式獲?。?/p>
其中,ai表示向量a的第i個分量的值,bi表示向量b的第i個分量的值,n表示向量長度,θ表示向量a和向量b的夾角。
進一步,所述預處理包括關鍵詞提取處理、斷句處理以及對關鍵句進行分詞及去除停用詞處理,通過預處理獲取每篇新聞數(shù)據(jù)的關鍵詞、分句和分詞結果,并將每句分句由一個詞語序列表示。
進一步,所述關鍵句提取階段具體包括:對待分析的整篇新聞數(shù)據(jù)進行斷句和關鍵字提取,計算新聞分句中的每個詞語的詞語相似度,并獲取其與關鍵詞的余弦相似度的最大值,將所述最大值作為詞語重要度評分,通過將分句中的所有詞語的詞語重要度評分進行累加并取平均值作為句子的重要度評分,提取句子的重要度評分中最高的句子以及該篇新聞數(shù)據(jù)的標題,將其作為新聞關鍵句群。
進一步,根據(jù)語法規(guī)則對新聞關鍵句群的情感傾向進行加權處理,獲取新聞關鍵句群中的關鍵句的情感值,并根據(jù)關鍵句權重和所述情感值獲取待分析新聞全文的情感傾向值,通過所述情感傾向值對待分析新聞全文的傾向性進行判定;所述語法規(guī)則包括否定詞,關聯(lián)詞、程度副詞以及上下文語義信息。
進一步,通過如下公式獲取關鍵句的情感值:
其中,m為由關聯(lián)詞斷開的小句數(shù)目,senscore為關鍵句的情感值,βj為第j個小句的權值;nj為第j個小句中含有詞語的個數(shù),wscorei為每個詞的情感值,αi為否定詞權重,γi為程度副詞權重;
若第i個詞前存在否定詞,則αi為-1,否則為1;
若第i個詞有程度副詞修飾,根據(jù)程度副詞表對γi賦予不同的權值,默認值為1;
當senscore>0時,句子具有正面傾向,當senscore<0時,句子具有負面傾向。
進一步,當具有正面傾向的新聞關鍵句的數(shù)目大于具有負面傾向的新聞關鍵句的數(shù)目時,判定新聞全文的情感傾向為正面傾向,反之,則判斷其為負面傾向;
當新聞全文的情感傾向為正面傾向時,通過如下公式獲取新聞全文的情感傾向值:
當新聞全文的情感傾向為負面傾向時,通過如下公式獲取新聞全文的情感傾向值:
其中,posnum為具有正面傾向的新聞關鍵句數(shù),negnum為具有負面傾向的新聞關鍵句數(shù),oreitationvalue為新聞全文的情感傾向值。
進一步,預先對詞語的正負面性質進行定義,并將定義后的詞語作為情感詞,根據(jù)情感詞建立情感詞典,通過情感詞典對新聞全文的情感正負面進行判定。
進一步,所述詞向量訓練階段還包括對待分析新聞數(shù)據(jù)進行文字轉化處理和模型訓練;
所述文字轉化處理包括將待分析新聞數(shù)據(jù)轉化為標準字符;
所述模型訓練包括設置word2vec的訓練窗口尺寸、低頻詞閾值以及詞向量空間容量,并將分詞處理后的數(shù)據(jù)輸入word2vec,獲取各詞語對應的詞向量。
進一步,對新聞分句中的每個詞語,分別計算其與多個關鍵詞的余弦相似度,并取最大值作為對應詞語的詞語重要度評分。
本發(fā)明的有益效果:本發(fā)明中的基于word2vec的輿情傾向性分析方法,可以有效的縮小判別的特征空間,保留與原文主題相關性較大的內容,剔除無用信息,提高輿情傾向性分析的準確率,通過word2vec來比較詞與詞之間的語義相似度,通過詞向量來比較語義相似度,能較好識別出具有相同情感傾向但不在情感詞典中的詞語,即使情感詞典不夠完備也能獲得一個較好的分析效果,另外,通過融合語法規(guī)則對關鍵句的情感傾向性進行加權計算,可以結合上下文信息,彌補單純使用詞義相似度的局限性,從句子整體分析傾向性,實現(xiàn)了對篇章級的新聞文本的情感傾向性以及情感強度的準確判別。
附圖說明
圖1是本發(fā)明實施例的輿情傾向性判別的原理示意圖。
圖2是本發(fā)明實施例的關鍵句提取流程示意圖。
圖3是本發(fā)明實施例的輿情傾向性判別的流程示意圖。
圖4是本發(fā)明的原理框圖。
具體實施方式
以下通過特定的具體實例說明本發(fā)明的實施方式,本領域技術人員可由本說明書所揭露的內容輕易地了解本發(fā)明的其他優(yōu)點與功效。本發(fā)明還可以通過另外不同的具體實施方式加以實施或應用,本說明書中的各項細節(jié)也可以基于不同觀點與應用,在沒有背離本發(fā)明的精神下進行各種修飾或改變。需說明的是,在不沖突的情況下,以下實施例及實施例中的特征可以相互組合。
需要說明的是,以下實施例中所提供的圖示僅以示意方式說明本發(fā)明的基本構想,遂圖式中僅顯示與本發(fā)明中有關的組件而非按照實際實施時的組件數(shù)目、形狀及尺寸繪制,其實際實施時各組件的型態(tài)、數(shù)量及比例可為一種隨意的改變,且其組件布局型態(tài)也可能更為復雜。
如圖1、4所示,本實施例中的基于word2vec的輿情傾向性分析方法,主要包括:
詞向量訓練階段:采集新聞數(shù)據(jù),通過word2vec深度學習模型對所述新聞數(shù)據(jù)進行訓練,獲取詞向量訓練結果,所述詞向量訓練結果包括每個詞語對應的向量表示;
關鍵句提取階段:對所述新聞關鍵句群進行預處理,對待分析的整篇新聞數(shù)據(jù)進行斷句和關鍵字提取,根據(jù)詞向量訓練結果計算該篇新聞數(shù)據(jù)中分句和關鍵詞的匹配程度,獲取與關鍵字匹配度最高的分句和該篇新聞數(shù)據(jù)的標題,并將其作為新聞關鍵句群;
傾向性判別階段:比較預處理處理后的新聞關鍵句群中的詞語和情感詞的相似度,獲取新聞的情感評分,通過所述情感評分對新聞數(shù)據(jù)進行傾向性判別。
在本實施例中,詞向量訓練是基于word2vec深度學習模型來實現(xiàn),可以通過互聯(lián)網(wǎng)上獲取的大量數(shù)據(jù)為語料進行訓練,最終得到每個詞語對應的向量表示,詞語相似度采用詞向量的余弦距離進行度量;新聞關鍵句提取,首先對整篇新聞報道進行斷句和關鍵詞提取,再通過計算新聞分句和新聞關鍵詞的匹配程度,最終提取匹配度最高的若干新聞分句以及標題作為新聞關鍵句群,通過新聞關鍵群可以簡潔準確的概括新聞所表達的信息;傾向性判別是從關鍵句出發(fā),對關鍵句進行分詞,去停用詞等處理,比較關鍵句中詞語和情感詞的相似度,再通過語法規(guī)則對判斷進行校正,得到每個句子的傾向性評分,最后將關鍵句評分加權平均,得到新聞的情感評分。
在本實施例中,在傾向性判別階段之前,首先需要準備情感詞典、語法規(guī)則和詞向量,其中情感詞典需要根據(jù)所處理領域文本的特點預先對詞語的正負面性質進行定義,并將定義后的詞語作為情感詞,根據(jù)情感詞建立情感詞典,通過情感詞典對新聞全文的情感正負面進行判定,語法規(guī)則包括否定詞,關聯(lián)詞、程度副詞以及上下文語義信息等,由于單從詞語層面進行傾向性分析相對片面,因此通過上下文語義信息,將語法規(guī)則融入基于詞向量的傾向性分析,從句子整體把握情感傾向性;詞向量訓練需要大量的文本作為訓練集,可以通過互聯(lián)網(wǎng)獲取的大量新聞數(shù)據(jù)為語料進行訓練,也可以使用中文wiki語料庫,最終得到每個詞語對應的向量表示。
在本實施例中,所述預處理包括關鍵詞提取處理、斷句處理以及對關鍵句進行分詞及去除停用詞處理,通過預處理獲取每篇新聞數(shù)據(jù)的關鍵詞、分句和分詞結果,并將每句分句由一個詞語序列表示,在本實施例中,關鍵詞的提取可以通過textrank算法從每篇新聞文檔中提取10個關鍵詞;由于新聞關鍵句提取模塊將提取文檔中的若干句子,因此首先按句號、分號或感嘆號等標點符號將文本分割為若干完整句,通過斷句處理,可以按句號、分號或感嘆號等標點符號將文本分割為若干完整句,對文本進行分詞及去停用詞處理,得到分詞結果,每句分句都由一個詞語序列{word1,word2,…,wordn}表示,詞語序列為句子的分詞結果,為后續(xù)句子的傾向性分析做準備。
在本實施例中,通過詞向量的余弦距離對詞語相似度進行度量,得到每個詞的n維詞向量后詞語相似度的計算公式如下:
其中,ai表示向量a的第i個分量的值,bi表示向量b的第i個分量的值,n表示向量長度,θ表示向量a和向量b的夾角。
如圖2所示,在本實施例中,新聞關鍵句提取旨在從長篇文檔中提取出對闡明主題貢獻較大的句子,剔除與主題無關的信息,為進一步傾向性分析打下基礎,由于新聞標題可以極大的反映內容,因此,本實施例將新聞標題也作為新聞關鍵句之一。關鍵句提取階段具體包括:對待分析的整篇新聞數(shù)據(jù)進行斷句和關鍵字提取,計算新聞分句中的每個詞語的詞語相似度,并獲取其與關鍵詞的余弦相似度的最大值,將最大值作為詞語重要度評分,通過將分句中的所有詞語的詞語重要度評分進行累加并取平均值作為句子的重要度評分,提取句子的重要度評分中最高的句子以及該篇新聞數(shù)據(jù)的標題,將其作為新聞關鍵句群。本實施例通過對新聞分句中的每個詞語,按公式(1)計算其與10個關鍵詞的余弦相似度并取最大值作為詞語重要度評分;將分句中所有詞語的重要程度評分累加并取平均值作為句子的重要度評分;提取重要度評分最高的4個句子以及新聞標題共同作為新聞關鍵句群。
在本實施例中,傾向性判別階段主要包括判別新聞的情感極性以及計算情感傾向程度值,傾向性判別的主體是新聞關鍵句群,判別方法以分句中詞語和情感詞的余弦相似度為基礎,融入語法規(guī)則對關鍵句的情感傾向進行加權計算,最后結合關鍵句權重即可得出全文的情感傾向值,情感傾向值的區(qū)間為[-1,1]。如圖3所示,傾向性分析步驟如下:
(1)對關鍵句中的詞語,除關聯(lián)詞、否定詞以及程度副詞外,按公式(1)計算其與情感詞的余弦相似度并取最大值作為詞語傾向性程度評分;
(2)通過融入語法規(guī)則,對詞語賦予不同權重,按如下公式對詞語傾向值進行累加最終得到每句關鍵句的情感值;
其中,m為由關聯(lián)詞斷開的小句數(shù)目,senscore為關鍵句的情感值,βj為第j個小句的權值;nj為第j個小句中含有詞語的個數(shù),wscorei為每個詞的情感值,αi為否定詞權重,γi為程度副詞權重;
若第i個詞前存在否定詞,則αi為-1,否則為1;
若第i個詞有程度副詞修飾,根據(jù)程度副詞表對γi賦予不同的權值,默認值為1;
當senscore>0時,句子具有正面傾向,當senscore<0時,句子具有負面傾向。
例如關聯(lián)詞“雖然…但是…”將句子分為兩個小句,該句所表達的重點應在“但是”之后,因此后一小句的權值比前一小句的大。
(3)判斷新聞傾向并計算傾向值:當具有正面傾向的新聞關鍵句的數(shù)目大于具有負面傾向的新聞關鍵句的數(shù)目時,判定新聞全文的情感傾向為正面傾向,反之,則判斷其為負面傾向;
當新聞全文的情感傾向為正面傾向時,通過如下公式獲取新聞全文的情感傾向值:
當新聞全文的情感傾向為負面傾向時,通過如下公式獲取新聞全文的情感傾向值:
其中,posnum為具有正面傾向的新聞關鍵句數(shù),negnum為具有負面傾向的新聞關鍵句數(shù),oreitationvalue為新聞全文的情感傾向值。
下面列舉一個具體的實施例進行詳細說明:
表1
如表1所示,可以看到關鍵句抽取算法一共抽取含標題在內的三句句子作為關鍵句群,在關鍵句傾向評分中,若檢測到語法規(guī)則關鍵詞,則對其連接的分句賦予不同的權值再進行詞語傾向評分的累加,若沒有檢測到則直接對詞語傾向評分進行累加平均,最終得到整篇新聞的情感傾向性。
上述實施例僅例示性說明本發(fā)明的原理及其功效,而非用于限制本發(fā)明。任何熟悉此技術的人士皆可在不違背本發(fā)明的精神及范疇下,對上述實施例進行修飾或改變。因此,舉凡所屬技術領域中具有通常知識者在未脫離本發(fā)明所揭示的精神與技術思想下所完成的一切等效修飾或改變,仍應由本發(fā)明的權利要求所涵蓋。