亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種網(wǎng)絡(luò)評(píng)論產(chǎn)生式摘要方法

文檔序號(hào):10553000閱讀:269來源:國知局
一種網(wǎng)絡(luò)評(píng)論產(chǎn)生式摘要方法
【專利摘要】本發(fā)明公開了一種網(wǎng)絡(luò)評(píng)論產(chǎn)生式摘要方法。首先,基于標(biāo)點(diǎn)符號(hào)對(duì)評(píng)論進(jìn)行短語分割、分詞并標(biāo)記每個(gè)詞語的詞性,進(jìn)而基于評(píng)論對(duì)象參數(shù)字典和句法模板過濾掉與評(píng)論對(duì)象無關(guān)的短語;然后,計(jì)算短語情感極性強(qiáng)度值,根據(jù)評(píng)論對(duì)象參數(shù)的所有短語的情感極性強(qiáng)度值對(duì)評(píng)論對(duì)象參數(shù)的重要性進(jìn)行排序,選取最重要的一部分參數(shù)進(jìn)行摘要生成;最后,針對(duì)選取的每個(gè)參數(shù),選取一個(gè)對(duì)該參數(shù)最重要的一個(gè)評(píng)論短語,把選取的所有短語置入到設(shè)計(jì)好的摘要模板中以生成評(píng)論摘要。本發(fā)明綜合利用了情感分析、詞性分析等技術(shù)提取有效的用戶評(píng)論信息,并根據(jù)設(shè)計(jì)好的模板生成摘要,對(duì)提高摘要的可讀性和準(zhǔn)確性有很大幫助。
【專利說明】
一種網(wǎng)絡(luò)評(píng)論產(chǎn)生式摘要方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及一種網(wǎng)絡(luò)評(píng)論產(chǎn)生式摘要方法,它可以根據(jù)定制的模板自動(dòng)產(chǎn)生網(wǎng)絡(luò) 評(píng)論的摘要,適用于Internet信息檢索、數(shù)據(jù)分析。屬于數(shù)據(jù)挖掘、信息檢索技術(shù)領(lǐng)域。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)尤其是迅速發(fā)展,越來越多的網(wǎng)絡(luò)用戶習(xí)慣在網(wǎng)上發(fā)表評(píng)論。例如,社 交網(wǎng)絡(luò)用戶對(duì)某個(gè)事件發(fā)表評(píng)論;購物網(wǎng)站用戶對(duì)所購得的產(chǎn)品進(jìn)行評(píng)論,商家根據(jù)用戶 評(píng)論改善自己的產(chǎn)品和服務(wù)。這些評(píng)論同時(shí)為其他用戶或者消費(fèi)者提供了參考信息。然而, 網(wǎng)絡(luò)評(píng)論數(shù)的規(guī)模巨大,不同用戶從不同方面對(duì)評(píng)論對(duì)象進(jìn)行評(píng)價(jià),有時(shí)觀點(diǎn)之間甚至存 在沖突。其他用戶難以閱讀完所有評(píng)論并從這些評(píng)論中總結(jié)出具體觀點(diǎn)。因此,需要對(duì)網(wǎng)絡(luò) 評(píng)論自動(dòng)進(jìn)行摘要,總結(jié)評(píng)論中用戶對(duì)評(píng)論對(duì)象最關(guān)注的一些方面,即評(píng)論對(duì)象的參數(shù),以 及用戶對(duì)這些參數(shù)的主要評(píng)價(jià)。
[0003] 傳統(tǒng)的摘要主要采用抽取式的方法生成摘要,處理的對(duì)象主要是新聞或者文學(xué)文 章等文檔數(shù)據(jù),生成的摘要由原文檔中抽取出的一部分句子組成,這些句子不進(jìn)行任何修 改。這種方法生成的摘要缺乏結(jié)構(gòu)信息,內(nèi)容組織較混亂,可讀性較差。另外,由于大部分網(wǎng) 絡(luò)評(píng)論是短文本,包含的詞語非常少,單純的一個(gè)句子難以宏觀地反映評(píng)論對(duì)象的特點(diǎn)。因 此,網(wǎng)絡(luò)評(píng)論摘要的生成方法和組織形式亟待改善。需要通過分析整體評(píng)論產(chǎn)生一些能夠 從宏觀上反映評(píng)論對(duì)象不同參數(shù)的句子,進(jìn)而利用定制的模板有效地組織各個(gè)生成的句 子,提高摘要的可讀性。

【發(fā)明內(nèi)容】

[0004] 本發(fā)明要解決的技術(shù)問題:克服現(xiàn)有摘要技術(shù)的不足,提供一種網(wǎng)絡(luò)評(píng)論產(chǎn)生式 摘要方法。該方法在偏重摘要的基礎(chǔ)上,充分考慮了網(wǎng)絡(luò)評(píng)論的特點(diǎn),提高了摘要的可讀性 和表達(dá)能力。
[0005] 本發(fā)明的技術(shù)解決方案:一種網(wǎng)絡(luò)評(píng)論產(chǎn)生式摘要方法,它包括評(píng)論短語選取、評(píng) 論對(duì)象參數(shù)排序和產(chǎn)生式摘要生成3個(gè)部分。評(píng)論短語選取部分負(fù)責(zé)從原始評(píng)論數(shù)據(jù)中選 擇用戶對(duì)評(píng)論對(duì)象進(jìn)行有效評(píng)論的短語,去掉噪音數(shù)據(jù)。評(píng)論對(duì)象參數(shù)排序部分通過分析 評(píng)論短語的情感信息,對(duì)評(píng)論對(duì)象的參數(shù)進(jìn)行排序,選擇用戶評(píng)論情感較一致的評(píng)論對(duì)象 參數(shù)進(jìn)行摘要的生成。產(chǎn)生式摘要生成部分對(duì)選擇的評(píng)論對(duì)象參數(shù)抽取用戶的代表性觀點(diǎn) 短語,根據(jù)制定的模板填充評(píng)論短語,進(jìn)而由連接詞組合成摘要。
[0006] 本發(fā)明一種網(wǎng)絡(luò)評(píng)論產(chǎn)生式摘要方法,其具體步驟如下:
[0007] 步驟一:對(duì)給定的網(wǎng)絡(luò)評(píng)論語句,基于標(biāo)點(diǎn)符號(hào)拆分成短語,對(duì)每個(gè)短語進(jìn)行分詞 并標(biāo)記每個(gè)詞語的詞性,利用評(píng)論對(duì)象參數(shù)字典和設(shè)計(jì)好的句法模板過濾掉無效的短語;
[0008] 步驟二:利用情感分類和評(píng)論中副詞的情感強(qiáng)度計(jì)算涉及評(píng)論對(duì)象參數(shù)的每條短 語的情感極性強(qiáng)度,根據(jù)每個(gè)評(píng)論對(duì)象參數(shù)的所有評(píng)論短語的情感極性強(qiáng)度信息對(duì)評(píng)論對(duì) 象參數(shù)進(jìn)行排序,選取評(píng)論對(duì)象中最重要的一部分參數(shù)進(jìn)行摘要生成;
[0009] 步驟三:針對(duì)步驟二中選取的評(píng)論對(duì)象的每個(gè)參數(shù),根據(jù)評(píng)論短語情感值以及短 語包含的參數(shù)特征詞出現(xiàn)頻率對(duì)評(píng)論該參數(shù)的所有評(píng)論短語進(jìn)行排序,選取排名最靠前的 評(píng)論短語作為該參數(shù)的代表性短語,把選取的所有代表性評(píng)論短語置入到設(shè)計(jì)好的摘要模 板中以生成網(wǎng)絡(luò)評(píng)論摘要。
[0010] 其中,在步驟一中所述的標(biāo)點(diǎn)符號(hào)是中文語言中的標(biāo)點(diǎn)符號(hào)(, "!"),采用中科院的分詞工具ICTCLAS對(duì)短語進(jìn)行分詞,評(píng)論對(duì)象的參數(shù)表示用戶評(píng)論該對(duì) 象的某一個(gè)方面。對(duì)于每個(gè)參數(shù),在評(píng)論中都有一些詞語來描述該參數(shù),這些詞語稱為評(píng)論 對(duì)象參數(shù)的特征詞語,所有參數(shù)的特征詞語組成了評(píng)論對(duì)象參數(shù)字典。
[0011] 其中,步驟一中所描述的評(píng)論對(duì)象參數(shù)是指用戶評(píng)論該對(duì)象的一個(gè)方面;無效短 語的過濾利用評(píng)論對(duì)象參數(shù)字典來確定每個(gè)短語評(píng)論的對(duì)象參數(shù),每個(gè)參數(shù)都包含用戶用 來描述該參數(shù)的一些特征詞語,這些詞語共同組成了評(píng)論對(duì)象參數(shù)字典,評(píng)論對(duì)象參數(shù)及 每個(gè)參數(shù)所包含的特征詞由人工構(gòu)建,根據(jù)短語包含的參數(shù)特征詞來確定其評(píng)論對(duì)象的那 個(gè)參數(shù)。
[0012] 其中,步驟一中所描述的無效短語的過濾利用了模板匹配的方法,與給定模板不 匹配的短語都被過濾掉,能夠?qū)υu(píng)論對(duì)象產(chǎn)生有效評(píng)價(jià)的短語模板設(shè)定為:短語包含一個(gè) 參數(shù)特征詞、1到多個(gè)形容詞,句尾為〇個(gè)或1個(gè)名詞,并且短語的詞語數(shù)小于6個(gè)。
[0013] 其中,在步驟二中所述的情感分類是判斷每條短語屬于正面情感、負(fù)面情感和中 立情感中的哪一種情感,然后,再結(jié)合短語中修飾情感詞的副詞來計(jì)算短語的情感極性強(qiáng) 度,評(píng)論對(duì)象參數(shù)的排序考慮了評(píng)論該參數(shù)的帶有情感的短語占評(píng)論該對(duì)象所有評(píng)論短語 的比例、以及評(píng)論該參數(shù)的具有正負(fù)情感兩類短語的平均情感極性強(qiáng)度差異值。
[0014] 其中,步驟二中所描述的評(píng)論對(duì)象參數(shù)排序方法考慮以下因素:(1)評(píng)論的情感 值,用戶給出正面評(píng)論的情感值為1,客戶給出負(fù)面評(píng)價(jià)的情感值為-1,否則評(píng)論的情感值 為〇; (2)評(píng)論對(duì)象參數(shù)的短語中具有正面或負(fù)面情感短語數(shù)占該對(duì)象評(píng)論短語總數(shù)的比 例;(3)評(píng)價(jià)對(duì)象參數(shù)的正負(fù)評(píng)論短語平均情感極性強(qiáng)度的差異值,情感極性強(qiáng)度由短語情 感值和短語包含的情感副詞的強(qiáng)度值相乘得到,情感副詞的強(qiáng)度值由人工確定。
[0015] 其中,在步驟三中所述的評(píng)論對(duì)象參數(shù)的短語排序考慮了短語的情感極性強(qiáng)度與 評(píng)論該參數(shù)所有短語的平均情感極性強(qiáng)度的差異值、短語中包含的參數(shù)特征詞的頻率,摘 要模板由評(píng)論對(duì)象的名稱、短語占位符號(hào)和連接相鄰短語的連接詞組成。即所描述的短語 排序方法考慮了以下因素:(1)短語的情感極性強(qiáng)度與評(píng)價(jià)該對(duì)象參數(shù)的所有短語的平均 情感極性強(qiáng)度平均值的差異值;(2)短語包含對(duì)象參數(shù)的特征詞在評(píng)價(jià)該對(duì)象參數(shù)的所有 短語里的出現(xiàn)頻率。
[0016] 步驟三中所描述的摘要生成模板由評(píng)論對(duì)象的名稱、中文連接詞和評(píng)論短語占位 符號(hào)組成,生成的摘要由連接詞和選取的短語組成,短語的排列順序與其所評(píng)論的對(duì)象參 數(shù)的排列順序一樣,相鄰兩個(gè)短語的情感值具有相同的符號(hào)時(shí)用并列關(guān)系連詞連接,相鄰 的兩個(gè)短語的情感值具有相反的符號(hào)時(shí)由轉(zhuǎn)折關(guān)系連詞連接。
[0017] 本發(fā)明與現(xiàn)有技術(shù)相比的優(yōu)點(diǎn)在于:目前的抽取式摘要生成方法直接從原文中選 擇一部分句子組成摘要,從而造成句子間邏輯關(guān)系不合理,表達(dá)的內(nèi)容不夠清晰,另一方 面,抽取式摘要方法主要針對(duì)長(zhǎng)文本數(shù)據(jù),利用句子間的相似度進(jìn)行句子的選擇,這種選擇 方法不適合于網(wǎng)絡(luò)評(píng)論這種短文本、噪音數(shù)據(jù)眾多且情感豐富的數(shù)據(jù)。本發(fā)明提出的一種 網(wǎng)絡(luò)評(píng)論產(chǎn)生式摘要針對(duì)評(píng)論數(shù)據(jù)特點(diǎn),結(jié)合了用戶評(píng)論的情感分析,自動(dòng)生成摘要句子, 使摘要的內(nèi)容能夠反映用戶對(duì)評(píng)論對(duì)象主要關(guān)注的方面,可以提高摘要的可讀性以及用戶 的滿意度。
【附圖說明】
[0018] 圖1為網(wǎng)絡(luò)評(píng)論產(chǎn)生式摘要的本發(fā)明所述方法流程示意圖。
[0019] 圖2為一個(gè)手機(jī)評(píng)論摘要模板例子。
[0020]圖3為連接詞產(chǎn)生過程。
[0021 ] 圖4為華為手機(jī)ascend p7評(píng)論摘要。
【具體實(shí)施方式】
[0022] 下面結(jié)合附圖及本發(fā)明的實(shí)施方式對(duì)本發(fā)明的方法作進(jìn)一步詳細(xì)的說明。
[0023] 如圖1所示,本發(fā)明一種網(wǎng)絡(luò)評(píng)論產(chǎn)生式摘要方法,具體實(shí)現(xiàn)步驟如下:
[0024]步驟一:有效評(píng)論短語的抽取
[0025]產(chǎn)生式摘要用到的數(shù)據(jù)為網(wǎng)絡(luò)中用戶對(duì)某一個(gè)事件或者產(chǎn)品發(fā)表的評(píng)論。每條評(píng) 論中可能包含很多與所評(píng)論的對(duì)象無關(guān)的短語,這些短語是用戶為了賺取積分而隨意添加 的。另外,每條短語主要針對(duì)所評(píng)論的對(duì)象的某個(gè)方面即評(píng)論對(duì)象參數(shù)進(jìn)行評(píng)論。要進(jìn)行摘 要,需要綜合用戶對(duì)評(píng)論對(duì)象的每個(gè)參數(shù)的所有評(píng)價(jià)。因此,需要從每條評(píng)論中抽取出對(duì)評(píng) 論對(duì)象提出有效評(píng)論的短語,并分析該短語評(píng)論了該對(duì)象的哪個(gè)參數(shù),進(jìn)而減少無效評(píng)論 短語對(duì)摘要的影響。有效評(píng)論短語的抽取過程為:
[0026] (1)首先按照標(biāo)點(diǎn)符號(hào)()對(duì)評(píng)論語句拆分成短語,然后對(duì)短 語進(jìn)行分詞,并標(biāo)記每個(gè)詞語的詞性。
[0027] (2)短語評(píng)論參數(shù)識(shí)別:利用手工構(gòu)建的評(píng)論對(duì)象參數(shù)字典識(shí)別每條評(píng)論短語涉 及評(píng)論對(duì)象的哪個(gè)參數(shù)。通常每個(gè)評(píng)論對(duì)象都可以基于不同的參數(shù)來反映它的表現(xiàn)或者性 能,每個(gè)參數(shù)都有一些特征詞語來描述它,這些詞語會(huì)出現(xiàn)在用戶的評(píng)論語句中。評(píng)論對(duì)象 參數(shù)詞典包括該對(duì)象的所有參數(shù)以及描述每個(gè)參數(shù)的特征詞語集。表1表示網(wǎng)絡(luò)評(píng)論中,手 機(jī)作為評(píng)論對(duì)象的參數(shù)詞典例子。本發(fā)明采用詞語匹配的方法來識(shí)別短語評(píng)論的參數(shù):如 果評(píng)論短語中包含評(píng)論對(duì)象某個(gè)參數(shù)的特征詞,則認(rèn)為該短語評(píng)論該對(duì)象的這個(gè)參數(shù);如 果短語不包含任何參數(shù)的特征詞,則丟棄。
[0028] 表1手機(jī)參數(shù)詞典

[0031] (3)基于模板的評(píng)論短語抽取:有效評(píng)論短語包含一個(gè)參數(shù)特征詞,參數(shù)特征詞后 包含1或多個(gè)形容詞,句尾為〇個(gè)或1個(gè)名詞,并且短語的詞語數(shù)小于6個(gè)。凡不符合該模板的 短語都去掉。
[0032] 步驟二:基于情感分析的評(píng)論對(duì)象參數(shù)排序
[0033]用戶評(píng)論的情感分析是判斷評(píng)論是正面、負(fù)面和中立這三種情感極性的哪一種。 本發(fā)明根據(jù)評(píng)論每一個(gè)參數(shù)的短語的情感分布情況來對(duì)參數(shù)進(jìn)行排序,如果越多的用戶對(duì) 評(píng)論對(duì)象的同一個(gè)參數(shù)的評(píng)論短語具有同一種情感,那么用戶對(duì)這個(gè)參數(shù)越有可能形成一 致的觀點(diǎn),即該對(duì)象在這一方面是良好還是差。本發(fā)明的評(píng)論對(duì)象參數(shù)排序過程為:
[0034] (1)情感極性及強(qiáng)度分析:針對(duì)對(duì)正面、負(fù)面和中立三種情感極性分別手工標(biāo)注一 部分評(píng)論短語,基于標(biāo)注好的數(shù)據(jù)訓(xùn)練一個(gè)三分類的SVM情感分類器。然后由訓(xùn)練好的SVM 分類器把抽取的有效評(píng)論短語進(jìn)行分類,根據(jù)分類結(jié)果確定評(píng)論短語的情感極性值:如果 分到正面類,則情感極性值為1;如果分到負(fù)面類,則情感極性值為-1;否則情感極性值為0。 另外,用戶在發(fā)表評(píng)論時(shí)多用程度副詞修飾其評(píng)論的情感程度。不同的副詞表示的情感強(qiáng) 度不一樣。表2表示手工構(gòu)建的一張副詞及情感強(qiáng)度值表例子,表中副詞后的數(shù)字表示情感 強(qiáng)度值。一個(gè)評(píng)論短語的情感極性強(qiáng)度值由其情感極性值乘以包含的副詞的情感強(qiáng)度值得 到。
[0035]表2副詞及其情感強(qiáng)度表(數(shù)字代表情感強(qiáng)度值,取1,2或3)

[0037] (2)評(píng)論對(duì)象參數(shù)排序:對(duì)評(píng)論對(duì)象的所有參數(shù),根據(jù)帶有情感的評(píng)論短語占該評(píng) 論對(duì)象所有評(píng)論短語的比例以及參數(shù)中正負(fù)評(píng)論平均情感極性強(qiáng)度的差異值進(jìn)行排序。評(píng) 論對(duì)象參數(shù)中帶有情感的評(píng)論短語占該對(duì)象所有評(píng)論短語的比例越高,說明用戶對(duì)該參數(shù) 越關(guān)注;評(píng)論參數(shù)的正負(fù)情感兩類短語的平均情感極性強(qiáng)度差異值越大,說明該參數(shù)的評(píng) 論中一種情感占主導(dǎo)地位,評(píng)論對(duì)象參數(shù)具有該情感表達(dá)的特點(diǎn)非常明顯,該參數(shù)對(duì)反映 用戶對(duì)該對(duì)象的真實(shí)評(píng)價(jià)具有重要的作用。假設(shè)評(píng)論對(duì)象的所有評(píng)論短語數(shù)目為Num,參數(shù) a的排序值計(jì)算公式如下所示:
[0039] posValue(a) = EreR(a),ps(a,r)>QPS(a,r)
[0040] negValue(a) = EreR(a),ps(a,r)<oPS(a,r)
[OO41 ] 其中r指評(píng)論a的一條短語,posNum(a)和negNum(a)分別指評(píng)論參數(shù)a為正面情感 和負(fù)面情感的短語總數(shù),PS(a,r)指在評(píng)論r中評(píng)價(jià)參數(shù)a的短語的情感極性強(qiáng)度。評(píng)論對(duì)象 的所有參數(shù)按照該公式計(jì)算的排序值從大到小排序,最終,選擇排名最靠前的5個(gè)參數(shù)進(jìn)行 摘要的生成。
[0042]步驟三:基于模板的產(chǎn)生式摘要生成
[0043]對(duì)已選擇的評(píng)論對(duì)象參數(shù),從每個(gè)參數(shù)的評(píng)論短語中選擇一句最能表達(dá)用戶觀點(diǎn) 的短語,進(jìn)而填充到制定好的模版中產(chǎn)生新的句子,由產(chǎn)生的新句子組成網(wǎng)絡(luò)評(píng)論摘要。本 發(fā)明的基于模板的產(chǎn)生式摘要生成過程為:
[0044] (1)代表性短語的選擇:對(duì)每個(gè)選擇的參數(shù),從評(píng)論該參數(shù)的所有短語中選擇一個(gè) 能夠描述大部分用戶觀點(diǎn)的代表性短語作為組成最終摘要的短語。本發(fā)明綜合利用短語情 感值以及參數(shù)特征詞出現(xiàn)頻率進(jìn)行短語的選擇,對(duì)于評(píng)論對(duì)象參數(shù)a中的一個(gè)短語r,利用 以下公式計(jì)算其權(quán)重值:
[0047] 其中word (a,r)表示短語r中包含的評(píng)論對(duì)象參數(shù)a的特征詞,Num (wor d (a,r)表示 短語r中包含評(píng)論對(duì)象參數(shù)a的特征詞在涉及參數(shù)a的所有評(píng)論里出現(xiàn)的次數(shù)。該公式的第 一部分exp(.)表示短語的情感極性強(qiáng)度與評(píng)論該參數(shù)所有短語的平均情感極性強(qiáng)度的差 異值,該值越小表明該短語對(duì)該參數(shù)的描述越重要;公式的第二部分ln(.)考慮了短語中包 含的參數(shù)特征詞的頻率,該值越大說明用戶對(duì)該短語描述的評(píng)論對(duì)象參數(shù)的某個(gè)特點(diǎn)越關(guān) 注。然后,對(duì)評(píng)論對(duì)象所選擇的每個(gè)參數(shù)提取權(quán)重值最大的一個(gè)短語作為該參數(shù)的代表性 短語。
[0048] (2)摘要生成:對(duì)評(píng)論對(duì)象選擇的5個(gè)參數(shù),按照每個(gè)參數(shù)的代表性短語的情感值 從正到負(fù)進(jìn)行排列,并填入到模版中相應(yīng)位置,如圖2所示。
[0049] 短語之間的連接詞由相鄰兩個(gè)短語的情感值極性確定,如圖3所示。
[0050] 如果相鄰兩個(gè)短語的情感值相反,則用轉(zhuǎn)折關(guān)系連詞連接;否則利用并列關(guān)系連 詞連接。針對(duì)華為手機(jī)一款產(chǎn)品,生成的評(píng)論摘要如圖4所示。
[0051] 本發(fā)明說明書中未作詳細(xì)描述的內(nèi)容屬于本領(lǐng)域?qū)I(yè)技術(shù)人員公知的現(xiàn)有技術(shù)。 [0052]以上所述僅是本發(fā)明的優(yōu)選實(shí)施方式,應(yīng)當(dāng)指出,對(duì)于本技術(shù)領(lǐng)域的普通技術(shù)人 員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進(jìn)和潤(rùn)飾,這些改進(jìn)和潤(rùn)飾也應(yīng) 視為本發(fā)明的保護(hù)范圍。
【主權(quán)項(xiàng)】
1. 一種網(wǎng)絡(luò)評(píng)論產(chǎn)生式中文摘要生成方法,其特征在于實(shí)現(xiàn)步驟如下: A. 包含用戶有效評(píng)論的短語的抽取:對(duì)給定的網(wǎng)絡(luò)評(píng)論語句,基于標(biāo)點(diǎn)符號(hào)拆分成短 語,對(duì)每個(gè)短語進(jìn)行分詞并標(biāo)記每個(gè)詞語的詞性,利用人工定義的評(píng)論對(duì)象參數(shù)字典和設(shè) 計(jì)好的句法模板過濾掉無效的評(píng)論短語; B. 基于情感分析的評(píng)論對(duì)象參數(shù)排序:利用情感分類器和評(píng)論中副詞的情感強(qiáng)度計(jì)算 每條涉及評(píng)論對(duì)象某個(gè)參數(shù)的短語的情感極性強(qiáng)度,根據(jù)評(píng)價(jià)每個(gè)參數(shù)的所有評(píng)論短語的 情感極性強(qiáng)度信息對(duì)評(píng)論對(duì)象參數(shù)進(jìn)行排序,選取最重要的一部分參數(shù)進(jìn)行摘要生成; C. 基于模板產(chǎn)生評(píng)論摘要:針對(duì)選取的每個(gè)參數(shù),根據(jù)短語情感值以及參數(shù)特征詞出 現(xiàn)頻率對(duì)評(píng)論該參數(shù)的所有評(píng)論短語進(jìn)行排序,選取排名最靠前的評(píng)論短語作為該參數(shù)的 代表性評(píng)論短語,把選取的所有代表性評(píng)論短語置入到設(shè)計(jì)好的摘要模板中以生成網(wǎng)絡(luò)評(píng) 論摘要。2. 根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)評(píng)論產(chǎn)生式中文摘要生成方法,其特征在于:步驟A中所 描述的評(píng)論對(duì)象參數(shù)是指用戶評(píng)論該對(duì)象的一個(gè)方面;無效短語的過濾利用評(píng)論對(duì)象參數(shù) 字典來確定每個(gè)短語評(píng)論的對(duì)象參數(shù),每個(gè)參數(shù)都包含用戶用來描述該參數(shù)的一些特征詞 語,這些詞語共同組成了評(píng)論對(duì)象參數(shù)字典,評(píng)論對(duì)象參數(shù)及每個(gè)參數(shù)所包含的特征詞由 人工構(gòu)建,根據(jù)短語包含的參數(shù)特征詞來確定其評(píng)論對(duì)象的那個(gè)參數(shù)。3. 根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)評(píng)論產(chǎn)生式中文摘要生成方法,其特征在于:步驟A中所 描述的無效短語的過濾利用了模板匹配的方法,與給定模板不匹配的短語都被過濾掉,能 夠?qū)υu(píng)論對(duì)象產(chǎn)生有效評(píng)價(jià)的短語模板設(shè)定為:短語包含一個(gè)參數(shù)特征詞、1到多個(gè)形容 詞,句尾為〇個(gè)或1個(gè)名詞,并且短語的詞語數(shù)小于6個(gè)。4. 根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)評(píng)論產(chǎn)生式中文摘要生成方法,其特征在于:步驟B中所 描述的評(píng)論對(duì)象參數(shù)排序方法考慮以下因素:(1)評(píng)論的情感值,用戶給出正面評(píng)論的情感 值為1,客戶給出負(fù)面評(píng)價(jià)的情感值為-1,否則評(píng)論的情感值為〇; (2)評(píng)論對(duì)象參數(shù)的短語 中具有正面或負(fù)面情感短語數(shù)占該對(duì)象評(píng)論短語總數(shù)的比例;(3)評(píng)價(jià)對(duì)象參數(shù)的正負(fù)評(píng) 論短語平均情感極性強(qiáng)度的差異值,情感極性強(qiáng)度由短語情感值和短語包含的情感副詞的 強(qiáng)度值相乘得到,情感副詞的強(qiáng)度值由人工確定。5. 根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)評(píng)論產(chǎn)生式中文摘要生成方法,其特征在于:步驟C中所 描述的短語排序方法考慮了以下因素:(1)短語的情感極性強(qiáng)度與評(píng)價(jià)該對(duì)象參數(shù)的所有 短語的平均情感極性強(qiáng)度平均值的差異值;(2)短語包含對(duì)象參數(shù)的特征詞在評(píng)價(jià)該對(duì)象 參數(shù)的所有短語里的出現(xiàn)頻率。6. 根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)評(píng)論產(chǎn)生式中文摘要生成方法,其特征在于:步驟C中所 描述的摘要生成模板由評(píng)論對(duì)象的名稱、中文連接詞和評(píng)論短語占位符號(hào)組成,生成的摘 要由連接詞和選取的短語組成,短語的排列順序與其所評(píng)論的對(duì)象參數(shù)的排列順序一樣, 相鄰兩個(gè)短語的情感值具有相同的符號(hào)時(shí)用并列關(guān)系連詞連接,相鄰的兩個(gè)短語的情感值 具有相反的符號(hào)時(shí)由轉(zhuǎn)折關(guān)系連詞連接。
【文檔編號(hào)】G06F17/30GK105912644SQ201610217911
【公開日】2016年8月31日
【申請(qǐng)日】2016年4月8日
【發(fā)明人】劉春陽, 趙志云, 李雄, 龐琳, 張旭, 王萌, 王卿, 張小明
【申請(qǐng)人】國家計(jì)算機(jī)網(wǎng)絡(luò)與信息安全管理中心, 北京航空航天大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1