亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種對(duì)網(wǎng)絡(luò)輿情信息進(jìn)行情感分類的方法

文檔序號(hào):8922702閱讀:754來(lái)源:國(guó)知局
一種對(duì)網(wǎng)絡(luò)輿情信息進(jìn)行情感分類的方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及自然語(yǔ)言處理領(lǐng)域,特別涉及一種對(duì)網(wǎng)絡(luò)輿情信息進(jìn)行情感分類的方 法。
【背景技術(shù)】
[0002] 互聯(lián)網(wǎng)輿情,或者稱為網(wǎng)絡(luò)輿情,是一個(gè)伴隨著近半個(gè)多世紀(jì)計(jì)算機(jī)信息技術(shù)的 發(fā)展和近二十年互聯(lián)網(wǎng)的出現(xiàn)和普及而逐漸浮出水面的一個(gè)全新概念?;ヂ?lián)網(wǎng)輿情由兩個(gè) 概念結(jié)合而成一互聯(lián)網(wǎng)(Internet)和輿情(PublicOpinion)。
[0003] 互聯(lián)網(wǎng)的開(kāi)放性、全球性、即時(shí)性、廣泛性、海量性、互動(dòng)性、平等性、低成本性和 多媒體性等諸多特點(diǎn)決定了對(duì)于普通民眾而言,遍布全球每一個(gè)角落的、觸手可及的互 聯(lián)網(wǎng)是最佳的觀點(diǎn)表達(dá)和傳播媒介,愈來(lái)愈多的普通民眾傾向于通過(guò)網(wǎng)絡(luò),而不是報(bào)紙 (newspaper)、雜志(magazine)、廣播(broadcast)或電視(television),來(lái)表達(dá)自己在自 由言論方面的訴求。
[0004] 根據(jù)針對(duì)我國(guó)的實(shí)際情況所展開(kāi)的相關(guān)分析和研宄可知,我國(guó)國(guó)內(nèi)的互聯(lián)網(wǎng)輿 情的表現(xiàn)形式和承載平臺(tái)主要有以下四種:
[0005] (l)BBS論壇,包括社會(huì)論壇(天涯)、高校論壇(水木)、主題論壇(強(qiáng)國(guó)論壇) 和地方論壇(深圳人)等等;
[0006] (2)博客,包括新浪博客、百度空間、搜狐博客、北郵人博客、騰訊空間等在內(nèi)的各 式各樣的個(gè)人博客和名人博客;
[0007] (3)新聞及新聞跟帖,包括新浪新聞、搜狐新聞、騰訊新聞、網(wǎng)易新聞等大塑門戶 網(wǎng)站的新聞欄目及每條新聞后面的跟帖和回復(fù);
[0008] (4)微博和社交網(wǎng)絡(luò),包括新浪微博、搜狐微博、新華微博、騰訊微博等微博和幵 心網(wǎng)、人人網(wǎng)等SNS社交網(wǎng)絡(luò)平臺(tái)上網(wǎng)民的言論、評(píng)論、回復(fù)、轉(zhuǎn)發(fā)、分享等內(nèi)容。
[0009] 近年來(lái),網(wǎng)絡(luò)輿情對(duì)政治生活秩序和社會(huì)穩(wěn)定的影響與日俱增,一些重大的網(wǎng)絡(luò) 輿情事件使人們開(kāi)始認(rèn)識(shí)到網(wǎng)絡(luò)對(duì)社會(huì)監(jiān)督起到的巨大作用。同時(shí),網(wǎng)絡(luò)輿情突發(fā)事件如 果處理不當(dāng),極有可能誘發(fā)民眾的不良情緒,引發(fā)群眾的違規(guī)和過(guò)激行為,進(jìn)而對(duì)社會(huì)穩(wěn)定 構(gòu)成威脅。此外企業(yè)自身的輿情信息的正負(fù)面性判別對(duì)于企業(yè)本身有著重要意義。對(duì)于網(wǎng) 絡(luò)輿情的上述特點(diǎn),對(duì)現(xiàn)實(shí)中出現(xiàn)的各種網(wǎng)絡(luò)輿論,應(yīng)能做出及時(shí)反饋,防微杜漸,防患于 未然。因此,必須利用現(xiàn)代信息技術(shù)對(duì)網(wǎng)絡(luò)輿情予以分析,從而進(jìn)行控制和引導(dǎo)。由于網(wǎng)上 的信息量十分巨大,僅依靠人工的方法難以應(yīng)對(duì)網(wǎng)上海量信息的收集和處理,需要自動(dòng)化 的網(wǎng)絡(luò)輿情分析方法,及時(shí)應(yīng)對(duì)網(wǎng)絡(luò)輿情。

【發(fā)明內(nèi)容】

[0010] 本發(fā)明的目的在于克服現(xiàn)有技術(shù)中所存在的上述不足,提供一種基于對(duì)網(wǎng)絡(luò)輿情 信息進(jìn)行情感分類的方法,采用漢語(yǔ)詞法分析系統(tǒng)一一ICTCLAS對(duì)文本進(jìn)行分詞,保留名 詞,動(dòng)詞和形容詞來(lái)作為特征,以x2統(tǒng)計(jì)來(lái)選擇特征,然后用BP神經(jīng)網(wǎng)絡(luò)分類器進(jìn)行情感 分類。
[0011] 為了實(shí)現(xiàn)上述發(fā)明目的,本發(fā)明提供了以下技術(shù)方案:
[0012] 一種對(duì)網(wǎng)絡(luò)輿情信息進(jìn)行情感分類的方法,包括以下步驟:
[0013] (1)對(duì)網(wǎng)絡(luò)輿情信息的文章進(jìn)行中文分詞;
[0014] (2)將分詞后的詞匯輸入神經(jīng)網(wǎng)絡(luò);
[0015] (3)計(jì)算出所述文章的正負(fù)面性完成情感分類。
[0016] 優(yōu)選的,所述中文分詞采用ICTCLAC中文分詞系統(tǒng)。
[0017] 優(yōu)選的,所述中文分詞采用ICTCLAC中文分詞系統(tǒng)對(duì)所述文章進(jìn)行分詞,保留名 詞、動(dòng)詞和形容詞作為特征。
[0018] 優(yōu)選的,所述中文分詞采用ICTCLAC中文分詞系統(tǒng)對(duì)所述文章進(jìn)行分詞,保留名 詞、動(dòng)詞和形容詞作為特征之后、輸入神經(jīng)網(wǎng)絡(luò)之前還包括特征選擇步驟。
[0019] 優(yōu)選的,所述特征選擇步驟具體為:采用文檔頻率、X2統(tǒng)計(jì)、信息增益或互信息 方法,選擇所需的特征作為神經(jīng)網(wǎng)絡(luò)的輸入。
[0020] 優(yōu)選的,所述神經(jīng)網(wǎng)絡(luò)為BP神經(jīng)網(wǎng)絡(luò)。
[0021] 優(yōu)選的,所述BP神經(jīng)網(wǎng)絡(luò)為3層或大于3層的前饋型BP網(wǎng)絡(luò)。
[0022] 優(yōu)選的,所述BP神經(jīng)網(wǎng)絡(luò)為經(jīng)過(guò)訓(xùn)練的BP神經(jīng)網(wǎng)絡(luò),所述訓(xùn)練步驟如下:
[0023]a.通過(guò)網(wǎng)絡(luò)爬蟲(chóng)技術(shù)爬取網(wǎng)絡(luò)輿情信息的文章;
[0024]b.對(duì)爬取的文章通過(guò)ICTCLAC中文分詞系統(tǒng)進(jìn)行分詞;
[0025]c.分詞后采用x2統(tǒng)計(jì)法進(jìn)行文本特征選擇,選擇所需的中文詞匯;
[0026]d.將爬取的文章進(jìn)行文章正負(fù)面性的人工判別,判別文章是正面的,負(fù)面的,還是 中性的;
[0027]e.將x2統(tǒng)計(jì)法后選擇的中文詞匯出現(xiàn)的數(shù)量作為神經(jīng)網(wǎng)絡(luò)的輸入,文章正負(fù)面 性的判別結(jié)果作為神經(jīng)網(wǎng)絡(luò)的輸出,對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,計(jì)算出神經(jīng)網(wǎng)絡(luò)的各層權(quán)值。
[0028] 與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果:
[0029]1.本發(fā)明的方法采用了ICTCLAC中文分詞系統(tǒng)對(duì)網(wǎng)絡(luò)輿情信息的目標(biāo)文章進(jìn)行 中文分詞,x2統(tǒng)計(jì)法進(jìn)行特征選取,大大降低了文本特征空間的維數(shù),提高了自動(dòng)分類的 效率;
[0030] 2.本發(fā)明的方法采用BP神經(jīng)網(wǎng)絡(luò)進(jìn)行情感分類,神經(jīng)網(wǎng)絡(luò)的各層權(quán)值可通過(guò)網(wǎng) 絡(luò)爬蟲(chóng)技術(shù)爬取網(wǎng)上文章進(jìn)行訓(xùn)練得到,分類有效性和準(zhǔn)確率高。
【附圖說(shuō)明】
[0031] 圖1為本發(fā)明BP神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過(guò)程
[0032] 圖2為本發(fā)明方法的情感分類過(guò)程
【具體實(shí)施方式】
[0033] 下面結(jié)合試驗(yàn)例及【具體實(shí)施方式】對(duì)本發(fā)明作進(jìn)一步的詳細(xì)描述。但不應(yīng)將此理解 為本發(fā)明上述主題的范圍僅限于以下的實(shí)施例,凡基于本
【發(fā)明內(nèi)容】
所實(shí)現(xiàn)的技術(shù)均屬于本 發(fā)明的范圍。
[0034] 如圖2所示,本發(fā)明的對(duì)網(wǎng)絡(luò)輿情信息進(jìn)行情感分類的方法步驟如下:
[0035] (1)采用ICTCLAC中文分詞系統(tǒng)對(duì)網(wǎng)絡(luò)輿情信息的目標(biāo)文章進(jìn)行中文分詞;
[0036] (2)將分詞后的詞匯按照BP神經(jīng)網(wǎng)絡(luò)的輸入需求對(duì)每一個(gè)輸入賦值;
[0037] (3)計(jì)算出所述文章的正負(fù)面性得到情感分類結(jié)果。
[0038] 對(duì)目標(biāo)文章進(jìn)行情感分類前首先要對(duì)文章進(jìn)行文本預(yù)處理,文本預(yù)處理主要包括 分詞處理,去停用詞兩個(gè)部分。為把文本形式化地表示,采用向量空間模型(VectorSpace Model)把文本表示成N維向量,用詞來(lái)表示文本的向量。中文是連續(xù)的字符串,為了抽取文 本的詞條,這就需要對(duì)中文文本進(jìn)行分詞處理。去停用詞主要是去除那些對(duì)文章內(nèi)容沒(méi)有 意義的詞。由于在文章中名字、動(dòng)詞、形容詞是最具有實(shí)際意義的詞。這里采用中國(guó)科學(xué)院 計(jì)算技術(shù)研宄所的漢語(yǔ)詞法分析系統(tǒng)ICTCLAS,該系統(tǒng)在分詞的同
當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1