亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于新詞的網(wǎng)絡(luò)輿情主題抽取方法與流程

文檔序號(hào):11386709閱讀:307來(lái)源:國(guó)知局
一種基于新詞的網(wǎng)絡(luò)輿情主題抽取方法與流程

本發(fā)明屬于機(jī)器學(xué)習(xí)和信息挖掘技術(shù)領(lǐng)域,更為具體地講,涉及一種基于新詞的網(wǎng)絡(luò)輿情主題抽取方法。



背景技術(shù):

主題是指文本的中心思想,泛指主要內(nèi)容。主題抽取技術(shù)是文本處理的基礎(chǔ)技術(shù)之一,目前國(guó)內(nèi)外主題抽取的普遍方法是應(yīng)用各種加權(quán)算法,計(jì)算詞對(duì)文本主題的貢獻(xiàn)大小,并選定貢獻(xiàn)大的詞作為主題詞,即由文本到關(guān)鍵詞再到主題詞的這樣一個(gè)過(guò)程。但此類的加權(quán)算法大都是統(tǒng)計(jì)和經(jīng)驗(yàn)的加權(quán)體系,并未考慮文本中詞與詞之間的關(guān)聯(lián)和聯(lián)系,尤其是在處理一個(gè)文本集的時(shí)候,每個(gè)文本長(zhǎng)短不一,攜帶的信息量也參差不齊,使加權(quán)算法普遍性不強(qiáng)。另有一種主題抽取方法是基于語(yǔ)義對(duì)文本進(jìn)行分析,但由于漢語(yǔ)語(yǔ)言知識(shí)的籠統(tǒng)、復(fù)雜性,難以將各種語(yǔ)言信息組織成機(jī)器可直接讀取的形式,因此目前還處于試驗(yàn)階段。

現(xiàn)有的主題抽取算法另一個(gè)缺陷是依賴對(duì)詞的選擇和處理,上面已經(jīng)提到主題抽取的過(guò)程是由文本到關(guān)鍵詞再到主題詞,在當(dāng)前中文文本處理領(lǐng)域,分詞也一直是文本處理的前提和基礎(chǔ),分詞的漏檢和錯(cuò)誤會(huì)影響抽取的關(guān)鍵詞的性能,最終導(dǎo)致主題抽取的可讀性不強(qiáng),甚至錯(cuò)誤。在網(wǎng)絡(luò)信息爆炸的現(xiàn)在,大量新詞的出現(xiàn)和流行,分詞的漏檢和錯(cuò)誤主要就表現(xiàn)在新詞的識(shí)別困難。

事實(shí)上,通過(guò)對(duì)網(wǎng)絡(luò)輿情的持續(xù)跟蹤和研究中發(fā)現(xiàn),大多數(shù)網(wǎng)絡(luò)輿情的主題,或者熱點(diǎn),本身就是一個(gè)新詞,這里的新詞指的是兩個(gè)含義,一個(gè)是字典中未登錄的詞,比如“十動(dòng)然拒”,另一個(gè)是兩個(gè)或多個(gè)字典中已登錄的詞組合而成的新詞,比如“閨蜜干政”。因此基于新詞發(fā)現(xiàn)的主題抽取能夠具有相當(dāng)高的可信度,尤其是在網(wǎng)絡(luò)輿情和新聞報(bào)導(dǎo)中,正確率能達(dá)到半數(shù)以上。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明的目的在于克服現(xiàn)有技術(shù)的不足,提供一種基于新詞的網(wǎng)絡(luò)輿情主題抽取方法,將文本的標(biāo)題作為處理對(duì)象,通過(guò)關(guān)聯(lián)規(guī)則挖掘詞與詞之間的關(guān)聯(lián)和聯(lián)系,實(shí)現(xiàn)新詞的發(fā)現(xiàn)和主題詞的抽取。

為實(shí)現(xiàn)上述發(fā)明目的,本發(fā)明一種基于新詞的網(wǎng)絡(luò)輿情主題抽取方法,其特征在于,包括以下步驟:

(1)、構(gòu)建一個(gè)空的主題詞典;

(2)、利用網(wǎng)絡(luò)爬蟲(chóng)從互聯(lián)網(wǎng)中爬取網(wǎng)絡(luò)新聞,對(duì)爬取的網(wǎng)絡(luò)新聞進(jìn)行去重處理后,將網(wǎng)絡(luò)新聞的標(biāo)題存入語(yǔ)料集中;

(3)、遍歷語(yǔ)料集中的每一個(gè)網(wǎng)絡(luò)新聞標(biāo)題,利用crf模型對(duì)網(wǎng)絡(luò)新聞標(biāo)題進(jìn)行分詞,把所有的分詞結(jié)果存入到數(shù)組1中;

(4)、設(shè)置數(shù)據(jù)挖掘算法fp-growth的支持度閾值,利用數(shù)據(jù)挖掘算法fp-growth挖掘出數(shù)組中的頻繁項(xiàng)集,得到由頻繁項(xiàng)集和對(duì)應(yīng)支持度組成的頻繁模式數(shù)組1;

(5)、篩選頻繁項(xiàng)集中項(xiàng)的個(gè)數(shù)為2的頻繁模式,得到頻繁模式數(shù)組2;

(6)、遍歷頻繁模式數(shù)組2,計(jì)算頻繁項(xiàng)集的置信度;

設(shè)該頻繁項(xiàng)集為m,其中的兩個(gè)項(xiàng)分別為a和b,那么該頻繁項(xiàng)集m對(duì)應(yīng)

的支持度s(m)為:

c(m)=s(m)(s(m_a)+s(m_b))/(2s(m_a)s(m_b))

其中,s(m_a)和s(m_b)分別為頻繁模式數(shù)組1中項(xiàng)的個(gè)數(shù)為1且恰好為a和b的頻繁項(xiàng)集對(duì)應(yīng)的支持度;

判斷置信度是否大于預(yù)設(shè)的閾值,如果大于,則進(jìn)入步驟(7);否則繼續(xù)遍歷頻繁模式數(shù)組,直到遍歷完成;

(7)、將頻繁項(xiàng)集的兩個(gè)項(xiàng)分別以正序和倒序組成兩個(gè)新詞,并加入到主題詞典中;

(8)、重新遍歷語(yǔ)料集中的每一個(gè)網(wǎng)絡(luò)新聞標(biāo)題,并檢索主題詞典,如果某一網(wǎng)絡(luò)新聞標(biāo)題中包含有主題詞典中的新詞,則以該新詞為斷點(diǎn)分割網(wǎng)絡(luò)新聞標(biāo)題,并進(jìn)入步驟(9);如果某一網(wǎng)絡(luò)新聞標(biāo)題中不包含有主題詞典中的新詞,則進(jìn)入步驟(10);

(9)、利用crf模型分別對(duì)分割后網(wǎng)絡(luò)新聞標(biāo)題進(jìn)行分詞,再將其對(duì)應(yīng)的分詞結(jié)果和斷點(diǎn)對(duì)應(yīng)的新詞作為網(wǎng)絡(luò)新聞標(biāo)題的最終分詞結(jié)果;

(10)、利用crf模型直接對(duì)網(wǎng)絡(luò)新聞標(biāo)題進(jìn)行分詞,得到最終分詞結(jié)果;

(11)、重復(fù)步驟(8)-(10),直到所有的網(wǎng)絡(luò)新聞標(biāo)題遍歷結(jié)束后,將所有的最終分詞結(jié)果存入到數(shù)組2中,同時(shí)刪除主題詞典中未被檢索出的新詞,再進(jìn)入步驟(12);

(12)、將數(shù)組1和數(shù)組2中的每一項(xiàng)進(jìn)行一一比對(duì),如果每一項(xiàng)均相同,則網(wǎng)絡(luò)輿情主題抽取結(jié)束,并進(jìn)入步驟(13);如果有某一項(xiàng)不相同,令數(shù)組1等于數(shù)組2再返回步驟(4);

(13)、輸出主題詞典

(13.1)、將數(shù)組1中的所有詞并入到最小顆粒詞集合中,再標(biāo)記出該集合中每一個(gè)詞的詞性;

(13.2)、計(jì)算主題詞典中所有新詞的平均實(shí)詞匹配度:設(shè)主題詞典中某一新詞為topic,其中有n個(gè)網(wǎng)絡(luò)新聞標(biāo)題包含該新詞topic,記為t1,t2,...tn;

計(jì)算新詞topic的平均實(shí)詞匹配度anmd(topic):

anmd(topic)=(n(topic)/n(t1)+(n(topic)/n(t2)+...+(n(topic)/n(tn))/n;

其中,n(topic)為拼成新詞topic的最小顆粒詞集合中使用實(shí)詞的個(gè)數(shù),n(t1),n(t2),...n(tn)分別為對(duì)應(yīng)網(wǎng)絡(luò)新聞標(biāo)題在最小顆粒詞集合中使用實(shí)詞的個(gè)數(shù);

(13.3)、將主題詞典中所有新詞按平均實(shí)詞匹配度大小進(jìn)行降序排列,再按排列后的順序進(jìn)行輸出。

本發(fā)明的發(fā)明目的是這樣實(shí)現(xiàn)的:

本發(fā)明一種基于新詞的網(wǎng)絡(luò)輿情主題抽取方法,通過(guò)兩個(gè)或兩個(gè)以上的關(guān)鍵詞拼接得到的新詞作為主題詞;其中,對(duì)于關(guān)鍵詞的選取,需要考慮代表文章的中心和主旨的文本標(biāo)題,文本標(biāo)題分得的詞作為文本的關(guān)鍵詞,同時(shí)還提高算法效率和減少因?yàn)槲谋静町悓?duì)主題抽取的影響;同時(shí),本發(fā)明以平均實(shí)詞匹配度來(lái)量化這些新詞對(duì)于網(wǎng)絡(luò)輿情的主題的貢獻(xiàn)程度,平均實(shí)詞匹配度越高表示新詞對(duì)于網(wǎng)絡(luò)輿情的主題的貢獻(xiàn)程度越大,因而,具有相當(dāng)高的可信度,能夠適應(yīng)當(dāng)今網(wǎng)絡(luò)輿情日益增長(zhǎng)的趨勢(shì)。

同時(shí),本發(fā)明一種基于新詞的網(wǎng)絡(luò)輿情主題抽取方法還具有以下有益效果:

(1)、基于crf模型的中文分詞方法,在現(xiàn)在的中文分詞領(lǐng)域,crf代表了新一代的機(jī)器學(xué)習(xí)技術(shù),其基本思路是對(duì)漢字進(jìn)行標(biāo)注即由字構(gòu)詞(組詞),不僅考慮了文字詞語(yǔ)出現(xiàn)的頻率信息,同時(shí)考慮上下文語(yǔ)境,具備較好的學(xué)習(xí)能力,從而避免了詞典存在的不足,并且增加了對(duì)歧義詞和未登錄詞的識(shí)別,提高了分詞的可讀性和主題抽取的質(zhì)量;

(2)、基于fp-tree關(guān)聯(lián)規(guī)則的合成主題詞方法,在數(shù)據(jù)挖掘領(lǐng)域,數(shù)據(jù)項(xiàng)之間的關(guān)聯(lián)規(guī)則稱為關(guān)聯(lián)模式,fp-growth算法使其中的主要算法之一。利用fp-growth算法可以挖掘出關(guān)鍵詞之間的關(guān)聯(lián)和聯(lián)系,從而提高了主題抽取的準(zhǔn)確率。

附圖說(shuō)明

圖1是本發(fā)明一種基于新詞的網(wǎng)絡(luò)輿情主題抽取方法流程圖;

圖2是crf分詞模型的訓(xùn)練流程圖。

具體實(shí)施方式

下面結(jié)合附圖對(duì)本發(fā)明的具體實(shí)施方式進(jìn)行描述,以便本領(lǐng)域的技術(shù)人員更好地理解本發(fā)明。需要特別提醒注意的是,在以下的描述中,當(dāng)已知功能和設(shè)計(jì)的詳細(xì)描述也許會(huì)淡化本發(fā)明的主要內(nèi)容時(shí),這些描述在這里將被忽略。

實(shí)施例

圖1是本發(fā)明一種基于新詞的網(wǎng)絡(luò)輿情主題抽取方法流程圖。

在本實(shí)施例中,如圖1所示,本發(fā)明一種基于新詞的網(wǎng)絡(luò)輿情主題抽取方法,包括以下步驟:

s1、構(gòu)建一個(gè)空的主題詞典;

s2、利用網(wǎng)絡(luò)爬蟲(chóng)從互聯(lián)網(wǎng)中爬取網(wǎng)絡(luò)新聞,對(duì)爬取的網(wǎng)絡(luò)新聞進(jìn)行去重處理后,將網(wǎng)絡(luò)新聞的標(biāo)題存入語(yǔ)料集中;例如:通過(guò)爬蟲(chóng)爬取新浪、百度、騰訊……,爬取當(dāng)日的網(wǎng)絡(luò)新聞,再對(duì)相同的網(wǎng)絡(luò)新聞進(jìn)行去重;

s3、遍歷語(yǔ)料集中的每一個(gè)網(wǎng)絡(luò)新聞標(biāo)題,利用crf分詞模型對(duì)網(wǎng)絡(luò)新聞標(biāo)題進(jìn)行分詞,把所有的分詞結(jié)果存入到數(shù)組1中;

在本實(shí)施例中,crf分詞模型的訓(xùn)練步驟為:

1)、提取語(yǔ)料集中的每一個(gè)網(wǎng)絡(luò)新聞標(biāo)題;

2)、對(duì)每一個(gè)網(wǎng)絡(luò)新聞標(biāo)題進(jìn)行半自動(dòng)的分塊和標(biāo)注,即模型給出候選結(jié)果,人工進(jìn)行判別、修改和再標(biāo)注,得到標(biāo)注集;

3)、隨機(jī)選擇一部分標(biāo)注集在條件隨機(jī)場(chǎng)中進(jìn)行訓(xùn)練,其余的標(biāo)注集在所述條件隨機(jī)場(chǎng)中進(jìn)行測(cè)試,最終得到訓(xùn)練好的crf分詞模型;

s4、設(shè)置數(shù)據(jù)挖掘算法fp-growth(frequentpattern-growth)的支持度閾值,利用數(shù)據(jù)挖掘算法fp-growth挖掘出數(shù)組中的頻繁項(xiàng)集,得到由頻繁項(xiàng)集和對(duì)應(yīng)支持度組成的頻繁模式數(shù)組1;

s5、篩選頻繁項(xiàng)集中項(xiàng)的個(gè)數(shù)為2的頻繁模式,得到頻繁模式數(shù)組2;

s6、遍歷頻繁模式數(shù)組2,計(jì)算頻繁項(xiàng)集的置信度;

設(shè)該頻繁項(xiàng)集為m,其中的兩個(gè)項(xiàng)分別為a和b,那么該頻繁項(xiàng)集m對(duì)應(yīng)

的支持度s(m)為:

c(m)=s(m)(s(m_a)+s(m_b))/(2s(m_a)s(m_b))

其中,s(m_a)和s(m_b)分別為頻繁模式數(shù)組1中項(xiàng)的個(gè)數(shù)為1且恰好為a和b的頻繁項(xiàng)集對(duì)應(yīng)的支持度;

判斷置信度是否大于預(yù)設(shè)的閾值,如果大于,則進(jìn)入步驟s7;否則繼續(xù)遍歷頻繁模式數(shù)組,直到遍歷完成;

s7、將頻繁項(xiàng)集的兩個(gè)項(xiàng)分別以正序和倒序組成兩個(gè)新詞,并加入到主題詞典中;

s8、重新遍歷語(yǔ)料集中的每一個(gè)網(wǎng)絡(luò)新聞標(biāo)題,并檢索主題詞典,如果某一網(wǎng)絡(luò)新聞標(biāo)題中包含有主題詞典中的新詞,則以該新詞為斷點(diǎn)分割網(wǎng)絡(luò)新聞標(biāo)題,并進(jìn)入步驟s9;如果某一網(wǎng)絡(luò)新聞標(biāo)題中不包含有主題詞典中的新詞,則進(jìn)入步驟s10;

其中,檢索主題詞典時(shí),如果主題詞典中的兩個(gè)及以上的新詞有重疊的部分,則取最后被檢索出的新詞作為斷點(diǎn);

在本實(shí)施例中,如果兩個(gè)及以上的新詞在文本中有重疊的部分,則選取檢索到的最后一個(gè)新詞作為斷點(diǎn),忽略其他的新詞,如文本為:“華為超三星成最賺錢安卓手機(jī)”中,主題詞典同時(shí)包含了新詞“超三星”和“華為超三星”,由于“華為超三星”是后加入詞典的新詞,最后被檢索出來(lái),因此選取“華為超三星”作為文本的斷點(diǎn);

s9、利用crf分詞模型分別對(duì)分割后網(wǎng)絡(luò)新聞標(biāo)題進(jìn)行分詞,再將其對(duì)應(yīng)的分詞結(jié)果和斷點(diǎn)對(duì)應(yīng)的新詞作為網(wǎng)絡(luò)新聞標(biāo)題的最終分詞結(jié)果;

s10、利用crf模型直接對(duì)網(wǎng)絡(luò)新聞標(biāo)題進(jìn)行分詞,得到最終分詞結(jié)果;

s11、重復(fù)步驟s8-s10,直到所有的網(wǎng)絡(luò)新聞標(biāo)題遍歷結(jié)束后,將所有的最終分詞結(jié)果存入到數(shù)組2中,同時(shí)刪除主題詞典中未被檢索出的新詞,再進(jìn)入步驟s12;

s12、將數(shù)組1和數(shù)組2中的每一項(xiàng)進(jìn)行一一比對(duì),如果每一項(xiàng)均相同,則網(wǎng)絡(luò)輿情主題抽取結(jié)束,并進(jìn)入步驟s13;如果有某一項(xiàng)不相同,令數(shù)組1等于數(shù)組2再返回步驟s4;

s13、輸出主題詞典

s13.1、將數(shù)組1中的所有詞并入到最小顆粒詞集合中,再標(biāo)記出該集合中每一個(gè)詞的詞性;

s13.2、計(jì)算主題詞典中所有新詞的平均實(shí)詞匹配度:設(shè)主題詞典中某一新詞為topic,其中有n個(gè)網(wǎng)絡(luò)新聞標(biāo)題包含該新詞topic,記為t1,t2,...tn;

計(jì)算新詞topic的平均實(shí)詞匹配度anmd(topic):

anmd(topic)=(n(topic)/n(t1)+(n(topic)/n(t2)+...+(n(topic)/n(tn))/n;

其中,n(topic)為拼成新詞topic的最小顆粒詞集合中使用實(shí)詞的個(gè)數(shù),n(t1),n(t2),...n(tn)分別為對(duì)應(yīng)網(wǎng)絡(luò)新聞標(biāo)題在最小顆粒詞集合中使用實(shí)詞的個(gè)數(shù);

s13.3、將主題詞典中所有新詞按平均實(shí)詞匹配度大小進(jìn)行降序排列,再按排列后的順序進(jìn)行輸出。

盡管上面對(duì)本發(fā)明說(shuō)明性的具體實(shí)施方式進(jìn)行了描述,以便于本技術(shù)領(lǐng)域的技術(shù)人員理解本發(fā)明,但應(yīng)該清楚,本發(fā)明不限于具體實(shí)施方式的范圍,對(duì)本技術(shù)領(lǐng)域的普通技術(shù)人員來(lái)講,只要各種變化在所附的權(quán)利要求限定和確定的本發(fā)明的精神和范圍內(nèi),這些變化是顯而易見(jiàn)的,一切利用本發(fā)明構(gòu)思的發(fā)明創(chuàng)造均在保護(hù)之列。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1