一種基于新詞的網(wǎng)絡(luò)輿情主題抽取方法與流程

文檔序號(hào)：11386709閱讀：307來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明屬于機(jī)器學(xué)習(xí)和信息挖掘技術(shù)領(lǐng)域，更為具體地講，涉及一種基于新詞的網(wǎng)絡(luò)輿情主題抽取方法。

背景技術(shù)：

主題是指文本的中心思想，泛指主要內(nèi)容。主題抽取技術(shù)是文本處理的基礎(chǔ)技術(shù)之一，目前國(guó)內(nèi)外主題抽取的普遍方法是應(yīng)用各種加權(quán)算法，計(jì)算詞對(duì)文本主題的貢獻(xiàn)大小，并選定貢獻(xiàn)大的詞作為主題詞，即由文本到關(guān)鍵詞再到主題詞的這樣一個(gè)過(guò)程。但此類的加權(quán)算法大都是統(tǒng)計(jì)和經(jīng)驗(yàn)的加權(quán)體系，并未考慮文本中詞與詞之間的關(guān)聯(lián)和聯(lián)系，尤其是在處理一個(gè)文本集的時(shí)候，每個(gè)文本長(zhǎng)短不一，攜帶的信息量也參差不齊，使加權(quán)算法普遍性不強(qiáng)。另有一種主題抽取方法是基于語(yǔ)義對(duì)文本進(jìn)行分析，但由于漢語(yǔ)語(yǔ)言知識(shí)的籠統(tǒng)、復(fù)雜性，難以將各種語(yǔ)言信息組織成機(jī)器可直接讀取的形式，因此目前還處于試驗(yàn)階段。

現(xiàn)有的主題抽取算法另一個(gè)缺陷是依賴對(duì)詞的選擇和處理，上面已經(jīng)提到主題抽取的過(guò)程是由文本到關(guān)鍵詞再到主題詞，在當(dāng)前中文文本處理領(lǐng)域，分詞也一直是文本處理的前提和基礎(chǔ)，分詞的漏檢和錯(cuò)誤會(huì)影響抽取的關(guān)鍵詞的性能，最終導(dǎo)致主題抽取的可讀性不強(qiáng)，甚至錯(cuò)誤。在網(wǎng)絡(luò)信息爆炸的現(xiàn)在，大量新詞的出現(xiàn)和流行，分詞的漏檢和錯(cuò)誤主要就表現(xiàn)在新詞的識(shí)別困難。

事實(shí)上，通過(guò)對(duì)網(wǎng)絡(luò)輿情的持續(xù)跟蹤和研究中發(fā)現(xiàn)，大多數(shù)網(wǎng)絡(luò)輿情的主題，或者熱點(diǎn)，本身就是一個(gè)新詞，這里的新詞指的是兩個(gè)含義，一個(gè)是字典中未登錄的詞，比如“十動(dòng)然拒”，另一個(gè)是兩個(gè)或多個(gè)字典中已登錄的詞組合而成的新詞，比如“閨蜜干政”。因此基于新詞發(fā)現(xiàn)的主題抽取能夠具有相當(dāng)高的可信度，尤其是在網(wǎng)絡(luò)輿情和新聞報(bào)導(dǎo)中，正確率能達(dá)到半數(shù)以上。

技術(shù)實(shí)現(xiàn)要素：

本發(fā)明的目的在于克服現(xiàn)有技術(shù)的不足，提供一種基于新詞的網(wǎng)絡(luò)輿情主題抽取方法，將文本的標(biāo)題作為處理對(duì)象，通過(guò)關(guān)聯(lián)規(guī)則挖掘詞與詞之間的關(guān)聯(lián)和聯(lián)系，實(shí)現(xiàn)新詞的發(fā)現(xiàn)和主題詞的抽取。

為實(shí)現(xiàn)上述發(fā)明目的，本發(fā)明一種基于新詞的網(wǎng)絡(luò)輿情主題抽取方法，其特征在于，包括以下步驟：

(1)、構(gòu)建一個(gè)空的主題詞典；

(2)、利用網(wǎng)絡(luò)爬蟲(chóng)從互聯(lián)網(wǎng)中爬取網(wǎng)絡(luò)新聞，對(duì)爬取的網(wǎng)絡(luò)新聞進(jìn)行去重處理后，將網(wǎng)絡(luò)新聞的標(biāo)題存入語(yǔ)料集中；

(3)、遍歷語(yǔ)料集中的每一個(gè)網(wǎng)絡(luò)新聞標(biāo)題，利用crf模型對(duì)網(wǎng)絡(luò)新聞標(biāo)題進(jìn)行分詞，把所有的分詞結(jié)果存入到數(shù)組1中；

(4)、設(shè)置數(shù)據(jù)挖掘算法fp-growth的支持度閾值，利用數(shù)據(jù)挖掘算法fp-growth挖掘出數(shù)組中的頻繁項(xiàng)集，得到由頻繁項(xiàng)集和對(duì)應(yīng)支持度組成的頻繁模式數(shù)組1；

(5)、篩選頻繁項(xiàng)集中項(xiàng)的個(gè)數(shù)為2的頻繁模式，得到頻繁模式數(shù)組2；

(6)、遍歷頻繁模式數(shù)組2，計(jì)算頻繁項(xiàng)集的置信度；

設(shè)該頻繁項(xiàng)集為m，其中的兩個(gè)項(xiàng)分別為a和b，那么該頻繁項(xiàng)集m對(duì)應(yīng)

的支持度s(m)為：

c(m)＝s(m)(s(m_a)+s(m_b))/(2s(m_a)s(m_b))

其中，s(m_a)和s(m_b)分別為頻繁模式數(shù)組1中項(xiàng)的個(gè)數(shù)為1且恰好為a和b的頻繁項(xiàng)集對(duì)應(yīng)的支持度；

判斷置信度是否大于預(yù)設(shè)的閾值，如果大于，則進(jìn)入步驟(7)；否則繼續(xù)遍歷頻繁模式數(shù)組，直到遍歷完成；

(7)、將頻繁項(xiàng)集的兩個(gè)項(xiàng)分別以正序和倒序組成兩個(gè)新詞，并加入到主題詞典中；

(8)、重新遍歷語(yǔ)料集中的每一個(gè)網(wǎng)絡(luò)新聞標(biāo)題，并檢索主題詞典，如果某一網(wǎng)絡(luò)新聞標(biāo)題中包含有主題詞典中的新詞，則以該新詞為斷點(diǎn)分割網(wǎng)絡(luò)新聞標(biāo)題，并進(jìn)入步驟(9)；如果某一網(wǎng)絡(luò)新聞標(biāo)題中不包含有主題詞典中的新詞，則進(jìn)入步驟(10)；

(9)、利用crf模型分別對(duì)分割后網(wǎng)絡(luò)新聞標(biāo)題進(jìn)行分詞，再將其對(duì)應(yīng)的分詞結(jié)果和斷點(diǎn)對(duì)應(yīng)的新詞作為網(wǎng)絡(luò)新聞標(biāo)題的最終分詞結(jié)果；

(10)、利用crf模型直接對(duì)網(wǎng)絡(luò)新聞標(biāo)題進(jìn)行分詞，得到最終分詞結(jié)果；

(11)、重復(fù)步驟(8)-(10)，直到所有的網(wǎng)絡(luò)新聞標(biāo)題遍歷結(jié)束后，將所有的最終分詞結(jié)果存入到數(shù)組2中，同時(shí)刪除主題詞典中未被檢索出的新詞，再進(jìn)入步驟(12)；

(12)、將數(shù)組1和數(shù)組2中的每一項(xiàng)進(jìn)行一一比對(duì)，如果每一項(xiàng)均相同，則網(wǎng)絡(luò)輿情主題抽取結(jié)束，并進(jìn)入步驟(13)；如果有某一項(xiàng)不相同，令數(shù)組1等于數(shù)組2再返回步驟(4)；

(13)、輸出主題詞典

(13.1)、將數(shù)組1中的所有詞并入到最小顆粒詞集合中，再標(biāo)記出該集合中每一個(gè)詞的詞性；

(13.2)、計(jì)算主題詞典中所有新詞的平均實(shí)詞匹配度：設(shè)主題詞典中某一新詞為topic，其中有n個(gè)網(wǎng)絡(luò)新聞標(biāo)題包含該新詞topic，記為t1,t2,...tn；

計(jì)算新詞topic的平均實(shí)詞匹配度anmd(topic)：

anmd(topic)＝(n(topic)/n(t1)+(n(topic)/n(t2)+...+(n(topic)/n(tn))/n；

其中，n(topic)為拼成新詞topic的最小顆粒詞集合中使用實(shí)詞的個(gè)數(shù)，n(t1),n(t2),...n(tn)分別為對(duì)應(yīng)網(wǎng)絡(luò)新聞標(biāo)題在最小顆粒詞集合中使用實(shí)詞的個(gè)數(shù)；

(13.3)、將主題詞典中所有新詞按平均實(shí)詞匹配度大小進(jìn)行降序排列，再按排列后的順序進(jìn)行輸出。

本發(fā)明的發(fā)明目的是這樣實(shí)現(xiàn)的：

本發(fā)明一種基于新詞的網(wǎng)絡(luò)輿情主題抽取方法，通過(guò)兩個(gè)或兩個(gè)以上的關(guān)鍵詞拼接得到的新詞作為主題詞；其中，對(duì)于關(guān)鍵詞的選取，需要考慮代表文章的中心和主旨的文本標(biāo)題，文本標(biāo)題分得的詞作為文本的關(guān)鍵詞，同時(shí)還提高算法效率和減少因?yàn)槲谋静町悓?duì)主題抽取的影響；同時(shí)，本發(fā)明以平均實(shí)詞匹配度來(lái)量化這些新詞對(duì)于網(wǎng)絡(luò)輿情的主題的貢獻(xiàn)程度，平均實(shí)詞匹配度越高表示新詞對(duì)于網(wǎng)絡(luò)輿情的主題的貢獻(xiàn)程度越大，因而，具有相當(dāng)高的可信度，能夠適應(yīng)當(dāng)今網(wǎng)絡(luò)輿情日益增長(zhǎng)的趨勢(shì)。

同時(shí)，本發(fā)明一種基于新詞的網(wǎng)絡(luò)輿情主題抽取方法還具有以下有益效果：

(1)、基于crf模型的中文分詞方法，在現(xiàn)在的中文分詞領(lǐng)域，crf代表了新一代的機(jī)器學(xué)習(xí)技術(shù)，其基本思路是對(duì)漢字進(jìn)行標(biāo)注即由字構(gòu)詞(組詞)，不僅考慮了文字詞語(yǔ)出現(xiàn)的頻率信息，同時(shí)考慮上下文語(yǔ)境，具備較好的學(xué)習(xí)能力，從而避免了詞典存在的不足，并且增加了對(duì)歧義詞和未登錄詞的識(shí)別，提高了分詞的可讀性和主題抽取的質(zhì)量；

(2)、基于fp-tree關(guān)聯(lián)規(guī)則的合成主題詞方法，在數(shù)據(jù)挖掘領(lǐng)域，數(shù)據(jù)項(xiàng)之間的關(guān)聯(lián)規(guī)則稱為關(guān)聯(lián)模式，fp-growth算法使其中的主要算法之一。利用fp-growth算法可以挖掘出關(guān)鍵詞之間的關(guān)聯(lián)和聯(lián)系，從而提高了主題抽取的準(zhǔn)確率。

附圖說(shuō)明

圖1是本發(fā)明一種基于新詞的網(wǎng)絡(luò)輿情主題抽取方法流程圖；

圖2是crf分詞模型的訓(xùn)練流程圖。

具體實(shí)施方式

下面結(jié)合附圖對(duì)本發(fā)明的具體實(shí)施方式進(jìn)行描述，以便本領(lǐng)域的技術(shù)人員更好地理解本發(fā)明。需要特別提醒注意的是，在以下的描述中，當(dāng)已知功能和設(shè)計(jì)的詳細(xì)描述也許會(huì)淡化本發(fā)明的主要內(nèi)容時(shí)，這些描述在這里將被忽略。

實(shí)施例

圖1是本發(fā)明一種基于新詞的網(wǎng)絡(luò)輿情主題抽取方法流程圖。

在本實(shí)施例中，如圖1所示，本發(fā)明一種基于新詞的網(wǎng)絡(luò)輿情主題抽取方法，包括以下步驟：

s1、構(gòu)建一個(gè)空的主題詞典；

s2、利用網(wǎng)絡(luò)爬蟲(chóng)從互聯(lián)網(wǎng)中爬取網(wǎng)絡(luò)新聞，對(duì)爬取的網(wǎng)絡(luò)新聞進(jìn)行去重處理后，將網(wǎng)絡(luò)新聞的標(biāo)題存入語(yǔ)料集中；例如：通過(guò)爬蟲(chóng)爬取新浪、百度、騰訊……，爬取當(dāng)日的網(wǎng)絡(luò)新聞，再對(duì)相同的網(wǎng)絡(luò)新聞進(jìn)行去重；

s3、遍歷語(yǔ)料集中的每一個(gè)網(wǎng)絡(luò)新聞標(biāo)題，利用crf分詞模型對(duì)網(wǎng)絡(luò)新聞標(biāo)題進(jìn)行分詞，把所有的分詞結(jié)果存入到數(shù)組1中；

在本實(shí)施例中，crf分詞模型的訓(xùn)練步驟為：

1)、提取語(yǔ)料集中的每一個(gè)網(wǎng)絡(luò)新聞標(biāo)題；

2)、對(duì)每一個(gè)網(wǎng)絡(luò)新聞標(biāo)題進(jìn)行半自動(dòng)的分塊和標(biāo)注，即模型給出候選結(jié)果，人工進(jìn)行判別、修改和再標(biāo)注，得到標(biāo)注集；

3)、隨機(jī)選擇一部分標(biāo)注集在條件隨機(jī)場(chǎng)中進(jìn)行訓(xùn)練，其余的標(biāo)注集在所述條件隨機(jī)場(chǎng)中進(jìn)行測(cè)試，最終得到訓(xùn)練好的crf分詞模型；

s4、設(shè)置數(shù)據(jù)挖掘算法fp-growth(frequentpattern-growth)的支持度閾值，利用數(shù)據(jù)挖掘算法fp-growth挖掘出數(shù)組中的頻繁項(xiàng)集，得到由頻繁項(xiàng)集和對(duì)應(yīng)支持度組成的頻繁模式數(shù)組1；

s5、篩選頻繁項(xiàng)集中項(xiàng)的個(gè)數(shù)為2的頻繁模式，得到頻繁模式數(shù)組2；

s6、遍歷頻繁模式數(shù)組2，計(jì)算頻繁項(xiàng)集的置信度；

設(shè)該頻繁項(xiàng)集為m，其中的兩個(gè)項(xiàng)分別為a和b，那么該頻繁項(xiàng)集m對(duì)應(yīng)

的支持度s(m)為：

c(m)＝s(m)(s(m_a)+s(m_b))/(2s(m_a)s(m_b))

其中，s(m_a)和s(m_b)分別為頻繁模式數(shù)組1中項(xiàng)的個(gè)數(shù)為1且恰好為a和b的頻繁項(xiàng)集對(duì)應(yīng)的支持度；

判斷置信度是否大于預(yù)設(shè)的閾值，如果大于，則進(jìn)入步驟s7；否則繼續(xù)遍歷頻繁模式數(shù)組，直到遍歷完成；

s7、將頻繁項(xiàng)集的兩個(gè)項(xiàng)分別以正序和倒序組成兩個(gè)新詞，并加入到主題詞典中；

s8、重新遍歷語(yǔ)料集中的每一個(gè)網(wǎng)絡(luò)新聞標(biāo)題，并檢索主題詞典，如果某一網(wǎng)絡(luò)新聞標(biāo)題中包含有主題詞典中的新詞，則以該新詞為斷點(diǎn)分割網(wǎng)絡(luò)新聞標(biāo)題，并進(jìn)入步驟s9；如果某一網(wǎng)絡(luò)新聞標(biāo)題中不包含有主題詞典中的新詞，則進(jìn)入步驟s10；

其中，檢索主題詞典時(shí)，如果主題詞典中的兩個(gè)及以上的新詞有重疊的部分，則取最后被檢索出的新詞作為斷點(diǎn)；

在本實(shí)施例中，如果兩個(gè)及以上的新詞在文本中有重疊的部分，則選取檢索到的最后一個(gè)新詞作為斷點(diǎn)，忽略其他的新詞，如文本為：“華為超三星成最賺錢安卓手機(jī)”中，主題詞典同時(shí)包含了新詞“超三星”和“華為超三星”，由于“華為超三星”是后加入詞典的新詞，最后被檢索出來(lái)，因此選取“華為超三星”作為文本的斷點(diǎn)；

s9、利用crf分詞模型分別對(duì)分割后網(wǎng)絡(luò)新聞標(biāo)題進(jìn)行分詞，再將其對(duì)應(yīng)的分詞結(jié)果和斷點(diǎn)對(duì)應(yīng)的新詞作為網(wǎng)絡(luò)新聞標(biāo)題的最終分詞結(jié)果；

s10、利用crf模型直接對(duì)網(wǎng)絡(luò)新聞標(biāo)題進(jìn)行分詞，得到最終分詞結(jié)果；

s11、重復(fù)步驟s8-s10，直到所有的網(wǎng)絡(luò)新聞標(biāo)題遍歷結(jié)束后，將所有的最終分詞結(jié)果存入到數(shù)組2中，同時(shí)刪除主題詞典中未被檢索出的新詞，再進(jìn)入步驟s12；

s12、將數(shù)組1和數(shù)組2中的每一項(xiàng)進(jìn)行一一比對(duì)，如果每一項(xiàng)均相同，則網(wǎng)絡(luò)輿情主題抽取結(jié)束，并進(jìn)入步驟s13；如果有某一項(xiàng)不相同，令數(shù)組1等于數(shù)組2再返回步驟s4；

s13、輸出主題詞典

s13.1、將數(shù)組1中的所有詞并入到最小顆粒詞集合中，再標(biāo)記出該集合中每一個(gè)詞的詞性；

s13.2、計(jì)算主題詞典中所有新詞的平均實(shí)詞匹配度：設(shè)主題詞典中某一新詞為topic，其中有n個(gè)網(wǎng)絡(luò)新聞標(biāo)題包含該新詞topic，記為t1,t2,...tn；

計(jì)算新詞topic的平均實(shí)詞匹配度anmd(topic)：

anmd(topic)＝(n(topic)/n(t1)+(n(topic)/n(t2)+...+(n(topic)/n(tn))/n；

s13.3、將主題詞典中所有新詞按平均實(shí)詞匹配度大小進(jìn)行降序排列，再按排列后的順序進(jìn)行輸出。

盡管上面對(duì)本發(fā)明說(shuō)明性的具體實(shí)施方式進(jìn)行了描述，以便于本技術(shù)領(lǐng)域的技術(shù)人員理解本發(fā)明，但應(yīng)該清楚，本發(fā)明不限于具體實(shí)施方式的范圍，對(duì)本技術(shù)領(lǐng)域的普通技術(shù)人員來(lái)講，只要各種變化在所附的權(quán)利要求限定和確定的本發(fā)明的精神和范圍內(nèi)，這些變化是顯而易見(jiàn)的，一切利用本發(fā)明構(gòu)思的發(fā)明創(chuàng)造均在保護(hù)之列。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：孫健;陸川;朱煜松
技術(shù)所有人：成都云數(shù)未來(lái)信息科學(xué)有限公司
我是此專利的發(fā)明人

上一篇：一種基于手機(jī)信令數(shù)據(jù)的人口識(shí)別方法與流程
上一篇：一種RS485線路選擇器電路的制造方法與工藝

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

網(wǎng)絡(luò)新詞相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于新詞的網(wǎng)絡(luò)輿情主題抽取方法與流程