亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

互聯(lián)網(wǎng)數(shù)據(jù)分析系統(tǒng)的制作方法

文檔序號(hào):8487918閱讀:357來(lái)源:國(guó)知局
互聯(lián)網(wǎng)數(shù)據(jù)分析系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及數(shù)據(jù)采集與分析,特別涉及一種互聯(lián)網(wǎng)數(shù)據(jù)分析系統(tǒng)。
【背景技術(shù)】
[0002] 與原有傳統(tǒng)互聯(lián)網(wǎng)形態(tài)相比,當(dāng)今的互聯(lián)網(wǎng)形態(tài)已經(jīng)發(fā)生了巨變,隨身移動(dòng)設(shè)備 的不斷推新,人們已經(jīng)脫離了老式臺(tái)式機(jī)的傳統(tǒng)有線上網(wǎng)模式,移動(dòng)設(shè)備的功能層出不窮, 拍照、拍攝視頻已經(jīng)是最基本的功能。人們可以通過移動(dòng)設(shè)備拍攝周圍發(fā)生的事情,并且可 以直接上傳到互聯(lián)網(wǎng)中,其信息的傳播速度迅速之極,如果沒有合理進(jìn)行監(jiān)測(cè),可能會(huì)出現(xiàn) 非法信息,錯(cuò)誤引導(dǎo)公眾的判斷,導(dǎo)致輿論走向錯(cuò)誤的方向。在在輿情檢測(cè)中,數(shù)據(jù)采集功 能尤為重要,所有數(shù)據(jù)在采集后,因?yàn)閿?shù)據(jù)量極大,需要借助技術(shù)手段,在有限的時(shí)間內(nèi),分 析出有用的數(shù)據(jù)。然而現(xiàn)有的信息監(jiān)測(cè)系統(tǒng)僅應(yīng)用單一的采集方式,只能滿足某種特定的 信息分析,不能滿足現(xiàn)在互聯(lián)網(wǎng)中多元化信息分析的需求。

【發(fā)明內(nèi)容】

[0003] 為解決上述現(xiàn)有技術(shù)所存在的問題,本發(fā)明提出了一種互聯(lián)網(wǎng)數(shù)據(jù)分析系統(tǒng),包 括:
[0004] 相關(guān)性計(jì)算模塊,用于將隨機(jī)選擇的被選待識(shí)別文本和剩余的待識(shí)別文本分別作 為觀測(cè)序列和狀態(tài)序列,計(jì)算被選待識(shí)別文本和其余待識(shí)別文本間的相關(guān)性概率值;
[0005] 分類和識(shí)別模塊,用于將狀態(tài)序列中相關(guān)性最高的文本和被選待識(shí)別文本合并, 表征為第一類型,同時(shí)將相關(guān)性最低的文本作為第二類型;將第一和第二類型作為新的狀 態(tài)序列,將剩余的待識(shí)別文本作為新的觀測(cè)序列進(jìn)行迭代,以實(shí)現(xiàn)敏感詞匯的識(shí)別。
[0006] 優(yōu)選地,所述相關(guān)性計(jì)算模塊進(jìn)一步包括:
[0007] 文本表示模塊,用于將待識(shí)別文本表示為矢量空間模型;其中,所有待識(shí)別文本表 示為T n= {tpW^tyW^…;ti,wj,特征詞同時(shí)出現(xiàn)在待識(shí)別文本和詞庫(kù)中,計(jì)算其權(quán) 重&并為該權(quán)重引入敏感系數(shù)0 i:
【主權(quán)項(xiàng)】
1. 一種互聯(lián)網(wǎng)數(shù)據(jù)分析系統(tǒng),其特征在于,包括: 相關(guān)性計(jì)算模塊,用于將隨機(jī)選擇的被選待識(shí)別文本和剩余的待識(shí)別文本分別作為觀 測(cè)序列和狀態(tài)序列,計(jì)算被選待識(shí)別文本和其余待識(shí)別文本間的相關(guān)性概率值; 分類和識(shí)別模塊,用于將狀態(tài)序列中相關(guān)性最高的文本和被選待識(shí)別文本合并,表征 為第一類型,同時(shí)將相關(guān)性最低的文本作為第二類型;將第一和第二類型作為新的狀態(tài)序 列,將剩余的待識(shí)別文本作為新的觀測(cè)序列進(jìn)行迭代,以實(shí)現(xiàn)敏感詞匯的識(shí)別。
2. 根據(jù)權(quán)利要求1所述的系統(tǒng),其特征在于,所述相關(guān)性計(jì)算模塊進(jìn)一步包括: 文本表示模塊,用于將待識(shí)別文本表示為矢量空間模型;其中,所有待識(shí)別文本表示為 Tn={t^w1;t2,w2;…;ti,wj,特征詞心同時(shí)出現(xiàn)在待識(shí)別文本和詞庫(kù)中,計(jì)算其權(quán)重wi并為該權(quán)重引入敏感系數(shù)0i:
其中:tfni表示第n個(gè)文檔中關(guān)鍵詞ti出現(xiàn)的頻率;K表示總文檔數(shù);ki表示含有關(guān)鍵 詞h的文檔數(shù),并且敏感系數(shù)0i表示為: i=-P(Cm)logP(Cm)+P(tt |Cm)logP(tt |Cm)+P(t?i|Cm)logP(t?i|Cm) 其中:表示屬于第m類敏感詞匯的文本數(shù);P(t」CJ表示屬于第m類敏感詞匯并 包含關(guān)鍵詞h的文本數(shù);P(t'」(;)表示屬于第m類敏感詞匯但不包含關(guān)鍵詞&的文本數(shù)。
3. 根據(jù)權(quán)利要求2所述的系統(tǒng),其特征在于,所述相關(guān)性計(jì)算模塊進(jìn)一步用于: 將yi,y2,…,yn作為敏感詞匯類型特征,y={y1,yy…,yJ作為矢量空間模型表示 的一個(gè)敏感詞匯的類型;將XpX2,…,待識(shí)別文本的特征,X= {Xi,X2,…,xj是用矢 量空間模型表示的一個(gè)待識(shí)別文本,觀測(cè)序列X對(duì)應(yīng)參數(shù)集合A={Ai,…,Aj}的指定 狀態(tài)y的條件概率為:
其中4為特征函數(shù)J 通過訓(xùn)練得到的特征函數(shù)的權(quán)值;Z(x)為正則化系數(shù),并 且:
4. 根據(jù)權(quán)利要求3所述的系統(tǒng),其特征在于,所述分類和識(shí)別模塊進(jìn)一步配置為: 從K個(gè)待識(shí)別文本中隨機(jī)挑出1個(gè)作為觀測(cè)輸入序列s,剩余的K-1個(gè)待識(shí)別文本作為K-1個(gè)輸出類狀態(tài)列,計(jì)算輸入序列中的文檔和輸出序列中文檔之間的概率值,直到識(shí)別出 所有敏感詞匯的類型: a) 將得到的K-1個(gè)概率值排序,最大概率值所對(duì)應(yīng)的文本與輸入觀測(cè)序列中的文本歸 并為一類并記做類Q,同時(shí)將最小概率值對(duì)應(yīng)的文本記做類C2; b) 將剩余的K-3個(gè)待識(shí)別文本作為輸入觀測(cè)序列,CdPC2作為輸出類狀態(tài)列,這樣得 到待識(shí)別文本隸屬于CdPC2類的兩個(gè)概率值; C)對(duì)每個(gè)待識(shí)別文本與輸出類狀態(tài)列的各個(gè)概率值求方差并排序; d) 查看最小方差值所對(duì)應(yīng)的文本的所有概率值,若其中最小的概率值小于某一閾值 9,則將其作為一個(gè)新的類C3;否則,查看方差值位于第二位的文本,直到找到概率值小于 閾值9的文本,同時(shí)將最大方差值所對(duì)應(yīng)的文本歸并到最大概率所對(duì)應(yīng)的類型; e) 重復(fù)步驟b)~d),直到所有的文本都被歸類。
【專利摘要】本發(fā)明提供了一種互聯(lián)網(wǎng)數(shù)據(jù)分析系統(tǒng),該系統(tǒng)包括:相關(guān)性計(jì)算模塊,用于將隨機(jī)選擇的被選待識(shí)別文本和剩余的待識(shí)別文本分別作為觀測(cè)序列和狀態(tài)序列,計(jì)算被選待識(shí)別文本和其余待識(shí)別文本間的相關(guān)性概率值;分類和識(shí)別模塊,用于將狀態(tài)序列中相關(guān)性最高的文本和被選待識(shí)別文本合并,表征為第一類型,同時(shí)將相關(guān)性最低的文本作為第二類型;將第一和第二類型作為新的狀態(tài)序列,將剩余的待識(shí)別文本作為新的觀測(cè)序列進(jìn)行迭代,以實(shí)現(xiàn)敏感詞匯的識(shí)別。本發(fā)明提出了一種信息監(jiān)測(cè)分析系統(tǒng),對(duì)互聯(lián)網(wǎng)輿情進(jìn)行多維監(jiān)測(cè),有效采集和分析出敏感信息,提高了查準(zhǔn)率和查全率。
【IPC分類】G06F17-30, G06F17-27
【公開號(hào)】CN104809253
【申請(qǐng)?zhí)枴緾N201510257964
【發(fā)明人】張鵬
【申請(qǐng)人】成都布林特信息技術(shù)有限公司
【公開日】2015年7月29日
【申請(qǐng)日】2015年5月20日
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1