互聯(lián)網(wǎng)信息存儲(chǔ)系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及數(shù)據(jù)采集與分析,特別涉及一種互聯(lián)網(wǎng)信息存儲(chǔ)系統(tǒng)。
【背景技術(shù)】
[0002] 與原有傳統(tǒng)互聯(lián)網(wǎng)形態(tài)相比,當(dāng)今的互聯(lián)網(wǎng)形態(tài)已經(jīng)發(fā)生了巨變,隨身移動(dòng)設(shè)備 的不斷推新,人們已經(jīng)脫離了老式臺(tái)式機(jī)的傳統(tǒng)有線(xiàn)上網(wǎng)模式,移動(dòng)設(shè)備的功能層出不窮, 拍照、拍攝視頻已經(jīng)是最基本的功能。人們可以通過(guò)移動(dòng)設(shè)備拍攝周?chē)l(fā)生的事情,并且可 以直接上傳到互聯(lián)網(wǎng)中,其信息的傳播速度迅速之極,如果沒(méi)有合理進(jìn)行監(jiān)測(cè),可能會(huì)出現(xiàn) 非法信息,錯(cuò)誤引導(dǎo)公眾的判斷,導(dǎo)致輿論走向錯(cuò)誤的方向。在輿情檢測(cè)中,數(shù)據(jù)采集功能 尤為重要,所有數(shù)據(jù)在采集后,因?yàn)閿?shù)據(jù)量極大,需要借助技術(shù)手段,在有限的時(shí)間內(nèi),分析 出有用的數(shù)據(jù)。然而現(xiàn)有的信息監(jiān)測(cè)系統(tǒng)僅應(yīng)用單一的采集方式,只能滿(mǎn)足某種特定的信 息分析,不能滿(mǎn)足現(xiàn)在互聯(lián)網(wǎng)中多元化信息分析的需求。
【發(fā)明內(nèi)容】
[0003] 為解決上述現(xiàn)有技術(shù)所存在的問(wèn)題,本發(fā)明提出了一種互聯(lián)網(wǎng)信息存儲(chǔ)系統(tǒng),包 括:
[0004] 數(shù)據(jù)存儲(chǔ)層,用于提供數(shù)據(jù)庫(kù)管理,對(duì)所采集的數(shù)據(jù)進(jìn)行存儲(chǔ)規(guī)劃;通過(guò)分布式計(jì) 算實(shí)現(xiàn)各個(gè)子系統(tǒng)內(nèi)部和子系統(tǒng)之間的不同節(jié)點(diǎn)上的對(duì)象調(diào)用;對(duì)各個(gè)子系統(tǒng)進(jìn)行參數(shù)配 置,監(jiān)控系統(tǒng)各個(gè)組成部分的運(yùn)行情況,管理用戶(hù)及其權(quán)限;
[0005] 數(shù)據(jù)處理層,用于進(jìn)行數(shù)據(jù)采集,對(duì)網(wǎng)絡(luò)內(nèi)容進(jìn)行增量式抓??;實(shí)現(xiàn)數(shù)據(jù)迀移、備 份和清洗;對(duì)監(jiān)測(cè)對(duì)象的基本信息和進(jìn)一步分析出的信息進(jìn)行管理;
[0006] 監(jiān)測(cè)分析層,用于對(duì)采集到的數(shù)據(jù)進(jìn)行分析,抽取特征,建立數(shù)據(jù)索引,對(duì)采集到 的網(wǎng)絡(luò)內(nèi)容進(jìn)行統(tǒng)計(jì)歸類(lèi);
[0007] 用戶(hù)接口層,提供管理功能的操作界面,顯示信息采集、信息統(tǒng)計(jì)、信息識(shí)別和分 析的結(jié)果,進(jìn)行系統(tǒng)維護(hù)操作。
[0008] 優(yōu)選地,所述監(jiān)測(cè)分析層進(jìn)一步包括:
[0009] 視頻采集模塊,用于通過(guò)關(guān)鍵詞,對(duì)視頻網(wǎng)絡(luò)內(nèi)容進(jìn)行內(nèi)容采集,返回包含指定關(guān) 鍵詞的視頻文件,以及相應(yīng)文件內(nèi)的時(shí)間信息;通過(guò)關(guān)鍵幀對(duì)視頻網(wǎng)絡(luò)內(nèi)容進(jìn)行內(nèi)容采集, 返回包含指定關(guān)鍵幀的視頻文件,以及相應(yīng)文件內(nèi)的時(shí)間信息;通過(guò)特定視頻片段,在本地 視頻數(shù)據(jù)庫(kù)中采集包含相同的視頻片段的視頻網(wǎng)絡(luò)內(nèi)容,通過(guò)WEB界面顯示采集到的結(jié)果 視頻的摘要及關(guān)鍵幀全景圖;
[0010] 音頻采集模塊,用于對(duì)互聯(lián)網(wǎng)語(yǔ)音和音頻文件建立內(nèi)容索引,進(jìn)行特定內(nèi)容音頻 采集,通過(guò)對(duì)特定內(nèi)容音頻信息的采集,實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)音頻信息的監(jiān)測(cè),所述特定內(nèi)容音頻信 息包括特定關(guān)鍵詞、特定說(shuō)話(huà)人,或者特定音頻片段;
[0011] 文本采集模塊,包括話(huà)題采集單元,話(huà)題趨向分析單元,關(guān)鍵詞過(guò)濾匹配單元,其 中:
[0012] 所述話(huà)題采集單元用于對(duì)指定的網(wǎng)站進(jìn)行流量訪問(wèn)量統(tǒng)計(jì)、采集排名位置,從第 三方所公布的網(wǎng)絡(luò)內(nèi)容獲取相關(guān)數(shù)據(jù);
[0013] 所述話(huà)題趨向分析單元用于對(duì)網(wǎng)絡(luò)內(nèi)容中關(guān)鍵詞的所有情感詞匯趨向性的統(tǒng)計(jì) 加權(quán),通過(guò)對(duì)比和分析用戶(hù)話(huà)題的趨向性矢量來(lái)完成話(huà)題的趨向性分析。
[0014] 所述關(guān)鍵詞過(guò)濾匹配單元用于通過(guò)關(guān)鍵字匹配,檢測(cè)網(wǎng)絡(luò)內(nèi)容中是否包含非法內(nèi) 容并進(jìn)行過(guò)濾;通過(guò)組合條件對(duì)關(guān)鍵字進(jìn)行配置,并根據(jù)關(guān)鍵字時(shí)效性配置有效周期。
[0015] 本發(fā)明相比現(xiàn)有技術(shù),具有以下優(yōu)點(diǎn):
[0016] 本發(fā)明提出了一種互聯(lián)網(wǎng)信息存儲(chǔ)系統(tǒng),對(duì)互聯(lián)網(wǎng)輿情進(jìn)行多維監(jiān)測(cè),有效采集 和分析出敏感信息,提高了查準(zhǔn)率和查全率。
【附圖說(shuō)明】
[0017] 圖1是根據(jù)本發(fā)明實(shí)施例的互聯(lián)網(wǎng)信息存儲(chǔ)系統(tǒng)的模塊圖。
【具體實(shí)施方式】
[0018] 下文與圖示本發(fā)明原理的附圖一起提供對(duì)本發(fā)明一個(gè)或者多個(gè)實(shí)施例的詳細(xì)描 述。結(jié)合這樣的實(shí)施例描述本發(fā)明,但是本發(fā)明不限于任何實(shí)施例。本發(fā)明的范圍僅由權(quán) 利要求書(shū)限定,并且本發(fā)明涵蓋諸多替代、修改和等同物。在下文描述中闡述諸多具體細(xì)節(jié) 以便提供對(duì)本發(fā)明的透徹理解。出于示例的目的而提供這些細(xì)節(jié),并且無(wú)這些具體細(xì)節(jié)中 的一些或者所有細(xì)節(jié)也可以根據(jù)權(quán)利要求書(shū)實(shí)現(xiàn)本發(fā)明。
[0019] 本發(fā)明的一方面提供了一種互聯(lián)網(wǎng)信息存儲(chǔ)系統(tǒng)。圖1是根據(jù)本發(fā)明實(shí)施例的互 聯(lián)網(wǎng)信息存儲(chǔ)系統(tǒng)模塊圖。
[0020] 本發(fā)明把多種信息采集的方式綜合在一起,將其在信息監(jiān)測(cè)中實(shí)現(xiàn)。考慮到對(duì)內(nèi) 容方面的監(jiān)測(cè),本發(fā)明還需要對(duì)內(nèi)容中的敏感信息進(jìn)行審核,互聯(lián)網(wǎng)中的大型網(wǎng)站提供很 多熱點(diǎn)詞匯的推薦,這些數(shù)據(jù)很有可能就是本發(fā)明關(guān)心的關(guān)鍵詞匯,即關(guān)鍵字,這些數(shù)據(jù)本 發(fā)明也需要及時(shí)的采集下來(lái)。其次在監(jiān)測(cè)工作中,信息監(jiān)測(cè)中選擇的對(duì)象是互聯(lián)網(wǎng)中門(mén)戶(hù) 網(wǎng)站,針對(duì)某一個(gè)地區(qū)的信息進(jìn)行實(shí)時(shí)推送。系統(tǒng)按照本發(fā)明配置的規(guī)則,定期抓取關(guān)注的 信息,通過(guò)各種分析手段,提示用戶(hù)注意匹配上的數(shù)據(jù)信息進(jìn)行審核。
[0021] 在信息監(jiān)測(cè)系統(tǒng)中,系統(tǒng)分為四個(gè)層次,自底向上依次為數(shù)據(jù)存儲(chǔ)層、數(shù)據(jù)處理 層、監(jiān)測(cè)分析層、用戶(hù)接口層。
[0022] 數(shù)據(jù)存儲(chǔ)層提供數(shù)據(jù)庫(kù)管理功能,需要對(duì)采集的數(shù)據(jù)有合理的存儲(chǔ)規(guī)劃;分布式 計(jì)算能力,實(shí)現(xiàn)各個(gè)子系統(tǒng)內(nèi)部和子系統(tǒng)之間的不同節(jié)點(diǎn)上的對(duì)象調(diào)用;系統(tǒng)維護(hù),可以對(duì) 各個(gè)子系統(tǒng)進(jìn)行參數(shù)配置,監(jiān)控系統(tǒng)各個(gè)組成部分的運(yùn)行情況,管理用戶(hù)及其權(quán)限等。
[0023] 數(shù)據(jù)處理層提供數(shù)據(jù)采集能力,可以對(duì)重點(diǎn)網(wǎng)站的網(wǎng)絡(luò)內(nèi)容及音視頻內(nèi)容進(jìn)行增 量式抓??;數(shù)據(jù)存儲(chǔ),可以管理外部存儲(chǔ)系統(tǒng),能夠?qū)崿F(xiàn)數(shù)據(jù)迀移、備份和清洗的功能;數(shù) 據(jù)管理功能,可以對(duì)網(wǎng)站、網(wǎng)絡(luò)內(nèi)容、視音頻網(wǎng)絡(luò)內(nèi)容等監(jiān)測(cè)對(duì)象的基本信息和進(jìn)一步分析 出的信息進(jìn)行管理,如查詢(xún)、修改、刪除、添加。并支持手動(dòng)導(dǎo)入音視頻網(wǎng)絡(luò)內(nèi)容。
[0024] 監(jiān)測(cè)分析層進(jìn)行內(nèi)容分析,對(duì)采集到的文本、音頻、視頻數(shù)據(jù)進(jìn)行分析,抽取特征, 建立數(shù)據(jù)索引,識(shí)別非法信息和跟蹤熱點(diǎn)、敏感詞等;信息采集,是基于關(guān)鍵詞、樣例圖片、 樣例音頻、樣例視頻,來(lái)進(jìn)行內(nèi)容采集;信息統(tǒng)計(jì),根據(jù)監(jiān)測(cè)業(yè)務(wù)的需要,對(duì)采集到的視音頻 網(wǎng)站、網(wǎng)絡(luò)內(nèi)容、和非法信息進(jìn)行統(tǒng)計(jì)歸類(lèi)。
[0025] 用戶(hù)接口層提供各個(gè)管理功能友好的操作界面,顯示信息采集、信息統(tǒng)計(jì)、非法信 息識(shí)別和分析的結(jié)果,進(jìn)行系統(tǒng)維護(hù)等多項(xiàng)操作;
[0026] 系統(tǒng)接口為相關(guān)系統(tǒng)提供統(tǒng)一的服務(wù),便于整合監(jiān)測(cè)業(yè)務(wù)的其他系統(tǒng),提高各業(yè) 務(wù)系統(tǒng)的集成性