和擴(kuò)展性。
[0027] 在信息采集過程中,視頻采集模塊能夠通過業(yè)務(wù)人員提交的關(guān)鍵詞,對(duì)視頻網(wǎng)絡(luò) 內(nèi)容進(jìn)行內(nèi)容采集,返回包含指定關(guān)鍵詞的視頻文件,以及相應(yīng)文件內(nèi)的時(shí)間信息。通過 業(yè)務(wù)人員提交的關(guān)鍵幀,對(duì)視頻網(wǎng)絡(luò)內(nèi)容進(jìn)行內(nèi)容采集,返回包含指定關(guān)鍵幀的視頻文件, 以及相應(yīng)文件內(nèi)的時(shí)間信息。能夠通過業(yè)務(wù)人員提交的特定視頻片段,在本地視頻數(shù)據(jù)庫 中采集包含相同的視頻片段的視頻網(wǎng)絡(luò)內(nèi)容,并進(jìn)而發(fā)現(xiàn)該視頻網(wǎng)絡(luò)內(nèi)容在網(wǎng)上的分布情 況。找到的視頻片段與查詢樣本的內(nèi)容一致,但是在形式上允許存在區(qū)別。業(yè)務(wù)人員可以 通過WEB界面,查看采集到的結(jié)果視頻的摘要及關(guān)鍵幀全景圖,關(guān)鍵幀可進(jìn)行定位播放并 且觀看、轉(zhuǎn)存結(jié)果視頻??梢栽谝曨l大屏上直接點(diǎn)擊出現(xiàn)該視頻片段的視頻網(wǎng)絡(luò)內(nèi)容。
[0028] 音頻采集模塊,對(duì)互聯(lián)網(wǎng)語音和音頻文件建立內(nèi)容索引,支持用戶進(jìn)行特定內(nèi)容 音頻采集。通過對(duì)特定內(nèi)容音頻信息(或者說敏感信息)的采集,實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)音頻信息的 監(jiān)測。特定內(nèi)容的語音和音頻信息可以有多種形式,可以是特定關(guān)鍵詞,或者特定說話人, 或者特定音頻片段。
[0029] 當(dāng)用戶提交關(guān)鍵詞文本,系統(tǒng)能夠返回包含指定關(guān)鍵詞的互聯(lián)網(wǎng)音頻文件,并定 位在文件內(nèi)的時(shí)間信息。當(dāng)用戶提交某個(gè)特定說話人的語音樣本,系統(tǒng)能夠返回包含指定 說話人的互聯(lián)網(wǎng)音頻文件,并定位在文件內(nèi)的時(shí)間信息。當(dāng)用戶提交某個(gè)特定音頻片段,系 統(tǒng)能夠返回包含指定音頻片段的互聯(lián)網(wǎng)音頻文件,并定位在文件內(nèi)的時(shí)間信息。
[0030] 文本采集模塊,包括話題采集單元,話題趨向分析單元,關(guān)鍵詞過濾匹配單元。其 中:
[0031] 話題采集單元根據(jù)監(jiān)測業(yè)務(wù)需要對(duì)指定的網(wǎng)站進(jìn)行流量訪問量統(tǒng)計(jì)、采集排名位 置等,自動(dòng)從第三方所公布的網(wǎng)絡(luò)內(nèi)容,門戶網(wǎng)站,搜索引擎以及大網(wǎng)站網(wǎng)絡(luò)等渠道獲取相 關(guān)數(shù)據(jù)??梢酝ㄟ^輸入指定的網(wǎng)站名稱、采集第三方公布排名信息的網(wǎng)絡(luò)內(nèi)容、自動(dòng)從網(wǎng)絡(luò) 內(nèi)容中分析出排名數(shù)據(jù)等獲取監(jiān)測業(yè)務(wù)需要的數(shù)據(jù)。
[0032] 話題趨向分析單元,通過基于統(tǒng)計(jì)情感詞趨向性的方法,對(duì)評(píng)論中關(guān)鍵詞的所有 情感詞匯趨向性的統(tǒng)計(jì)加權(quán),以通過對(duì)比和分析用戶話題的趨向性矢量而完成話題的趨向 性分析。
[0033] 關(guān)鍵詞過濾匹配單元,通過關(guān)鍵字匹配,檢測網(wǎng)絡(luò)內(nèi)容中是否包含非法內(nèi)容并進(jìn) 行過濾;根據(jù)監(jiān)測業(yè)務(wù)的需要對(duì)關(guān)鍵字進(jìn)行配置,可以通過組合條件進(jìn)行配置,具備與、或、 非的各種包含方式,并根據(jù)關(guān)鍵字時(shí)效性考慮配置有效周期。
[0034] 根據(jù)本發(fā)明的進(jìn)一步的方面,所述話題采集單元提取網(wǎng)絡(luò)熱點(diǎn)話題的關(guān)鍵詞,為 搜索引擎優(yōu)化提供參考充分利用社交與公共網(wǎng)絡(luò)的特點(diǎn),例如用戶之間存在的社會(huì)關(guān)系和 用戶的影響力大小等。網(wǎng)絡(luò)中用戶影響力的大小對(duì)話題采集有著關(guān)鍵的影響。本發(fā)明結(jié)合 用戶的等級(jí)計(jì)算,提出一種基于用戶等級(jí)的話題采集系統(tǒng)。用戶等級(jí)的UL(User Level)計(jì) 算是基于用戶影響力評(píng)價(jià)模型。結(jié)合網(wǎng)絡(luò)屬性信息和用戶等級(jí),計(jì)算話題頻度值。通過有 向圖來直觀展現(xiàn)網(wǎng)絡(luò)平臺(tái)上用戶之間的關(guān)聯(lián)關(guān)系。用戶發(fā)布了一條信息,這條信息將會(huì)通 過其與關(guān)注者的關(guān)聯(lián)關(guān)系傳播,信息就可能成為下一個(gè)熱點(diǎn)話題。在社交網(wǎng)絡(luò)中,一個(gè)網(wǎng)絡(luò) 用戶的等級(jí)不僅與其關(guān)注者數(shù)有關(guān),還與用戶網(wǎng)絡(luò)發(fā)布頻率、用戶評(píng)論、發(fā)表頻率等因素有 關(guān)。用戶等級(jí)計(jì)算公式如下:
【主權(quán)項(xiàng)】
1. 一種互聯(lián)網(wǎng)信息存儲(chǔ)系統(tǒng),其特征在于,包括: 數(shù)據(jù)存儲(chǔ)層,用于提供數(shù)據(jù)庫管理,對(duì)所采集的數(shù)據(jù)進(jìn)行存儲(chǔ)規(guī)劃;通過分布式計(jì)算實(shí) 現(xiàn)各個(gè)子系統(tǒng)內(nèi)部和子系統(tǒng)之間的不同節(jié)點(diǎn)上的對(duì)象調(diào)用;對(duì)各個(gè)子系統(tǒng)進(jìn)行參數(shù)配置, 監(jiān)控系統(tǒng)各個(gè)組成部分的運(yùn)行情況,管理用戶及其權(quán)限; 數(shù)據(jù)處理層,用于進(jìn)行數(shù)據(jù)采集,對(duì)網(wǎng)絡(luò)內(nèi)容進(jìn)行增量式抓??;實(shí)現(xiàn)數(shù)據(jù)迀移、備份和 清洗;對(duì)監(jiān)測對(duì)象的基本信息和進(jìn)一步分析出的信息進(jìn)行管理; 監(jiān)測分析層,用于對(duì)采集到的數(shù)據(jù)進(jìn)行分析,抽取特征,建立數(shù)據(jù)索引,對(duì)采集到的網(wǎng) 絡(luò)內(nèi)容進(jìn)行統(tǒng)計(jì)歸類; 用戶接口層,提供管理功能的操作界面,顯示信息采集、信息統(tǒng)計(jì)、信息識(shí)別和分析的 結(jié)果,進(jìn)行系統(tǒng)維護(hù)操作。
2. 根據(jù)權(quán)利要求1所述的系統(tǒng),其特征在于,所述監(jiān)測分析層進(jìn)一步包括: 視頻采集模塊,用于通過關(guān)鍵詞,對(duì)視頻網(wǎng)絡(luò)內(nèi)容進(jìn)行內(nèi)容采集,返回包含指定關(guān)鍵詞 的視頻文件,以及相應(yīng)文件內(nèi)的時(shí)間信息;通過關(guān)鍵幀對(duì)視頻網(wǎng)絡(luò)內(nèi)容進(jìn)行內(nèi)容采集,返回 包含指定關(guān)鍵幀的視頻文件,以及相應(yīng)文件內(nèi)的時(shí)間信息;通過特定視頻片段,在本地視頻 數(shù)據(jù)庫中采集包含相同的視頻片段的視頻網(wǎng)絡(luò)內(nèi)容,通過WEB界面顯示采集到的結(jié)果視頻 的摘要及關(guān)鍵幀全景圖; 音頻采集模塊,用于對(duì)互聯(lián)網(wǎng)語音和音頻文件建立內(nèi)容索引,進(jìn)行特定內(nèi)容音頻采集, 通過對(duì)特定內(nèi)容音頻信息的采集,實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)音頻信息的監(jiān)測,所述特定內(nèi)容音頻信息包 括特定關(guān)鍵詞、特定說話人,或者特定音頻片段; 文本采集模塊,包括話題采集單元,話題趨向分析單元,關(guān)鍵詞過濾匹配單元,其中: 所述話題采集單元用于對(duì)指定的網(wǎng)站進(jìn)行流量訪問量統(tǒng)計(jì)、采集排名位置,從第三方 所公布的網(wǎng)絡(luò)內(nèi)容獲取相關(guān)數(shù)據(jù); 所述話題趨向分析單元用于對(duì)網(wǎng)絡(luò)內(nèi)容中關(guān)鍵詞的所有情感詞匯趨向性的統(tǒng)計(jì)加權(quán), 通過對(duì)比和分析用戶話題的趨向性矢量來完成話題的趨向性分析。 所述關(guān)鍵詞過濾匹配單元用于通過關(guān)鍵字匹配,檢測網(wǎng)絡(luò)內(nèi)容中是否包含非法內(nèi)容并 進(jìn)行過濾;通過組合條件對(duì)關(guān)鍵字進(jìn)行配置,并根據(jù)關(guān)鍵字時(shí)效性配置有效周期。
【專利摘要】本發(fā)明提供了一種互聯(lián)網(wǎng)信息存儲(chǔ)系統(tǒng),該系統(tǒng)包括:數(shù)據(jù)存儲(chǔ)層,用于提供數(shù)據(jù)庫管理,對(duì)所采集的數(shù)據(jù)進(jìn)行存儲(chǔ)規(guī)劃;對(duì)各個(gè)子系統(tǒng)進(jìn)行參數(shù)配置,監(jiān)控系統(tǒng)各個(gè)組成部分的運(yùn)行情況;數(shù)據(jù)處理層,用于進(jìn)行數(shù)據(jù)采集,對(duì)網(wǎng)絡(luò)內(nèi)容進(jìn)行抓?。粚?shí)現(xiàn)數(shù)據(jù)遷移、備份和清洗;對(duì)監(jiān)測對(duì)象的信息進(jìn)行管理;監(jiān)測分析層,用于對(duì)采集到的數(shù)據(jù)進(jìn)行分析,抽取特征,建立數(shù)據(jù)索引;用戶接口層,提供管理功能的操作界面。本發(fā)明提出了一種互聯(lián)網(wǎng)信息存儲(chǔ)系統(tǒng),對(duì)互聯(lián)網(wǎng)輿情進(jìn)行多維監(jiān)測,有效采集和分析出敏感信息,提高了查準(zhǔn)率和查全率。
【IPC分類】G06F17-27, G06F17-30
【公開號(hào)】CN104834739
【申請(qǐng)?zhí)枴緾N201510258098
【發(fā)明人】張鵬
【申請(qǐng)人】成都布林特信息技術(shù)有限公司
【公開日】2015年8月12日
【申請(qǐng)日】2015年5月20日