]趨勢分析單元,根據(jù)熱點(diǎn)/敏感話題列表以及網(wǎng)頁的傾向性結(jié)果進(jìn)行統(tǒng)計(jì),并生成隨時(shí)間變化的熱點(diǎn)趨勢跟蹤統(tǒng)計(jì)曲線圖。
[0060]對(duì)自然話題和特點(diǎn)的話題進(jìn)行熱點(diǎn)趨勢跟蹤分析。當(dāng)自然形成的某類話題達(dá)到一定輿情熱度時(shí),對(duì)該話題進(jìn)行跟蹤統(tǒng)計(jì)分析,統(tǒng)計(jì)其出現(xiàn)的網(wǎng)頁數(shù)量,進(jìn)行按時(shí)間的熱點(diǎn)統(tǒng)計(jì),形成跟蹤統(tǒng)計(jì)曲線圖。通過系統(tǒng)設(shè)定的熱點(diǎn)話題,對(duì)該類熱點(diǎn)話題進(jìn)行跟蹤,當(dāng)該類話題達(dá)到一定輿情熱度時(shí),即出現(xiàn)的網(wǎng)頁數(shù)量,即對(duì)該話題進(jìn)行跟蹤統(tǒng)計(jì),形成曲線圖。同時(shí)可進(jìn)行告警。
[0061]顯示模塊,用于將經(jīng)過分析處理的信息推送給用戶。
[0062]將采集并分析處理后的信息通過各種表現(xiàn)方式為用戶直接或間接地提供信息服務(wù),如自動(dòng)生成輿情信息簡報(bào)、對(duì)已發(fā)現(xiàn)的輿論焦點(diǎn)進(jìn)行追蹤并形成趨勢分析,用于為滿足各種用戶的不同需求,提供決策支持。以圖表形式顯示統(tǒng)計(jì)分析結(jié)果,結(jié)果包括,熱點(diǎn),敏感話題的分析,傾向性分析(正面,中性,負(fù)面)趨勢分析等。
[0063]此外,通過競爭信息分析可以把自家產(chǎn)品和競品進(jìn)行諸如價(jià)格,質(zhì)量,功能,服務(wù)等的多維分析,并加以直觀地展現(xiàn)。
[0064]本發(fā)明提供的基于行業(yè)的垂直輿情分析系統(tǒng)及方法通過對(duì)消費(fèi)電子行業(yè)相關(guān)的互聯(lián)網(wǎng)信息進(jìn)行采集和預(yù)處理得到基于文檔的格式化的消費(fèi)電子行業(yè)消息可以獲得全面的與電子行業(yè)消息相關(guān)的信息,并且通過預(yù)處理得到格式化的消費(fèi)電子行業(yè)信息,使得后續(xù)的分析過程更為有效。通過通過字符串匹配算法進(jìn)行匹配,并基于理解和統(tǒng)計(jì)進(jìn)行分詞的方法對(duì)匹配結(jié)果進(jìn)行修正得到文檔的分詞結(jié)果,可以提高分詞的準(zhǔn)確性,不再依賴于傳統(tǒng)技術(shù)通過收集行業(yè)或產(chǎn)品知識(shí)庫,能夠基于理解和統(tǒng)計(jì)對(duì)分詞結(jié)果進(jìn)行修正,進(jìn)一步地提高了分詞的效率。通過對(duì)文檔的分詞結(jié)果中關(guān)鍵詞的頻率和相似度對(duì)分詞的結(jié)果進(jìn)行文檔的聚類和分類;根據(jù)聚類和分類結(jié)果進(jìn)行熱點(diǎn)/敏感話題分析、傾向性分析以及趨勢分析得到經(jīng)過分析處理的信息,能夠有效地針對(duì)采集到的評(píng)論文本進(jìn)行情感傾向性分析,從而有效地對(duì)互聯(lián)網(wǎng)輿情進(jìn)行自動(dòng)分析,建立起有效且快速的輿情監(jiān)測預(yù)警機(jī)制,有效阻止各種負(fù)面信息在互聯(lián)網(wǎng)中的蔓延。
[0065]實(shí)施本發(fā)明實(shí)施例的意義在于:
[0066]在企業(yè)層面
[0067]A、抓取所有企業(yè)和競爭對(duì)手的網(wǎng)絡(luò)媒體信息,自動(dòng)識(shí)別和分類不同企業(yè)的信息找出與競爭對(duì)手之間的不同或者差異,有針對(duì)性地進(jìn)行戰(zhàn)略調(diào)整和差異化路線。
[0068]B、抓取所有企業(yè)的網(wǎng)絡(luò)媒體信息,自動(dòng)識(shí)別是哪種性質(zhì)的評(píng)論信息:(正面,中性,負(fù)面),識(shí)別其來源并對(duì)其采取相應(yīng)的對(duì)策,(如對(duì)發(fā)負(fù)面消息的客戶進(jìn)行安撫和補(bǔ)償)。
[0069]C、抓取所有行業(yè)的網(wǎng)絡(luò)媒體信息,自動(dòng)識(shí)別是哪種性質(zhì)的信息(主動(dòng)傳播,被動(dòng)傳播),并對(duì)信息進(jìn)行有效監(jiān)控,引導(dǎo)和預(yù)警。
[0070]在產(chǎn)品層面
[0071]A、抓取所有企業(yè)產(chǎn)品的網(wǎng)絡(luò)媒體信息,自動(dòng)識(shí)別是哪種性質(zhì)的評(píng)論信息:產(chǎn)品的服務(wù),產(chǎn)品的質(zhì)量,產(chǎn)品的價(jià)格,產(chǎn)品的功能等。針對(duì)評(píng)論的分析結(jié)果及時(shí)做產(chǎn)品優(yōu)化和服務(wù)改進(jìn)。
[0072]B、抓取所有企業(yè)產(chǎn)品的網(wǎng)絡(luò)媒體信息,自動(dòng)識(shí)別是什么產(chǎn)品(電視/空調(diào)/手機(jī)/冰箱等等)的信息。針對(duì)不同的產(chǎn)品信息和客戶評(píng)價(jià)的信息進(jìn)行相應(yīng)的調(diào)整。
[0073]C、抓取所有行業(yè)相關(guān)的網(wǎng)絡(luò)媒體信息,自動(dòng)識(shí)別企業(yè)與其競爭對(duì)手的信息,發(fā)揚(yáng)自家產(chǎn)品優(yōu)勢,避開或彌補(bǔ)不足。
[0074]本發(fā)明實(shí)施例還有以下優(yōu)點(diǎn):
[0075]1、提高效率,用機(jī)器代替人工的數(shù)據(jù)采集,分析工作。在使用人工的方式進(jìn)行數(shù)據(jù)采集和分析工作,工作人員往往只能通過標(biāo)題人為地判斷信息的類別(包括是哪個(gè)公司的,什么產(chǎn)品的,正面的,負(fù)面的信息等等),在海量信息的情況下做重復(fù)性的工作,往往會(huì)使工作人員變的疲憊和不堪其煩,而且容易出錯(cuò)。在集團(tuán)全面提效的情況下,這種工作方式變得極不和諧。
[0076]2、提高對(duì)事件反應(yīng)的及時(shí)性。輿情分析人員經(jīng)常會(huì)遇到的問題是:當(dāng)一個(gè)事件最初發(fā)生的時(shí)候,如果能夠及時(shí)發(fā)現(xiàn)并加以處理,會(huì)以很小的成本就可以完美的搞定,但如果一旦過了每個(gè)事件點(diǎn),事態(tài)開始變得嚴(yán)重,處理的代價(jià)會(huì)變的很昂貴。但由于人工檢測往往很難做到非常及時(shí),所以通過系統(tǒng)的預(yù)警功能來發(fā)現(xiàn)和處理將會(huì)變得非常重要。
[0077]3、提高信息獲取的覆蓋率和全面性。使用人工的方式來處理輿情的信息,往往會(huì)比較片面,因?yàn)槿斯し绞胶茈y窮舉所有的信息來源,可能只能通過采集和分析局部的數(shù)據(jù),在同一個(gè)數(shù)據(jù)標(biāo)準(zhǔn)下對(duì)每個(gè)企業(yè),產(chǎn)品的信息進(jìn)行統(tǒng)計(jì)和對(duì)比,雖然保證了一定的公平性,但局部數(shù)據(jù)的統(tǒng)計(jì)效果相當(dāng)全局和整體的數(shù)據(jù)還是會(huì)有偏差,所以,通過輿情系統(tǒng)的使用,能夠提高信息獲取的全面性,提高數(shù)據(jù)的覆蓋率,提高分析的準(zhǔn)確性。
[0078]此外,輿情分析還能夠給消費(fèi)電子行業(yè)內(nèi)企業(yè)帶來:
[0079]1、通過對(duì)信息的分析和處理,洞察客戶的偏好和未知的趨勢。
[0080]2、通過對(duì)公司,產(chǎn)品,服務(wù)信息的分析來量化對(duì)市場的感知。
[0081]3、實(shí)時(shí)而準(zhǔn)確地采集各大行業(yè)論壇中的信息,從中了解消費(fèi)者的需
[0082]求與反饋,從而發(fā)現(xiàn)市場趨勢與商業(yè)機(jī)會(huì)。
[0083]4、準(zhǔn)確地從網(wǎng)絡(luò)公共信息中采集銷售線索,潛在客戶的資料。
[0084]5、準(zhǔn)確地從網(wǎng)絡(luò)公共信息中采集本行業(yè)上萬種產(chǎn)品的產(chǎn)品信息(描
[0085]述,價(jià)格等),圖片,技術(shù)文檔等。
[0086]如圖4所示,本發(fā)明實(shí)施例還提供一種基于行業(yè)的垂直輿情分析方法,其包括如下步驟:
[0087]S1、對(duì)消費(fèi)電子行業(yè)相關(guān)的互聯(lián)網(wǎng)信息進(jìn)行采集和預(yù)處理得到基于文檔的格式化的消費(fèi)電子行業(yè)消息。
[0088]可選地,所述步驟SI中消費(fèi)電子行業(yè)相關(guān)的互聯(lián)網(wǎng)信息來源包括新聞網(wǎng)頁、論壇、貼吧、網(wǎng)絡(luò)博客、網(wǎng)站中的一種或幾種;
[0089]采集的方式包括通過URL采集器、http分析器、網(wǎng)絡(luò)爬蟲中的一種或幾種對(duì)消費(fèi)電子行業(yè)相關(guān)的互聯(lián)網(wǎng)信息進(jìn)行采集;將采集到的消費(fèi)電子行業(yè)相關(guān)的互聯(lián)網(wǎng)信息存儲(chǔ)到關(guān)系型數(shù)據(jù)庫以及非關(guān)系型數(shù)據(jù)庫;
[0090]對(duì)采集到的消費(fèi)電子行業(yè)相關(guān)的互聯(lián)網(wǎng)信息進(jìn)行預(yù)處理包括數(shù)據(jù)清理、數(shù)據(jù)去重、數(shù)據(jù)格式化得到格式化的消費(fèi)電子行業(yè)消息。
[0091]S2、通過字符串匹配算法進(jìn)行匹配,并基于理解和統(tǒng)計(jì)進(jìn)行分詞的方法對(duì)匹配結(jié)果進(jìn)行修正得到文檔的分詞結(jié)果。
[0092]可選地,如圖5所示,所述步驟S2包括如下步驟:
[0093]S21、在系統(tǒng)詞庫中預(yù)先存儲(chǔ)消費(fèi)電子常用詞匯,并對(duì)預(yù)先存儲(chǔ)消費(fèi)電子常用詞匯進(jìn)行分類統(tǒng)計(jì)得到統(tǒng)計(jì)結(jié)果,并判斷常用詞匯之間的邏輯關(guān)系。
[0094]S22、通過字符串匹配算法對(duì)格式化的消費(fèi)電子行業(yè)消息進(jìn)行匹配。
[0095]S23、根據(jù)步驟S21中的統(tǒng)計(jì)結(jié)果以及邏輯關(guān)系對(duì)匹配結(jié)果進(jìn)行修正得到分詞結(jié)果O
[0096]其具體包括:第一步,通過字符串匹配算法進(jìn)行分詞匹配;第二步,用基于上下理解進(jìn)行修正;第三步,用基于統(tǒng)計(jì)的方法進(jìn)行分詞結(jié)果修正;例如字符串“…出版社會(huì)…”可能分詞結(jié)果為“…出版/社會(huì)…”和“…出版社/會(huì)…”,而到底是哪個(gè)分詞結(jié)果需要根據(jù)整篇文章的主題和對(duì)上下文的理解來確定,另外也會(huì)根據(jù)出版與社這個(gè)詞同時(shí)出現(xiàn)的時(shí)候出版單獨(dú)分詞的概率以及出版社一起出現(xiàn)的概率來最終確定對(duì)字符串“…出版社會(huì)…”分詞結(jié)果。
[0097]S3、通過對(duì)文檔的分詞結(jié)果中關(guān)鍵詞的頻率和相似度對(duì)分詞的結(jié)果進(jìn)行文檔的聚類和分類;根據(jù)聚類和分...