亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于數(shù)據(jù)挖掘的互聯(lián)網(wǎng)產(chǎn)品調(diào)研系統(tǒng)的制作方法

文檔序號(hào):6522857閱讀:229來(lái)源:國(guó)知局
一種基于數(shù)據(jù)挖掘的互聯(lián)網(wǎng)產(chǎn)品調(diào)研系統(tǒng)的制作方法
【專(zhuān)利摘要】一種基于數(shù)據(jù)挖掘的互聯(lián)網(wǎng)產(chǎn)品調(diào)研系統(tǒng),由6個(gè)模塊組成:信息采集模塊、信息預(yù)處理模塊、產(chǎn)品概貌分析模塊、情感分析模塊、用戶行為分析模塊和數(shù)據(jù)展示模塊。系統(tǒng)通過(guò)自動(dòng)采集互聯(lián)網(wǎng)上各類(lèi)關(guān)于產(chǎn)品的信息,經(jīng)過(guò)預(yù)處理之后,采用數(shù)據(jù)挖掘和自然語(yǔ)言處理技術(shù)進(jìn)行綜合分析,從而快速形成關(guān)于產(chǎn)品的概貌分析、產(chǎn)品各不同功能的市場(chǎng)口碑分析、不同產(chǎn)品對(duì)比分析、用戶群體分析等不同側(cè)面的分析結(jié)果,為產(chǎn)品分析、市場(chǎng)決策提供快速、堅(jiān)實(shí)的支撐。本發(fā)明充分利用互聯(lián)網(wǎng)信息資源優(yōu)勢(shì),能夠根據(jù)用戶需求對(duì)產(chǎn)品進(jìn)行調(diào)研,不但可以節(jié)約調(diào)研所需的人力物力,還能夠及時(shí)反映跟蹤市場(chǎng)動(dòng)態(tài)。
【專(zhuān)利說(shuō)明】—種基于數(shù)據(jù)挖掘的互聯(lián)網(wǎng)產(chǎn)品調(diào)研系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種基于數(shù)據(jù)挖掘的互聯(lián)網(wǎng)產(chǎn)品調(diào)研系統(tǒng)及方法,屬于數(shù)據(jù)挖掘、文本信息處理和互聯(lián)網(wǎng)領(lǐng)域。
【背景技術(shù)】
[0002]隨著電子商務(wù)市場(chǎng)的不斷發(fā)展,網(wǎng)絡(luò)上針對(duì)產(chǎn)品的評(píng)論信息和權(quán)威門(mén)戶網(wǎng)站的測(cè)評(píng)越來(lái)越多。這些信息對(duì)于企業(yè)提升產(chǎn)品質(zhì)量、制定營(yíng)銷(xiāo)策略和企業(yè)市場(chǎng)產(chǎn)略都有極大的參考意義。
[0003]然而,傳統(tǒng)的產(chǎn)品調(diào)研往往采用的諸如專(zhuān)家訪談,調(diào)查問(wèn)卷等手段往往局限于企業(yè)人力和財(cái)力的限制,受制于調(diào)研樣本的大小,常常不能完整全面準(zhǔn)確的反映市場(chǎng)全貌,因而對(duì)企業(yè)和商家的決策造成錯(cuò)誤引導(dǎo)。更為嚴(yán)重的是,無(wú)論多么準(zhǔn)確的產(chǎn)品調(diào)研,都需長(zhǎng)時(shí)間的收集數(shù)據(jù)和整理數(shù)據(jù)的過(guò)程,嚴(yán)重滯后于市場(chǎng)變化,使企業(yè)不能及時(shí)地根據(jù)市場(chǎng)變化做出正確的調(diào)整決策。
[0004]針對(duì)以上問(wèn)題,基于互聯(lián)網(wǎng)資源,自動(dòng)獲取網(wǎng)絡(luò)上和待調(diào)研產(chǎn)品的相關(guān)信息和評(píng)論信息,采用數(shù)據(jù)挖掘和自然語(yǔ)言處理技術(shù),對(duì)這些產(chǎn)品相關(guān)信息資源進(jìn)行分析和挖掘,快速形成關(guān)于產(chǎn)品的概貌分析、產(chǎn)品各不同功能的市場(chǎng)口碑分析、不同產(chǎn)品對(duì)比分析、用戶群體分析等不同側(cè)面的分析調(diào)研結(jié)果。從而為產(chǎn)品分析、市場(chǎng)決策提供快速、堅(jiān)實(shí)的支撐,實(shí)現(xiàn)對(duì)市場(chǎng)快速響應(yīng)和降低調(diào)研成本的目標(biāo)。

【發(fā)明內(nèi)容】

[0005]本發(fā)明技術(shù)解決問(wèn)題:克服現(xiàn)有技術(shù)的不足,提供一種基于數(shù)據(jù)挖掘的互聯(lián)網(wǎng)產(chǎn)品調(diào)研系統(tǒng),能夠充分利用互聯(lián)網(wǎng)資源,為用戶提供關(guān)于產(chǎn)品的概貌分析、產(chǎn)品各不同功能的市場(chǎng)口碑分析、不同產(chǎn)品對(duì)比分析、用戶群體分析等不同側(cè)面的分析調(diào)研結(jié)果,從而能夠?qū)崿F(xiàn)市場(chǎng)快速響應(yīng)和降低調(diào)研成本的目標(biāo)。
[0006]本發(fā)明技術(shù)解決方案:一種基于數(shù)據(jù)挖掘的互聯(lián)網(wǎng)產(chǎn)品調(diào)研系統(tǒng),其特征在于包括:信息采集模塊、信息預(yù)處理模塊、產(chǎn)品概貌分析模塊、情感分析模塊、用戶行為分析模塊和數(shù)據(jù)展示模塊;其中:
[0007]信息采集模塊:根據(jù)調(diào)研需求從互聯(lián)網(wǎng)收集與產(chǎn)品相關(guān)的信息,包括產(chǎn)品屬性參數(shù)、產(chǎn)品相關(guān)新聞,以及產(chǎn)品的用戶評(píng)論信息,這些信息將作為原始數(shù)據(jù)送至信息預(yù)處理模塊;根據(jù)采集數(shù)據(jù)類(lèi)型的不同,信息采集模塊又分為產(chǎn)品屬性信息采集器、新聞采集器和用戶評(píng)論采集器三個(gè)子模塊;產(chǎn)品屬性信息采集器采集產(chǎn)品屬性參數(shù);新聞采集器爬取產(chǎn)品相關(guān)新聞;用戶評(píng)論采集器采集產(chǎn)品相關(guān)的用戶評(píng)論,產(chǎn)品評(píng)論中包含用戶對(duì)產(chǎn)品的情感信息;
[0008]信息預(yù)處理模塊:對(duì)信息采集模塊收集的原始數(shù)據(jù)進(jìn)行清理和預(yù)處理,分別針對(duì)三類(lèi)不同的數(shù)據(jù)進(jìn)行預(yù)處理:對(duì)于產(chǎn)品屬性信息主要是半自動(dòng)地識(shí)別產(chǎn)品特征模板,然后通過(guò)產(chǎn)品特征模板將產(chǎn)品屬性參數(shù)采集后入庫(kù);對(duì)于產(chǎn)品相關(guān)新聞,主要采集新聞內(nèi)容、來(lái)源數(shù)據(jù),抽取新聞網(wǎng)頁(yè)的正文后入庫(kù);對(duì)于用戶評(píng)論信息,主要采集評(píng)論的產(chǎn)品對(duì)象、評(píng)論用戶、評(píng)論內(nèi)容、時(shí)間信息;對(duì)于產(chǎn)品相關(guān)新聞和評(píng)論內(nèi)容,還需進(jìn)行各種預(yù)處理,包括:中文分詞,詞性標(biāo)注,依存句法分析;經(jīng)過(guò)預(yù)處理后的數(shù)據(jù)送至產(chǎn)品概貌分析模塊、情感分析模塊、用戶行為分析模塊中;
[0009]產(chǎn)品概貌分析模塊:利用已經(jīng)收集的產(chǎn)品屬性參數(shù)和產(chǎn)品相關(guān)新聞采用自動(dòng)文摘技術(shù)對(duì)其進(jìn)行分析,產(chǎn)生產(chǎn)品的概括性描述;其中主要分為產(chǎn)品屬性參數(shù)分析模塊和產(chǎn)品摘要模塊兩個(gè)子模塊;產(chǎn)品屬性參數(shù)分析模塊根據(jù)采集到產(chǎn)品屬性參數(shù),列出產(chǎn)品的各特征參數(shù),同時(shí)對(duì)產(chǎn)品中較為重要的屬性詞進(jìn)行標(biāo)識(shí);產(chǎn)品摘要模塊,根據(jù)采集到的產(chǎn)品相關(guān)新聞集合及屬性參數(shù)計(jì)算屬性詞的詞權(quán);基于詞權(quán)計(jì)算句子權(quán)重,并綜合其他各種特征,訓(xùn)練文摘句識(shí)別分類(lèi)器,從產(chǎn)品相關(guān)新聞集合中尋找出文摘句,生成產(chǎn)品的摘要描述;
[0010]情感分析模塊:基于已經(jīng)采集和預(yù)處理的產(chǎn)品屬性參數(shù)和產(chǎn)品的用戶評(píng)論信息,自動(dòng)收集和屬性相關(guān)的情感詞,計(jì)算情感詞與屬性之間的穩(wěn)固程度,得到屬性和情感詞對(duì)模型,實(shí)現(xiàn)面向產(chǎn)品的情感分析自適應(yīng);采用情感分析技術(shù)識(shí)別出用戶評(píng)論中的觀點(diǎn)句,抽取出用戶對(duì)產(chǎn)品以及產(chǎn)品各不同屬性的評(píng)價(jià)和情感傾向,從而分析出用戶對(duì)產(chǎn)品的整體口碑,以及各主要屬性的口碑,從而得出對(duì)產(chǎn)品各不同側(cè)面的分析結(jié)果;同時(shí),通過(guò)比較用戶對(duì)不同產(chǎn)品及其不同屬性的口碑,不同產(chǎn)品進(jìn)行對(duì)比分析,得出對(duì)比分析結(jié)果;
[0011]用戶行為分析模塊:基于收集的用戶評(píng)論信息中包含的產(chǎn)品、用戶、評(píng)論內(nèi)容、評(píng)論時(shí)間等信息,同時(shí)基于情感分析模塊產(chǎn)生的用戶評(píng)論情感分析結(jié)果,形成四元組〈U, Ρ,Α, S〉,其中U表示用戶,P表示產(chǎn)品,A表示產(chǎn)品屬性,S表示情感極值?;谒脑M集合,對(duì)每個(gè)用戶進(jìn)行描述;然后對(duì)用戶的行為進(jìn)行聚類(lèi)分析,得到相似用戶簇,從而實(shí)現(xiàn)產(chǎn)品用戶的細(xì)分;同時(shí),對(duì)這些不同的相似用戶簇進(jìn)行摘要分析,得出各個(gè)不同用戶群體主要關(guān)注的內(nèi)容,及其對(duì)產(chǎn)品各不同屬性的情感傾向;
[0012]數(shù)據(jù)展示模塊:對(duì)概貌分析模塊、情感分析模塊以及用戶分析模塊的內(nèi)容進(jìn)行可視化展示,使用戶能夠方便地查看產(chǎn)品分析的結(jié)果,及分析結(jié)果對(duì)應(yīng)的支持?jǐn)?shù)據(jù)。
[0013]所述產(chǎn)品概貌分析模塊中,針對(duì)采集到的產(chǎn)品相關(guān)新聞集合及屬性參數(shù),計(jì)算屬性詞的詞權(quán),其計(jì)算公式如下:
[0014]
【權(quán)利要求】
1.一種基于數(shù)據(jù)挖掘的互聯(lián)網(wǎng)產(chǎn)品調(diào)研系統(tǒng),其特征在于包括:信息采集模塊、信息預(yù)處理模塊、產(chǎn)品概貌分析模塊、情感分析模塊、用戶行為分析模塊和數(shù)據(jù)展示模塊;其中: 信息采集模塊:根據(jù)調(diào)研需求從互聯(lián)網(wǎng)收集與產(chǎn)品相關(guān)的信息,包括產(chǎn)品屬性參數(shù)、產(chǎn)品相關(guān)新聞,以及產(chǎn)品的用戶評(píng)論信息,這些信息將作為原始數(shù)據(jù)送至信息預(yù)處理模塊;根據(jù)采集數(shù)據(jù)類(lèi)型的不同,信息采集模塊又分為產(chǎn)品屬性信息采集器、新聞采集器和用戶評(píng)論采集器三個(gè)子模塊;產(chǎn)品屬性信息采集器采集產(chǎn)品屬性參數(shù);新聞采集器爬取產(chǎn)品相關(guān)新聞;用戶評(píng)論采集器采集產(chǎn)品相關(guān)的用戶評(píng)論,產(chǎn)品評(píng)論中包含用戶對(duì)產(chǎn)品的情感信息; 信息預(yù)處理模塊:對(duì)信息采集模塊收集的原始數(shù)據(jù)進(jìn)行清理和預(yù)處理,分別針對(duì)三類(lèi)不同的數(shù)據(jù)進(jìn)行預(yù)處理:對(duì)于產(chǎn)品屬性信息主要是半自動(dòng)地識(shí)別產(chǎn)品特征模板,然后通過(guò)產(chǎn)品特征模板將產(chǎn)品屬性參數(shù)采集后入庫(kù);對(duì)于產(chǎn)品相關(guān)新聞,主要采集新聞內(nèi)容、來(lái)源數(shù)據(jù),抽取新聞網(wǎng)頁(yè)的正文后入庫(kù);對(duì)于用戶評(píng)論信息,主要采集評(píng)論的產(chǎn)品對(duì)象、評(píng)論用戶、評(píng)論內(nèi)容、時(shí)間信息;對(duì)于產(chǎn)品相關(guān)新聞和評(píng)論內(nèi)容,還需進(jìn)行各種預(yù)處理,包括:中文分詞,詞性標(biāo)注,依存句法分析;經(jīng)過(guò)預(yù)處理后的數(shù)據(jù)送至產(chǎn)品概貌分析模塊、情感分析模塊、用戶行為分析模塊中; 產(chǎn)品概貌分析模塊:利用已經(jīng)收集的產(chǎn)品屬性參數(shù)和產(chǎn)品相關(guān)新聞采用自動(dòng)文摘技術(shù)對(duì)其進(jìn)行分析,產(chǎn)生產(chǎn)品的概括性描述;其中主要分為產(chǎn)品屬性參數(shù)分析模塊和產(chǎn)品摘要模塊兩個(gè)子模塊;產(chǎn)品屬性參數(shù)分析模塊根據(jù)采集到產(chǎn)品屬性參數(shù),列出產(chǎn)品的各特征參數(shù),同時(shí)對(duì)產(chǎn)品中較為重要的屬性詞進(jìn)行標(biāo)識(shí);產(chǎn)品摘要模塊,根據(jù)采集到的產(chǎn)品相關(guān)新聞集合及屬性參數(shù)計(jì)算屬性詞的詞權(quán);基于詞權(quán)計(jì)算句子權(quán)重,并綜合其他各種特征,訓(xùn)練文摘句識(shí)別分類(lèi)器,從產(chǎn)品相關(guān)新聞集合中尋找出文摘句,生成產(chǎn)品的摘要描述; 情感分析模塊:基于已經(jīng)采集和預(yù)處理的產(chǎn)品屬性參數(shù)和產(chǎn)品的用戶評(píng)論信息,自動(dòng)收集和屬性相關(guān)的情感詞,計(jì)算情感詞與屬性之間的穩(wěn)固程度,得到屬性和情感詞對(duì)模型,實(shí)現(xiàn)面向產(chǎn)品的情感分析自適應(yīng);采用情感分析技術(shù)識(shí)別出用戶評(píng)論中的觀點(diǎn)句,抽取出用戶對(duì)產(chǎn)品以及產(chǎn)品各不同屬性的評(píng)價(jià)和情感傾向,從而分析出用戶對(duì)產(chǎn)品的整體口碑,以及各主要屬性的口碑,從而得出對(duì)產(chǎn)品各不同側(cè)面的分析結(jié)果;同時(shí),通過(guò)比較用戶對(duì)不同產(chǎn)品及其不同屬性的口碑,不同產(chǎn)品進(jìn)行對(duì)比分析,得出對(duì)比分析結(jié)果; 用戶行為分析模塊:基于收集的用戶評(píng)論信息中包含的產(chǎn)品、用戶、評(píng)論內(nèi)容、評(píng)論時(shí)間等信息,同時(shí)基于情感分析模塊產(chǎn)生的用戶評(píng)論情感分析結(jié)果,形成四元組〈U,Ρ,Α, S〉,其中U表示用戶,P表示產(chǎn)品,A表示產(chǎn)品屬性,S表示情感極值?;谒脑M集合,對(duì)每個(gè)用戶進(jìn)行描述;然后對(duì)用戶的行為進(jìn)行聚類(lèi)分析,得到相似用戶簇,從而實(shí)現(xiàn)產(chǎn)品用戶的細(xì)分;同時(shí),對(duì)這些不同的相似用戶簇進(jìn)行摘要分析,得出各個(gè)不同用戶群體主要關(guān)注的內(nèi)容,及其對(duì)產(chǎn)品各不同屬性的情感傾向; 數(shù)據(jù)展示模塊:對(duì)概貌分析模塊、情感分析模塊以及用戶分析模塊的內(nèi)容進(jìn)行可視化展示,使用戶能夠方便地查看產(chǎn)品分析的結(jié)果,及分析結(jié)果對(duì)應(yīng)的支持?jǐn)?shù)據(jù)。
2.根據(jù)權(quán)利要求1所述的一種基于數(shù)據(jù)挖掘的互聯(lián)網(wǎng)產(chǎn)品調(diào)研系統(tǒng),其特征在于:所述產(chǎn)品概貌分析模塊中,針對(duì)采集到的產(chǎn)品相關(guān)新聞集合及屬性參數(shù),計(jì)算屬性詞的詞權(quán),其計(jì)算公式如下:
3.根據(jù)權(quán)利要求1所述的一種基于數(shù)據(jù)挖掘的互聯(lián)網(wǎng)產(chǎn)品調(diào)研系統(tǒng),其特征在于:所述產(chǎn)品概貌分析模塊中,基于詞權(quán)計(jì)算句子權(quán)重,并綜合其他各種特征,訓(xùn)練文摘句識(shí)別分類(lèi)器,從產(chǎn)品相關(guān)新聞集合中尋找出文摘句,生成產(chǎn)品的摘要描述中的特征包括:句子權(quán)重、句子長(zhǎng)度、是否陳述句、句子位置、與標(biāo)題相似度、與中心句相似性,是否包含指示性短語(yǔ),其中,句子權(quán)重是基于詞權(quán)將句子中包含的各屬性詞的權(quán)重加和,其計(jì)算公式如下:

4.根據(jù)權(quán)利要求1所述的一種基于數(shù)據(jù)挖掘的互聯(lián)網(wǎng)產(chǎn)品調(diào)研系統(tǒng),其特征在于:在情感分析模塊中,所述自動(dòng)收集和產(chǎn)品屬性詞相關(guān)的情感詞是計(jì)算情感詞與產(chǎn)品屬性詞之間的PMI值,從而確定情感詞與屬性詞之間的連接強(qiáng)度;所述PMI值的計(jì)算公式如下:


5.根據(jù)權(quán)利要求1所述的一種基于數(shù)據(jù)挖掘的互聯(lián)網(wǎng)產(chǎn)品調(diào)研系統(tǒng),其特征在于:在情感分析模塊中,所述采用情感分析技術(shù)識(shí)別出用戶評(píng)論中的觀點(diǎn)句過(guò)程為:首先抽取和觀點(diǎn)句相關(guān)的4種特征,包括觀點(diǎn)主張?jiān)~、觀點(diǎn)指示詞、觀點(diǎn)持有者和目標(biāo),訓(xùn)練處觀點(diǎn)句識(shí)別分類(lèi)器,能夠?qū)π碌木渥舆M(jìn)行分類(lèi),判斷其是否觀點(diǎn)句。
6.根據(jù)權(quán)利要求1所述的一種基于數(shù)據(jù)挖掘的互聯(lián)網(wǎng)產(chǎn)品調(diào)研系統(tǒng),其特征在于:在用戶行為分析模塊中,所述相似用戶簇的獲取過(guò)程是:(I)基于情感分析結(jié)果,對(duì)已經(jīng)收集的每條用戶評(píng)論信息構(gòu)建相應(yīng)的四元組〈U,P, A, S〉,其中U表示用戶,P表示產(chǎn)品,A表示產(chǎn)品屬性,S表示情感極值;(2)形成對(duì)每個(gè)用戶的描述,即收集每個(gè)用戶相關(guān)的四元組,形成每個(gè)用戶對(duì)應(yīng)的四元組集合,它們可看作是用戶的描述;(3)基于用戶的描述集合,對(duì)用戶進(jìn)行聚類(lèi)分析,形成相似用戶簇;(4)最后,對(duì)相似用戶簇進(jìn)行描述:基于每個(gè)相似用戶簇中的四元組集合,從中挑選出最能描述用戶簇的N個(gè)屬性詞及情感詞對(duì)。
【文檔編號(hào)】G06F17/30GK103678564SQ201310659651
【公開(kāi)日】2014年3月26日 申請(qǐng)日期:2013年12月9日 優(yōu)先權(quán)日:2013年12月9日
【發(fā)明者】劉春陽(yáng), 程工, 龐琳, 張旭, 巢文涵, 周慶, 李舟軍 申請(qǐng)人:國(guó)家計(jì)算機(jī)網(wǎng)絡(luò)與信息安全管理中心, 北京航空航天大學(xué)
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1