一種實(shí)現(xiàn)網(wǎng)絡(luò)用戶分類的方法及裝置制造方法
【專利摘要】本發(fā)明公開了一種實(shí)現(xiàn)網(wǎng)絡(luò)用戶分類的方法及裝置,包括:獲取用戶預(yù)設(shè)時(shí)長內(nèi)的上網(wǎng)日志信息;根據(jù)預(yù)設(shè)的無效條件刪除獲得的上網(wǎng)日志信息中影響用戶分類的無效訪問數(shù)據(jù);對(duì)刪除無效訪問數(shù)據(jù)后的上網(wǎng)日志信息進(jìn)行統(tǒng)計(jì),獲取各用戶訪問的各類網(wǎng)頁IP,根據(jù)確定的各網(wǎng)頁IP的用戶特征標(biāo)準(zhǔn)提取各用戶的相應(yīng)的所屬分類的用戶特征;根據(jù)提取的各用戶的所屬分類的用戶特征,確定用戶所屬的分類。本發(fā)明通過對(duì)影響用戶分類的無效訪問數(shù)據(jù)進(jìn)行刪除及設(shè)定各類網(wǎng)頁IP相應(yīng)的訪問次數(shù)閾值和訪問時(shí)長閾值作為相應(yīng)的用戶特征標(biāo)準(zhǔn),通過對(duì)用戶特征的統(tǒng)計(jì)和分類,實(shí)現(xiàn)對(duì)用戶所屬分類的確定,避免了無效的用戶訪問數(shù)據(jù)影響網(wǎng)絡(luò)用戶分類,提高了用戶需求分析的準(zhǔn)確性。
【專利說明】一種實(shí)現(xiàn)網(wǎng)絡(luò)用戶分類的方法及裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及數(shù)據(jù)挖掘領(lǐng)域,尤指一種實(shí)現(xiàn)網(wǎng)絡(luò)用戶分類的方法及裝置。
【背景技術(shù)】
[0002]在互聯(lián)網(wǎng)競爭中,都在不斷的提升對(duì)用戶的服務(wù),提高用戶的體驗(yàn)感知,這就需要對(duì)網(wǎng)絡(luò)用戶的喜好進(jìn)行分類。從而更有效地了解用戶需求,能夠更加針對(duì)用戶來提供服務(wù)。
[0003]現(xiàn)有的一些網(wǎng)絡(luò)用戶分類方法,有基于用戶搜索狀態(tài)的分類,其只針對(duì)用戶搜索中用戶的行為方式,對(duì)用戶進(jìn)行分類。通過獲取用戶瀏覽日志,統(tǒng)計(jì)瀏覽日志中的每個(gè)IP地址下的儲(chǔ)存在用戶本地終端上的數(shù)據(jù)(Cookie)數(shù),對(duì)Cookie數(shù)大于一個(gè)設(shè)定的閾值的IP地址進(jìn)行劃分。在進(jìn)行網(wǎng)絡(luò)用戶分類時(shí),通過瀏覽記錄對(duì)用戶搜索行為的分析過程,對(duì)瀏覽記錄中存在的自動(dòng)跳轉(zhuǎn)和無需搜索的鏈接等與用戶主動(dòng)搜索無必然聯(lián)系的無效訪問數(shù)據(jù),并未進(jìn)行有效的處理,對(duì)網(wǎng)絡(luò)用戶分類造成影響,無法準(zhǔn)確的分析用戶需求。
【發(fā)明內(nèi)容】
[0004]為了解決上述技術(shù)問題,本發(fā)明公開了一種實(shí)現(xiàn)網(wǎng)絡(luò)用戶分類的方法及裝置,能夠避免無效的用戶訪問數(shù)據(jù)影響網(wǎng)絡(luò)用戶分類,提高用戶需求分析的準(zhǔn)確性。
[0005]為了達(dá)到本發(fā)明的目的,本發(fā)明提供一種實(shí)現(xiàn)網(wǎng)絡(luò)用戶分類的方法,包括:
[0006]獲取用戶預(yù)設(shè)時(shí)長內(nèi)的上網(wǎng)日志信息;根據(jù)預(yù)設(shè)的無效條件刪除獲得的上網(wǎng)日志信息中影響用戶分類的無效訪問數(shù)據(jù);
[0007]對(duì)刪除無效訪問數(shù)據(jù)后的上網(wǎng)日志信息進(jìn)行統(tǒng)計(jì),獲取各用戶訪問的各類網(wǎng)頁IP,根據(jù)確定的各網(wǎng)頁IP的用戶特征標(biāo)準(zhǔn)提取各用戶的相應(yīng)的所屬分類的用戶特征;
[0008]根據(jù)提取的各用戶的所屬分類的用戶特征,確定用戶所屬的分類。
[0009]進(jìn)一步地,該方法之前還包括:對(duì)各類網(wǎng)頁,確定用戶訪問其網(wǎng)頁IP相應(yīng)的、預(yù)設(shè)時(shí)長內(nèi)累計(jì)訪問次數(shù)的訪問次數(shù)閾值和預(yù)設(shè)時(shí)長內(nèi)累計(jì)訪問時(shí)長的訪問時(shí)長閾值,并設(shè)置同時(shí)滿足的訪問次數(shù)閾值和訪問時(shí)長閾值的上網(wǎng)日志信息為用戶特征標(biāo)準(zhǔn)。
[0010]進(jìn)一步地,上網(wǎng)日志信息至少包括:用戶上網(wǎng)訪問的網(wǎng)頁IP地址、對(duì)各網(wǎng)頁IP地址的訪問次數(shù)和訪問時(shí)長、各網(wǎng)頁IP地址的上行數(shù)據(jù)量和下行數(shù)據(jù)量。
[0011]進(jìn)一步地,預(yù)設(shè)的無效條件至少包含:
[0012]訪問時(shí)長小于預(yù)設(shè)數(shù)值的上網(wǎng)日志信息;和,
[0013]上行數(shù)據(jù)量和下行數(shù)據(jù)量小于預(yù)設(shè)數(shù)值的上網(wǎng)日志信息。
[0014]另一方面,本申請(qǐng)還提供一種實(shí)現(xiàn)網(wǎng)絡(luò)用戶分類的裝置,包括:獲取單元、刪除單元、設(shè)定特征單元、特征提取單元及分類確定單元;其中,
[0015]獲取及處理單元,用于獲取用戶預(yù)設(shè)時(shí)長內(nèi)的上網(wǎng)日志信息,并根據(jù)預(yù)設(shè)的無效條件刪除上網(wǎng)日志信息中影響用戶分類的無效訪問數(shù)據(jù);
[0016]特征提取單元、對(duì)刪除無效訪問數(shù)據(jù)后的上網(wǎng)日志信息進(jìn)行統(tǒng)計(jì),獲取各用戶訪問的各類網(wǎng)頁IP,根據(jù)確定的各網(wǎng)頁IP的用戶特征標(biāo)準(zhǔn)提取各用戶的相應(yīng)的所屬分類的用戶特征;
[0017]分類確定單元,用于根據(jù)提取的各用戶的所屬分類的用戶特征,確定用戶所屬的分類。
[0018]進(jìn)一步地,該裝置還包括設(shè)定特征單元,用于對(duì)各類網(wǎng)頁確定用戶訪問其網(wǎng)頁IP相應(yīng)的、預(yù)設(shè)時(shí)長內(nèi)累計(jì)訪問次數(shù)的訪問次數(shù)閾值和預(yù)設(shè)時(shí)長內(nèi)累計(jì)訪問時(shí)長的訪問時(shí)長閾值,并設(shè)置同時(shí)滿足訪問次數(shù)閾值和訪問時(shí)長閾值的上網(wǎng)日志信息為用戶特征標(biāo)準(zhǔn)。
[0019]進(jìn)一步地,上網(wǎng)日志信息至少包括:用戶上網(wǎng)訪問的網(wǎng)頁IP地址、對(duì)各網(wǎng)頁IP地址的訪問次數(shù)和訪問時(shí)長、各網(wǎng)頁IP地址的上行數(shù)據(jù)量和下行數(shù)據(jù)量。
[0020]進(jìn)一步地,獲取及處理單元具體用于:獲取用戶預(yù)設(shè)時(shí)長內(nèi)的上網(wǎng)日志信息,
[0021]刪除上網(wǎng)日志信息中包含有訪問時(shí)長小于預(yù)設(shè)數(shù)值的網(wǎng)頁IP地址的上網(wǎng)日志信息;和,
[0022]刪除上網(wǎng)日志信息中,訪問的網(wǎng)頁IP地址中,上行數(shù)據(jù)量和下行數(shù)據(jù)量小于預(yù)設(shè)數(shù)值的上網(wǎng)日志信息。
[0023]與現(xiàn)有技術(shù)相比,本發(fā)明提供的技術(shù)方案包括:獲取用戶預(yù)設(shè)時(shí)長內(nèi)的上網(wǎng)日志信息;根據(jù)預(yù)設(shè)的無效條件刪除獲得的上網(wǎng)日志信息中影響用戶分類的無效訪問數(shù)據(jù);對(duì)刪除無效訪問數(shù)據(jù)后的上網(wǎng)日志信息進(jìn)行統(tǒng)計(jì),獲取各用戶訪問的各類網(wǎng)頁IP,根據(jù)確定的各網(wǎng)頁IP的用戶特征標(biāo)準(zhǔn)提取各用戶的相應(yīng)的所屬分類的用戶特征;根據(jù)提取的各用戶的所屬分類的用戶特征,確定用戶所屬的分類。本發(fā)明通過對(duì)影響用戶分類的無效訪問數(shù)據(jù)進(jìn)行刪除及設(shè)定各類網(wǎng)頁IP相應(yīng)的訪問次數(shù)閾值和訪問時(shí)長閾值作為相應(yīng)的用戶特征標(biāo)準(zhǔn),通過對(duì)用戶特征的統(tǒng)計(jì)和分類,實(shí)現(xiàn)對(duì)用戶所屬分類的確定,避免了無效的用戶訪問數(shù)據(jù)影響網(wǎng)絡(luò)用戶分類,提高了用戶需求分析的準(zhǔn)確性。
【專利附圖】
【附圖說明】
[0024]此處所說明的附圖用來提供對(duì)本發(fā)明的進(jìn)一步理解,構(gòu)成本申請(qǐng)的一部分,本發(fā)明的示意性實(shí)施例及其說明用于解釋本發(fā)明,并不構(gòu)成對(duì)本發(fā)明的不當(dāng)限定。在附圖中:
[0025]圖1為本發(fā)明實(shí)現(xiàn)網(wǎng)絡(luò)用戶分類的方法的流程圖;
[0026]圖2為本發(fā)明實(shí)現(xiàn)網(wǎng)絡(luò)用戶分類的裝置的結(jié)構(gòu)框圖。
【具體實(shí)施方式】
[0027]圖1為本發(fā)明實(shí)現(xiàn)網(wǎng)絡(luò)用戶分類的方法的流程圖,如圖1所示,包括:
[0028]步驟100、獲取用戶預(yù)設(shè)時(shí)長內(nèi)的上網(wǎng)日志信息;根據(jù)預(yù)設(shè)的無效條件刪除獲得的上網(wǎng)日志信息中影響用戶分類的無效訪問數(shù)據(jù)。
[0029]本步驟中,上網(wǎng)日志信息至少包括:用戶上網(wǎng)訪問的網(wǎng)頁IP地址、對(duì)各網(wǎng)頁IP地址的訪問次數(shù)和訪問時(shí)長、各網(wǎng)頁IP地址的上行數(shù)據(jù)量和下行數(shù)據(jù)量。預(yù)設(shè)的無效條件至少包括:訪問時(shí)長小于預(yù)設(shè)數(shù)值的上網(wǎng)日志信息;和,上行數(shù)據(jù)量和下行數(shù)據(jù)量小于預(yù)設(shè)數(shù)值的上網(wǎng)日志信息。
[0030]需要說明的是,獲取上網(wǎng)日志信息的方法,為數(shù)據(jù)分析領(lǐng)域慣用的技術(shù)手段。另夕卜,預(yù)設(shè)時(shí)長是指根據(jù)網(wǎng)絡(luò)用戶分類設(shè)定的要求進(jìn)行確定的時(shí)長,一般有固定的周期,例如3天。
[0031]本發(fā)明方法之前還包括:對(duì)各類網(wǎng)頁,確定用戶訪問其網(wǎng)頁IP相應(yīng)的、預(yù)設(shè)時(shí)長內(nèi)累計(jì)訪問次數(shù)的訪問次數(shù)閾值和預(yù)設(shè)時(shí)長內(nèi)累計(jì)訪問時(shí)長的訪問時(shí)長閾值,并設(shè)置同時(shí)滿足的訪問次數(shù)閾值和訪問時(shí)長閾值的上網(wǎng)日志信息為用戶特征標(biāo)準(zhǔn)。
[0032]需要說明的是,這里,各類網(wǎng)頁IP是指本領(lǐng)域技術(shù)人員根據(jù)分析需求設(shè)定的網(wǎng)頁分類的IP,例如新聞?lì)惥W(wǎng)頁,購物類網(wǎng)頁、視頻類網(wǎng)頁等相應(yīng)的IP,根據(jù)不同的分析需求,分類方式可以不同。設(shè)定訪問各類網(wǎng)頁IP相應(yīng)的訪問次數(shù)閾值和訪問時(shí)長閾值,仍以3天時(shí)長為例,對(duì)于訪問視頻類IP的訪問次數(shù)閾值,可以擬定為4次,訪問時(shí)長閾值為累計(jì)達(dá)到15分鐘;
[0033]對(duì)于訪問社交類IP的訪問次數(shù)閾值可以擬定為7次,訪問時(shí)長閾值為累計(jì)達(dá)到135分鐘。具體的,可以根據(jù)實(shí)際情況進(jìn)行調(diào)整。
[0034]步驟101、對(duì)刪除無效訪問數(shù)據(jù)后的上網(wǎng)日志信息進(jìn)行統(tǒng)計(jì),獲取各用戶訪問的各類網(wǎng)頁IP,根據(jù)確定的各網(wǎng)頁IP的用戶特征標(biāo)準(zhǔn)提取各用戶的相應(yīng)的所屬分類的用戶特征;
[0035]需要說明的是,對(duì)用戶訪問的各類網(wǎng)頁IP進(jìn)行統(tǒng)計(jì)是指采用現(xiàn)有的統(tǒng)計(jì)方法進(jìn)行實(shí)現(xiàn),例如X2統(tǒng)計(jì)法(CHI),對(duì)各用戶訪問的各類網(wǎng)頁IP進(jìn)行統(tǒng)計(jì)后,提取用戶的相應(yīng)的用戶特征也屬于本領(lǐng)域技術(shù)人員的慣用技術(shù)手段,在此不再贅述。
[0036]當(dāng)設(shè)定訪問視頻類IP的訪問次數(shù)閾值為4次,訪問時(shí)長閾值為15分鐘;對(duì)于用于訪問次數(shù)為16,訪問時(shí)長為30分鐘,則提取的用戶所屬分類的用戶特征信息是該用戶為視頻類IP用戶。
[0037]步驟102、根據(jù)提取的各用戶的所屬分類的用戶特征,確定用戶所屬的分類。
[0038]需要說明的是,這里,根據(jù)用戶所屬分類的用戶特征可以直接確定用戶所屬分類;即,如果提取的用戶的所屬分類的用戶特征包含有視頻類IP用戶和購物類IP用戶,則確定用戶所屬分類為視頻類用戶和購物類用戶。
[0039]本發(fā)明通過對(duì)影響用戶分類的無效訪問數(shù)據(jù)進(jìn)行刪除及設(shè)定各類網(wǎng)頁IP相應(yīng)的訪問次數(shù)閾值和訪問時(shí)長閾值作為相應(yīng)的用戶特征標(biāo)準(zhǔn),通過對(duì)用戶特征的統(tǒng)計(jì)和分類,實(shí)現(xiàn)對(duì)用戶所屬分類的確定,避免了無效的用戶訪問數(shù)據(jù)影響網(wǎng)絡(luò)用戶分類,提高了用戶需求分析的準(zhǔn)確性。
[0040]圖2為本發(fā)明實(shí)現(xiàn)網(wǎng)絡(luò)用戶分類的裝置的結(jié)構(gòu)框圖,如圖2所示,包括:獲取及處理單元、特征提取單元及分類確定單元;其中,
[0041]獲取及處理單元,用于獲取用戶預(yù)設(shè)時(shí)長內(nèi)的上網(wǎng)日志信息,并根據(jù)預(yù)設(shè)的無效條件刪除上網(wǎng)日志信息中影響用戶分類的無效訪問數(shù)據(jù)。這里,上網(wǎng)日志信息至少包括:用戶上網(wǎng)訪問的網(wǎng)頁IP地址、對(duì)各網(wǎng)頁IP地址的訪問次數(shù)和訪問時(shí)長、各網(wǎng)頁IP地址的上行數(shù)據(jù)量和下行數(shù)據(jù)量。
[0042]獲取及處理單元具體用于:獲取用戶預(yù)設(shè)時(shí)長內(nèi)的上網(wǎng)日志信息,
[0043]刪除上網(wǎng)日志信息中包含有訪問時(shí)長小于預(yù)設(shè)數(shù)值的網(wǎng)頁IP地址的上網(wǎng)日志信息;和,
[0044]刪除上網(wǎng)日志信息中,訪問的網(wǎng)頁IP地址中,上行數(shù)據(jù)量和下行數(shù)據(jù)量小于預(yù)設(shè)數(shù)值的上網(wǎng)日志信息。
[0045]本發(fā)明裝置還包括設(shè)定特征單元,用于對(duì)各類網(wǎng)頁,確定用戶訪問其網(wǎng)頁IP相應(yīng)的、預(yù)設(shè)時(shí)長內(nèi)累計(jì)訪問次數(shù)的訪問次數(shù)閾值和預(yù)設(shè)時(shí)長內(nèi)累計(jì)訪問時(shí)長的訪問時(shí)長閾值,并設(shè)置同時(shí)滿足訪問次數(shù)閾值和訪問時(shí)長閾值的上網(wǎng)日志信息為用戶特征標(biāo)準(zhǔn)。
[0046]特征提取單元、對(duì)刪除無效訪問數(shù)據(jù)后的上網(wǎng)日志信息進(jìn)行統(tǒng)計(jì),獲取各用戶訪問的各類網(wǎng)頁IP,根據(jù)確定的各網(wǎng)頁IP的用戶特征標(biāo)準(zhǔn)提取各用戶的相應(yīng)的所屬分類的用戶特征;
[0047]分類確定單元,用于根據(jù)提取的各用戶的所屬分類的用戶特征,確定用戶所屬的分類。
[0048]以上所述,僅為本發(fā)明的較佳實(shí)例而已,并非用于限定本發(fā)明的保護(hù)范圍。對(duì)于本申請(qǐng)發(fā)明中以上實(shí)施例只是針對(duì)優(yōu)選方式來對(duì)本發(fā)明進(jìn)行陳述。其實(shí)現(xiàn)手段可以采用類似的方法進(jìn)行替換等,根據(jù)實(shí)際情況可以做適當(dāng)調(diào)整。凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
【權(quán)利要求】
1.一種實(shí)現(xiàn)網(wǎng)絡(luò)用戶分類的方法,其特征在于,包括: 獲取用戶預(yù)設(shè)時(shí)長內(nèi)的上網(wǎng)日志信息;根據(jù)預(yù)設(shè)的無效條件刪除獲得的上網(wǎng)日志信息中影響用戶分類的無效訪問數(shù)據(jù); 對(duì)刪除無效訪問數(shù)據(jù)后的上網(wǎng)日志信息進(jìn)行統(tǒng)計(jì),獲取各用戶訪問的各類網(wǎng)頁IP,根據(jù)確定的各網(wǎng)頁IP的用戶特征標(biāo)準(zhǔn)提取各用戶的相應(yīng)的所屬分類的用戶特征; 根據(jù)提取的各用戶的所屬分類的用戶特征,確定用戶所屬的分類。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,該方法之前還包括:對(duì)各類網(wǎng)頁,確定用戶訪問其網(wǎng)頁IP相應(yīng)的、預(yù)設(shè)時(shí)長內(nèi)累計(jì)訪問次數(shù)的訪問次數(shù)閾值和預(yù)設(shè)時(shí)長內(nèi)累計(jì)訪問時(shí)長的訪問時(shí)長閾值,并設(shè)置同時(shí)滿足的訪問次數(shù)閾值和訪問時(shí)長閾值的上網(wǎng)日志信息為用戶特征標(biāo)準(zhǔn)。
3.根據(jù)權(quán)利要求1或2所述的方法,其特征在于,所述上網(wǎng)日志信息至少包括:用戶上網(wǎng)訪問的網(wǎng)頁IP地址、對(duì)各網(wǎng)頁IP地址的訪問次數(shù)和訪問時(shí)長、各網(wǎng)頁IP地址的上行數(shù)據(jù)量和下行數(shù)據(jù)量。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述預(yù)設(shè)的無效條件至少包含: 訪問時(shí)長小于預(yù)設(shè)數(shù)值的上網(wǎng)日志信息;和, 上行數(shù)據(jù)量和下行數(shù)據(jù)量小于預(yù)設(shè)數(shù)值的上網(wǎng)日志信息。
5.一種實(shí)現(xiàn)網(wǎng)絡(luò)用戶分類的裝置,其特征在于,包括:獲取單元、特征提取單元及分類確定單元;其中, 獲取及處理單元,用于獲取用戶預(yù)設(shè)時(shí)長內(nèi)的上網(wǎng)日志信息,并根據(jù)預(yù)設(shè)的無效條件刪除上網(wǎng)日志信息中影響用戶分類的無效訪問數(shù)據(jù); 特征提取單元、對(duì)刪除無效訪問數(shù)據(jù)后的上網(wǎng)日志信息進(jìn)行統(tǒng)計(jì),獲取各用戶訪問的各類網(wǎng)頁IP,根據(jù)確定的各網(wǎng)頁IP的用戶特征標(biāo)準(zhǔn)提取各用戶的相應(yīng)的所屬分類的用戶特征; 分類確定單元,用于根據(jù)提取的各用戶的所屬分類的用戶特征,確定用戶所屬的分類。
6.根據(jù)權(quán)利要求5所述的裝置,其特征在于,該裝置還包括設(shè)定特征單元,用于對(duì)各類網(wǎng)頁確定用戶訪問其網(wǎng)頁IP相應(yīng)的、預(yù)設(shè)時(shí)長內(nèi)累計(jì)訪問次數(shù)的訪問次數(shù)閾值和預(yù)設(shè)時(shí)長內(nèi)累計(jì)訪問時(shí)長的訪問時(shí)長閾值,并設(shè)置同時(shí)滿足訪問次數(shù)閾值和訪問時(shí)長閾值的上網(wǎng)日志信息為用戶特征標(biāo)準(zhǔn)。
7.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述上網(wǎng)日志信息至少包括:用戶上網(wǎng)訪問的網(wǎng)頁IP地址、對(duì)各網(wǎng)頁IP地址的訪問次數(shù)和訪問時(shí)長、各網(wǎng)頁IP地址的上行數(shù)據(jù)量和下行數(shù)據(jù)量。
8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述獲取及處理單元具體用于:獲取用戶預(yù)設(shè)時(shí)長內(nèi)的上網(wǎng)日志信息, 刪除上網(wǎng)日志信息中包含有訪問時(shí)長小于預(yù)設(shè)數(shù)值的網(wǎng)頁IP地址的上網(wǎng)日志信息;和, 刪除上網(wǎng)日志信息中,訪問的網(wǎng)頁IP地址中,上行數(shù)據(jù)量和下行數(shù)據(jù)量小于預(yù)設(shè)數(shù)值的上網(wǎng)日志信息。
【文檔編號(hào)】G06F17/30GK104462320SQ201410720376
【公開日】2015年3月25日 申請(qǐng)日期:2014年12月1日 優(yōu)先權(quán)日:2014年12月1日
【發(fā)明者】蔣成 申請(qǐng)人:中國聯(lián)合網(wǎng)絡(luò)通信集團(tuán)有限公司