亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于客戶(hù)屬性及行為特征分析的客戶(hù)細(xì)分方法

文檔序號(hào):6517355閱讀:4253來(lái)源:國(guó)知局
一種基于客戶(hù)屬性及行為特征分析的客戶(hù)細(xì)分方法
【專(zhuān)利摘要】本發(fā)明公開(kāi)基于客戶(hù)屬性及行為特征分析的客戶(hù)細(xì)分方法,其包括三個(gè)步驟:(1)數(shù)據(jù)預(yù)處理,根據(jù)選擇的評(píng)價(jià)屬性,對(duì)所有屬性與評(píng)價(jià)屬性之間進(jìn)行相關(guān)性分析,去除屬性集中的弱相關(guān)項(xiàng)與冗余項(xiàng)從而達(dá)到數(shù)據(jù)簡(jiǎn)化的目的。(2)群體聚類(lèi),用K-means算法將每個(gè)屬性的原始數(shù)據(jù)劃分為三個(gè)級(jí)別,再由基于密度可達(dá)的DBSCAN算法進(jìn)行客戶(hù)聚類(lèi),將所有客戶(hù)大體上分為高,中,低三個(gè)等級(jí)。(3)行為特征聚類(lèi),用雙聚類(lèi)分別對(duì)步驟(2)的三個(gè)等級(jí)的聚類(lèi)結(jié)果做行為特征聚類(lèi),采用基于了基于apriori的雙聚類(lèi)。通過(guò)上述步驟的結(jié)合完成對(duì)客戶(hù)的行為特征細(xì)分。本發(fā)明能提供更為全局性的屬性為行為特性分析提供基礎(chǔ),提高分類(lèi)的精確性和細(xì)致性。
【專(zhuān)利說(shuō)明】一種基于客戶(hù)屬性及行為特征分析的客戶(hù)細(xì)分方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及數(shù)據(jù)挖掘領(lǐng)域,具體涉及一種基于客戶(hù)屬性及行為特征分析的客戶(hù)細(xì)分方法。
【背景技術(shù)】
[0002]現(xiàn)有的客戶(hù)行為細(xì)分方法歸納起來(lái),主要有以下幾種:
[0003]基于RFM(Recency Frequency Monetary)模型行為細(xì)分的方法。
[0004]在RFM模型是衡量客戶(hù)價(jià)值和客戶(hù)創(chuàng)利能力的重要工具和手段。R (recency)指上次購(gòu)買(mǎi)至現(xiàn)在的時(shí)間間隔,F(xiàn) (frequency)為某一期間內(nèi)的購(gòu)買(mǎi)次數(shù),M (monetary)是某一期間內(nèi)購(gòu)買(mǎi)的金額。RFM分析針對(duì)每個(gè)客戶(hù)的每個(gè)指標(biāo)打分,然后計(jì)算三個(gè)指標(biāo)的乘積,再按這個(gè)結(jié)果排序,在此基礎(chǔ)上將所有的客戶(hù)按照20%、60%、20%分類(lèi),最后對(duì)不同類(lèi)型的客戶(hù)實(shí)施不同的策略。
[0005]RFM分析的因素都是行為方面的,這次信息對(duì)于擁有數(shù)據(jù)庫(kù)的公司來(lái)說(shuō)比較容易獲得,然而購(gòu)買(mǎi)次數(shù)F和同期總購(gòu)買(mǎi)額M兩個(gè)變量之間會(huì)存在多重線(xiàn)性。另外該模型選擇的屬性太少,以致于不能很全面地對(duì)客戶(hù)的行為特征進(jìn)行細(xì)分。而且按照20%、60%、20%將客戶(hù)分類(lèi)的結(jié)果不一定能反映出客戶(hù)的實(shí)際分類(lèi)群體;只實(shí)現(xiàn)了客戶(hù)群體這一維上的聚類(lèi),并不能體現(xiàn)出屬性差距。
[0006]客戶(hù)價(jià)值矩陣的方法:
[0007]該矩陣用包括客戶(hù)代碼、購(gòu)買(mǎi)日期、日購(gòu)買(mǎi)額等屬性來(lái)進(jìn)行客戶(hù)行為細(xì)分。購(gòu)買(mǎi)次數(shù)由不同購(gòu)買(mǎi)日期的數(shù)目來(lái)確定,平均購(gòu)買(mǎi)額等于在指定時(shí)間間隔內(nèi)總購(gòu)買(mǎi)額(日購(gòu)買(mǎi)額的總和)與購(gòu)買(mǎi)次數(shù)的比值。最終所有客戶(hù)都分散在事先確定的二維矩陣的四個(gè)象限中,針對(duì)每一個(gè)客戶(hù)群或跨越客戶(hù)群產(chǎn)生不同的營(yíng)銷(xiāo)戰(zhàn)略或戰(zhàn)術(shù)。
[0008]它的缺點(diǎn)是也只局限于特定的屬性,不能根據(jù)不同數(shù)據(jù)特點(diǎn)的屬性集來(lái)選擇屬性。而且它所選擇的屬性不夠全面,不能很好地對(duì)客戶(hù)行為進(jìn)行描述。另外它只實(shí)現(xiàn)了客戶(hù)群體這一維上的聚類(lèi),只是全局性地聚類(lèi),不能對(duì)局部特征相似的群體進(jìn)行聚類(lèi)。

【發(fā)明內(nèi)容】

[0009]本發(fā)明針對(duì)目前客戶(hù)行為細(xì)分存在的不足和缺陷,提供一種結(jié)合屬性選擇、群體聚類(lèi)和雙聚類(lèi)的方法來(lái)達(dá)到客戶(hù)行為細(xì)分的目的,本發(fā)明通過(guò)如下技術(shù)方案實(shí)現(xiàn)。
[0010]該方法包括如下步驟:
[0011](I)數(shù)據(jù)預(yù)處理:首先,獲取航空公司的會(huì)員數(shù)據(jù)矩陣,共有P個(gè)樣本,每個(gè)樣本有Q個(gè)屬性,P、Q為大于I的正整數(shù),其中每行代表一位客戶(hù)亦為一條記錄,每列代表客戶(hù)的屬性,其中每個(gè)元素代表公司對(duì)一個(gè)客戶(hù)的行為評(píng)分;選擇Q個(gè)屬性中的一個(gè)作為分類(lèi)屬性,對(duì)剩下的Q-1個(gè)屬性與分類(lèi)屬性之間進(jìn)行相關(guān)性分析,去除Q個(gè)屬性中的弱相關(guān)項(xiàng)與冗余項(xiàng),得到屬性集;
[0012](2)用K-means算法將上述得到的屬性集中的每個(gè)元素的原始數(shù)據(jù)聚成L類(lèi),L為大于1的正整數(shù),按數(shù)據(jù)的數(shù)值由小到大劃分為L(zhǎng)個(gè)級(jí)別,原先的數(shù)據(jù)值將由這些級(jí)別代替,得到新的屬性集;然后采用基于密度可達(dá)的DBSCAN算法將新屬性集中每個(gè)客戶(hù)即是每條記錄進(jìn)行聚類(lèi);
[0013](3)行為特征聚類(lèi):用基于apriori的雙聚類(lèi)分別對(duì)步驟(2)的聚類(lèi)結(jié)果做行為特征聚類(lèi),得到屬性值相同、行為特征近似的客戶(hù)屬性矩陣;由客戶(hù)屬性矩陣可以得到某些屬性數(shù)值相同,即行為表現(xiàn)相近,具有相似的行為習(xí)慣的客戶(hù)群。
[0014]進(jìn)一步地,步驟(1)中,選擇Q個(gè)屬性中的一個(gè)作為分類(lèi)屬性,再利用皮爾遜卡方統(tǒng)計(jì)量度量分類(lèi)屬性與剩下的Q-1個(gè)屬性的相關(guān)性,按照相關(guān)性排列Q-1屬性,并將屬性劃分為三個(gè)等級(jí):強(qiáng)相關(guān)、相關(guān)、弱相關(guān),去除上述弱相關(guān)屬性及強(qiáng)相關(guān)屬性中的冗余重復(fù)屬性,選擇出與分類(lèi)屬性相關(guān)并相互獨(dú)立的屬性,具體包括如下步驟:
[0015](1.1)選擇分類(lèi)屬性后,利用列聯(lián)表計(jì)算出Q-1屬性與分類(lèi)屬性的皮爾遜卡方統(tǒng)
計(jì)量K,皮爾遜卡方統(tǒng)計(jì)量
【權(quán)利要求】
1.一種基于客戶(hù)屬性及行為特征分析的客戶(hù)細(xì)分方法,其特征在于包括如下步驟: 步驟(I ),數(shù)據(jù)預(yù)處理:首先,獲取航空公司的會(huì)員數(shù)據(jù)矩陣,共有P個(gè)樣本,每個(gè)樣本 有Q個(gè)屬性,P、Q為大于I的正整數(shù),其中每行代表一位客戶(hù)亦為一條記錄,每列代表客戶(hù)的屬性,其中每個(gè)元素代表公司對(duì)一個(gè)客戶(hù)的行為評(píng)分;選擇Q個(gè)屬性中的一個(gè)作為分類(lèi)屬性,對(duì)剩下的Q-1個(gè)屬性與分類(lèi)屬性之間進(jìn)行相關(guān)性分析,去除Q個(gè)屬性中的弱相關(guān)項(xiàng)與冗余項(xiàng),得到屬性集; 步驟(2),群體聚類(lèi):用K-means算法將上述得到的屬性集中的每個(gè)元素的原始數(shù)據(jù)聚成L類(lèi),L為大于I的正整數(shù),按數(shù)據(jù)的數(shù)值由小到大劃分為L(zhǎng)個(gè)級(jí)別,原先的數(shù)據(jù)值將由這L個(gè)級(jí)別代替,得到新的屬性集;然后采用基于密度可達(dá)的DBSCAN算法將新屬性集中每個(gè)客戶(hù)即每條記錄進(jìn)行聚類(lèi),得到若干類(lèi)的客戶(hù)群; 步驟(3),行為特征聚類(lèi):用基于apriori的雙聚類(lèi)分別對(duì)步驟(2)的聚類(lèi)結(jié)果做行為特征聚類(lèi),得到屬性值相同、行為特征近似的客戶(hù)屬性矩陣;由客戶(hù)屬性矩陣得到屬性數(shù)值相同,即相應(yīng)行為表現(xiàn)相近,具有部分行為習(xí)慣相似的客戶(hù)群。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于步驟(1)中,選擇Q個(gè)屬性中的一個(gè)作為分類(lèi)屬性,再利用皮爾遜卡方統(tǒng)計(jì)量度量分類(lèi)屬性與剩下的Q-1個(gè)屬性的相關(guān)性,按照相關(guān)性排列Q-1屬性,并將屬性劃分為三個(gè)等級(jí):強(qiáng)相關(guān)、相關(guān)、弱相關(guān),去除上述弱相關(guān)屬性及強(qiáng)相關(guān)屬性中的冗余重復(fù)屬性,選擇出與分類(lèi)屬性相關(guān)并相互獨(dú)立的屬性,具體包括如下步驟: (1.1)選擇分類(lèi)屬性后,利用列聯(lián)表計(jì)算出Q-1屬性與分類(lèi)屬性的皮爾遜卡方統(tǒng)計(jì)量

>' (f1.// — f1- // )—K,皮爾遜卡方統(tǒng)計(jì)量尤=ΣΣ^~~其中,^表示列聯(lián)表中第i行的數(shù)值總和,

/=1 M η.H1..Hj表示列聯(lián)表中第j列的數(shù)值總和,nu表示表示列聯(lián)表第i行第j列的數(shù)值,η表示列聯(lián)表中所有數(shù)值的總和; (1.2)按照皮爾遜卡方統(tǒng)計(jì)量的大小,將所有屬性聚成三類(lèi),即強(qiáng)相關(guān)子集(SSR)、相關(guān)子集(SR)、弱相關(guān)子集(SWR),并選擇強(qiáng)相關(guān)子集中K值最小的屬性為最弱強(qiáng)相關(guān)屬性FW,選擇弱相關(guān)屬性中K值最大的屬性為最強(qiáng)弱相關(guān)屬性FS ; (1.3)對(duì)于強(qiáng)相關(guān)屬性子集SSR,按照與分類(lèi)屬性的K的大小,下面所述的下標(biāo)i,j代表區(qū)別不同Q個(gè)屬性中的其中一個(gè)屬性表示方法,由大到小依次選擇一個(gè)屬性作為參照屬性Fp遍歷選擇該集中的其它任意Q-2個(gè)屬性為Fi,并計(jì)算Fi與參照屬性的皮爾遜卡方統(tǒng)計(jì)量Ku ^ij表示屬性。與Fi之間的卡方值;如果Ku大于或等于屬性FW與分類(lèi)屬性的K值,則表示。與匕中有一個(gè)屬性為冗余重復(fù)屬性,刪除與分類(lèi)屬性相關(guān)性較小的屬性Fi ;當(dāng)Fj完成與該子集中所有屬性比較后,將Fj放入新的屬性集即強(qiáng)相關(guān)約簡(jiǎn)屬性子集SRSR,去除冗余重復(fù)屬性后的SRSR作為強(qiáng)相關(guān)子集的子集,代替強(qiáng)相關(guān)子集進(jìn)行后續(xù)運(yùn)算;(1.4)把強(qiáng)相關(guān)約簡(jiǎn)屬性子集SRSR和相關(guān)屬性子集SR合并,得到屬性集。
3.根據(jù)權(quán)利要求1或2所述的方法,其特征在于步驟(2)中所述采用基于密度可達(dá)的DBSCAN算法將新屬性集中每個(gè)客戶(hù)即每條記錄進(jìn)行聚類(lèi),是使用步驟(1)中所挖掘的屬性集,將DBSCAN算法把該集合全局性地分為若干類(lèi),從含有噪聲的上述數(shù)據(jù)集合中發(fā)現(xiàn)所有的聚類(lèi),具體包括如下步驟:(2.1)用k-dist圖的方法,即為計(jì)算屬性集中每條記錄與其它記錄的距離值,選出第K個(gè)最近鄰居之間的距離,即為選出升序中的第K個(gè)記錄,然后將所得結(jié)果畫(huà)圖,產(chǎn)生k-dist圖,其中k-dist圖中的橫坐標(biāo)則為距離值對(duì)應(yīng)的記錄對(duì)象的個(gè)數(shù);縱坐標(biāo)表示記錄對(duì)象與它的第k個(gè)鄰近對(duì)象間的距離,k取整個(gè)數(shù)據(jù)集的1/25,圖中第一個(gè)凹陷即閾值為DBSCAN的半徑; (2.2)從步驟(1)中所挖掘的屬性集任意選取一個(gè)數(shù)據(jù)點(diǎn)X即為其中一條記錄,檢查數(shù)據(jù)點(diǎn)X的鄰域內(nèi)是否有超過(guò)某一閾值的點(diǎn),其中鄰域指選擇數(shù)據(jù)點(diǎn)與剩余的數(shù)據(jù)點(diǎn)間的歐氏距離在步驟(2.1)中的選擇半徑范圍內(nèi),所述某一閾值為設(shè)定值,若超過(guò)則將X定為核心點(diǎn),其鄰域則為一個(gè)類(lèi); (2.3)如果X是核心點(diǎn)而且沒(méi)有被劃分到步驟(2.2)所述的一個(gè)類(lèi),則找出所有從X密度可達(dá)的點(diǎn),最終形成一個(gè)包含X的類(lèi);所述密度可達(dá)的點(diǎn)指X的領(lǐng)域內(nèi)及領(lǐng)域內(nèi)的核心點(diǎn)的領(lǐng)域的覆蓋點(diǎn); (2.4)如果X不是核心點(diǎn),則被當(dāng)做噪聲處理; (2.5)重復(fù)以上三個(gè)步驟(2.2)~(2.4)直到所有的點(diǎn)都被處理,則可找出所有類(lèi)。
4.根據(jù)權(quán)利要求1或2所述的方法,其特征在于步驟(3)進(jìn)一步包括如下步驟: (3.1)輸入要求挖掘的數(shù)據(jù)集合,即步驟(2)最后所挖掘的類(lèi),和挖掘閾值即每個(gè)子矩陣最少行數(shù)的值; (3.2)運(yùn)用尋找頻繁項(xiàng)雙聚類(lèi)方法,得出挖掘的頻繁一項(xiàng)集,所述頻繁一項(xiàng)集為包含客戶(hù)一個(gè)屬性和多條記錄 的一個(gè)集合,即是找出具有相同數(shù)值屬性個(gè)數(shù)達(dá)到閾值的列; (3.3)通過(guò)拼接的方法,把上述所找出的一項(xiàng)頻繁集合拼成二項(xiàng)頻繁集合,所述二項(xiàng)頻繁集合為包含客戶(hù)兩個(gè)屬性和多條記錄的一個(gè)集合,即判斷兩個(gè)一項(xiàng)頻繁集相同客戶(hù)數(shù)量是否達(dá)到閾值,若達(dá)到閾值則合并,否則不做處理,同理,由二項(xiàng)頻繁集合,拼成三項(xiàng)頻繁集合;直到拼接成η項(xiàng)頻繁集合為止; (3.4)得到的所有頻繁項(xiàng)集,對(duì)應(yīng)所要的客戶(hù)屬性矩陣,其中每個(gè)一列對(duì)應(yīng)一個(gè)屬性,而且同個(gè)客戶(hù)屬性矩陣中每一列的數(shù)值相等,每條一行對(duì)應(yīng)一個(gè)客戶(hù);由客戶(hù)屬性矩陣得到屬性數(shù)值相同即行為表現(xiàn)相近,具有部分行為習(xí)慣相似的客戶(hù)群。
【文檔編號(hào)】G06Q30/02GK103559630SQ201310529336
【公開(kāi)日】2014年2月5日 申請(qǐng)日期:2013年10月31日 優(yōu)先權(quán)日:2013年10月31日
【發(fā)明者】陳建林, 吳曉聲, 肖宇, 薛云, 蔡倩華, 胡曉暉 申請(qǐng)人:華南師范大學(xué)
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1