一種基于客戶(hù)屬性及行為特征分析的客戶(hù)細(xì)分方法

文檔序號(hào)：6517355閱讀：4253來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于客戶(hù)屬性及行為特征分析的客戶(hù)細(xì)分方法
【專(zhuān)利摘要】本發(fā)明公開(kāi)基于客戶(hù)屬性及行為特征分析的客戶(hù)細(xì)分方法，其包括三個(gè)步驟：（1）數(shù)據(jù)預(yù)處理，根據(jù)選擇的評(píng)價(jià)屬性，對(duì)所有屬性與評(píng)價(jià)屬性之間進(jìn)行相關(guān)性分析，去除屬性集中的弱相關(guān)項(xiàng)與冗余項(xiàng)從而達(dá)到數(shù)據(jù)簡(jiǎn)化的目的。（2）群體聚類(lèi)，用K-means算法將每個(gè)屬性的原始數(shù)據(jù)劃分為三個(gè)級(jí)別，再由基于密度可達(dá)的DBSCAN算法進(jìn)行客戶(hù)聚類(lèi)，將所有客戶(hù)大體上分為高，中，低三個(gè)等級(jí)。（3）行為特征聚類(lèi)，用雙聚類(lèi)分別對(duì)步驟（2）的三個(gè)等級(jí)的聚類(lèi)結(jié)果做行為特征聚類(lèi)，采用基于了基于apriori的雙聚類(lèi)。通過(guò)上述步驟的結(jié)合完成對(duì)客戶(hù)的行為特征細(xì)分。本發(fā)明能提供更為全局性的屬性為行為特性分析提供基礎(chǔ)，提高分類(lèi)的精確性和細(xì)致性。
【專(zhuān)利說(shuō)明】一種基于客戶(hù)屬性及行為特征分析的客戶(hù)細(xì)分方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及數(shù)據(jù)挖掘領(lǐng)域，具體涉及一種基于客戶(hù)屬性及行為特征分析的客戶(hù)細(xì)分方法。
【背景技術(shù)】
[0002]現(xiàn)有的客戶(hù)行為細(xì)分方法歸納起來(lái)，主要有以下幾種:
[0003]基于RFM(Recency Frequency Monetary)模型行為細(xì)分的方法。
[0004]在RFM模型是衡量客戶(hù)價(jià)值和客戶(hù)創(chuàng)利能力的重要工具和手段。R (recency)指上次購(gòu)買(mǎi)至現(xiàn)在的時(shí)間間隔，F(xiàn) (frequency)為某一期間內(nèi)的購(gòu)買(mǎi)次數(shù)，M (monetary)是某一期間內(nèi)購(gòu)買(mǎi)的金額。RFM分析針對(duì)每個(gè)客戶(hù)的每個(gè)指標(biāo)打分，然后計(jì)算三個(gè)指標(biāo)的乘積，再按這個(gè)結(jié)果排序，在此基礎(chǔ)上將所有的客戶(hù)按照20%、60%、20%分類(lèi)，最后對(duì)不同類(lèi)型的客戶(hù)實(shí)施不同的策略。
[0005]RFM分析的因素都是行為方面的，這次信息對(duì)于擁有數(shù)據(jù)庫(kù)的公司來(lái)說(shuō)比較容易獲得，然而購(gòu)買(mǎi)次數(shù)F和同期總購(gòu)買(mǎi)額M兩個(gè)變量之間會(huì)存在多重線(xiàn)性。另外該模型選擇的屬性太少，以致于不能很全面地對(duì)客戶(hù)的行為特征進(jìn)行細(xì)分。而且按照20%、60%、20%將客戶(hù)分類(lèi)的結(jié)果不一定能反映出客戶(hù)的實(shí)際分類(lèi)群體；只實(shí)現(xiàn)了客戶(hù)群體這一維上的聚類(lèi)，并不能體現(xiàn)出屬性差距。
[0006]客戶(hù)價(jià)值矩陣的方法:
[0007]該矩陣用包括客戶(hù)代碼、購(gòu)買(mǎi)日期、日購(gòu)買(mǎi)額等屬性來(lái)進(jìn)行客戶(hù)行為細(xì)分。購(gòu)買(mǎi)次數(shù)由不同購(gòu)買(mǎi)日期的數(shù)目來(lái)確定，平均購(gòu)買(mǎi)額等于在指定時(shí)間間隔內(nèi)總購(gòu)買(mǎi)額(日購(gòu)買(mǎi)額的總和)與購(gòu)買(mǎi)次數(shù)的比值。最終所有客戶(hù)都分散在事先確定的二維矩陣的四個(gè)象限中，針對(duì)每一個(gè)客戶(hù)群或跨越客戶(hù)群產(chǎn)生不同的營(yíng)銷(xiāo)戰(zhàn)略或戰(zhàn)術(shù)。
[0008]它的缺點(diǎn)是也只局限于特定的屬性，不能根據(jù)不同數(shù)據(jù)特點(diǎn)的屬性集來(lái)選擇屬性。而且它所選擇的屬性不夠全面，不能很好地對(duì)客戶(hù)行為進(jìn)行描述。另外它只實(shí)現(xiàn)了客戶(hù)群體這一維上的聚類(lèi)，只是全局性地聚類(lèi)，不能對(duì)局部特征相似的群體進(jìn)行聚類(lèi)。

【發(fā)明內(nèi)容】

[0009]本發(fā)明針對(duì)目前客戶(hù)行為細(xì)分存在的不足和缺陷，提供一種結(jié)合屬性選擇、群體聚類(lèi)和雙聚類(lèi)的方法來(lái)達(dá)到客戶(hù)行為細(xì)分的目的，本發(fā)明通過(guò)如下技術(shù)方案實(shí)現(xiàn)。
[0010]該方法包括如下步驟:
[0011](I)數(shù)據(jù)預(yù)處理:首先，獲取航空公司的會(huì)員數(shù)據(jù)矩陣，共有P個(gè)樣本，每個(gè)樣本有Q個(gè)屬性，P、Q為大于I的正整數(shù)，其中每行代表一位客戶(hù)亦為一條記錄，每列代表客戶(hù)的屬性，其中每個(gè)元素代表公司對(duì)一個(gè)客戶(hù)的行為評(píng)分；選擇Q個(gè)屬性中的一個(gè)作為分類(lèi)屬性，對(duì)剩下的Q-1個(gè)屬性與分類(lèi)屬性之間進(jìn)行相關(guān)性分析，去除Q個(gè)屬性中的弱相關(guān)項(xiàng)與冗余項(xiàng)，得到屬性集；
[0012](2)用K-means算法將上述得到的屬性集中的每個(gè)元素的原始數(shù)據(jù)聚成L類(lèi)，L為大于1的正整數(shù)，按數(shù)據(jù)的數(shù)值由小到大劃分為L(zhǎng)個(gè)級(jí)別，原先的數(shù)據(jù)值將由這些級(jí)別代替，得到新的屬性集；然后采用基于密度可達(dá)的DBSCAN算法將新屬性集中每個(gè)客戶(hù)即是每條記錄進(jìn)行聚類(lèi)；
[0013](3)行為特征聚類(lèi):用基于apriori的雙聚類(lèi)分別對(duì)步驟(2)的聚類(lèi)結(jié)果做行為特征聚類(lèi)，得到屬性值相同、行為特征近似的客戶(hù)屬性矩陣；由客戶(hù)屬性矩陣可以得到某些屬性數(shù)值相同，即行為表現(xiàn)相近，具有相似的行為習(xí)慣的客戶(hù)群。
[0014]進(jìn)一步地，步驟(1)中，選擇Q個(gè)屬性中的一個(gè)作為分類(lèi)屬性，再利用皮爾遜卡方統(tǒng)計(jì)量度量分類(lèi)屬性與剩下的Q-1個(gè)屬性的相關(guān)性，按照相關(guān)性排列Q-1屬性，并將屬性劃分為三個(gè)等級(jí):強(qiáng)相關(guān)、相關(guān)、弱相關(guān)，去除上述弱相關(guān)屬性及強(qiáng)相關(guān)屬性中的冗余重復(fù)屬性，選擇出與分類(lèi)屬性相關(guān)并相互獨(dú)立的屬性，具體包括如下步驟:
[0015](1.1)選擇分類(lèi)屬性后，利用列聯(lián)表計(jì)算出Q-1屬性與分類(lèi)屬性的皮爾遜卡方統(tǒng)
計(jì)量K，皮爾遜卡方統(tǒng)計(jì)量
【權(quán)利要求】
1.一種基于客戶(hù)屬性及行為特征分析的客戶(hù)細(xì)分方法，其特征在于包括如下步驟: 步驟(I )，數(shù)據(jù)預(yù)處理:首先，獲取航空公司的會(huì)員數(shù)據(jù)矩陣，共有P個(gè)樣本，每個(gè)樣本有Q個(gè)屬性，P、Q為大于I的正整數(shù)，其中每行代表一位客戶(hù)亦為一條記錄，每列代表客戶(hù)的屬性，其中每個(gè)元素代表公司對(duì)一個(gè)客戶(hù)的行為評(píng)分；選擇Q個(gè)屬性中的一個(gè)作為分類(lèi)屬性，對(duì)剩下的Q-1個(gè)屬性與分類(lèi)屬性之間進(jìn)行相關(guān)性分析，去除Q個(gè)屬性中的弱相關(guān)項(xiàng)與冗余項(xiàng)，得到屬性集；步驟(2)，群體聚類(lèi):用K-means算法將上述得到的屬性集中的每個(gè)元素的原始數(shù)據(jù)聚成L類(lèi)，L為大于I的正整數(shù)，按數(shù)據(jù)的數(shù)值由小到大劃分為L(zhǎng)個(gè)級(jí)別，原先的數(shù)據(jù)值將由這L個(gè)級(jí)別代替，得到新的屬性集；然后采用基于密度可達(dá)的DBSCAN算法將新屬性集中每個(gè)客戶(hù)即每條記錄進(jìn)行聚類(lèi)，得到若干類(lèi)的客戶(hù)群；步驟(3)，行為特征聚類(lèi):用基于apriori的雙聚類(lèi)分別對(duì)步驟(2)的聚類(lèi)結(jié)果做行為特征聚類(lèi)，得到屬性值相同、行為特征近似的客戶(hù)屬性矩陣；由客戶(hù)屬性矩陣得到屬性數(shù)值相同，即相應(yīng)行為表現(xiàn)相近，具有部分行為習(xí)慣相似的客戶(hù)群。
2.根據(jù)權(quán)利要求1所述的方法，其特征在于步驟(1)中，選擇Q個(gè)屬性中的一個(gè)作為分類(lèi)屬性，再利用皮爾遜卡方統(tǒng)計(jì)量度量分類(lèi)屬性與剩下的Q-1個(gè)屬性的相關(guān)性，按照相關(guān)性排列Q-1屬性，并將屬性劃分為三個(gè)等級(jí):強(qiáng)相關(guān)、相關(guān)、弱相關(guān)，去除上述弱相關(guān)屬性及強(qiáng)相關(guān)屬性中的冗余重復(fù)屬性，選擇出與分類(lèi)屬性相關(guān)并相互獨(dú)立的屬性，具體包括如下步驟: (1.1)選擇分類(lèi)屬性后，利用列聯(lián)表計(jì)算出Q-1屬性與分類(lèi)屬性的皮爾遜卡方統(tǒng)計(jì)量

>' (f1.// — f1- // )—K，皮爾遜卡方統(tǒng)計(jì)量尤=ΣΣ^~~其中，^表示列聯(lián)表中第i行的數(shù)值總和，

/=1 M η.H1..Hj表示列聯(lián)表中第j列的數(shù)值總和，nu表示表示列聯(lián)表第i行第j列的數(shù)值，η表示列聯(lián)表中所有數(shù)值的總和； (1.2)按照皮爾遜卡方統(tǒng)計(jì)量的大小，將所有屬性聚成三類(lèi)，即強(qiáng)相關(guān)子集(SSR)、相關(guān)子集(SR)、弱相關(guān)子集(SWR)，并選擇強(qiáng)相關(guān)子集中K值最小的屬性為最弱強(qiáng)相關(guān)屬性FW，選擇弱相關(guān)屬性中K值最大的屬性為最強(qiáng)弱相關(guān)屬性FS ； (1.3)對(duì)于強(qiáng)相關(guān)屬性子集SSR，按照與分類(lèi)屬性的K的大小，下面所述的下標(biāo)i，j代表區(qū)別不同Q個(gè)屬性中的其中一個(gè)屬性表示方法，由大到小依次選擇一個(gè)屬性作為參照屬性Fp遍歷選擇該集中的其它任意Q-2個(gè)屬性為Fi,并計(jì)算Fi與參照屬性的皮爾遜卡方統(tǒng)計(jì)量Ku ^ij表示屬性。與Fi之間的卡方值；如果Ku大于或等于屬性FW與分類(lèi)屬性的K值，則表示。與匕中有一個(gè)屬性為冗余重復(fù)屬性，刪除與分類(lèi)屬性相關(guān)性較小的屬性Fi ；當(dāng)Fj完成與該子集中所有屬性比較后，將Fj放入新的屬性集即強(qiáng)相關(guān)約簡(jiǎn)屬性子集SRSR，去除冗余重復(fù)屬性后的SRSR作為強(qiáng)相關(guān)子集的子集，代替強(qiáng)相關(guān)子集進(jìn)行后續(xù)運(yùn)算；(1.4)把強(qiáng)相關(guān)約簡(jiǎn)屬性子集SRSR和相關(guān)屬性子集SR合并，得到屬性集。
3.根據(jù)權(quán)利要求1或2所述的方法，其特征在于步驟(2)中所述采用基于密度可達(dá)的DBSCAN算法將新屬性集中每個(gè)客戶(hù)即每條記錄進(jìn)行聚類(lèi)，是使用步驟(1)中所挖掘的屬性集，將DBSCAN算法把該集合全局性地分為若干類(lèi)，從含有噪聲的上述數(shù)據(jù)集合中發(fā)現(xiàn)所有的聚類(lèi)，具體包括如下步驟:(2.1)用k-dist圖的方法，即為計(jì)算屬性集中每條記錄與其它記錄的距離值，選出第K個(gè)最近鄰居之間的距離，即為選出升序中的第K個(gè)記錄，然后將所得結(jié)果畫(huà)圖，產(chǎn)生k-dist圖，其中k-dist圖中的橫坐標(biāo)則為距離值對(duì)應(yīng)的記錄對(duì)象的個(gè)數(shù)；縱坐標(biāo)表示記錄對(duì)象與它的第k個(gè)鄰近對(duì)象間的距離，k取整個(gè)數(shù)據(jù)集的1/25，圖中第一個(gè)凹陷即閾值為DBSCAN的半徑； (2.2)從步驟(1)中所挖掘的屬性集任意選取一個(gè)數(shù)據(jù)點(diǎn)X即為其中一條記錄，檢查數(shù)據(jù)點(diǎn)X的鄰域內(nèi)是否有超過(guò)某一閾值的點(diǎn)，其中鄰域指選擇數(shù)據(jù)點(diǎn)與剩余的數(shù)據(jù)點(diǎn)間的歐氏距離在步驟(2.1)中的選擇半徑范圍內(nèi)，所述某一閾值為設(shè)定值，若超過(guò)則將X定為核心點(diǎn)，其鄰域則為一個(gè)類(lèi)； (2.3)如果X是核心點(diǎn)而且沒(méi)有被劃分到步驟(2.2)所述的一個(gè)類(lèi)，則找出所有從X密度可達(dá)的點(diǎn)，最終形成一個(gè)包含X的類(lèi)；所述密度可達(dá)的點(diǎn)指X的領(lǐng)域內(nèi)及領(lǐng)域內(nèi)的核心點(diǎn)的領(lǐng)域的覆蓋點(diǎn)； (2.4)如果X不是核心點(diǎn)，則被當(dāng)做噪聲處理； (2.5)重復(fù)以上三個(gè)步驟(2.2)~(2.4)直到所有的點(diǎn)都被處理，則可找出所有類(lèi)。
4.根據(jù)權(quán)利要求1或2所述的方法，其特征在于步驟(3)進(jìn)一步包括如下步驟: (3.1)輸入要求挖掘的數(shù)據(jù)集合，即步驟(2)最后所挖掘的類(lèi)，和挖掘閾值即每個(gè)子矩陣最少行數(shù)的值； (3.2)運(yùn)用尋找頻繁項(xiàng)雙聚類(lèi)方法，得出挖掘的頻繁一項(xiàng)集，所述頻繁一項(xiàng)集為包含客戶(hù)一個(gè)屬性和多條記錄的一個(gè)集合，即是找出具有相同數(shù)值屬性個(gè)數(shù)達(dá)到閾值的列； (3.3)通過(guò)拼接的方法，把上述所找出的一項(xiàng)頻繁集合拼成二項(xiàng)頻繁集合，所述二項(xiàng)頻繁集合為包含客戶(hù)兩個(gè)屬性和多條記錄的一個(gè)集合，即判斷兩個(gè)一項(xiàng)頻繁集相同客戶(hù)數(shù)量是否達(dá)到閾值，若達(dá)到閾值則合并，否則不做處理，同理，由二項(xiàng)頻繁集合，拼成三項(xiàng)頻繁集合；直到拼接成η項(xiàng)頻繁集合為止； (3.4)得到的所有頻繁項(xiàng)集，對(duì)應(yīng)所要的客戶(hù)屬性矩陣，其中每個(gè)一列對(duì)應(yīng)一個(gè)屬性，而且同個(gè)客戶(hù)屬性矩陣中每一列的數(shù)值相等，每條一行對(duì)應(yīng)一個(gè)客戶(hù)；由客戶(hù)屬性矩陣得到屬性數(shù)值相同即行為表現(xiàn)相近，具有部分行為習(xí)慣相似的客戶(hù)群。
【文檔編號(hào)】G06Q30/02GK103559630SQ201310529336
【公開(kāi)日】2014年2月5日申請(qǐng)日期:2013年10月31日優(yōu)先權(quán)日:2013年10月31日
【發(fā)明者】陳建林, 吳曉聲, 肖宇, 薛云, 蔡倩華, 胡曉暉申請(qǐng)人:華南師范大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：陳建林;吳曉聲;肖宇;薛云;蔡倩華;胡曉暉
技術(shù)所有人：華南師范大學(xué)
我是此專(zhuān)利的發(fā)明人

上一篇：一種實(shí)現(xiàn)智能終端多窗口顯示的方法及裝置制造方法
上一篇：基于非局部均值的sar圖像變化檢測(cè)方法

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話(huà)進(jìn)行咨詢(xún)。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線(xiàn)網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

用戶(hù)行為特征分析相關(guān)技術(shù)

目標(biāo)客戶(hù)群體特征分析相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于客戶(hù)屬性及行為特征分析的客戶(hù)細(xì)分方法