本申請涉及計算機
技術(shù)領(lǐng)域:
,特別是涉及一種產(chǎn)品推薦方法及裝置。
背景技術(shù):
:在互聯(lián)網(wǎng)平臺中,有海量的用戶和產(chǎn)品,挖掘?qū)Ξa(chǎn)品感興趣的用戶,并能夠精準推薦產(chǎn)品,可以節(jié)約大量的運營成本,提高平臺的運營效率。因此,在互聯(lián)網(wǎng)推薦中,“推薦什么”,“推薦給誰”是需要不斷改進和解決的問題。現(xiàn)有技術(shù)中通常結(jié)合數(shù)據(jù)挖掘算法來確定想某個用戶推薦什么,以及,將互聯(lián)網(wǎng)平臺產(chǎn)品推薦給哪些用戶。常用的數(shù)據(jù)挖掘算法包括關(guān)聯(lián)規(guī)則挖掘算法,如Apriori,F(xiàn)P-tree等。關(guān)聯(lián)規(guī)則挖掘的相關(guān)算法如Apriori,F(xiàn)P-tree等已經(jīng)相對成熟,但是,現(xiàn)有技術(shù)中的關(guān)聯(lián)規(guī)則挖掘算法每提取一次頻繁項集時,需要對待分析數(shù)據(jù)全量循環(huán)計算,數(shù)據(jù)處理效率低下,對于海量數(shù)據(jù)的處理具有一定局限性。綜上,現(xiàn)有技術(shù)中的互聯(lián)網(wǎng)平臺上的產(chǎn)品推薦方法至少存在以下缺陷:基于海量、多維數(shù)據(jù)進行處理提取關(guān)聯(lián)規(guī)則,用于進行產(chǎn)品推薦時,提取關(guān)聯(lián)規(guī)則的運算效率低下。技術(shù)實現(xiàn)要素:本申請所要解決的技術(shù)問題是:提供一種產(chǎn)品推薦方法,解決現(xiàn)有技術(shù)中基于海量、多維數(shù)據(jù)進行處理提取關(guān)聯(lián)規(guī)則,用于進行產(chǎn)品推薦時,提取關(guān)聯(lián)規(guī)則的運算效率低下的問題。為了解決上述問題,本申請實施例提供了一種產(chǎn)品推薦方法,包括:提取互聯(lián)網(wǎng)平臺存儲的數(shù)據(jù)的預(yù)設(shè)數(shù)據(jù)特征,建立所述互聯(lián)網(wǎng)平臺的多維數(shù)據(jù)模型;基于所述多維數(shù)據(jù)模型獲得多條多維關(guān)聯(lián)規(guī)則;基于所述多維關(guān)聯(lián)規(guī)則進行所述互聯(lián)網(wǎng)平臺上產(chǎn)品的推薦。相應(yīng)的,本申請實施例還提供了一種產(chǎn)品推薦裝置,包括:數(shù)據(jù)模型建立模塊,用于提取互聯(lián)網(wǎng)平臺存儲的數(shù)據(jù)的預(yù)設(shè)數(shù)據(jù)特征,建立所述互聯(lián)網(wǎng)平臺的多維數(shù)據(jù)模型;關(guān)聯(lián)規(guī)則生成模塊,用于基于所述數(shù)據(jù)模型建立模塊建立的多維數(shù)據(jù)模型獲得多條多維關(guān)聯(lián)規(guī)則;產(chǎn)品推薦模塊,用于基于所述關(guān)聯(lián)規(guī)則生成模塊獲得的多維關(guān)聯(lián)規(guī)則進行所述互聯(lián)網(wǎng)平臺上產(chǎn)品的推薦。本申請公開的產(chǎn)品推薦方法,通過提取互聯(lián)網(wǎng)平臺存儲的數(shù)據(jù)的預(yù)設(shè)數(shù)據(jù)特征,建立所述互聯(lián)網(wǎng)平臺的多維數(shù)據(jù)模型,然后,基于所述多維數(shù)據(jù)模型獲得多條多維關(guān)聯(lián)規(guī)則;最后,基于所述多維關(guān)聯(lián)規(guī)則進行所述互聯(lián)網(wǎng)平臺上產(chǎn)品的推薦,解決了現(xiàn)有技術(shù)中基于海量、多維數(shù)據(jù)進行處理提取關(guān)聯(lián)規(guī)則,用于進行產(chǎn)品推薦時,提取關(guān)聯(lián)規(guī)則的運算效率低下的問題。通過建立多維數(shù)據(jù)模型,有效地對互聯(lián)網(wǎng)平臺存儲的數(shù)據(jù)進行分類處理,提升了計算關(guān)聯(lián)規(guī)則的效率,進一步提升了產(chǎn)品推薦的效率。附圖說明為了更清楚地說明本申請實施例的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本申請的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖1是本申請實施例一的產(chǎn)品推薦方法流程圖;圖2是本申請實施例二的產(chǎn)品推薦方法流程圖;圖3是本申請實施例二生成的多維關(guān)系模型中數(shù)據(jù)特征關(guān)系示意圖;圖4是本申請實施例三的產(chǎn)品推薦裝置結(jié)構(gòu)示意圖;圖5是本申請實施例四的產(chǎn)品推薦裝置結(jié)構(gòu)示意圖。具體實施方式下面將結(jié)合本申請實施例中的附圖,對本申請實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例是本申請一部分實施例,而不是全部的實施例。基于本申請中的實施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本申請保護的范圍。實施例一本申請公開的一種產(chǎn)品推薦方法,如圖1所示,該方法包括:步驟100至步驟120。步驟100,提取互聯(lián)網(wǎng)平臺存儲的數(shù)據(jù)的預(yù)設(shè)數(shù)據(jù)特征,建立所述互聯(lián)網(wǎng)平臺的多維數(shù)據(jù)模型。本申請具體實施時,基于互聯(lián)網(wǎng)平臺存儲的數(shù)據(jù)提取預(yù)設(shè)數(shù)據(jù)特征,用于產(chǎn)品推薦時參考。所述預(yù)設(shè)數(shù)據(jù)特征包括但不限于:用戶維度數(shù)據(jù)特征、產(chǎn)品維度數(shù)據(jù)特征、行為維度數(shù)據(jù)特征。其中,不同維度的數(shù)據(jù)特征用于表征數(shù)據(jù)的類別屬性,各個維度又細分為多個子維度。如:用戶維度數(shù)據(jù)特征進一步分為:基本信息、地區(qū)信息、信用信息及用戶偏好等子維度,每一個用戶維度數(shù)據(jù)特征的子維度又可以進一步包括多個子維度,如年齡、性別、婚姻狀況、職業(yè)、收入等數(shù)據(jù)特征。再如:產(chǎn)品維度數(shù)據(jù)特征進一步包括:基本信息和產(chǎn)品標簽,而產(chǎn)品標簽子維度數(shù)據(jù)特征又進一步包括成交量、瀏覽量及產(chǎn)品關(guān)鍵詞等數(shù)據(jù)特征?;ヂ?lián)網(wǎng)平臺存儲的數(shù)據(jù)的預(yù)設(shè)數(shù)據(jù)特征的取值可以直接來源于用戶通過互聯(lián)網(wǎng)平臺輸入的數(shù)據(jù),如用戶維度數(shù)據(jù)特征中的婚姻狀況、職業(yè)等數(shù)據(jù)特征,如產(chǎn)品維度數(shù)據(jù)特征中的標題、分類、價格等數(shù)據(jù)特征;也可以由互聯(lián)網(wǎng)平臺根據(jù)互聯(lián)網(wǎng)平臺存儲的數(shù)據(jù)計算后得到,如用戶維度數(shù)據(jù)特征中的信用信息、產(chǎn)品維度數(shù)據(jù)特征中的成交量等數(shù)據(jù)特征。具體實施時,根據(jù)互聯(lián)網(wǎng)平臺的業(yè)務(wù)內(nèi)容需要,預(yù)先建立數(shù)據(jù)特征庫,所述數(shù)據(jù)特征庫中的數(shù)據(jù)特征的值分別對應(yīng)互聯(lián)網(wǎng)平臺存儲的數(shù)據(jù)的某個字段的取值,或者可以根據(jù)互聯(lián)網(wǎng)平臺存儲的數(shù)據(jù)計算生成。根據(jù)數(shù)據(jù)特征和互聯(lián)網(wǎng)平臺存儲的數(shù)據(jù)的字段的對應(yīng)關(guān)系,可以提取互聯(lián)網(wǎng)平臺存儲的數(shù)據(jù)的各個維度的數(shù)據(jù)特征。例如,提取到“美食交易次數(shù)”的值為10;提取到“常駐商圈”特征為“北京站”;提取到“最近7天交易水平”特征取值為5等。所述多維數(shù)據(jù)模型為表示多個維度的所述預(yù)設(shè)數(shù)據(jù)特征組合和用戶標識、產(chǎn)品標識的關(guān)系模型,具體實施時,所述多維數(shù)據(jù)模型可以為數(shù)據(jù)立方體。本申請采用了ApacheKylin提供的立方體生成功能,可以高效靈活地完成數(shù)據(jù)立方體的生成工作。ApacheKylin是一個開源的分布式分析引擎,提供Hadoop之上的SQL查詢接口及多維分析(OLAP)能力,以支持超大規(guī)模數(shù)據(jù)。具體實施時,所述多維數(shù)據(jù)模型包括用戶多維數(shù)據(jù)模型和產(chǎn)品多維數(shù)據(jù)模型。其中,用戶多維數(shù)據(jù)模型為用戶數(shù)據(jù)立方體,產(chǎn)品多維數(shù)據(jù)模型為產(chǎn)品數(shù)據(jù)立方體。用戶數(shù)據(jù)立方體為用戶標識和多個維度的所述預(yù)設(shè)數(shù)據(jù)特征組合的關(guān)系模型;產(chǎn)品立方體為產(chǎn)品標識和多個維度的所述預(yù)設(shè)數(shù)據(jù)特征組合的關(guān)系模型。步驟110,基于所述多維數(shù)據(jù)模型獲得多條多維關(guān)聯(lián)規(guī)則。所述多維數(shù)據(jù)模型包括用戶多維數(shù)據(jù)模型和產(chǎn)品多維數(shù)據(jù)模型,是由用戶標識或產(chǎn)品標識,以及多個維度的數(shù)據(jù)特征的組合構(gòu)成的關(guān)系模型。通過將所述產(chǎn)品多維數(shù)據(jù)模型中支持次數(shù)大于一定數(shù)值的組合數(shù)據(jù)特征組合,加入第一頻繁特征集合;以及,通過將所述用戶多維數(shù)據(jù)模型中支持次數(shù)大于一定數(shù)值的數(shù)據(jù)特征組合加入第二頻繁特征集合,對數(shù)據(jù)特征組合進行初步篩選,用于減小運算量,提高運算效率。然后,將所述第一頻繁特征集合中置信次數(shù)滿足預(yù)設(shè)條件的數(shù)據(jù)特征組合加入第一目標集合;將所述第二頻繁特征集合中置信次數(shù)滿足預(yù)設(shè)條件的數(shù)據(jù)特征組合加入第二目標集合。最后,分別計算所述第一目標集合中每個數(shù)據(jù)特征組合和所述第二目標結(jié)合中的所有數(shù)據(jù)特征組合的兩兩關(guān)聯(lián)規(guī)則,得到多條多維關(guān)聯(lián)規(guī)則。具體實施時,為了進一步提升運算效率,可以通過Map(映射)Reduce(簡化)編程模型并行計算多維關(guān)聯(lián)規(guī)則。通過Map(映射)Reduce(簡化)編程模型,將用戶多維數(shù)據(jù)模型和產(chǎn)品多維數(shù)據(jù)模型中的每一條用戶與數(shù)據(jù)特征組合的關(guān)系、產(chǎn)品與數(shù)據(jù)特征組合的關(guān)系進行處理后簡化為多維關(guān)聯(lián)規(guī)則的集合。每一條多維關(guān)聯(lián)規(guī)則表示數(shù)據(jù)特征組合對應(yīng)一個用戶和產(chǎn)品組合,每一條多維關(guān)聯(lián)規(guī)則表示該用戶和產(chǎn)品組合對應(yīng)的該組數(shù)據(jù)特征出現(xiàn)的次數(shù)、置信次數(shù)以及提升度等。具體實施時,通過MapReduce模型中預(yù)設(shè)數(shù)量的映射任務(wù),將分布式存儲的所述產(chǎn)品多維數(shù)據(jù)模型和所述用戶多維數(shù)據(jù)模型中支持次數(shù)滿足第一預(yù)設(shè)條件的數(shù)據(jù)特征組合,分別映射到預(yù)設(shè)格式的鍵值對;將所述預(yù)設(shè)格式的鍵值對按照數(shù)據(jù)相關(guān)性發(fā)送到所述MapReduce模型中多個簡化任務(wù);通過所述簡化任務(wù)將所述鍵值對對應(yīng)的數(shù)據(jù)特征組合中置信次數(shù)滿足第二預(yù)設(shè)條件的數(shù)據(jù)特征組合標記為置信組合;分別計算所述產(chǎn)品多維數(shù)據(jù)模型中標記為置信組合的數(shù)據(jù)特征組合與所述產(chǎn)品多維數(shù)據(jù)模型中標記為置信組合的數(shù)據(jù)特征組合的兩兩關(guān)聯(lián)規(guī)則,得到多條多維關(guān)聯(lián)規(guī)則。步驟120,基于所述多維關(guān)聯(lián)規(guī)則進行所述互聯(lián)網(wǎng)平臺上產(chǎn)品的推薦。當某一用戶登錄互聯(lián)網(wǎng)平臺后,提取互聯(lián)網(wǎng)平臺存儲的當前登錄用戶的用戶數(shù)據(jù)特征,將提取到的用戶特征與生成的關(guān)聯(lián)規(guī)則中的該用戶的(用戶,產(chǎn)品)關(guān)聯(lián)規(guī)則包含的用戶數(shù)據(jù)特征組合進行比對,確定相似度最高的用戶數(shù)據(jù)特征組合所屬的關(guān)聯(lián)規(guī)則所對應(yīng)的產(chǎn)品,將確定的產(chǎn)品推薦給所述當前用戶。或者,對于某一產(chǎn)品,根據(jù)獲得的關(guān)聯(lián)規(guī)則確定可能對該產(chǎn)品感興趣的用戶,并將該產(chǎn)品推薦給確定的用戶。優(yōu)選地,基于所述多維關(guān)聯(lián)規(guī)則進行所述互聯(lián)網(wǎng)平臺上產(chǎn)品的推薦于生成的關(guān)聯(lián)規(guī)則進行產(chǎn)品推薦時,還可以結(jié)合推薦參數(shù),通過所述推薦參數(shù)對具體實施時,根據(jù)應(yīng)用場景的選擇不同的推薦參數(shù),如對于互聯(lián)網(wǎng)平臺上的點餐產(chǎn)品,推薦參數(shù)可以選擇用戶常駐商圈;對于互聯(lián)網(wǎng)平臺上的服飾產(chǎn)品,推薦參數(shù)可以選擇用戶性別、年齡。本申請實施例通過,提取互聯(lián)網(wǎng)平臺存儲的數(shù)據(jù)的預(yù)設(shè)數(shù)據(jù)特征,建立所述互聯(lián)網(wǎng)平臺的多維數(shù)據(jù)模型,然后,基于所述多維數(shù)據(jù)模型獲得多條多維關(guān)聯(lián)規(guī)則;最后,基于所述多維關(guān)聯(lián)規(guī)則進行所述互聯(lián)網(wǎng)平臺上產(chǎn)品的推薦,解決了現(xiàn)有技術(shù)中基于海量、多維數(shù)據(jù)進行處理提取關(guān)聯(lián)規(guī)則,用于進行產(chǎn)品推薦時,提取關(guān)聯(lián)規(guī)則的運算效率低下的問題。通過建立多維數(shù)據(jù)模型,有效地對互聯(lián)網(wǎng)平臺存儲的數(shù)據(jù)進行分類處理,提升了計算關(guān)聯(lián)規(guī)則的效率,進一步提升了產(chǎn)品推薦的效率。實施例二本實施例公開的一種產(chǎn)品推薦方法,如圖2所示,該方法包括:步驟200至步驟240。步驟200,對互聯(lián)網(wǎng)平臺存儲的數(shù)據(jù)中數(shù)值類型的字段進行離散化處理?;ヂ?lián)網(wǎng)品臺上的產(chǎn)品不僅包括實體產(chǎn)品,還包括:服務(wù)、信息等。O2O即OnlineToOffline(在線離線/線上到線下)是互聯(lián)網(wǎng)平臺的一個典型例子。下面將結(jié)合O2O平臺的具體應(yīng)用場景對本申請的產(chǎn)品推薦方法進行詳細說明。O2O平臺存儲的數(shù)據(jù)包括用戶的身份信息、O2O平臺上的產(chǎn)品信息、產(chǎn)品交易記錄、瀏覽記錄等。O2O平臺存儲的數(shù)據(jù)通常由多個字段組成。O2O平臺存儲的數(shù)據(jù)的各字段的類型分為:數(shù)值型和字符串型。數(shù)值型數(shù)據(jù)包括:用戶年齡和收入,產(chǎn)品的價格,成交量和瀏覽量,產(chǎn)品各個類目的交易次數(shù)和瀏覽次數(shù)等。由于數(shù)值型特征取值范圍非常廣泛,可以為0到無窮大,為了便于分析和多維數(shù)據(jù)建模,需要對連續(xù)數(shù)據(jù)離散化。字符串型數(shù)據(jù)包括:用戶的性別、職業(yè)及信用信息,產(chǎn)品的標題、分類、關(guān)鍵詞等。由于字符串型字段的取值有限,并且字符串型字段的取值包含一定的分類信息,如性別(男/女),信用信息(無星,一星,二星,三星,四星,五星)等,因此可以直接利用數(shù)據(jù)的字符串型字段取值對該字段進行分析和建模。在獲取O2O平臺存儲的數(shù)據(jù)之后,通常需要對數(shù)值類型的數(shù)據(jù)進行預(yù)處理,如對數(shù)值型數(shù)據(jù)進行離散化,得到對應(yīng)的數(shù)值型特征值。具體實施時,可以采用Logit模型對數(shù)值型數(shù)據(jù)進行離散化,公式如下:其中,t為數(shù)據(jù)數(shù)值型字段的取值,θ為離散參數(shù),參數(shù)θ可以根據(jù)離散化得到的數(shù)值的期望取值范圍進行調(diào)價。通過上述Logit模型,可以把數(shù)字型字段的取值t離散化到[0,10]的整數(shù)區(qū)間。步驟210,提取互聯(lián)網(wǎng)平臺存儲的數(shù)據(jù)的預(yù)設(shè)數(shù)據(jù)特征,建立所述互聯(lián)網(wǎng)平臺的多維數(shù)據(jù)模型。具體實施時,所述預(yù)設(shè)數(shù)據(jù)特征的包括:用戶維度數(shù)據(jù)特征、產(chǎn)品維度數(shù)據(jù)特征和行為維度數(shù)據(jù)特征。所述提取O2O平臺存儲的數(shù)據(jù)的預(yù)設(shè)數(shù)據(jù)特征,建立所述O2O平臺的多維數(shù)據(jù)模型的步驟,包括:子步驟2101至子步驟2103。子步驟2101,提取互聯(lián)網(wǎng)平臺存儲的數(shù)據(jù)的預(yù)設(shè)數(shù)據(jù)特征。本申請具體實施時,基于O2O平臺存儲的數(shù)據(jù)提取預(yù)設(shè)數(shù)據(jù)特征,用于產(chǎn)品推薦時參考。因此,數(shù)據(jù)特征的類型也相應(yīng)地分為:數(shù)值型和字符串型。數(shù)值型字段對應(yīng)數(shù)值型特征,字符串型字段對應(yīng)字符串型特征。所述預(yù)設(shè)數(shù)據(jù)特征包括但不限于:用戶維度數(shù)據(jù)特征、產(chǎn)品維度數(shù)據(jù)特征、行為維度數(shù)據(jù)特征。其中,不同維度的數(shù)據(jù)特征用于表征數(shù)據(jù)的類別屬性,各個維度又細分為多個子維度。如:用戶維度數(shù)據(jù)特征進一步分為:基本信息、地區(qū)信息、信用信息及用戶偏好等子維度,每一個用戶維度數(shù)據(jù)特征的子維度又可以進一步包括多個子維度,如年齡、性別、婚姻狀況、職業(yè)、收入等數(shù)據(jù)特征。再如:產(chǎn)品維度數(shù)據(jù)特征進一步包括:基本信息和產(chǎn)品標簽,而產(chǎn)品標簽子維度數(shù)據(jù)特征又進一步包括成交量、瀏覽量及產(chǎn)品關(guān)鍵詞等數(shù)據(jù)特征。O2O平臺存儲的數(shù)據(jù)的預(yù)設(shè)數(shù)據(jù)特征的取值可以直接來源于用戶通過O2O平臺輸入的數(shù)據(jù),如用戶維度數(shù)據(jù)特征中的婚姻狀況、職業(yè)等數(shù)據(jù)特征,如產(chǎn)品維度數(shù)據(jù)特征中的標題、分類、價格等數(shù)據(jù)特征;也可以由O2O平臺根據(jù)O2O平臺存儲的數(shù)據(jù)計算后得到,如用戶維度數(shù)據(jù)特征中的信用信息、產(chǎn)品維度數(shù)據(jù)特征中的成交量等數(shù)據(jù)特征。具體實施時,根據(jù)O2O平臺的業(yè)務(wù)內(nèi)容需要,預(yù)先建立數(shù)據(jù)特征庫,所述數(shù)據(jù)特征庫中的數(shù)據(jù)特征的值分別對應(yīng)O2O平臺存儲的數(shù)據(jù)的某個字段的取值,或者可以根據(jù)O2O平臺存儲的數(shù)據(jù)計算生成。通過預(yù)先建立數(shù)據(jù)特征和O2O平臺存儲的數(shù)據(jù)的字段的對應(yīng)關(guān)系,可以提取預(yù)處理后的O2O平臺存儲的數(shù)據(jù)的各數(shù)據(jù)特征。例如,提取到“美食交易次數(shù)”的值為10;提取到“常駐商圈”特征為“北京站”;提取到“最近7天交易水平”特征取值為5等。子步驟2102,根據(jù)提取的所述預(yù)設(shè)數(shù)據(jù)特征,分別建立用戶維度數(shù)據(jù)表、產(chǎn)品維度數(shù)據(jù)表以及行為維度數(shù)據(jù)表。根據(jù)提取的所述數(shù)據(jù)特征預(yù)設(shè)特征值,建立二維數(shù)據(jù)表。所述二維數(shù)據(jù)表包括:用戶維度數(shù)據(jù)表、產(chǎn)品維度數(shù)據(jù)表、行為維度數(shù)據(jù)表。其中,所述用戶維度數(shù)據(jù)表至少包括:用戶標識和用戶維度數(shù)據(jù)特征;所述產(chǎn)品維度數(shù)據(jù)表至少包括:產(chǎn)品標識和產(chǎn)品維度數(shù)據(jù)特征;所述行為維度數(shù)據(jù)表至少包括:用戶標識和行為維度數(shù)據(jù)特征。所述產(chǎn)品多維數(shù)據(jù)模型和用戶多維數(shù)據(jù)模型包括多維預(yù)設(shè)數(shù)據(jù)特征組。具體實施時,所述用戶維度數(shù)據(jù)表的字段至少包括:用戶標識和多個用戶維度特征。其中,用戶標識是O2O平臺上用戶的唯一身份標識,建立的用戶維度表參見表1。用戶ID年齡性別姓名工作城市用戶等級…職業(yè)…890525~30男張三上海一級教師897430~35女李四北京二級服務(wù)員899735~40男王五廣州三級工程師906640+女趙六上海四級教師908925-女錢七北京五級學生911225~30女周八北京無級代理人表1:用戶維度數(shù)據(jù)表如表1所示,所述用戶維度數(shù)據(jù)表可以采用用戶標識(即用戶ID)進行索引。表1中的“年齡”、“性別”、“婚姻狀況”、“工作城市”、“用戶等級”、“職業(yè)”等字段分別為一個用戶維度數(shù)據(jù)特征。表1中的每一行對應(yīng)一個用戶的各用戶維度數(shù)據(jù)特征的取值,由“用戶ID”進行唯一標識;所述產(chǎn)品維度數(shù)據(jù)表的字段包括:產(chǎn)品標識和多個產(chǎn)品維度數(shù)據(jù)特征。其中,產(chǎn)品標識是O2O平臺上產(chǎn)品的唯一標識,建立的產(chǎn)品維度數(shù)據(jù)表參見表2。表2:產(chǎn)品維度數(shù)據(jù)表如表2所示,可以采用產(chǎn)品標識(即產(chǎn)品ID)進行索引。表2中的“名稱”、“分類”、“商品評分”、“成交量等級”、“瀏覽量等級”、“產(chǎn)品關(guān)鍵詞”等字段分別為一個產(chǎn)品維度數(shù)據(jù)特征。表2中的每一行對應(yīng)一個產(chǎn)品的各產(chǎn)品維度數(shù)據(jù)特征的取值,由“產(chǎn)品ID”進行唯一標識。所述行為維度數(shù)據(jù)表的字段包括:用戶標識、產(chǎn)品標識,及多個行為維度數(shù)據(jù)特征。建立的行為維度數(shù)據(jù)表參見表3。表3:行為維度數(shù)據(jù)表如表3所示,表3中的“最近一次交易時間距離現(xiàn)在的時間”、“最近7天交易水平”、“最近一次瀏覽時間距離現(xiàn)在的時間”、“最近3天瀏覽水平”、“最近7天瀏覽水平”等字段分別為一個行為維度數(shù)據(jù)特征。所述行為維度數(shù)據(jù)表的每一行對應(yīng)一個用戶與一個產(chǎn)品的組合對應(yīng)的各行為維度數(shù)據(jù)特征的取值。子步驟2103,基于所述用戶維度數(shù)據(jù)表和行為維度數(shù)據(jù)表建立產(chǎn)品多維數(shù)據(jù)模型,及,基于所述產(chǎn)品維度數(shù)據(jù)表和行為維度數(shù)據(jù)表建立用戶多維數(shù)據(jù)模型。具體實施時,所述多維數(shù)據(jù)模型為數(shù)據(jù)立方體。由于表1,表2,表3中的數(shù)據(jù)都非常大,采用現(xiàn)有技術(shù)中的關(guān)聯(lián)關(guān)系分析方法效率低下。本申請采用了ApacheKylin提供的立方體生成功能,可以高效靈活地完成數(shù)據(jù)立方體的生成工作。ApacheKylin是一個開源的分布式分析引擎,提供Hadoop之上的SQL查詢接口及多維分析(OLAP)能力,以支持超大規(guī)模數(shù)據(jù)。其中,用戶多維數(shù)據(jù)模型為用戶數(shù)據(jù)立方體,產(chǎn)品多維數(shù)據(jù)模型為產(chǎn)品數(shù)據(jù)立方體。用戶數(shù)據(jù)立方體為用戶標識和多個維度的所述預(yù)設(shè)數(shù)據(jù)特征組合的關(guān)系模型;產(chǎn)品立方體為產(chǎn)品標識和多個維度的所述預(yù)設(shè)數(shù)據(jù)特征組合的關(guān)系模型。所述用戶數(shù)據(jù)立方體是以用戶標識為主鍵的多維數(shù)據(jù)立方體。建立以用戶標識為主鍵的多維數(shù)據(jù)立方體時,輸入數(shù)據(jù)是如表3所示的行為維度數(shù)據(jù)表和如表2所示的產(chǎn)品維度數(shù)據(jù)表。用戶數(shù)據(jù)立方體用于分析:該用戶會購買怎樣的產(chǎn)品。ApacheKylin引擎在獲取行為維度數(shù)據(jù)表和產(chǎn)品維度數(shù)據(jù)表后,對于行為維度數(shù)據(jù)表中的每個用戶,在行為維度數(shù)據(jù)表中找到該用戶購買過的所有產(chǎn)品,然后結(jié)合行為維度數(shù)據(jù)表和產(chǎn)品維度數(shù)據(jù)表中的所有維度的數(shù)據(jù)特征分析該用戶喜歡購買什么樣的產(chǎn)品,得到如表4所示的用戶數(shù)據(jù)立方體。表4:用戶數(shù)據(jù)立方體表4中,對于用戶標識(即用戶ID)為8974的用戶,ApacheKylin引擎結(jié)合行為維度數(shù)據(jù)表和產(chǎn)品維度數(shù)據(jù)表中的所有維度的數(shù)據(jù)特征分析該用戶喜歡購買的產(chǎn)品如:產(chǎn)品分類=美食/火鍋/&最近7天瀏覽水平=1&產(chǎn)品評分=5分的產(chǎn)品。最后,統(tǒng)計該產(chǎn)品特征維度組合出現(xiàn)的次數(shù),生成用戶數(shù)據(jù)立方體。ApacheKylin引擎分析數(shù)據(jù)的具體過程參見現(xiàn)有技術(shù),此處不再贅述。所述產(chǎn)品數(shù)據(jù)立方體是以產(chǎn)品標識為主鍵的多維數(shù)據(jù)立方體。建立以產(chǎn)品標識為主鍵的多維數(shù)據(jù)立方體時,輸入數(shù)據(jù)是如表3所示的行為維度數(shù)據(jù)表和如表1所示的用戶維度數(shù)據(jù)表。產(chǎn)品數(shù)據(jù)立方體用于分析:該產(chǎn)品會被什么樣的用戶購買。ApacheKylin引擎在獲取行為維度數(shù)據(jù)表和用戶維度數(shù)據(jù)表后,對于行為維度數(shù)據(jù)表中的每個產(chǎn)品,在行為維度數(shù)據(jù)表中找到購買過該產(chǎn)品的所有用戶,然后結(jié)合行為維度數(shù)據(jù)表和用戶維度數(shù)據(jù)表中的所有維度的數(shù)據(jù)特征分析該產(chǎn)品會被什么樣的用戶購買,得到如表5所示的產(chǎn)品數(shù)據(jù)立方體。表5:產(chǎn)品數(shù)據(jù)立方體表5中,對于產(chǎn)品標識(即產(chǎn)品ID)為10的用戶,ApacheKylin引擎結(jié)合行為維度數(shù)據(jù)表和用戶維度數(shù)據(jù)表中的所有維度的數(shù)據(jù)特征分析購買該產(chǎn)品的特征組合(例如最近7天交易水平=1&最近3天瀏覽水平=2),最后,統(tǒng)計該特征組合出現(xiàn)的次數(shù)(如3800次),生成產(chǎn)品數(shù)據(jù)立方體。ApacheKylin引擎分析數(shù)據(jù)的具體過程參見現(xiàn)有技術(shù),此處不再贅述。通過建立數(shù)據(jù)立方體,把二維數(shù)據(jù)表轉(zhuǎn)換成多維數(shù)據(jù)立方體,即把二維數(shù)據(jù)關(guān)系轉(zhuǎn)換成了多維數(shù)據(jù)關(guān)系,生成的多維數(shù)據(jù)關(guān)系是以K,V為主鍵的關(guān)系圖。所述數(shù)據(jù)立方體的層級數(shù)量等于提取的所述預(yù)設(shè)數(shù)據(jù)特征的維度數(shù)量,不同維度數(shù)量預(yù)設(shè)數(shù)據(jù)特征的組合構(gòu)成所述數(shù)據(jù)立方體的不同層級。轉(zhuǎn)換得到的表示多維數(shù)據(jù)關(guān)系的示意圖,如圖3所示。圖3所示的多維數(shù)據(jù)關(guān)系包括四層,其中,字母A、B、C和D代表數(shù)據(jù)立方體中的數(shù)據(jù)特征,如用戶數(shù)據(jù)立方體或產(chǎn)品數(shù)據(jù)立方體中的用戶姓名、產(chǎn)品名稱、產(chǎn)品關(guān)鍵詞等數(shù)據(jù)特征;數(shù)據(jù)關(guān)系中的各節(jié)點分別代表不同數(shù)目的數(shù)據(jù)特征的任意組合;每一層節(jié)點對應(yīng)不同數(shù)目的數(shù)據(jù)特征的組合。通常,多維數(shù)據(jù)立方體有多少個維度數(shù)據(jù)特征,生成的多維數(shù)據(jù)關(guān)系就會有多少層節(jié)點。圖3中(A),(A,D),(A,C,D)等結(jié)點為K,V是對應(yīng)結(jié)點的值。例如K=(A,B),V=sum(A,B),V表示(A,B)在二維數(shù)據(jù)表中的次數(shù)。各層次的含義表示不同數(shù)目個維度的數(shù)據(jù)特征的組合,有多少個維度就可以有多少個組合層次,為了簡化計算過程,提高運算效率,數(shù)據(jù)特征的數(shù)量一般不超過50維。具體實施時,通過數(shù)據(jù)立方體提供的接口可以獲取上述數(shù)據(jù)特征組合以及數(shù)據(jù)特征組合的出現(xiàn)次數(shù)。步驟220,基于所述多維數(shù)據(jù)模型獲得多條多維關(guān)聯(lián)規(guī)則。基于所述多維數(shù)據(jù)模型獲得多條多維關(guān)聯(lián)規(guī)則的步驟,包括:子步驟2201至子步驟2203。子步驟2201,通過所述產(chǎn)品多維數(shù)據(jù)模型獲取支持次數(shù)滿足第一預(yù)設(shè)條件的組合數(shù)據(jù)特征組合,將所述獲取的數(shù)據(jù)特征組合加入第一頻繁特征集合;以及,通過所述用戶多維數(shù)據(jù)模型獲取滿足所述第一預(yù)設(shè)條件的數(shù)據(jù)特征組合,將所述獲取的數(shù)據(jù)特征組合加入第二頻繁特征集合。具體實施時,所述第一預(yù)設(shè)條件為數(shù)據(jù)特征組合的出現(xiàn)次數(shù)大于或等于最小支持次數(shù)閾值。通過獲取所述行為維度數(shù)據(jù)表中每個用戶與產(chǎn)品組合的總次數(shù),根據(jù)所述總次數(shù)和預(yù)設(shè)的最小支持度確定每個數(shù)據(jù)特征組合的最小支持次數(shù)閾值,具體包括:根據(jù)行為維度數(shù)據(jù)表,確定每個用戶和產(chǎn)品組合出現(xiàn)的總次數(shù);根據(jù)公式minN=threshold*N計算某個數(shù)據(jù)特征組合最小支持次數(shù)閾值。其中,總次數(shù)N表示(用戶標識,產(chǎn)品標識)組合出現(xiàn)的總次數(shù),具體實施時,用戶維度數(shù)據(jù)表、產(chǎn)品維度數(shù)據(jù)表和行為維度數(shù)據(jù)表存儲在Hadoop集群,ApacheKylin提供了Hadoop之上的數(shù)據(jù)查詢接口,可以直接調(diào)用數(shù)據(jù)查詢接口,用SQL語句查詢二維數(shù)據(jù)表中的各項數(shù)值。例如,調(diào)用語句:SELECTCOUNT(1)FROM(SELECT用戶ID,產(chǎn)品IDFROM行為維度數(shù)據(jù)表GROUPBY用戶ID,產(chǎn)品ID)A,獲取(用戶ID,產(chǎn)品ID)在存儲的數(shù)據(jù)中出現(xiàn)的總次數(shù)。threshold為預(yù)設(shè)的最小支持度,所述最小支持度表示特征組合出現(xiàn)的最小次數(shù)比例。如果一個特征組合出現(xiàn)的次數(shù)特別少,對于其進行關(guān)聯(lián)分析是沒有意義的,因此,具體實施時,把最小支持次數(shù)小于預(yù)設(shè)的最小支持次數(shù)閾值的特征組合直接剔除,減少計算量,提高運算效率。根據(jù)經(jīng)驗,最小支持度通常設(shè)置為0.0001(萬分之一)。并行掃描產(chǎn)品數(shù)據(jù)立方體(即產(chǎn)品多維數(shù)據(jù)模型)和用戶數(shù)據(jù)立方體(即用戶多維數(shù)據(jù)模型),將所述產(chǎn)品數(shù)據(jù)立方體中數(shù)據(jù)特征組合的出現(xiàn)次數(shù)大于或等于最小支持次數(shù)閾值的數(shù)據(jù)特征組合加入第一頻繁特征集合,以及,將所述用戶數(shù)據(jù)立方體中數(shù)據(jù)特征組合的出現(xiàn)次數(shù)大于或等于最小支持次數(shù)閾值的數(shù)據(jù)特征組合加入第二頻繁特征集合。在構(gòu)建產(chǎn)品數(shù)據(jù)立方體和用戶數(shù)據(jù)立方體時,產(chǎn)品數(shù)據(jù)立方體和用戶數(shù)據(jù)立方體中已經(jīng)提供了各層次上的(即相應(yīng)數(shù)量的特征組合特征對應(yīng)的層次)數(shù)據(jù)特征組合出現(xiàn)的次數(shù)W(如,上述表4和表5中的次數(shù))。因此,本步驟中只需要比較數(shù)據(jù)特征組合出現(xiàn)的次數(shù)W與最小支持次數(shù)閾值minN是否滿足第一預(yù)設(shè)條件,例如是否滿足W≥minN。如果數(shù)據(jù)特征組合出現(xiàn)的次數(shù)W與最小支持次數(shù)閾值minN滿足第一預(yù)設(shè)條件,則把該數(shù)據(jù)特征組合作為頻繁特征。產(chǎn)品數(shù)據(jù)立方體中所有頻繁特征形成第一頻繁特征集,記作PI;用戶數(shù)據(jù)立方體中所有頻繁特征形成第二頻繁特征集,記作UI。子步驟2202,將所述第一頻繁特征集合中置信次數(shù)滿足第二預(yù)設(shè)條件的數(shù)據(jù)特征組合加入第一目標集合;將所述第二頻繁特征集合中置信次數(shù)滿足第二預(yù)設(shè)條件的數(shù)據(jù)特征組合加入第二目標集合。具體實施時,所述第二預(yù)設(shè)條件為數(shù)據(jù)特征組合的置信次數(shù)大于或等于置信次數(shù)閾值。獲取所述行為維度數(shù)據(jù)表中用戶與產(chǎn)品組合的最大次數(shù),根據(jù)所述最大次數(shù)和最小置信度確定每個數(shù)據(jù)特征組合的最小置信次數(shù)閾值,具體包括:根據(jù)行為維度數(shù)據(jù)表,確定用戶與產(chǎn)品組合出現(xiàn)的最大次數(shù);根據(jù)公式minconf=C*Confidence計算某個數(shù)據(jù)特征組合最小置信次數(shù)閾值。其中,最大次數(shù)C表示(用戶標識,產(chǎn)品標識)組合出現(xiàn)的總最大次數(shù),具體實施時,用戶維度數(shù)據(jù)表、產(chǎn)品維度數(shù)據(jù)表和行為維度數(shù)據(jù)表存儲在Hadoop集群,ApacheKylin提供了Hadoop之上的數(shù)據(jù)查詢接口,可以直接調(diào)用數(shù)據(jù)查詢接口,用SQL語句查詢二維數(shù)據(jù)表中的各項數(shù)值。例如,調(diào)用語句:SELECTMAX(次數(shù))FROM(SELECT用戶ID,產(chǎn)品ID,COUNT(1)as次數(shù)FROM行為維度數(shù)據(jù)表GROUPBY用戶ID,產(chǎn)品ID)A,獲取(用戶ID,產(chǎn)品ID)組合最大出現(xiàn)次數(shù)。Confidence為預(yù)設(shè)的最小置信度,所述最小置信度表示特征組合出現(xiàn)的最小置信次數(shù)比例。置信度是表示特征組合出現(xiàn)的可信程度。如果一個特征組合的可信程度很低,對于其進行關(guān)聯(lián)分析是沒有意義的,因此,會把小于最小置信次數(shù)的特征組合直接剔除,減少計算,提高運算效率。根據(jù)經(jīng)驗取值,最小置信度通常設(shè)置為0.01(百分之一)。對于第一頻繁特征集合中的每一個數(shù)據(jù)特征組合,將所述第一頻繁特征集合中的置信次數(shù)與最小置信次數(shù)閾值滿足第二預(yù)設(shè)條件的數(shù)據(jù)特征組合加入第一目標集合;以及,對于第二頻繁特征集合中的每一個數(shù)據(jù)特征組合,將所述第二頻繁特征集中的置信次數(shù)與最小置信次數(shù)閾值滿足第二預(yù)設(shè)條件的數(shù)據(jù)特征組合加入第二目標集合。具體實施時,在構(gòu)建產(chǎn)品數(shù)據(jù)立方體和用戶數(shù)據(jù)立方體時,產(chǎn)品數(shù)據(jù)立方體和用戶數(shù)據(jù)立方體中已經(jīng)提供了各層次上的(即相應(yīng)維度數(shù)量的數(shù)據(jù)特征組合對應(yīng)的層次)數(shù)據(jù)特征組合出現(xiàn)的次數(shù),并計算了每個數(shù)據(jù)特征組合的置信次數(shù)。當該數(shù)據(jù)特征組合的置信次數(shù)和該數(shù)據(jù)特征組合的最小置信次數(shù)閾值滿足第二預(yù)設(shè)條件(如:數(shù)據(jù)特征組合的置信次數(shù)≥該數(shù)據(jù)特征組合的最小置信次數(shù)閾值)時,將該數(shù)據(jù)特征組合加入第一目標集合。當該數(shù)據(jù)特征組合的置信次數(shù)和該數(shù)據(jù)特征組合的最小置信次數(shù)閾值滿足第二預(yù)設(shè)條件(如:數(shù)據(jù)特征組合的置信次數(shù)≥該數(shù)據(jù)特征組合的最小置信次數(shù)閾值)時,將該數(shù)據(jù)特征組合加入第二目標集合。具體實施時,每個數(shù)據(jù)特征組合的最小置信次數(shù)閾值等于預(yù)設(shè)最小置信度與包含該特征組合的所有特征組合出現(xiàn)的次數(shù)之和的乘積。每個數(shù)據(jù)特征組合的置信次數(shù)等于該數(shù)據(jù)特征組合出現(xiàn)的次數(shù)。子步驟2203,分別計算所述第一目標集合中每個數(shù)據(jù)特征組合和所述第二目標結(jié)合中的所有數(shù)據(jù)特征組合的兩兩關(guān)聯(lián)規(guī)則,得到多條多維關(guān)聯(lián)規(guī)則。具體實施時,分別計算所述第一目標集合中每個數(shù)據(jù)特征組合和所述第二目標結(jié)合中的所有數(shù)據(jù)特征組合的兩兩關(guān)聯(lián)規(guī)則,得到多條多維關(guān)聯(lián)規(guī)則包括:分別將所述第一目標集合中數(shù)據(jù)特征組合包括的行為維度數(shù)據(jù)特征組合與所述第二目標集合中每個數(shù)據(jù)特征組合包括的行為維度數(shù)據(jù)特征組合進行兩兩匹配,將匹配成功的行為維度數(shù)據(jù)特征組合對應(yīng)的用戶標識和產(chǎn)品標識作為一個(用戶,產(chǎn)品)組合,并生成一條產(chǎn)品維度數(shù)據(jù)特征組合與用戶維度數(shù)據(jù)特征組合的關(guān)聯(lián)關(guān)系,其中,所述產(chǎn)品維度數(shù)據(jù)特征組合為匹配成功的行為維度數(shù)據(jù)特征組合所在第一目標集合中數(shù)據(jù)特征組合包括的產(chǎn)品維度數(shù)據(jù)特征組合,所述用戶維度數(shù)據(jù)特征組合為匹配成功的行為維度數(shù)據(jù)特征組合所在第二目標集合中數(shù)據(jù)特征組合包括的用戶維度數(shù)據(jù)特征組合。最后,所述有關(guān)聯(lián)規(guī)則組成關(guān)聯(lián)規(guī)則集合RS,如表6所示。由于一個用戶可能包含多個產(chǎn)品數(shù)據(jù)特征組合,一個產(chǎn)品也包含多個用戶數(shù)據(jù)特征組合,因此,對于同一個(用戶,產(chǎn)品)組合,可能產(chǎn)生多條關(guān)聯(lián)規(guī)則,如表6中關(guān)聯(lián)規(guī)則1,3,5。表6:關(guān)聯(lián)規(guī)則集合RS優(yōu)選的,所述根據(jù)所述用戶數(shù)據(jù)立方體和產(chǎn)品數(shù)據(jù)立方體,以及所述行為維度表生成關(guān)聯(lián)規(guī)則包括:根據(jù)所述用戶數(shù)據(jù)立方體和產(chǎn)品數(shù)據(jù)立方體,以及所述行為維度表,采用Map(映射)Reduce(簡化)分布式運算模型生成關(guān)聯(lián)規(guī)則。所述基于所述多維數(shù)據(jù)模型獲得多條多維關(guān)聯(lián)規(guī)則,包括:通過MapReduce模型中預(yù)設(shè)數(shù)量的映射任務(wù),將分布式存儲的所述產(chǎn)品多維數(shù)據(jù)模型和所述用戶多維數(shù)據(jù)模型中支持次數(shù)滿足第一預(yù)設(shè)條件的數(shù)據(jù)特征組合,分別映射到預(yù)設(shè)格式的鍵值對;將所述預(yù)設(shè)格式的鍵值對按照數(shù)據(jù)相關(guān)性發(fā)送到所述MapReduce模型中多個簡化任務(wù);通過所述簡化任務(wù)將所述鍵值對對應(yīng)的數(shù)據(jù)特征組合中置信次數(shù)滿足第二預(yù)設(shè)條件的數(shù)據(jù)特征組合標記為置信組合;分別計算所述產(chǎn)品多維數(shù)據(jù)模型中標記為置信組合的數(shù)據(jù)特征組合與所述產(chǎn)品多維數(shù)據(jù)模型中標記為置信組合的數(shù)據(jù)特征組合的兩兩關(guān)聯(lián)規(guī)則,得到多條多維關(guān)聯(lián)規(guī)則。具體實施時,用戶數(shù)據(jù)立方體和產(chǎn)品數(shù)據(jù)立方體分布式存儲于Hadoop文件系統(tǒng)中,通過HDFS文件進行讀取。Map(映射)Reduce(簡化)分布式運算模型預(yù)設(shè)多個Map(映射)任務(wù)Mapper,Map將用戶數(shù)據(jù)立方體和產(chǎn)品數(shù)據(jù)立方體中存儲的數(shù)據(jù)特征組合作為輸入鍵值對(key/valuepair),將輸入的鍵值對映射到一組中間格式的鍵值對集合。Mapper是一類將輸入記錄集轉(zhuǎn)換為中間格式記錄集的獨立任務(wù)。本申請實施例中輸入鍵值對為如表4和表5所示的數(shù)據(jù)特征組合。通過setNumMapTasks(int)設(shè)置Map任務(wù)數(shù)量,調(diào)用Map()接口把輸入數(shù)據(jù)特征組合鍵值對轉(zhuǎn)換成指定格式的鍵值對輸出。其中,Mapper任務(wù)的數(shù)目通常是由輸入數(shù)據(jù)的大小決定,如所有輸入文件的總塊(block)數(shù)。如果輸入1G的數(shù)據(jù),每個塊(block)的大小是128MB,將需要大約8個map來完成任務(wù)。數(shù)據(jù)立方體中的鍵值對中是數(shù)據(jù)特征組合-出現(xiàn)次數(shù)對。Mapper在將輸入的數(shù)據(jù)立方體中的鍵值對轉(zhuǎn)換成預(yù)設(shè)格式的鍵值對時,首先對以HDFS文件分布式存儲的所述產(chǎn)品多維數(shù)據(jù)模型和所述用戶多維數(shù)據(jù)模型中支持次數(shù)滿足第一預(yù)設(shè)條件的數(shù)據(jù)特征組合,分別映射到預(yù)設(shè)格式的鍵值對。如將出現(xiàn)次數(shù)大于或等于最小支持次數(shù)閾值的數(shù)據(jù)特征組合映射到預(yù)設(shè)格式的鍵值對。然后,調(diào)用MapReduce模型中將所述預(yù)設(shè)格式的鍵值對發(fā)送到所述MapReduce模型中的某個簡化任務(wù)進行數(shù)據(jù)處理。MapReduce模型中將所述預(yù)設(shè)格式的鍵值對發(fā)送到所述MapReduce模型中的某個簡化任務(wù)進行數(shù)據(jù)處理時,會按照數(shù)據(jù)相關(guān)性,將某個用戶或某個產(chǎn)品的鍵值對發(fā)送到相同的簡化任務(wù)進行處理,以提高簡化任務(wù)的處理效率。MapReduce模型中Partitioner任務(wù)負責控制mapper任務(wù)輸出結(jié)果的分割,鍵(數(shù)據(jù)特征組合)或者一個鍵的子集被用于產(chǎn)生分區(qū)。通常使用Hash函數(shù)對數(shù)據(jù)處理后的鍵值對進行分區(qū),即將數(shù)據(jù)處理后的鍵值對發(fā)送至多個簡化任務(wù)。然后,通過所述簡化任務(wù)將所述鍵值對對應(yīng)的數(shù)據(jù)特征組合中置信次數(shù)大于或等于最小置信次數(shù)閾值的數(shù)據(jù)特征組合標記為置信組合。最后,分別計算所述產(chǎn)品多維數(shù)據(jù)模型中標記為置信組合的數(shù)據(jù)特征組合與所述產(chǎn)品多維數(shù)據(jù)模型中標記為置信組合的數(shù)據(jù)特征組合的兩兩關(guān)聯(lián)規(guī)則,得到多條多維關(guān)聯(lián)規(guī)則。具體實施時,通過調(diào)用MapReduce模型的接口setNumReduceTasks(int)設(shè)置MapReduce模型中Reducer任務(wù)的數(shù)量。Reducer任務(wù)將與一個key關(guān)聯(lián)的一組預(yù)設(shè)格式鍵值對歸約為一個更小的數(shù)值集。Reducer任務(wù)的數(shù)目根據(jù)速度的需求設(shè)定。通過性能研究,本申請的關(guān)聯(lián)規(guī)則生成方法的時間成本不會隨特征組合的復(fù)雜程度提高,具有較好的可擴展性。最后調(diào)用MapReduce模型的collect()接口收集簡化結(jié)果。在基于所述多維數(shù)據(jù)模型獲得多條多維關(guān)聯(lián)規(guī)則之后,可以基于獲得的關(guān)聯(lián)規(guī)則進行產(chǎn)品推薦。基于所述多維關(guān)聯(lián)規(guī)則進行所述互聯(lián)網(wǎng)平臺上產(chǎn)品的推薦,包括:基于所述多維關(guān)聯(lián)規(guī)則,結(jié)合預(yù)設(shè)推薦參數(shù),確定所述互聯(lián)網(wǎng)平臺上產(chǎn)品的推薦得分;根據(jù)確定的所述推薦得分的高低順序,進行所述互聯(lián)網(wǎng)平臺上產(chǎn)品的推薦。步驟230,基于所述多維關(guān)聯(lián)規(guī)則,結(jié)合預(yù)設(shè)推薦參數(shù),確定所述互聯(lián)網(wǎng)平臺上產(chǎn)品的推薦得分。所述多維關(guān)聯(lián)規(guī)則至少包括:用戶與產(chǎn)品的組合、每個用戶與產(chǎn)品的組合中所述用戶相關(guān)的數(shù)據(jù)特征組合和所述產(chǎn)品相關(guān)的數(shù)據(jù)特征組合。所述預(yù)設(shè)推薦參數(shù)可以為用戶常駐商圈、用戶性別、年齡等特征。具體實施時,以所述預(yù)設(shè)推薦參數(shù)為用戶常消費商圈為例,所述基于所述多維關(guān)聯(lián)規(guī)則,結(jié)合預(yù)設(shè)推薦參數(shù),確定所述互聯(lián)網(wǎng)平臺上產(chǎn)品的推薦得分的步驟,包括:在所述多條多維關(guān)聯(lián)規(guī)則包括的用戶與產(chǎn)品的組合中,確定組合中的產(chǎn)品屬于所述用戶常消費商圈的多維關(guān)聯(lián)規(guī)則;從確定的所述關(guān)聯(lián)規(guī)則中選擇提升度最高的預(yù)設(shè)條數(shù)多維關(guān)聯(lián)規(guī)則;計算選擇的所述預(yù)設(shè)條數(shù)多維關(guān)聯(lián)規(guī)則的推薦得分。在互聯(lián)網(wǎng)平臺中,目前的交易形式包括:團購形式,即用戶在網(wǎng)上買一張團購券,然后到店鋪消費;優(yōu)惠買單,即用戶在平臺中查詢有關(guān)店鋪的信息,然后到店去消費,結(jié)賬的時候用優(yōu)惠買單;預(yù)約看店,即用戶想到某家店鋪去體驗,先通過平臺與商家預(yù)約時間。可見,上述的交易形式,都不離開線下消費,所以給用戶推薦距離較近的店鋪的商品能夠進一步改善用戶體驗。經(jīng)過調(diào)研發(fā)現(xiàn)一個用戶最常消費的商圈數(shù)1到3個,而每個商品都有對應(yīng)的POI(PointofInterest),本申請中POI是指店鋪,根據(jù)商品對應(yīng)的POI(店鋪)所在的商圈,確定該商品的商圈。一個商圈的POI(店鋪)數(shù)平均2000左右。因此,如果只計算一個用戶與常消費商圈中商品的推薦次序,可以從數(shù)量上大大的降低了計算量,提高產(chǎn)品推薦效率。具體實施時,遍歷所述多條多維關(guān)聯(lián)規(guī)則包括的用戶與產(chǎn)品的組合,并確定組合中的產(chǎn)品屬于所述用戶常消費商圈的組合所屬多維關(guān)聯(lián)規(guī)則。通過提取用戶的用戶維度特征中的常駐商圈可以獲取用戶常消費商圈region。或者,通過遍歷用戶消費的商品,然后通過POI確定用戶消費的店鋪,確定用戶消費商圈,最后,選取消費次數(shù)TOP3的商圈,作為用戶的常消費商圈。對于每一對(用戶,產(chǎn)品)組合中的產(chǎn)品,分別確定該產(chǎn)品所述店鋪,并進一步確定該產(chǎn)品所屬店鋪是否屬于用戶常消費商圈,若是,則標識該(用戶,產(chǎn)品)組合對應(yīng)的多維關(guān)聯(lián)規(guī)則為目標關(guān)聯(lián)規(guī)則。具體實施時,對于用戶常消費商圈內(nèi)的產(chǎn)品,賦予較大的推薦權(quán)重,如1;對于非用戶常消費商圈內(nèi)的產(chǎn)品,賦予較小的推薦權(quán)重,如0。從確定的所述關(guān)聯(lián)規(guī)則中選擇提升度最高的預(yù)設(shè)條數(shù)多維關(guān)聯(lián)規(guī)則,并計算選擇的所述預(yù)設(shè)條數(shù)多維關(guān)聯(lián)規(guī)則的推薦得分時,可以首先計算某一(用戶,產(chǎn)品)組合對應(yīng)的多維關(guān)聯(lián)規(guī)則的提升度,并按照提升度由高到低的順序?qū)δ骋?用戶,產(chǎn)品)組合對應(yīng)的多維關(guān)聯(lián)規(guī)則的關(guān)聯(lián)規(guī)則進行排序,并選擇提升度最高的預(yù)設(shè)條數(shù)多維關(guān)聯(lián)規(guī)則,作為該(用戶,產(chǎn)品)組合對應(yīng)的推薦參考。如表6所示,某一(用戶,產(chǎn)品)組合如(用戶A,產(chǎn)品D)的關(guān)聯(lián)規(guī)則可以表示為:RS(用戶A,產(chǎn)品D)={1,3,5}。按照提升度(LIFT)值降序排列后,用戶A,產(chǎn)品D)的關(guān)聯(lián)規(guī)則可以表示為:RS(用戶A,產(chǎn)品D)={3,1,5}。具體實施時,選取預(yù)設(shè)條數(shù)關(guān)聯(lián)規(guī)則該(用戶,產(chǎn)品)組合對應(yīng)的推薦參考,所述預(yù)設(shè)條數(shù)關(guān)聯(lián)規(guī)則記作RSup。其中,預(yù)設(shè)條數(shù)根據(jù)經(jīng)驗確定,如10條。然后,根據(jù)如下公式計算選擇的所述預(yù)設(shè)條數(shù)多維關(guān)聯(lián)規(guī)則的推薦得分rescore:re_Score(user,product)=avg(∑lift(rsup))*top_n/top_nrsup∈RSup其中,top_n為預(yù)設(shè)條數(shù),lift(rsup)為一條選取的關(guān)聯(lián)規(guī)則對應(yīng)的(用戶,產(chǎn)品)組合(user,product)的提升度。每個用戶每個產(chǎn)品都會有一個推薦得分re_score,如表7所示,根據(jù)個分值的排序向某個用戶推薦產(chǎn)品,或者將某個產(chǎn)品推薦給一些用戶。用戶標識產(chǎn)品標識推薦得分8905105897410689977190661059089101表7:推薦得分表步驟240,根據(jù)確定的所述推薦得分的高低順序,進行所述互聯(lián)網(wǎng)平臺上產(chǎn)品的推薦。根據(jù)確定的推薦得分,可以將某個用戶關(guān)聯(lián)的產(chǎn)品按照推薦得分的高低順序進行排列,優(yōu)先將推薦得分最高的產(chǎn)品推薦給該用戶?;蛘撸鶕?jù)確定的推薦得分,可以將某個產(chǎn)品關(guān)聯(lián)的用戶按照推薦得分的高低順序進行排列,優(yōu)先將該產(chǎn)品推薦給推薦得分最高的用戶。本申請的產(chǎn)品推薦方法,通過提取互聯(lián)網(wǎng)平臺存儲的數(shù)據(jù)的預(yù)設(shè)數(shù)據(jù)特征,建立所述互聯(lián)網(wǎng)平臺的多維數(shù)據(jù)模型;然后,基于所述多維數(shù)據(jù)模型獲得多條多維關(guān)聯(lián)規(guī)則;基于所述多維關(guān)聯(lián)規(guī)則,結(jié)合預(yù)設(shè)推薦參數(shù),確定所述互聯(lián)網(wǎng)平臺上產(chǎn)品的推薦得分;最后,根據(jù)確定的所述推薦得分的高低順序,進行所述互聯(lián)網(wǎng)平臺上產(chǎn)品的推薦,解決了現(xiàn)有技術(shù)中基于海量、多維數(shù)據(jù)進行處理提取關(guān)聯(lián)規(guī)則,用于進行產(chǎn)品推薦時,提取關(guān)聯(lián)規(guī)則的運算效率低下的問題。通過建立多維數(shù)據(jù)模型,有效地對互聯(lián)網(wǎng)平臺存儲的數(shù)據(jù)進行分類處理,提升了計算關(guān)聯(lián)規(guī)則的效率,進一步提升了產(chǎn)品推薦的效率。同時,通過采用MapReduce分布式模型計算關(guān)聯(lián)規(guī)則,進一步提升了關(guān)聯(lián)規(guī)則的計算效率。通過基于所述多維關(guān)聯(lián)規(guī)則,結(jié)合預(yù)設(shè)推薦參數(shù),確定所述互聯(lián)網(wǎng)平臺上產(chǎn)品的推薦得分,并根據(jù)確定的所述推薦得分的高低順序,進行所述互聯(lián)網(wǎng)平臺上產(chǎn)品的推薦,不僅減小了數(shù)據(jù)處理量,提升了計算效率,同時,通過設(shè)置適當?shù)耐扑]參數(shù),可以提高產(chǎn)品推薦的準確度,進一步提升了用戶體驗。實施例三相應(yīng)地,本申請公開的一種產(chǎn)品推薦裝置,如圖4所示,所述裝置包括:數(shù)據(jù)模型建立模塊400,用于提取互聯(lián)網(wǎng)平臺存儲的數(shù)據(jù)的預(yù)設(shè)數(shù)據(jù)特征,建立所述互聯(lián)網(wǎng)平臺的多維數(shù)據(jù)模型;關(guān)聯(lián)規(guī)則生成模塊410,用于基于所述數(shù)據(jù)模型建立模塊400建立的多維數(shù)據(jù)模型獲得多條多維關(guān)聯(lián)規(guī)則;產(chǎn)品推薦模塊420,用于基于所述關(guān)聯(lián)規(guī)則生成模塊410獲得的多維關(guān)聯(lián)規(guī)則進行所述互聯(lián)網(wǎng)平臺上產(chǎn)品的推薦。本申請實施例公開的產(chǎn)品推薦裝置,通過提取互聯(lián)網(wǎng)平臺存儲的數(shù)據(jù)的預(yù)設(shè)數(shù)據(jù)特征,建立所述互聯(lián)網(wǎng)平臺的多維數(shù)據(jù)模型,然后,基于所述多維數(shù)據(jù)模型獲得多條多維關(guān)聯(lián)規(guī)則;最后,基于所述多維關(guān)聯(lián)規(guī)則進行所述互聯(lián)網(wǎng)平臺上產(chǎn)品的推薦,解決了現(xiàn)有技術(shù)中基于海量、多維數(shù)據(jù)進行處理提取關(guān)聯(lián)規(guī)則,用于進行產(chǎn)品推薦時,提取關(guān)聯(lián)規(guī)則的運算效率低下的問題。通過建立多維數(shù)據(jù)模型,有效地對互聯(lián)網(wǎng)平臺存儲的數(shù)據(jù)進行分類處理,提升了計算關(guān)聯(lián)規(guī)則的效率,進一步提升了產(chǎn)品推薦的效率。實施例四參見圖5,基于實施例三,本申請公開的一種產(chǎn)品推薦裝置,所述裝置還包括:數(shù)據(jù)預(yù)處理模塊430,用于對互聯(lián)網(wǎng)平臺存儲的數(shù)據(jù)中數(shù)值類型的字段進行離散化處理。可選地,所述產(chǎn)品推薦模塊420包括:推薦得分確定單元4201,用于基于所述多維關(guān)聯(lián)規(guī)則,結(jié)合預(yù)設(shè)推薦參數(shù),確定所述互聯(lián)網(wǎng)平臺上產(chǎn)品的推薦得分;產(chǎn)品推薦單元4202,用于根據(jù)所述推薦得分確定單元4201確定的所述推薦得分的高低順序,進行所述互聯(lián)網(wǎng)平臺上產(chǎn)品的推薦。具體實施時,所述多維關(guān)聯(lián)規(guī)則至少包括:用戶與產(chǎn)品的組合、每個用戶與產(chǎn)品的組合中所述用戶相關(guān)的數(shù)據(jù)特征組合和所述產(chǎn)品相關(guān)的數(shù)據(jù)特征組合;所述預(yù)設(shè)推薦參數(shù)為用戶常消費商圈??蛇x地,所述產(chǎn)品推薦單元4202包括:關(guān)聯(lián)規(guī)則選擇子單元,用于在所述多條多維關(guān)聯(lián)規(guī)則包括的用戶與產(chǎn)品的組合中,確定組合中的產(chǎn)品屬于所述用戶常消費商圈的多維關(guān)聯(lián)規(guī)則;關(guān)聯(lián)規(guī)則篩選子單元,用于從確定的所述關(guān)聯(lián)規(guī)則中選擇提升度最高的預(yù)設(shè)條數(shù)多維關(guān)聯(lián)規(guī)則;推薦得分計算子單元,用于計算選擇的所述預(yù)設(shè)條數(shù)多維關(guān)聯(lián)規(guī)則的推薦得分。所述預(yù)設(shè)數(shù)據(jù)特征的包括:用戶維度數(shù)據(jù)特征、產(chǎn)品維度數(shù)據(jù)特征和行為維度數(shù)據(jù)特征.可選地,如圖5所示,所述數(shù)據(jù)模型建立模塊400包括:數(shù)據(jù)特征提取單元4001,用于提取互聯(lián)網(wǎng)平臺存儲的數(shù)據(jù)的預(yù)設(shè)數(shù)據(jù)特征;數(shù)據(jù)特征二維表建立單元4002,用于根據(jù)提取的所述預(yù)設(shè)數(shù)據(jù)特征,分別建立用戶維度數(shù)據(jù)表、產(chǎn)品維度數(shù)據(jù)表以及行為維度數(shù)據(jù)表;多維數(shù)據(jù)模型建立單元4003,用于基于所述用戶維度數(shù)據(jù)表和行為維度數(shù)據(jù)表建立產(chǎn)品多維數(shù)據(jù)模型;所述多維數(shù)據(jù)模型建立單元4003,還用于基于所述產(chǎn)品維度數(shù)據(jù)表和行為維度數(shù)據(jù)表建立用戶多維數(shù)據(jù)模型;其中,所述用戶維度數(shù)據(jù)表至少包括:用戶標識和用戶維度數(shù)據(jù)特征;所述產(chǎn)品維度數(shù)據(jù)表至少包括:產(chǎn)品標識和產(chǎn)品維度數(shù)據(jù)特征;所述行為維度數(shù)據(jù)表至少包括:用戶標識和行為維度數(shù)據(jù)特征;所述產(chǎn)品多維數(shù)據(jù)模型和用戶多維數(shù)據(jù)模型包括多維預(yù)設(shè)數(shù)據(jù)特征組合。可選地,所述關(guān)聯(lián)規(guī)則生成模塊410包括:轉(zhuǎn)換單元4101,用于通過MapReduce模型中預(yù)設(shè)數(shù)量的映射任務(wù),將分布式存儲的所述產(chǎn)品多維數(shù)據(jù)模型和所述用戶多維數(shù)據(jù)模型中支持次數(shù)滿足第一預(yù)設(shè)條件的數(shù)據(jù)特征組合,分別映射到預(yù)設(shè)格式的鍵值對;映射單元4102,用于將所述預(yù)設(shè)格式的鍵值對按照數(shù)據(jù)相關(guān)性發(fā)送到所述MapReduce模型中多個簡化任務(wù);數(shù)據(jù)處理單元4103,用于通過所述簡化任務(wù)將所述鍵值對對應(yīng)的數(shù)據(jù)特征組合中置信次數(shù)滿足第二預(yù)設(shè)條件的數(shù)據(jù)特征組合標記為置信組合;關(guān)聯(lián)規(guī)則生成單元4104,用于分別計算所述產(chǎn)品多維數(shù)據(jù)模型中標記為置信組合的數(shù)據(jù)特征組合與所述產(chǎn)品多維數(shù)據(jù)模型中標記為置信組合的數(shù)據(jù)特征組合的兩兩關(guān)聯(lián)規(guī)則,得到多條多維關(guān)聯(lián)規(guī)則??蛇x地,所述多維數(shù)據(jù)模型為數(shù)據(jù)立方體。可選地,所述數(shù)據(jù)立方體的層級數(shù)量等于提取的所述預(yù)設(shè)數(shù)據(jù)特征的維度數(shù)量,不同維度數(shù)量預(yù)設(shè)數(shù)據(jù)特征的組合構(gòu)成所述數(shù)據(jù)立方體的不同層級。本申請的產(chǎn)品推薦裝置,通過提取互聯(lián)網(wǎng)平臺存儲的數(shù)據(jù)的預(yù)設(shè)數(shù)據(jù)特征,建立所述互聯(lián)網(wǎng)平臺的多維數(shù)據(jù)模型;然后,基于所述多維數(shù)據(jù)模型獲得多條多維關(guān)聯(lián)規(guī)則;基于所述多維關(guān)聯(lián)規(guī)則,結(jié)合預(yù)設(shè)推薦參數(shù),確定所述互聯(lián)網(wǎng)平臺上產(chǎn)品的推薦得分;最后,根據(jù)確定的所述推薦得分的高低順序,進行所述互聯(lián)網(wǎng)平臺上產(chǎn)品的推薦,解決了現(xiàn)有技術(shù)中基于海量、多維數(shù)據(jù)進行處理提取關(guān)聯(lián)規(guī)則,用于進行產(chǎn)品推薦時,提取關(guān)聯(lián)規(guī)則的運算效率低下的問題。通過建立多維數(shù)據(jù)模型,有效地對互聯(lián)網(wǎng)平臺存儲的數(shù)據(jù)進行分類處理,提升了計算關(guān)聯(lián)規(guī)則的效率,進一步提升了產(chǎn)品推薦的效率。同時,通過采用MapReduce分布式模型計算關(guān)聯(lián)規(guī)則,進一步提升了關(guān)聯(lián)規(guī)則的計算效率。通過基于所述多維關(guān)聯(lián)規(guī)則,結(jié)合預(yù)設(shè)推薦參數(shù),確定所述互聯(lián)網(wǎng)平臺上產(chǎn)品的推薦得分,并根據(jù)確定的所述推薦得分的高低順序,進行所述互聯(lián)網(wǎng)平臺上產(chǎn)品的推薦,不僅減小了數(shù)據(jù)處理量,提升了計算效率,同時,通過設(shè)置適當?shù)耐扑]參數(shù),可以提高產(chǎn)品推薦的準確度,進一步提升了用戶體驗。本說明書中的各個實施例均采用遞進的方式描述,每個實施例重點說明的都是與其他實施例的不同之處,各個實施例之間相同相似的部分互相參見即可。對于裝置實施例而言,由于其與方法實施例基本相似,所以描述的比較簡單,相關(guān)之處參見方法實施例的部分說明即可。以上對本申請?zhí)峁┑囊环N產(chǎn)品推薦方法、裝置進行了詳細介紹,本文中應(yīng)用了具體個例對本申請的原理及實施方式進行了闡述,以上實施例的說明只是用于幫助理解本申請的方法及其核心思想;同時,對于本領(lǐng)域的一般技術(shù)人員,依據(jù)本申請的思想,在具體實施方式及應(yīng)用范圍上均會有改變之處,綜上所述,本說明書內(nèi)容不應(yīng)理解為對本申請的限制。通過以上的實施方式的描述,本領(lǐng)域的技術(shù)人員可以清楚地了解到各實施方式可借助軟件加必需的通用硬件平臺的方式來實現(xiàn),當然也可以通過硬件實現(xiàn)?;谶@樣的理解,上述技術(shù)方案本質(zhì)上或者說對現(xiàn)有技術(shù)做出貢獻的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計算機軟件產(chǎn)品可以存儲在計算機可讀存儲介質(zhì)中,如ROM/RAM、磁碟、光盤等,包括若干指令用以使得一臺計算機設(shè)備(可以是個人計算機,服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行各個實施例或者實施例的某些部分所述的方法。當前第1頁1 2 3