亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種挖掘運(yùn)營(yíng)基維度的方法及裝置與流程

文檔序號(hào):11520410閱讀:213來(lái)源:國(guó)知局
一種挖掘運(yùn)營(yíng)基維度的方法及裝置與流程

本發(fā)明涉及數(shù)據(jù)挖掘技術(shù)領(lǐng)域,更具體地,涉及一種挖掘運(yùn)營(yíng)基維度的方法及裝置。



背景技術(shù):

產(chǎn)品運(yùn)營(yíng)從內(nèi)容構(gòu)建,用戶維護(hù),活動(dòng)策劃等三個(gè)層面來(lái)管理產(chǎn)品內(nèi)容和用戶;運(yùn)營(yíng)是產(chǎn)品持續(xù)健康發(fā)展的關(guān)鍵。在“流量為王”的時(shí)代,為了最大限度地爭(zhēng)取流量,運(yùn)營(yíng)的渠道和方式不斷增加,針對(duì)不同場(chǎng)景和不同用戶屬性的精細(xì)化運(yùn)營(yíng)越發(fā)重要。具體地,挖掘隱藏在海量數(shù)據(jù)中的信息,利用數(shù)據(jù)刻畫(huà)用戶屬性和場(chǎng)景特征并對(duì)各類用戶群定制營(yíng)銷策略,能有效解決流量運(yùn)營(yíng)、用戶運(yùn)營(yíng)、產(chǎn)品運(yùn)營(yíng)和內(nèi)容運(yùn)營(yíng)中的增長(zhǎng)和留存問(wèn)題。在數(shù)據(jù)化運(yùn)營(yíng)中,可觀測(cè)的統(tǒng)計(jì)維度很多,如產(chǎn)品的pv(瀏覽量),uv(訪客數(shù)),頁(yè)面點(diǎn)擊率等。這些維度之間關(guān)系復(fù)雜,存在大量的信息冗余和重疊現(xiàn)象。譬如在直播領(lǐng)域中,維度“最近3天累計(jì)充值金額”,和“最近7天累計(jì)充值金額”存在正向的關(guān)聯(lián);即當(dāng)“最近3天累計(jì)充值金額”高時(shí),相關(guān)指標(biāo)“最近7天累計(jì)充值金額”一般也高。換句話說(shuō),維度之間的信息量存在重疊,一個(gè)維度在一定程度上可以被其他相關(guān)維度線性地推算出來(lái)。類似地,維度“最近3天累計(jì)營(yíng)收”與“最近3天累計(jì)直播時(shí)長(zhǎng)”存在關(guān)聯(lián),即直播時(shí)間越長(zhǎng),營(yíng)收額越大。這些龐大而復(fù)雜的運(yùn)營(yíng)維度容易讓運(yùn)營(yíng)人員掉進(jìn)信息過(guò)載的陷阱,難以準(zhǔn)確把脈產(chǎn)品的狀況并做出合適的決策。如何從這些運(yùn)營(yíng)維度中找出少量的關(guān)鍵維度,即基維度,是一個(gè)技術(shù)難點(diǎn)。面對(duì)繁多的運(yùn)營(yíng)維度,人工篩選的方法難以奏效。據(jù)所知的文獻(xiàn),目前還沒(méi)有對(duì)自動(dòng)識(shí)別運(yùn)營(yíng)基維度的研究和方法。

傳統(tǒng)方法一般采用人工的方法篩選關(guān)鍵維度,譬如在直播領(lǐng)域,把“最近7天累計(jì)營(yíng)收”,“最近7天平均pcu”作為關(guān)鍵維度。然而,這些人工篩選的維度并不能完備的刻畫(huà)產(chǎn)品的全部狀態(tài)。譬如“最近7天累計(jì)營(yíng)收”與“最近3天累計(jì)營(yíng)收”之間不但存在信息冗余,也存在差異,即“最近7天累計(jì)營(yíng)收”不能完全覆蓋“最近3天累計(jì)營(yíng)收”所含的信息量,也不能替換“最近3天累計(jì)營(yíng)收”這個(gè)維度的數(shù)值統(tǒng)計(jì)特性。一方面,簡(jiǎn)單地通過(guò)人工的方法從100個(gè)運(yùn)營(yíng)維度中抽選出10個(gè)維度作為關(guān)鍵維度,存在信息損失的問(wèn)題。換句話說(shuō),傳統(tǒng)方法未能準(zhǔn)確判斷基維度。另一方面,人工的方法主觀,工作量大,且調(diào)節(jié)方式難以固化沉淀。



技術(shù)實(shí)現(xiàn)要素:

鑒于上述問(wèn)題,本發(fā)明提出了一種挖掘運(yùn)營(yíng)基維度的方法及裝置,能夠通過(guò)分析各個(gè)運(yùn)營(yíng)維度的關(guān)聯(lián)關(guān)系,準(zhǔn)確地判別基維度,指導(dǎo)商業(yè)決策。

本發(fā)明實(shí)施例中提供了一種挖掘運(yùn)營(yíng)基維度的方法,包括:

根據(jù)收集的運(yùn)營(yíng)維度數(shù)據(jù),構(gòu)建樣本集p={x1,x2,...,xi};

計(jì)算所述樣本p的協(xié)方差矩陣xxt;

對(duì)所述協(xié)方差矩陣xxt做特征值分解,求得特征值;

根據(jù)其中一個(gè)特征值對(duì)應(yīng)的特征向量構(gòu)造的維度判別為基維度。

優(yōu)選地,根據(jù)其中一個(gè)特征值對(duì)應(yīng)的特征向量構(gòu)造的維度判別為基維度的步驟之后,還包括:

根據(jù)特征值的排序,判別排名前數(shù)位的基維度。

優(yōu)選地,根據(jù)收集的運(yùn)營(yíng)維度狀態(tài)數(shù)據(jù),構(gòu)建樣本集的步驟之前,還包括:

從業(yè)務(wù)平臺(tái)的服務(wù)器端收集運(yùn)營(yíng)主體的維度數(shù)據(jù),該維度數(shù)據(jù)包含業(yè)務(wù)播放數(shù)據(jù)、業(yè)務(wù)營(yíng)收數(shù)據(jù)、業(yè)務(wù)互動(dòng)數(shù)據(jù)當(dāng)中的至少一項(xiàng)。

優(yōu)選地,根據(jù)收集的運(yùn)營(yíng)維度狀態(tài)數(shù)據(jù),構(gòu)建樣本集的步驟之前,還包括:

從用戶的客戶端收集運(yùn)營(yíng)主體的維度數(shù)據(jù),該維度數(shù)據(jù)包含用戶觀看數(shù)據(jù)、用戶活躍數(shù)據(jù)、用戶留存數(shù)據(jù)當(dāng)中的至少一項(xiàng)。

優(yōu)選地,判別排名前數(shù)位的基維度的步驟之后,包括:

根據(jù)預(yù)設(shè)的特征值累計(jì)重要性閾值,獲取由至少一項(xiàng)排名前數(shù)位的基維度組成的基維度集合。

相應(yīng)地,本發(fā)明實(shí)施例提供了一種挖掘運(yùn)營(yíng)基維度的裝置,包括:

樣本構(gòu)建單元,用于根據(jù)收集的運(yùn)營(yíng)維度數(shù)據(jù),構(gòu)建樣本集p={x1,x2,...,xi};

空間變換單元,用于計(jì)算所述樣本p的協(xié)方差矩陣xxt;

特征分解單元,用于對(duì)所述協(xié)方差矩陣xxt做特征值分解,求得特征值;

基維度判別單元,用于根據(jù)其中一個(gè)特征值對(duì)應(yīng)的特征向量構(gòu)造的維度判別為基維度。

優(yōu)選地,還包括:

基維度排序單元,用于根據(jù)特征值的排序,判別排名前數(shù)位的基維度。

優(yōu)選地,還包括:

業(yè)務(wù)維度單元,用于從業(yè)務(wù)平臺(tái)的服務(wù)器端收集運(yùn)營(yíng)主體的維度數(shù)據(jù),該維度數(shù)據(jù)包含業(yè)務(wù)播放數(shù)據(jù)、業(yè)務(wù)營(yíng)收數(shù)據(jù)、業(yè)務(wù)互動(dòng)數(shù)據(jù)當(dāng)中的至少一項(xiàng)。

優(yōu)選地,還包括:

用戶維度單元,用于從用戶的客戶端收集運(yùn)營(yíng)主體的維度數(shù)據(jù),該維度數(shù)據(jù)包含用戶觀看數(shù)據(jù)、用戶活躍數(shù)據(jù)、用戶留存數(shù)據(jù)當(dāng)中的至少一項(xiàng)。

優(yōu)選地,所述基維度排序單元,包括:

基維度收集單元,用于根據(jù)預(yù)設(shè)的特征值累計(jì)重要性閾值,獲取由至少一項(xiàng)排名前數(shù)位的基維度組成的基維度集合。

本發(fā)明提出了一種自動(dòng)挖掘運(yùn)營(yíng)基維度的方案。首先,根據(jù)收集的運(yùn)營(yíng)維度數(shù)據(jù),構(gòu)建樣本集p={x1,x2,...,xi},相對(duì)于現(xiàn)有技術(shù),對(duì)于構(gòu)建的樣本集,用戶無(wú)需考慮各個(gè)樣本之間的信息重疊或信息冗余,也無(wú)需通過(guò)人工或機(jī)器對(duì)樣本集的樣本進(jìn)行篩選或分類。而是,計(jì)算所述樣本p的協(xié)方差矩陣xxt,通過(guò)協(xié)方差的空間變換,分析維度之間的關(guān)聯(lián)關(guān)系和信息冗余狀況。然后,對(duì)所述協(xié)方差矩陣xxt做特征值分解,求得特征值,自動(dòng)構(gòu)造出基維度。讓其之間的信息不冗余,卻能可全方位刻畫(huà)產(chǎn)品的狀態(tài),用少量基維度即可表示全量運(yùn)營(yíng)維度的信息量。最后,根據(jù)其中一個(gè)特征值對(duì)應(yīng)的特征向量構(gòu)造的維度判別為基維度。上述方案,簡(jiǎn)單快捷,能夠通過(guò)分析各個(gè)運(yùn)營(yíng)維度的關(guān)聯(lián)關(guān)系,準(zhǔn)確地判別基維度,指導(dǎo)商業(yè)決策。具體地,對(duì)于直播業(yè)務(wù)來(lái)說(shuō),可以幫助發(fā)掘潛在的網(wǎng)紅主播、評(píng)測(cè)優(yōu)質(zhì)主播等。進(jìn)一步地,讓運(yùn)營(yíng)方更加深入了解各個(gè)運(yùn)營(yíng)指標(biāo),包括對(duì)指標(biāo)歸類,認(rèn)知影響主播排名的本質(zhì)原因等,指導(dǎo)商業(yè)決策。

本發(fā)明附加的方面和優(yōu)點(diǎn)將在下面的描述中部分給出,這些將從下面的描述中變得明顯,或通過(guò)本發(fā)明的實(shí)踐了解到。

附圖說(shuō)明

為了更清楚地說(shuō)明本發(fā)明實(shí)施例中的技術(shù)方案,下面將對(duì)實(shí)施例描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。

圖1為本發(fā)明一種挖掘運(yùn)營(yíng)基維度的方法的流程圖。

圖2為本發(fā)明一種挖掘運(yùn)營(yíng)基維度的方法的實(shí)施例流程圖。

圖3為本發(fā)明實(shí)施例的維度數(shù)據(jù)收集示意圖。

圖4為本發(fā)明實(shí)施例的樣本在空間表示成向量的示意圖。

圖5為本發(fā)明一種挖掘運(yùn)營(yíng)基維度的裝置的示意圖。

圖6為本發(fā)明一種挖掘運(yùn)營(yíng)基維度的裝置的實(shí)施例示意圖。

具體實(shí)施方式

為了使本技術(shù)領(lǐng)域的人員更好地理解本發(fā)明方案,下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述。

在本發(fā)明的說(shuō)明書(shū)和權(quán)利要求書(shū)及上述附圖中的描述的一些流程中,包含了按照特定順序出現(xiàn)的多個(gè)操作,但是應(yīng)該清楚了解,這些操作可以不按照其在本文中出現(xiàn)的順序來(lái)執(zhí)行或并行執(zhí)行,操作的序號(hào)如101、102等,僅僅是用于區(qū)分開(kāi)各個(gè)不同的操作,序號(hào)本身不代表任何的執(zhí)行順序。另外,這些流程可以包括更多或更少的操作,并且這些操作可以按順序執(zhí)行或并行執(zhí)行。需要說(shuō)明的是,本文中的“第一”、“第二”等描述,是用于區(qū)分不同的消息、設(shè)備、模塊等,不代表先后順序,也不限定“第一”和“第二”是不同的類型。

下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。

運(yùn)營(yíng)維度:用于衡量產(chǎn)品正常經(jīng)營(yíng)運(yùn)轉(zhuǎn)狀況的指標(biāo),如產(chǎn)品的pv(瀏覽量),uv(訪客數(shù)),頁(yè)面點(diǎn)擊率等;這些指標(biāo)多可以通過(guò)測(cè)量或顯式地統(tǒng)計(jì)運(yùn)算獲得,為產(chǎn)品的運(yùn)營(yíng)人員總結(jié)、分析和評(píng)價(jià)產(chǎn)品狀況提供依據(jù)。

基維度:用于描述產(chǎn)品運(yùn)營(yíng)狀況的本質(zhì)因子,可以說(shuō)是多個(gè)運(yùn)營(yíng)維度的濃縮。不同于運(yùn)營(yíng)維度之間可能存在相關(guān)和信息冗余,基維度之間的信息不冗余,卻能可全方位刻畫(huà)產(chǎn)品的狀態(tài)。這些基維度多隱藏在數(shù)據(jù)的內(nèi)部,難直接觀察獲得,是隱藏在運(yùn)營(yíng)維度中的母因素。如在大學(xué)排名中,影響排名的因素中最本質(zhì)的有兩類,包括自然科學(xué)因子,和社會(huì)科學(xué)因子,這些就是基維度;但這些因子不容易直接觀測(cè)獲得,只能觀察到的維度如本科入學(xué)平均分?jǐn)?shù)線,就業(yè)率,教授發(fā)理工類/人文類論文量等。

如何從可觀測(cè)的運(yùn)營(yíng)維度中,推測(cè)并挖掘基維度,是本發(fā)明要解決的技術(shù)問(wèn)題。通過(guò)分析各個(gè)運(yùn)營(yíng)維度的關(guān)聯(lián)關(guān)系,本發(fā)明設(shè)計(jì)新算法準(zhǔn)確地找出基維度。本發(fā)明把基維度應(yīng)用于直播領(lǐng)域,可以指導(dǎo)產(chǎn)品運(yùn)營(yíng)方做決策,包括發(fā)現(xiàn)優(yōu)質(zhì)主播,評(píng)測(cè)主播表現(xiàn)等。

圖1為本發(fā)明一種挖掘運(yùn)營(yíng)基維度的方法的流程圖,包括:

s101:根據(jù)收集的運(yùn)營(yíng)維度數(shù)據(jù),構(gòu)建樣本集p={x1,x2,...,xi};

s102:計(jì)算所述樣本p的協(xié)方差矩陣xxt;

s103:對(duì)所述協(xié)方差矩陣xxt做特征值分解,求得特征值;

s104:根據(jù)其中一個(gè)特征值對(duì)應(yīng)的特征向量構(gòu)造的維度判別為基維度。

本發(fā)明提出了一種自動(dòng)挖掘運(yùn)營(yíng)基維度的方案。首先,根據(jù)收集的運(yùn)營(yíng)維度數(shù)據(jù),構(gòu)建樣本集p={x1,x2,...,xi},相對(duì)于現(xiàn)有技術(shù),對(duì)于構(gòu)建的樣本集,用戶無(wú)需考慮各個(gè)樣本之間的信息重疊或信息冗余,也無(wú)需通過(guò)人工或機(jī)器對(duì)樣本集的樣本進(jìn)行篩選或分類。而是,計(jì)算所述樣本p的協(xié)方差矩陣xxt,通過(guò)協(xié)方差的空間變換,分析維度之間的關(guān)聯(lián)關(guān)系和信息冗余狀況。然后,對(duì)所述協(xié)方差矩陣xxt做特征值分解,求得特征值,自動(dòng)構(gòu)造出基維度。讓其之間的信息不冗余,卻能可全方位刻畫(huà)產(chǎn)品的狀態(tài),用少量基維度即可表示全量運(yùn)營(yíng)維度的信息量。最后,根據(jù)其中一個(gè)特征值對(duì)應(yīng)的特征向量構(gòu)造的維度判別為基維度。上述方案,簡(jiǎn)單快捷,能夠通過(guò)分析各個(gè)運(yùn)營(yíng)維度的關(guān)聯(lián)關(guān)系,準(zhǔn)確地判別基維度,指導(dǎo)商業(yè)決策。具體地,對(duì)于直播業(yè)務(wù)來(lái)說(shuō),可以幫助發(fā)掘潛在的網(wǎng)紅主播等。

下面以直播業(yè)務(wù)為例,介紹基維度的構(gòu)建方法。具體地,首先收集運(yùn)營(yíng)維度數(shù)據(jù),然后基于該數(shù)據(jù)生成基維度,整個(gè)過(guò)程不需要標(biāo)注數(shù)據(jù)。

圖2為本發(fā)明一種挖掘運(yùn)營(yíng)基維度的方法的實(shí)施例流程圖。

s201:從業(yè)務(wù)平臺(tái)的服務(wù)器端收集運(yùn)營(yíng)主體的維度數(shù)據(jù),該維度數(shù)據(jù)包含業(yè)務(wù)播放數(shù)據(jù)、業(yè)務(wù)營(yíng)收數(shù)據(jù)、業(yè)務(wù)互動(dòng)數(shù)據(jù)當(dāng)中的至少一項(xiàng)。

s202:從用戶的客戶端收集運(yùn)營(yíng)主體的維度數(shù)據(jù),該維度數(shù)據(jù)包含用戶觀看數(shù)據(jù)、用戶活躍數(shù)據(jù)、用戶留存數(shù)據(jù)當(dāng)中的至少一項(xiàng)。

s203:根據(jù)收集的運(yùn)營(yíng)維度數(shù)據(jù),構(gòu)建樣本集p={x1,x2,...,xi};

s204:計(jì)算所述樣本p的協(xié)方差矩陣xxt;

s205:對(duì)所述協(xié)方差矩陣xxt做特征值分解,求得特征值;

s206:根據(jù)其中一個(gè)特征值對(duì)應(yīng)的特征向量構(gòu)造的維度判別為基維度。

s207:根據(jù)特征值的排序,判別排名前數(shù)位的基維度。

s208:根據(jù)預(yù)設(shè)的特征值累計(jì)重要性閾值,獲取由至少一項(xiàng)排名前數(shù)位的基維度組成的基維度集合。

本實(shí)施例以直播領(lǐng)域?yàn)槔?,針?duì)不同的運(yùn)營(yíng)主體(主播,和觀眾),常規(guī)有下面兩類運(yùn)營(yíng)維度數(shù)據(jù),從業(yè)務(wù)平臺(tái)的服務(wù)器端收集運(yùn)營(yíng)主體(主播)的維度數(shù)據(jù),從用戶的客戶端收集運(yùn)營(yíng)主體(觀眾)的維度數(shù)據(jù),即主播的運(yùn)營(yíng)維度數(shù)據(jù)和觀眾的觀看維度數(shù)據(jù),如圖3。

圖3為本發(fā)明實(shí)施例的維度數(shù)據(jù)收集示意圖。其中主播的維度數(shù)據(jù)通過(guò)直播平臺(tái)的服務(wù)器端獲取,記錄主播的全局行為,包括播放,營(yíng)收,互動(dòng)等。圖3中的播放信息采集單元101代表播放行為維度收集器,營(yíng)收信息采集單元102代表營(yíng)收行為維度收集器,和互動(dòng)信息采集單元103代表互動(dòng)行為維度收集器。運(yùn)營(yíng)的維度數(shù)據(jù)舉例如下:業(yè)務(wù)播放數(shù)據(jù),如最近3天/7天主播累計(jì)播放場(chǎng)次,最近3天/7天主播累計(jì)播放時(shí)長(zhǎng);業(yè)務(wù)營(yíng)收數(shù)據(jù),如最近3天/7天主播累計(jì)付費(fèi)觀眾數(shù),最近3天/7天主播付費(fèi)觀眾數(shù)增幅,最近3天/7天主播累計(jì)營(yíng)收額,最近3天/7天主播累計(jì)營(yíng)收額增幅;業(yè)務(wù)互動(dòng)數(shù)據(jù),如最近3天/7天的聊天室累計(jì)發(fā)言觀眾數(shù),最近3天/7天的聊天室累計(jì)發(fā)言量等。

觀眾的觀看維度數(shù)據(jù)通過(guò)用戶的客戶端獲取,記錄觀眾的觀看,活躍和留存狀況等特征。圖1中的觀看信息采集單元104代表觀看行為維度收集器,活躍信息采集單元105代表活躍行為維度收集器,和留存信息采集單元106代表留存行為維度收集器。運(yùn)營(yíng)的維度數(shù)據(jù)舉例如下,用戶觀看數(shù)據(jù),如最近3天/7天觀眾平均觀看時(shí)長(zhǎng);用戶活躍數(shù)據(jù),如最近3天/7天觀眾平均同時(shí)在線人數(shù),最近3天/7天觀眾平均同時(shí)在線人數(shù)增速;用戶留存數(shù)據(jù),如最近3天/7天的留存觀眾量,最近3天/7天的觀眾留存率。

需要補(bǔ)充說(shuō)明的是,本方案既可以僅收集服務(wù)器端的維度數(shù)據(jù),分析主播一側(cè)的基維度,也可以僅收集客戶端的維度數(shù)據(jù),分析觀眾一側(cè)的基維度,還可以同時(shí)收集兩端的維度數(shù)據(jù),分析兩者相互影響的維度數(shù)據(jù)。另外,隨著業(yè)務(wù)的拓展,比如廣告商,內(nèi)容提供商,第三方游戲開(kāi)發(fā)商的業(yè)務(wù)加入,本方案還可以添加其它相關(guān)方的維度數(shù)據(jù),挖掘更新基維度,指導(dǎo)商業(yè)決策。

圖4為本發(fā)明實(shí)施例的樣本在空間表示成向量的示意圖。下面結(jié)合圖4敘述本方案,假設(shè)有40萬(wàn)個(gè)主播,每個(gè)主播的運(yùn)營(yíng)維度有1000維,根據(jù)收集的運(yùn)營(yíng)維度數(shù)據(jù),構(gòu)建樣本集p={x1,x2,...,xi};那么每個(gè)主播運(yùn)營(yíng)維度數(shù)據(jù)的樣本集可以表示成一個(gè)1000維的向量向量的每個(gè)元素?cái)?shù)值就是對(duì)應(yīng)的主播在該維度上的測(cè)量值;如第10個(gè)維度(最近3天累計(jì)付費(fèi)觀眾數(shù))是120人,那么該向量的第10個(gè)元素?cái)?shù)值為120。

通過(guò)空間的等價(jià)變換m(包括平移,旋轉(zhuǎn),縮放;該類操作不會(huì)造成信息丟失),把主播樣本映射到一個(gè)s維(譬如10維)的基維度空間中,即每個(gè)主播樣本可以表示成一個(gè)10維的向量這個(gè)向量的信息量等價(jià)于以上向量即mth→w。

實(shí)際上,向量的元素的數(shù)值是向量中某些元素的線性加權(quán),加權(quán)的數(shù)值由變換m來(lái)決定;譬如向量的第2個(gè)元素=0.2×向量的第1個(gè)元素+0.4×向量的第2個(gè)元素+...;加權(quán)的系數(shù)(如以上的0.2,0.4)由變換m決定。換句話說(shuō),第1個(gè)維度有20%的信息與第2個(gè)維度40%的信息量有重疊,可以壓縮匯總出一個(gè)新的維度。對(duì)于每一批樣本數(shù)據(jù),變換m是唯一的。發(fā)現(xiàn)基維度的關(guān)鍵就是通過(guò)步驟s202找到變換m。

對(duì)于給定一個(gè)樣本點(diǎn)x,在q維坐標(biāo)空間{h1,h2,...,hq}中表示為向量對(duì)該樣本做信息量保真的等價(jià)變換(包括平移,旋轉(zhuǎn),縮放),變換后在新坐標(biāo)空間中的向量可以表示為對(duì)于p個(gè)樣本集合p={x1,x2,...,xi};每個(gè)樣本向量都可以變換成新空間中的一個(gè)新向量。

不同的變換m,能把樣本映射到對(duì)應(yīng)的不同的新坐標(biāo)空間中。最優(yōu)的變換m能把樣本映射到s維基維度的坐標(biāo)空間{w1,w2,...,ws}中。在這個(gè)坐標(biāo)系中,維度之間正交,信息不重疊不冗余,即而且在這個(gè)空間中,全體的p個(gè)樣本點(diǎn)盡可能地分開(kāi),相互間區(qū)分度最大;也就是說(shuō),在這個(gè)空間中,全體的p個(gè)樣本點(diǎn)是最大可分的,只要用少量的維度s,即可顯著地區(qū)分和刻畫(huà)p個(gè)樣本點(diǎn)。

計(jì)算所述樣本p的協(xié)方差矩陣xxt,從數(shù)學(xué)統(tǒng)計(jì)上,樣本點(diǎn)最大可分性等價(jià)于樣本點(diǎn)的方差最大化?;仡櫼陨戏治觯瑢?duì)于給定的某一個(gè)樣本點(diǎn)xi,變換到新空間后為那么對(duì)于所有p個(gè)樣本點(diǎn),方差為

求最大的方差,即求解以下的最值函數(shù),如公式1:

s.t.mtm=i....公式1

其中x是p個(gè)樣本點(diǎn)向量對(duì)應(yīng)的矩陣表示形式;對(duì)于最值函數(shù),可以用成熟的數(shù)學(xué)方法來(lái)求解;具體地,對(duì)公式1使用拉格朗日乘子法,公式1等價(jià)于求解公式2;

xxtm=l·m....公式2

通過(guò)對(duì)協(xié)方差矩陣xxt進(jìn)行特征分解,可求得的特征值。根據(jù)其中一個(gè)特征值對(duì)應(yīng)的特征向量構(gòu)造的維度判別為基維度。

根據(jù)特征值的排序,判別排名前數(shù)位的基維度。對(duì)于公式2的求解獲取的特征值就是q維坐標(biāo)空間{h1,h2,...,hq}經(jīng)過(guò)等價(jià)變換后,在新的坐標(biāo)空間{w1,w2,...,wq}中,按信息量的重要性的排序l1≥l2...≥lq。

通過(guò)特征值的排序,可以找出信息量最大且最重要的基維度。具體地,根據(jù)l1對(duì)應(yīng)的特征向量m1(1×q維)構(gòu)造出第一個(gè)基維度,即m1ht,其中h是{h1,h2,...,hq}的矩陣表示;類似地,根據(jù)li對(duì)應(yīng)的特征向量mi構(gòu)造出第i個(gè)基維度。

舉個(gè)例子,假設(shè)有q=10(即原有10個(gè)運(yùn)營(yíng)維度),通過(guò)求解變換m,找出排序首位的l1對(duì)應(yīng)的特征向量m1,譬如為[0.3,0.15,0.05,...,0.01];那么新的基維度w1=0.3*h1+0.15*h2+...+0.11*h10。

從信息量的角度看,新的基維度相當(dāng)于輸出的運(yùn)營(yíng)維度中重疊和相互覆蓋的部分抽取出來(lái);這是一種信息壓縮的過(guò)程。

進(jìn)一步地,根據(jù)預(yù)設(shè)的特征值累計(jì)重要性閾值,獲取由至少一項(xiàng)排名前數(shù)位的基維度組成的基維度集合。我們可以根據(jù)特征值的累計(jì)重要性找出s個(gè)基維度;具體地,累計(jì)重要性的計(jì)算方法如公式3,

其中閥值t在應(yīng)用中一般設(shè)定為0.95左右,也就是排前的s個(gè)基維度占整個(gè)數(shù)據(jù)信息量的95%即可。

本發(fā)明能從大量的運(yùn)營(yíng)維度中自動(dòng)發(fā)現(xiàn)基維度,這些基維度數(shù)量不多,但價(jià)值高且完備地覆蓋輸出的維度的信息量,即全方位刻畫(huà)產(chǎn)品的狀態(tài)。該成果已經(jīng)上線應(yīng)用于直播運(yùn)營(yíng),目前能從主播220個(gè)運(yùn)營(yíng)維度中,自動(dòng)發(fā)現(xiàn)15個(gè)高價(jià)值的基維度。運(yùn)營(yíng)人員只要把握這15個(gè)基維度,即可對(duì)直播產(chǎn)品的狀況準(zhǔn)確把脈,做出合適的決策,顯著提升運(yùn)營(yíng)效率。

進(jìn)一步地,本發(fā)明把算法輸出的基維度應(yīng)用于運(yùn)營(yíng)項(xiàng)目,如發(fā)現(xiàn)潛力主播項(xiàng)目,替換項(xiàng)目舊有的特征。考慮到基維度是大量運(yùn)營(yíng)維度的信息壓縮,而且由于維度數(shù)量較集中,能避免一些項(xiàng)目模型的數(shù)據(jù)稀疏問(wèn)題,從理論上可以提升項(xiàng)目的性能。通過(guò)實(shí)際在線應(yīng)用,發(fā)現(xiàn)項(xiàng)目的性能獲得顯著的提升。

具體地,對(duì)于潛力主播發(fā)現(xiàn)項(xiàng)目,舊模型離線準(zhǔn)確率為83%,利用基維度替換舊模型的特征,離線準(zhǔn)確率提升為90%,漲幅為8.4%。采用ab測(cè)試評(píng)測(cè)系統(tǒng)多個(gè)月的性能,其中a組為舊模型生成的潛力主播名單,b組為新方法名單,兩組名單數(shù)量一致,統(tǒng)計(jì)吸引粉絲的狀況;評(píng)測(cè)指標(biāo)為識(shí)別準(zhǔn)確率(有多少主播變成網(wǎng)紅大主播)。通過(guò)跟蹤主播兩個(gè)月(2016年9月和10月)的活躍觀眾狀況,在同時(shí)在線人數(shù)指標(biāo)上,舊方法(a組)增長(zhǎng)6.4%,新方法(b組)增長(zhǎng)10.5%。

圖5為本發(fā)明一種挖掘運(yùn)營(yíng)基維度的裝置的示意圖,包括:

樣本構(gòu)建單元,用于根據(jù)收集的運(yùn)營(yíng)維度數(shù)據(jù),構(gòu)建樣本集p={x1,x2,...,xi};

空間變換單元,用于計(jì)算所述樣本p的協(xié)方差矩陣xxt;

特征分解單元,用于對(duì)所述協(xié)方差矩陣xxt做特征值分解,求得特征值;

基維度判別單元,用于根據(jù)其中一個(gè)特征值對(duì)應(yīng)的特征向量構(gòu)造的維度判別為基維度。

圖5與圖1相對(duì)應(yīng),圖中各個(gè)單元的運(yùn)行方式與方法中的相同。

圖6為本發(fā)明一種挖掘運(yùn)營(yíng)基維度的裝置的實(shí)施例示意圖。

如圖6所示,還包括:

基維度排序單元,用于根據(jù)特征值的排序,判別排名前數(shù)位的基維度。

如圖6所示,還包括:

業(yè)務(wù)維度單元,用于從業(yè)務(wù)平臺(tái)的服務(wù)器端收集運(yùn)營(yíng)主體的維度數(shù)據(jù),該維度數(shù)據(jù)包含業(yè)務(wù)播放數(shù)據(jù)、業(yè)務(wù)營(yíng)收數(shù)據(jù)、業(yè)務(wù)互動(dòng)數(shù)據(jù)當(dāng)中的至少一項(xiàng)。

如圖6所示,還包括:

用戶維度單元,用于從用戶的客戶端收集運(yùn)營(yíng)主體的維度數(shù)據(jù),該維度數(shù)據(jù)包含用戶觀看數(shù)據(jù)、用戶活躍數(shù)據(jù)、用戶留存數(shù)據(jù)當(dāng)中的至少一項(xiàng)。

如圖6所示,所述基維度排序單元,包括:

基維度收集單元,用于根據(jù)預(yù)設(shè)的特征值累計(jì)重要性閾值,獲取由至少一項(xiàng)排名前數(shù)位的基維度組成的基維度集合。

圖6與圖2相對(duì)應(yīng),圖中各個(gè)單元的運(yùn)行方式與方法中的相同。

本裝置/模塊介紹基維度的生成算法,思路如下:

給定p個(gè)樣本,每個(gè)樣本通過(guò)q個(gè)運(yùn)營(yíng)維度來(lái)衡量刻畫(huà)。對(duì)于每個(gè)樣本x,可以看成是一個(gè)q維的坐標(biāo)空間{h1,h2,...,hq}的一個(gè)向量(如圖1中的一個(gè)點(diǎn)向量)??紤]到原有的q個(gè)維度間存在關(guān)聯(lián)和信息冗余,即||hi||2=1,hithj≠0;其中||×||2是l2正則化的數(shù)學(xué)符號(hào)。

假設(shè)基維度有s維,這些基維度是原有維度高保真的壓縮,即s<<q。對(duì)于樣本x,為了保留原有的所有信息量(即各種統(tǒng)計(jì)特性),可以做空間的等價(jià)變換(包括平移,旋轉(zhuǎn),縮放;該類操作不會(huì)造成信息丟失);所作變換記做m。經(jīng)過(guò)變換后,樣本x可以看成是一個(gè)s維基維度的坐標(biāo)空間{w1,w2,...,ws}中的一個(gè)向量經(jīng)過(guò)該變換后,向量所含信息量等價(jià)于向量其中s個(gè)基維度之間不存在關(guān)聯(lián)和信息冗余,即其中||×||2是l2正則化的數(shù)學(xué)符號(hào)。

從以上分析可知,基維度構(gòu)造的關(guān)鍵就是要找到一種等價(jià)變換的方法m,讓樣本向量x從q個(gè)運(yùn)營(yíng)維度坐標(biāo)空間{h1,h2,...,hq}中,信息保真地映射到s維的坐標(biāo)空間{w1,w2,...,ws}中,即mth→w;在新維度之間不存在關(guān)聯(lián)和信息冗余,即其中變換m對(duì)應(yīng)的列向量就是每個(gè)基維度的構(gòu)建方法。

換句話說(shuō),基維度的構(gòu)建方法可以看成是一種信息壓縮的過(guò)程。即從多個(gè)有信息重疊/冗余的運(yùn)營(yíng)維度中,抽取出信息重疊最大的部分作為一個(gè)新維度(被稱作一個(gè)基維度),這可以看成是對(duì)冗余的維度做一次信息壓縮。類似地,抽取第二大重疊的部分作為第二個(gè)新維度;如此類推,最終生成s個(gè)基維度。為了找出維度間的信息重疊,本發(fā)明采用空間等價(jià)變換的方式。

所屬領(lǐng)域的技術(shù)人員可以清楚地了解到,為描述的方便和簡(jiǎn)潔,上述描述的系統(tǒng),裝置和單元的具體工作過(guò)程,可以參考前述方法實(shí)施例中的對(duì)應(yīng)過(guò)程,在此不再贅述。

以上所述實(shí)施例僅表達(dá)了本發(fā)明的幾種實(shí)施方式,其描述較為具體和詳細(xì),但并不能因此而理解為對(duì)本發(fā)明專利范圍的限制。應(yīng)當(dāng)指出的是,對(duì)于本領(lǐng)域的普通技術(shù)人員來(lái)說(shuō),在不脫離本發(fā)明構(gòu)思的前提下,還可以做出若干變形和改進(jìn),這些都屬于本發(fā)明的保護(hù)范圍。因此,本發(fā)明專利的保護(hù)范圍應(yīng)以所附權(quán)利要求為準(zhǔn)。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1