對(duì)網(wǎng)絡(luò)視頻流行度的演化分析方法及系統(tǒng)的制作方法
【專(zhuān)利摘要】本發(fā)明提供了一種對(duì)網(wǎng)絡(luò)視頻流行度的演化分析方法及系統(tǒng),視頻擴(kuò)散的過(guò)程被直接推薦和口碑推薦所驅(qū)動(dòng)。本發(fā)明的有益效果是:在本發(fā)明中,我們建立了一個(gè)動(dòng)態(tài)的模型來(lái)描述視頻流行度的演化。尤其是,兩種推薦機(jī)制:直接推薦和口碑推薦,它們作為視頻信息擴(kuò)散過(guò)程的驅(qū)動(dòng)力被納入在我們的模型中。我們的模型提供了一個(gè)系統(tǒng)化的方法去量化視頻推薦驅(qū)動(dòng)力和其他因素,同時(shí),我們的模型對(duì)于表征用戶的行為和評(píng)估推薦測(cè)量都很有用。
【專(zhuān)利說(shuō)明】
對(duì)網(wǎng)絡(luò)視頻流行度的演化分析方法及系統(tǒng)
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及數(shù)據(jù)處理及分析技術(shù)領(lǐng)域,尤其涉及對(duì)網(wǎng)絡(luò)視頻流行度的深化分析方 法及系統(tǒng)。
【背景技術(shù)】
[0002] 1.視頻的流行度對(duì)于在線視頻業(yè)務(wù)中的最優(yōu)化資源配置和視頻推薦來(lái)說(shuō)是一個(gè) 必不可少的參照。在過(guò)去的幾年中很多研究者已經(jīng)研究了幾個(gè)方面,例如:流行度的分布 [1],演化模式[2],預(yù)測(cè)[3][4],建模[5][6]等等。然而,始終沒(méi)有一種有說(shuō)服力的模型可以 精確地描述視頻流行度的演變。這個(gè)動(dòng)態(tài)的模型不僅對(duì)流行度演變的預(yù)測(cè)很有用,同時(shí)對(duì) 表征視頻的普及方式、用戶的行為和推薦策略也很有用。
[0003] 大規(guī)模的在線視頻資源提供商提供了數(shù)以百萬(wàn)計(jì)的視頻,這樣,用戶在很大程度 上依賴(lài)推薦度去觀看他們所青睞的視頻(除了特定的搜索)。因此,視頻的流行度演化很大 程度上受到如何將視頻推薦給用戶的影響。直接的推薦方式和口碑宣傳的方式是兩種主要 的機(jī)制,這兩種機(jī)制被之前的研究工作反復(fù)的研究和討論過(guò)[7] [8] [6]。直接推薦的方法意 味著視頻可以通過(guò)網(wǎng)站首頁(yè)展示、電視推廣頻道、廣告等等方式直接地展示給用戶。口碑宣 傳意味著視頻將通過(guò)各種各樣的社交網(wǎng)絡(luò),例如:Facebook、Twitter、大學(xué)或是相關(guān)的BBS 論壇等社交網(wǎng)絡(luò)分享。
[0004]這兩種推薦方式引出了一種信息擴(kuò)散過(guò)程。通過(guò)將這種過(guò)程建模,我們可以推導(dǎo) 出觀看每個(gè)視頻的用戶數(shù)目增量,而且因此推導(dǎo)出視頻流行度的演變。然而,這個(gè)模型的復(fù) 雜性在于實(shí)際的推薦資源是有限的。例如,由于首頁(yè)推薦位置的有限,新的視頻被引入作為 存在的視頻資源僅僅能在一段時(shí)間內(nèi)被推薦。到目前為止,關(guān)于兩種推薦方式在有限的資 源下如何動(dòng)態(tài)驅(qū)動(dòng)流行度的研究還是太少,而這正是本發(fā)明所要討論的。
[0005] 另一方面,當(dāng)給定一個(gè)可觀察到的視頻流行度演變時(shí),我們可以把它和這個(gè)模型 相匹配,以此來(lái)揭示和確定視頻傳播進(jìn)程和推薦的驅(qū)動(dòng)力量。這種量化將提供一種系統(tǒng)化 的方法,通過(guò)一套合理的參數(shù)來(lái)描述一種動(dòng)態(tài)的視頻系統(tǒng)。當(dāng)這種方法用于偵測(cè)潛在的用 戶行為、辨識(shí)不明確的被推薦的視頻和評(píng)估推薦策略,學(xué)術(shù)界和產(chǎn)業(yè)界就可以從這種方法 中獲益。本發(fā)明會(huì)通過(guò)對(duì)一個(gè)電視節(jié)目的研究來(lái)舉例說(shuō)明。
[0006] 參考文獻(xiàn):
[0007] [1]Meeyoung Cha.Haewoon Kwak,Pablo Rodriguez,Yong_Yeol Ahn,and Sue Moon,"Analyzing the video popularity charate-risties of large-scale user generated content systems,',IEEE/ACM Transact-ions on Networking, vol. 17 ,no. 5, pp.1357-1370,2009.
[0008] [2]Yipeng Zhou,Liang Chen,Chunfeng Yang,and Dah Ming Chiu,"Video popularity dynamics and its implication for replication,',IEEE Transactions on Multimedia,vol.17,no.8,pp.1273_1285,2015.
[0009] [3]Henrique Pinto,Jussara M Almeida,and Marcos A Goncalves,"Using early view patterns to predict the popularity or youtobe videos,',in ACM WSDM, 2013.
[0010] [4]Mohamed Ahmed,Stella Spagna,F(xiàn)elipe Huici,and Saverio Niccolini,"A peek into the future:Predicting the evolution of popularity in user generated content,"in ACM WSDM,2013.
[0011] [5]Zlatka Avramova,Sabine ffittevrongel,Herwig Bruneel,and Danny De Vleeschauwer,"Analysis and modeling of video popularity evolution in various online video content systems: Power-law versus exponential decay,',in the First International Conference on Evolving Internet,2009·
[0012] [6]Jiqiang ffu,Yipeng Zhou ,Dah Ming Chiu,and Zirong Zhu,"Modeling dynamics of online video popularity,"in IEEE/ACM IWQ〇S,2015.
[0013] [7]Gabor Szabo and Bernardo A.Huberman,"Predicting the popularity of online con-Tent,',Communications of the ACM, vol. 53,no. 8,pp. 80-88,2010.
[0014] [8]Haitao Li,Haiyang Wang,Jiangchuan Liu,and Ke Xu,"Video sharing in online social networks:Measurement and analysis In ACM N0SSDAV, 2012.
[0015] [9]Authors, ''Appendix,supplied as additi〇-nal material appendix.pdf".
[0016] [10]Han Hu,Yonggang ffen,Tat-Sent Chua,Zhi ffang,Jian Huang,ffenwu Zhu, and Di Wu,"Community based effective social video contents placement in cloud centric cdn network,"in IEEE ICME,2014.
[0017] [11]Alex Lobzhanidze and Wenjun Zeng,"Proactive caching of online video by mining mainstream media,"in IEEE ICME,2013.
【發(fā)明內(nèi)容】
[0018] 本發(fā)明提供了一種對(duì)網(wǎng)絡(luò)視頻流行度的演化分析方法,視頻擴(kuò)散的過(guò)程被直接推 薦和口碑推薦所驅(qū)動(dòng),
[0019] 在直接推薦驅(qū)動(dòng)步驟中,直接推薦驅(qū)動(dòng)下的視頻流行度演化公式:
[0021 ]在口碑推薦驅(qū)動(dòng)步驟中,口碑推薦的過(guò)程是一個(gè)離散的時(shí)間模型:
[0022] Ax(t+l)=0qAx(t)s(t) (5)
[0024]作為本發(fā)明的進(jìn)一步改進(jìn),在所述口碑推薦驅(qū)動(dòng)步驟中,為了使得口碑推薦模型 被處理,我們還需要考慮初始的條件:X(〇)=XQ>〇,X()是用戶的數(shù)量,我們讓xo〈l,在xo〈l情 況下展示了視頻被第一個(gè)用戶發(fā)現(xiàn)需要經(jīng)歷多長(zhǎng)時(shí)間,
[0029] 作為本發(fā)明的進(jìn)一步改進(jìn),根據(jù)視頻觀看總數(shù)的跟蹤記錄,確定信息擴(kuò)散過(guò)程的 類(lèi)型由一個(gè)具有小的匹配錯(cuò)誤的模型所決定;通過(guò)將視頻記錄與理論模型匹配,可以量化 每個(gè)推薦因素的強(qiáng)度。
[0030] 本發(fā)明還公開(kāi)了一種對(duì)網(wǎng)絡(luò)視頻流行度的演化分析系統(tǒng),其特征在于,視頻擴(kuò)散 的過(guò)程被直接推薦和口碑推薦所驅(qū)動(dòng),
[0031 ]在直接推薦驅(qū)動(dòng)模塊中,直接推薦驅(qū)動(dòng)下的視頻流行度演化公式:
[0033] 在口碑推薦驅(qū)動(dòng)模塊中,口碑推薦的過(guò)程是一個(gè)離散的時(shí)間模型:
[0034] Ax(t+l)=0qAx(t)s(t) (5)
[0036]作為本發(fā)明的進(jìn)一步改進(jìn),在所述口碑推薦驅(qū)動(dòng)模型中,為了使得口碑推薦模型 被處理,我們還需要考慮初始的條件:1(〇)=10>〇,10是用戶數(shù)量,我們讓1()〈1,在1()〈1情況 下展示了視頻被第一個(gè)用戶發(fā)現(xiàn)需要經(jīng)歷多長(zhǎng)時(shí)間,
[0041] 作為本發(fā)明的進(jìn)一步改進(jìn),根據(jù)視頻觀看總數(shù)的跟蹤記錄,確定信息擴(kuò)散過(guò)程的 類(lèi)型由一個(gè)具有小的匹配錯(cuò)誤的模型所決定;通過(guò)將視頻記錄與理論模型匹配,可以量化 每個(gè)推薦因素的強(qiáng)度。
[0042] 本發(fā)明的有益效果是:在本發(fā)明中,我們建立了一個(gè)動(dòng)態(tài)的模型來(lái)描述視頻流行 度的演化。尤其是,兩種推薦機(jī)制:直接推薦和口碑推薦,它們作為視頻信息擴(kuò)散過(guò)程的驅(qū) 動(dòng)力被納入在我們的模型中。我們的模型提供了一個(gè)系統(tǒng)化的方法去量化視頻推薦驅(qū)動(dòng)力 和其他因素,同時(shí),我們的模型對(duì)于表征用戶的行為和評(píng)估推薦測(cè)量都很有用。
【附圖說(shuō)明】
[0043] 圖1是最終的用戶數(shù)量X1隨著XQ增長(zhǎng)的凹函數(shù)圖。
[0044] 圖2是四種視頻類(lèi)型的匹配錯(cuò)誤分布圖。
[0045]圖3是用戶的行為模式和推薦策略圖。
【具體實(shí)施方式】 [0046] 2.定義和假設(shè):
[0047] 在本發(fā)明中,我們通過(guò)計(jì)算視頻被觀看的次數(shù)來(lái)判定視頻的流行度。不失一般性, 我們也討論了一個(gè)流行視頻的流行度演化。設(shè)定x(t)為隨時(shí)間累計(jì)變化的函數(shù),意味著,看 某個(gè)視頻的用戶數(shù)量是隨著時(shí)間t的增加而增加。那么在t時(shí)刻的瞬時(shí)流行度為x'(t)。在我 們的模型中,所有的推薦被分類(lèi)為兩種:直接推薦和口碑推薦。內(nèi)容的創(chuàng)建者、提供者或是 其他任何實(shí)體為了他們自己的利益建立的推薦算法屬于直接推薦方法,而那些基于用戶他 們自己的喜好創(chuàng)建的推薦算法屬于口碑推薦。我們定義一個(gè)視頻本身固有的吸引力q為這 個(gè)視頻被任何一個(gè)用戶喜歡的幾率。當(dāng)一些用戶通過(guò)推薦來(lái)知道視頻的存在后,他們中間 平均有q倍的用戶會(huì)去觀看這個(gè)視頻。
[0048] 為了簡(jiǎn)化分析,我們定義了如下的假設(shè)。首先,用戶不會(huì)重新播放一個(gè)看過(guò)的視 頻,這個(gè)假設(shè)基于一些之前的研究工作[2][3]。其次,用戶選擇觀看的視頻是自主選擇決定 的,這個(gè)假設(shè)可能不符合相關(guān)的視頻。我們將在第5節(jié)介紹一種技術(shù)去解決這一問(wèn)題。然后, 對(duì)于給定的視頻來(lái)說(shuō),可被推薦的總的潛在的用戶數(shù)量是固定的。實(shí)際上,這個(gè)假設(shè)在一個(gè) 相對(duì)短的時(shí)期內(nèi)是有效的,例如幾個(gè)月。最后,當(dāng)用戶知道了視頻的存在和喜歡上這個(gè)視頻 后就會(huì)立即觀看。之前的一些工作假設(shè)有一個(gè)用戶反饋的過(guò)程。然而,對(duì)于流行的視頻這個(gè) 過(guò)程是可以被忽略的,被作為近似的結(jié)果[6]。
[0049] 3.模型:
[0050] 視頻擴(kuò)散的過(guò)程可以被直接推薦和口碑推薦所驅(qū)動(dòng),但是如果在單一的處理過(guò)程 中融入這兩種推薦過(guò)程是非常復(fù)雜的。之前的一項(xiàng)研究[6]表明:對(duì)于一個(gè)給定的視頻,無(wú) 論是直接推薦還是口碑推薦,都是主要的驅(qū)動(dòng)力量。因此,我們學(xué)習(xí)了兩種簡(jiǎn)化的信息擴(kuò)散 過(guò)程:DModel (D模型)由直接推薦所驅(qū)動(dòng)、WModel (W模型)由口碑推薦所驅(qū)動(dòng)。
[0051] 不失一般性,就像我們?cè)诘?部分中闡述的那樣,通過(guò)假設(shè)用戶獨(dú)立選擇視頻,我 們建立了一個(gè)特定的視頻流行度演化模型。我們建立了一個(gè)流行的模型去描繪它的信息傳 播過(guò)程。讓t表示從視頻發(fā)布開(kāi)始(在網(wǎng)上可訪問(wèn))過(guò)去的時(shí)間。在t時(shí)刻,S(t)被設(shè)定為用 戶不知道視頻的存在,X(t)被設(shè)定為用戶知道視頻存在并且被吸引,*y(t)被設(shè)定為用戶 知道視頻的存在但是不喜歡這個(gè)視頻。設(shè)定 8(〇、以〇、7(〇分別為茗(0、1(0、漢(尤) 的基。假設(shè)固定的總?cè)藬?shù)為N的情況下,我們有 8(〇+以〖)+7(〇=1還有近似的等式:
&最后,令V(t) = X'(t)為動(dòng)態(tài)觀看人數(shù),意味著V(t)為在t時(shí)刻的瞬時(shí)流行度。
[0052] 3.1 DModel
[0053] 由于在實(shí)際測(cè)試中推薦資源有限,把視頻信息推薦給所有用戶是不可能的。因此, 我們把變量α定義為直接推薦的比例,意味著,這是從各(t)集到X(t) U1(t)集的用戶 比例,我們注意到,總的用戶數(shù)量N是一個(gè)很大的數(shù)字,例如:幾千萬(wàn)。因此我們可以建立一 個(gè)如下的流體模型:
[0054] (t) = d gs(t) (1)
[0055] (t) = a (1 - g)s(t) (2)
[0056] 其中初始化條件為奴0)=7(0)=0, 3(〇)=1加上等式3(〇+以〇+7(〇=1我們 可以推導(dǎo)出:
[0057] x(t)=qN(l-e_at) (3)
[0058] x'(t)=aqN · e-at (4)
[0059] 在以上的處理過(guò)程中對(duì)于直接推薦過(guò)程沒(méi)有直接限制。在實(shí)際測(cè)試中,當(dāng)新的視 頻不斷地被納入新的系統(tǒng)中,每個(gè)存在的視頻僅僅在一個(gè)確定的時(shí)期被推薦,基于:視頻流 行度的預(yù)測(cè)、用戶的反饋、新視頻的到達(dá)率、等等。因此,我們定義另一個(gè)參數(shù)L作為直接推 薦的取消時(shí)刻。在時(shí)刻t e之后,如果沒(méi)有新的用戶加入x(t)中的話,X'(t)將會(huì)以遠(yuǎn)大于a 的速率γ迅速減小到0。
[0060] 總結(jié)以上的討論,我們得出由直接推薦驅(qū)動(dòng)下的視頻流行度演化公式:
[0062] 3.2 mtodel
[0063] 在麗ode 1模型中我們把時(shí)間線分成時(shí)隙。讓:D(t)表示在時(shí)隙t時(shí)加入X(t)集的新 用戶,使得AX(t) = x(t)-x(t-l)為D(t)的基數(shù)。在t時(shí)隙,在2)⑴中的用戶執(zhí)行了兩種操 作:
[0064] a)停止觀看視頻,因此產(chǎn)生一個(gè)查看總數(shù)Ax(t);b)僅僅在t時(shí)隙中將視頻推薦給 其他用戶。換句話說(shuō),當(dāng)用戶看完視頻后就迅速推薦給其他用戶,并且推薦期就僅僅持續(xù)一 個(gè)時(shí)隙。這是符合實(shí)際情況的。用戶的注意力很容易被新的視頻所吸引,因此,沒(méi)有用戶會(huì) 長(zhǎng)時(shí)間推薦同一個(gè)視頻。時(shí)隙的粒度根據(jù)實(shí)際情況可以設(shè)為一天或是一周。
[0065] 讓?duì)伦鳛橛蒒歸一化作用的新用戶將視頻推薦給他的朋友的數(shù)量。那么口碑推薦的 過(guò)程就是一個(gè)離散的時(shí)間模型:
[0066] Δ x(t+l) =0q Δ x(t)s(t) (5)
[0068]以下是對(duì)上面等式的解釋?zhuān)掠脩粼趖+l時(shí)隙加入了 I(t+1)集,意味著2)(t+l)中 Ax(t+1)的用戶被?)(?)中Ax(t)的用戶所建立的口碑推薦的視頻所吸引。m是將會(huì)被一個(gè) 用戶所推薦的平均用戶數(shù),f是視頻的信息不被任何人知道的幾率。因此,^ xf X f (只有一小部分q是需要的)是:D(t)中的一個(gè)用戶貢獻(xiàn)的新用戶的數(shù)量,如果有AX(t)的用 戶推薦視頻,那么我們就有Δχ(?+1)=βαΔχ(1:)8(1:)。
[0069]想要得到封閉形式x(t)或v(t)的解是很難的,為了得到理論見(jiàn)解,我們考慮一個(gè) 近似的連續(xù)模型,這個(gè)模型通過(guò)以下式子定義:
[0071] X"(t)=X'(t)[i3qs(t)-l] (7)
[0072] 為了處理口碑推薦模型,我們還需要考慮初始的條件:
[0073] X(0) =XQ>0,XQ是用戶種子的數(shù)量,我們讓XQ〈1,在XQ〈1情況下展示了視頻被第一 個(gè)用戶發(fā)現(xiàn)需要經(jīng)歷多長(zhǎng)時(shí)間。
[0078] x(t)的解對(duì)于推導(dǎo)出U(t)的演變是很復(fù)雜的。我們用了一種替代的方法:我們主 要分析X(t)的極限。很明顯的,當(dāng)t接近于無(wú)窮時(shí),g(t)接近于0,x(t)接近于 X1。換句話說(shuō),X ⑴的極限?Χ1的值所決定,且x(t)的值永不會(huì)超過(guò)qN,時(shí)間間隔#1是必要的,因?yàn)樗?明了視頻是否被有效地推薦過(guò)。
[0079]
,那么視頻信息可以被擴(kuò)散給所有用戶;換句話說(shuō),用戶的 一個(gè)子集可以了解到視頻的信息。
[0080] 視頻信息被擴(kuò)散給所有用戶當(dāng)且僅當(dāng)X1>qN時(shí),當(dāng)令X1〈qN時(shí),可以不難推導(dǎo)出
。具體的證明過(guò)程略過(guò)。從命題1中我們可以發(fā)現(xiàn)僅僅是小β或XQ可以導(dǎo)致推薦 的不足。
[0081] 在以下的討論中,我們主要關(guān)注當(dāng)X1〈qN時(shí)的情況。我們對(duì)χο和β如何影響^感興 趣,意味著,這部分人是最終看了視頻的那一部分。
[0082]
那么最終的用戶人口數(shù)^的增長(zhǎng)是隨著xo這個(gè)凹函數(shù)曲線 變化而變化。
[0083] 這個(gè)命題可以通過(guò)以下式子證明:
[0084]
,圖la顯示出在不同的β值下χ〇如 何影響到最終人數(shù)XI的。我們可以看出當(dāng)m= 1.67時(shí),Χ0從1000增加到5000時(shí),χΑ5000增 加到15000。說(shuō)明在χο增長(zhǎng)的情況下,信息擴(kuò)散效率低下。
[0085] 命題3:存在一個(gè)不等式:
[0086]
,這樣,假如β彡Θ,那么最終的用戶人數(shù)X1的增長(zhǎng)曲線是類(lèi)似 于邱勺凸函數(shù)
,最終的用戶人數(shù)X1的增長(zhǎng)曲線類(lèi)似于邱勺凹函數(shù)。
[0087]證明過(guò)程在文獻(xiàn)[9]中,圖lb中展示了當(dāng)在不同的xo取值下,X1如何隨著邱勺增長(zhǎng)而 增長(zhǎng)。存在一個(gè)閾值,使得如果β的值大于閾值,對(duì)于增加用戶人數(shù)X1是非常有效的。然而, 在現(xiàn)實(shí)中,對(duì)于視頻提供者來(lái)說(shuō)很難控制邱勺值,因?yàn)棣轮饕蓚€(gè)人用戶所決定。
[0088] 3.3討論
[0089] 即使我們已經(jīng)推導(dǎo)出了基于不同驅(qū)動(dòng)力量推薦下的DModel和WModel,但我們并不 知道哪一種模型更適合于一個(gè)給定的視頻。如果可以得到一個(gè)視頻觀看總數(shù)的跟蹤記錄, 那么信息擴(kuò)散過(guò)程的類(lèi)型就可以由一個(gè)具有小的匹配錯(cuò)誤的模型所決定。此外,通過(guò)將視 頻記錄與理論模型匹配,我們可以量化每個(gè)推薦因素的強(qiáng)度,這對(duì)于評(píng)估推薦策略和觀察 用戶的行為習(xí)慣有很大的幫助。具體的細(xì)節(jié)將在第五節(jié)介紹。
[0090]對(duì)于視頻信息被分享的假設(shè),無(wú)論是通過(guò)直接推薦還是口碑推薦,都不一定特別 有效,因?yàn)檫@兩種推動(dòng)力量可以同時(shí)影響這個(gè)過(guò)程。然而,在文獻(xiàn)[6]中指出對(duì)于大多數(shù)視 頻,僅僅有其中的一種力量可以作為主要的推動(dòng)力量。因此,我們可以僅僅只考慮一種單一 的力量,這樣可以簡(jiǎn)化信息擴(kuò)散的過(guò)程。通過(guò)簡(jiǎn)化過(guò)程,推薦資源(例如和口碑推薦中一 段很短的時(shí)期)的局限性也可以被學(xué)習(xí),這對(duì)于我們的模型來(lái)說(shuō)是一個(gè)重大的益處,就像在 文獻(xiàn)[6]中建議的同時(shí)分析多種驅(qū)動(dòng)力量一樣。
[0091 ] 4 評(píng)估
[0092]在這部分,我們把從一個(gè)粒子系統(tǒng)中收集到的觀看人數(shù)總數(shù)與DModel和WModel擬 合來(lái)校驗(yàn)DModel和WModel。每個(gè)視頻都將同時(shí)與兩種模型擬合,但只有一種低錯(cuò)誤的模型 將被用于評(píng)估。為了方便,我們我們把更好的匹配模型設(shè)為BModel。
[0093]標(biāo)準(zhǔn)化均方誤差被用來(lái)作為評(píng)估匹配錯(cuò)誤的度量。定義為:
[0095] 和h分別代表被模型計(jì)算和從現(xiàn)實(shí)系統(tǒng)中收集到的第tth天的瀏覽數(shù)。注意到標(biāo) 準(zhǔn)化均方誤差已經(jīng)由真實(shí)跟蹤記錄的平均觀看用戶數(shù)量所標(biāo)準(zhǔn)化了,所以我們可以用不同 的總觀看次數(shù)來(lái)對(duì)比不同的情況。
[0096] 4.1數(shù)據(jù)集
[0097] 我們不關(guān)注所有的視頻,而是關(guān)注四個(gè)主要的視頻類(lèi)型:電影、電視節(jié)目、新聞和 音樂(lè)視頻。我們收集了系統(tǒng)的收視紀(jì)錄,選取了時(shí)間在2014年9月1號(hào)到2015年1月31號(hào)之間 的所有這四種類(lèi)型的視頻,每個(gè)收視紀(jì)錄包含了以下的信息:時(shí)間、用戶ID、視頻ID。對(duì)于每 個(gè)視頻,我們跟蹤收集了 6個(gè)月的每天的收視紀(jì)錄。我們從評(píng)估中移除了觀看次數(shù)小于1000 的視頻,因?yàn)檫@是受到了偶然觀看的影響。把不受歡迎的視頻移除并不影響這個(gè)研究的主 體,因?yàn)樗鼈兊挠^看次數(shù)只占了不到總觀看數(shù)量的3%。最后的數(shù)據(jù)集包含了 1469個(gè)電影、 9705個(gè)電視節(jié)目、30720個(gè)新聞和4736個(gè)音樂(lè)視頻。
[0098] 在將數(shù)據(jù)集適配到我們的模型之前,我們需要弄清楚每個(gè)類(lèi)型的視頻的總用戶 數(shù)。我們不能僅僅將總的用戶ID數(shù)量作為總的用戶數(shù),因?yàn)檫@可能會(huì)包含偶爾觀看的用戶 數(shù)量。取而代之,我們考慮實(shí)際上積極活躍的用戶,這些用戶一般都觀看了相當(dāng)數(shù)量的視 頻。因此,對(duì)于每個(gè)類(lèi)型的視頻,我們通過(guò)觀測(cè)他們觀看的記錄之和,將用戶分為不同等級(jí)。 然后,那些只有很少觀看記錄的用戶連同他們貢獻(xiàn)的視頻觀點(diǎn)一起被移除,直到移除了 25%的總觀看次數(shù)。剩余的用戶數(shù)從4千4百萬(wàn)到8千1百萬(wàn)。盡管這是個(gè)啟發(fā)式的規(guī)則去排 除偶然的用戶,但也不用去得到準(zhǔn)確的N值,這個(gè)值主要是使得其他參數(shù)標(biāo)準(zhǔn)化,例如α、β等 等。
[0099] 4.2模型匹配
[0?00] Levenberg-Marquardt (列文伯格-馬夸特)算法是一個(gè)通用算法,可以找到最小平 方誤差,當(dāng)用跟蹤的數(shù)據(jù)匹配模型可以找到最佳的參數(shù)。通過(guò)這個(gè)最佳的參數(shù),由等式9可 以求出每個(gè)視頻的標(biāo)準(zhǔn)均方誤差。我們用文獻(xiàn)[6]中提出的EvoModel作為標(biāo)準(zhǔn)均方誤差的 基準(zhǔn)和比較標(biāo)準(zhǔn)均方誤差的累積分布函數(shù)。結(jié)果在圖2中顯示,可以看到BModel的標(biāo)準(zhǔn)均方 誤差比DModel和麗odel的小。通過(guò)模型的適配,我們自然而然地將視頻標(biāo)識(shí)成兩部分:d型 推薦視頻和w型推薦模型。
[0101] 從圖2中我們可以看到對(duì)于電影和電視節(jié)目來(lái)說(shuō),BModel比EvoModel達(dá)到了更好 的表現(xiàn)(兩個(gè)電影的累積分布函數(shù)曲線幾乎重合),而EvoModel在新聞視頻和音樂(lè)視頻中性 能略優(yōu)于BModel。下面我們將解釋一下原因,EvoModel同時(shí)分析了多種驅(qū)動(dòng)力量,而沒(méi)有限 制推薦資源和短口碑推薦時(shí)期)。根據(jù)文獻(xiàn)[6],許多電影和電視節(jié)目的信息的傳播通常 是通過(guò)直接推薦或是口碑推薦。因此BModel可以通過(guò)結(jié)合推薦資源的限制條件,達(dá)到更佳 的適配結(jié)果。然而,對(duì)于新聞和音樂(lè)視頻來(lái)說(shuō),存在一部分視頻是依賴(lài)兩種推薦力量的,這 對(duì)于BModel來(lái)說(shuō)導(dǎo)致了錯(cuò)誤的匹配結(jié)果。實(shí)際上,僅僅是這些熱門(mén)視頻容易被兩種驅(qū)動(dòng)力 量影響。BModel對(duì)于大多數(shù)流行視頻來(lái)說(shuō)匹配效果更好。
[0102] 5案例分析:電視節(jié)目
[0103]就像之前討論的那樣,通過(guò)模型匹配,我們的動(dòng)態(tài)推廣模型可以量化推廣力量的 強(qiáng)度,所以我們可以觀察用戶的行為習(xí)慣、評(píng)價(jià)推廣的策略。我們進(jìn)行電視節(jié)目的案例分析 可以說(shuō)明這一點(diǎn)。
[0104] 5.1合并節(jié)目
[0105] DModel和麗odel都假定用戶自己決定去觀看任何視頻。事實(shí)上,許多視頻都是相 關(guān)的,比如:報(bào)到相同事件的新聞視頻、相同電視劇的不同電視節(jié)目。因此,在我們學(xué)習(xí)這些 推薦策略之前將一些相關(guān)的視頻合計(jì)成一個(gè)綜合的視頻是合理的并且是有必要的。在排除 了 695個(gè)具有大的標(biāo)準(zhǔn)均方誤差且不能很好地進(jìn)行匹配的電視節(jié)目之后,總共有9〇1〇個(gè)電 視節(jié)目用于案例分析。對(duì)每個(gè)電視節(jié)目來(lái)說(shuō),我們把所有的電視節(jié)目和不同的版本(例如: 高/低清晰度版本,不同語(yǔ)言的版本)合計(jì)為一個(gè)視頻,通過(guò)將參數(shù)α、β平均化。對(duì)于每個(gè)合 并的視頻,如果節(jié)目與DModel能很好地匹配就被標(biāo)記為d型推薦模型,與此相對(duì),節(jié)目與 WModel能很好地匹配就被標(biāo)記為w型推薦模型。通過(guò)合計(jì),有190個(gè)d型推薦模型和112個(gè)w型 推薦模型。大部分d型推薦視頻都是最新攝制的電視劇,大部分w型推薦視頻是最近被上傳 到系統(tǒng)上的之前拍攝的電視劇。由于存在不同的推薦力量和用戶行為方式,它們將被分別 研究。
[0106] 5.2 D型推薦模型視頻
[0107]圖3a顯示了 log(q)和log(a)的離散圖,取值是從合并之前的兩個(gè)相似的電視節(jié)目 中取的。途中的交叉點(diǎn)代表的是熱門(mén)電視節(jié)目的參數(shù),較熱門(mén)的電視節(jié)目用圓點(diǎn)表示。一些 被選擇的點(diǎn)注釋上了電視節(jié)目的序號(hào)。我們可以觀察到第一個(gè)節(jié)目,比同樣是電視劇的其 他節(jié)目吸引了更多的觀看次數(shù)。當(dāng)節(jié)目數(shù)量增加時(shí),吸引力逐漸減小,意味著第一個(gè)節(jié)目是 最吸引人的,而且用戶不一定會(huì)隨著電視節(jié)目的更新而繼續(xù)觀看。
[0108] 圖3b展示了log(q)和log(a)的離散圖,圖3c展示了 190個(gè)合并視頻的
的離散點(diǎn)。這些離散點(diǎn)表現(xiàn)出了正的泊松相關(guān)性。我們注意到用戶更侵向于自己決定去觀 看合并的視頻,因此這對(duì)于復(fù)合視頻的推薦資源是公平的。圖3b顯示視頻的內(nèi)在吸引力和 直接推薦力量之間存在一個(gè)強(qiáng)的正相關(guān)性。對(duì)于給定的有限的直接推薦資源,關(guān)注正在推 薦的熱門(mén)視頻是合理的策略。圖3c展示的是a越大越趨向于大分子的分?jǐn)?shù),這表明當(dāng)具有大 量的推薦資源時(shí),視頻信息將被有效地?cái)U(kuò)散。
[0109] 5.3 W型推薦模型視頻
[0110] 與圖3a相似,對(duì)于兩個(gè)相似電視劇節(jié)目,我們考察內(nèi)部的人氣q和它的口碑推薦比 率β的關(guān)系。圖3d是1 og(q)和1 og(βΝ)的離散的點(diǎn),他們來(lái)自于40集電熱門(mén)電視劇和39集的 較熱門(mén)的電視劇。一個(gè)有趣的現(xiàn)象是電視劇的開(kāi)頭和結(jié)尾都很受歡迎。來(lái)自圖3a的不同的 用戶行為事實(shí)上是因?yàn)閐型推薦模型的電視節(jié)目更新比較慢,一般都是每天1到2集。而w型 推薦模型的視頻一般都是一起更新的,因?yàn)樗麄兪菐讉€(gè)月前或幾年前錄制的。對(duì)于給定的 已經(jīng)可以觀看的節(jié)目,用戶可以方便地瀏覽開(kāi)始和最后一集。
[0111]對(duì)于圖3a和圖3b中的節(jié)目,存在一種趨勢(shì):推薦比率隨著電視節(jié)目的編號(hào)的增加 而增加。我們相信更早的節(jié)目可以作為后來(lái)節(jié)目的廣告。這樣,用戶反饋的比率會(huì)越來(lái)越 快。但是存在一個(gè)例外,w型模型視頻的最后的電視劇集不符合這個(gè)規(guī)律。我們相信這些視 頻緊跟著第一集電視劇節(jié)目被用戶觀看。
[0112]圖3e展示了 log(q)和log(0N)的離散的點(diǎn),圖3f展示了 112個(gè)w型模型合并的視頻
出乎意料之外的是,在圖3e中l(wèi)og(PN)和log(q)出現(xiàn)了很強(qiáng)的 負(fù)相關(guān)性,表明用戶更傾向于選擇推薦不流行的視頻。這個(gè)觀察和我們的直覺(jué)是一致的。人 們喜歡向朋友們推薦有趣的但是不常見(jiàn)的視頻。
一個(gè)強(qiáng)的正相關(guān), 意味著初始種子人數(shù)對(duì)于信息傳播是很有必要的。
[0113] 6相關(guān)工作
[0114] 一些之前的研究已經(jīng)提出了一些動(dòng)態(tài)視頻推薦模型。在文獻(xiàn)[8]中,作者研究了網(wǎng) 上視頻分享和一個(gè)可行的模型,這個(gè)模型可以匹配觀察到的動(dòng)態(tài)的流行度分布。但是他們 的模型沒(méi)有描述個(gè)人的視頻流行度演化過(guò)程。文獻(xiàn)[5]中Avramova等人針對(duì)一個(gè)視頻的流 行度演化提出了一個(gè)閉合表達(dá)式,這個(gè)表達(dá)式可以退化為一個(gè)冪定律和指數(shù)衰減函數(shù)。然 而,這是一個(gè)特別指定的模型,而且沒(méi)有揭示信息擴(kuò)散的過(guò)程。在文獻(xiàn)[6]中,盡管坐著考慮 到了推薦機(jī)制,他們的模型相當(dāng)復(fù)雜,而且不容易應(yīng)用或是將推薦力量定量化。
[0115] 流行度預(yù)測(cè)這個(gè)工作之前已經(jīng)有研究過(guò)的成果。文獻(xiàn)[7 ]中Szabo和Huberman發(fā)現(xiàn) 了在早期和晚期的視頻流行度之間存在一個(gè)線性關(guān)系,因此未來(lái)的流行度可以通過(guò)使用之 前的數(shù)據(jù)集中學(xué)習(xí)到的一個(gè)線性的系數(shù)乘以早期的流行度來(lái)預(yù)測(cè)。在文獻(xiàn)[3]中,作者通過(guò) 考慮到多種初期的流行度和視頻的相似性,將Szabo-Huberman算法一般化。文獻(xiàn)[4]中 Ahmed等人按視頻流行度的演化模式將視頻分類(lèi),按照分類(lèi)來(lái)預(yù)測(cè)未來(lái)的流行度。這些預(yù)測(cè) 模型專(zhuān)注于預(yù)測(cè)的準(zhǔn)確性,而忽略了解釋和可測(cè)量的因素,所以不能給出相應(yīng)的理論見(jiàn)解。
[0116] 視頻流行度對(duì)于內(nèi)容推送中的資源分發(fā)是一個(gè)很重要的參考。通過(guò)動(dòng)態(tài)地合并流 行度,研究者已經(jīng)研究了大量的方案。例如,文獻(xiàn)[2]中的Zhou等人針對(duì)年齡敏感和流行度 穩(wěn)定的視頻提出了一個(gè)混合的CDN模型。文獻(xiàn)[10]中Hu等人以社會(huì)視頻觀看行為為基礎(chǔ)建 立了杠桿社區(qū),以此來(lái)制定了云CDN的內(nèi)容設(shè)計(jì)方案。文獻(xiàn)[11]試圖通過(guò)挖掘主要的流媒體 來(lái)檢測(cè)熱門(mén)視頻,以此來(lái)作為CDN的緩存候選。然而,在這些研究工作中,流行度的分析主要 還是基于測(cè)量和理論模型,但是這些都沒(méi)有被提及到。
[0117] 7 總結(jié)
[0118] 在本發(fā)明中,我們建立了一個(gè)動(dòng)態(tài)的模型來(lái)描述視頻流行度的演化。尤其是兩種 推薦機(jī)制:直接推薦和口碑推薦,它們作為視頻信息擴(kuò)散過(guò)程的驅(qū)動(dòng)力被納入在我們的模 型中。我們的模型提供了一個(gè)系統(tǒng)化的方法去量化視頻推薦驅(qū)動(dòng)力和其他因素,同時(shí),我們 的模型對(duì)于表征用戶的行為和評(píng)估推薦測(cè)量都很有用,這些都是以電視節(jié)目為例說(shuō)明。我 們將來(lái)的工作主要集中在考慮更多的因素來(lái)拓展我們的模型,還有預(yù)測(cè)視頻流行度的演化 上。
[0119] 對(duì)于在線視頻業(yè)務(wù)中的最優(yōu)化資源分配和視頻推薦來(lái)說(shuō),視頻的流行度是一種基 礎(chǔ)的參照。然而,始終沒(méi)有一種有說(shuō)服力的模型去精確的描述視頻流行度的演變。在本發(fā)明 中,通過(guò)將由各種形式承載的視頻信息傳播過(guò)程模型化,我們建立了一種動(dòng)態(tài)的流行度模 型。通過(guò)擬合從實(shí)際系統(tǒng)中收集到的實(shí)時(shí)微量模型,我們可以量化推薦力量的大小。這種量 化可以刻畫(huà)視頻的普及方式、用戶的行為和推薦的策略。
[0120] 以上內(nèi)容是結(jié)合具體的優(yōu)選實(shí)施方式對(duì)本發(fā)明所作的進(jìn)一步詳細(xì)說(shuō)明,不能認(rèn)定 本發(fā)明的具體實(shí)施只局限于這些說(shuō)明。對(duì)于本發(fā)明所屬技術(shù)領(lǐng)域的普通技術(shù)人員來(lái)說(shuō),在 不脫離本發(fā)明構(gòu)思的前提下,還可以做出若干簡(jiǎn)單推演或替換,都應(yīng)當(dāng)視為屬于本發(fā)明的 保護(hù)范圍。
【主權(quán)項(xiàng)】
1. 一種對(duì)網(wǎng)絡(luò)視頻流行度的演化分析方法,其特征在于,視頻擴(kuò)散的過(guò)程被直接推薦 和口碑推薦所驅(qū)動(dòng), 在直接推薦驅(qū)動(dòng)步驟中,直接推薦驅(qū)動(dòng)下的視頻流行度演化公式:在口碑推薦驅(qū)動(dòng)步驟中,口碑推薦的過(guò)程是一個(gè)離散的時(shí)間模型:(6)。2. 根據(jù)權(quán)利要求1所述的演化分析方法,其特征在于,在所述口碑推薦驅(qū)動(dòng)步驟中,為 了使得口碑推薦模型被處理,我們還需要考慮初始的條件 :X(〇)=XQ>〇,X()是用戶種子的數(shù) 量,我們讓 XQ〈1,在XP<1愔況下屏示了視頻被第一個(gè)用戶發(fā)現(xiàn)需要經(jīng)歷多長(zhǎng)時(shí)間, 給定總的用戶銷(xiāo)初始化條件:i后我們得 到:3. 根據(jù)權(quán)利要求1所述的演化分析方法,其特征在于,根據(jù)視頻觀看總數(shù)的跟蹤記錄, 確定信息擴(kuò)散過(guò)程的類(lèi)型由一個(gè)具有小的匹配錯(cuò)誤的模型所決定;通過(guò)將視頻記錄與理論 模型匹配,可以量化每個(gè)推薦因素的強(qiáng)度。4. 一種對(duì)網(wǎng)絡(luò)視頻流行度的演化分析系統(tǒng),其特征在于,視頻擴(kuò)散的過(guò)程被直接推薦 和口碑推薦所驅(qū)動(dòng), 在直接推薦驅(qū)動(dòng)模塊中,直接推薦驅(qū)動(dòng)下的視頻流行度演化公式:在口碑推薦驅(qū)動(dòng)模塊中,口碑推薦的過(guò)程是一個(gè)離散的時(shí)間模型:5. 根據(jù)權(quán)利要求4所述的演化分析系統(tǒng),其特征在于,在所述口碑推薦驅(qū)動(dòng)模塊中,為 了使得口碑推薦模型被處理,我們還需要考慮初始的條件 :X(〇)=XQ>〇,X()是用戶種子的數(shù) 量,我們讓XQ〈1,在XQ〈1情況下展示了視頻被第一個(gè)用戶發(fā)現(xiàn)需要經(jīng)歷多長(zhǎng)時(shí)間, 給定總的用戶君6.根據(jù)權(quán)利要求4所述的演化分析系統(tǒng),其特征在于,根據(jù)視頻觀看總數(shù)的跟蹤記錄, 確定信息擴(kuò)散過(guò)程的類(lèi)型由一個(gè)具有小的匹配錯(cuò)誤的模型所決定;通過(guò)將視頻記錄與理論 模型匹配,可以量化每個(gè)推薦因素的強(qiáng)度。
【文檔編號(hào)】H04N21/466GK106028155SQ201610460266
【公開(kāi)日】2016年10月12日
【申請(qǐng)日】2016年6月22日
【發(fā)明人】周義朋, 程華崢, 張勝利, 吳己強(qiáng)
【申請(qǐng)人】深圳大學(xué)