對(duì)網(wǎng)絡(luò)視頻流行度的演化分析方法及系統(tǒng)的制作方法

文檔序號(hào)：10661460閱讀：390來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>電子通信裝置的制造及其應(yīng)用技術(shù)

對(duì)網(wǎng)絡(luò)視頻流行度的演化分析方法及系統(tǒng)的制作方法
【專(zhuān)利摘要】本發(fā)明提供了一種對(duì)網(wǎng)絡(luò)視頻流行度的演化分析方法及系統(tǒng)，視頻擴(kuò)散的過(guò)程被直接推薦和口碑推薦所驅(qū)動(dòng)。本發(fā)明的有益效果是：在本發(fā)明中，我們建立了一個(gè)動(dòng)態(tài)的模型來(lái)描述視頻流行度的演化。尤其是，兩種推薦機(jī)制：直接推薦和口碑推薦，它們作為視頻信息擴(kuò)散過(guò)程的驅(qū)動(dòng)力被納入在我們的模型中。我們的模型提供了一個(gè)系統(tǒng)化的方法去量化視頻推薦驅(qū)動(dòng)力和其他因素，同時(shí)，我們的模型對(duì)于表征用戶的行為和評(píng)估推薦測(cè)量都很有用。
【專(zhuān)利說(shuō)明】
對(duì)網(wǎng)絡(luò)視頻流行度的演化分析方法及系統(tǒng)
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及數(shù)據(jù)處理及分析技術(shù)領(lǐng)域，尤其涉及對(duì)網(wǎng)絡(luò)視頻流行度的深化分析方法及系統(tǒng)。
【背景技術(shù)】
[0002] 1.視頻的流行度對(duì)于在線視頻業(yè)務(wù)中的最優(yōu)化資源配置和視頻推薦來(lái)說(shuō)是一個(gè) 必不可少的參照。在過(guò)去的幾年中很多研究者已經(jīng)研究了幾個(gè)方面，例如：流行度的分布 [1]，演化模式[2]，預(yù)測(cè)[3][4]，建模[5][6]等等。然而，始終沒(méi)有一種有說(shuō)服力的模型可以精確地描述視頻流行度的演變。這個(gè)動(dòng)態(tài)的模型不僅對(duì)流行度演變的預(yù)測(cè)很有用，同時(shí)對(duì) 表征視頻的普及方式、用戶的行為和推薦策略也很有用。
[0003] 大規(guī)模的在線視頻資源提供商提供了數(shù)以百萬(wàn)計(jì)的視頻，這樣，用戶在很大程度上依賴(lài)推薦度去觀看他們所青睞的視頻(除了特定的搜索）。因此，視頻的流行度演化很大程度上受到如何將視頻推薦給用戶的影響。直接的推薦方式和口碑宣傳的方式是兩種主要的機(jī)制，這兩種機(jī)制被之前的研究工作反復(fù)的研究和討論過(guò)[7] [8] [6]。直接推薦的方法意味著視頻可以通過(guò)網(wǎng)站首頁(yè)展示、電視推廣頻道、廣告等等方式直接地展示給用戶。口碑宣傳意味著視頻將通過(guò)各種各樣的社交網(wǎng)絡(luò)，例如:Facebook、Twitter、大學(xué)或是相關(guān)的BBS 論壇等社交網(wǎng)絡(luò)分享。
[0004]這兩種推薦方式引出了一種信息擴(kuò)散過(guò)程。通過(guò)將這種過(guò)程建模，我們可以推導(dǎo) 出觀看每個(gè)視頻的用戶數(shù)目增量，而且因此推導(dǎo)出視頻流行度的演變。然而，這個(gè)模型的復(fù) 雜性在于實(shí)際的推薦資源是有限的。例如，由于首頁(yè)推薦位置的有限，新的視頻被引入作為存在的視頻資源僅僅能在一段時(shí)間內(nèi)被推薦。到目前為止，關(guān)于兩種推薦方式在有限的資源下如何動(dòng)態(tài)驅(qū)動(dòng)流行度的研究還是太少，而這正是本發(fā)明所要討論的。
[0005] 另一方面，當(dāng)給定一個(gè)可觀察到的視頻流行度演變時(shí)，我們可以把它和這個(gè)模型相匹配，以此來(lái)揭示和確定視頻傳播進(jìn)程和推薦的驅(qū)動(dòng)力量。這種量化將提供一種系統(tǒng)化的方法，通過(guò)一套合理的參數(shù)來(lái)描述一種動(dòng)態(tài)的視頻系統(tǒng)。當(dāng)這種方法用于偵測(cè)潛在的用戶行為、辨識(shí)不明確的被推薦的視頻和評(píng)估推薦策略，學(xué)術(shù)界和產(chǎn)業(yè)界就可以從這種方法中獲益。本發(fā)明會(huì)通過(guò)對(duì)一個(gè)電視節(jié)目的研究來(lái)舉例說(shuō)明。
[0006] 參考文獻(xiàn)：
[0007] [1]Meeyoung Cha.Haewoon Kwak,Pablo Rodriguez，Yong_Yeol Ahn,and Sue Moon，"Analyzing the video popularity charate-risties of large-scale user generated content systems，'，IEEE/ACM Transact-ions on Networking, vol. 17 ,no. 5, pp.1357-1370,2009.
[0008] [2]Yipeng Zhou,Liang Chen，Chunfeng Yang,and Dah Ming Chiu，"Video popularity dynamics and its implication for replication，'，IEEE Transactions on Multimedia，vol.17,no.8,pp.1273_1285,2015.
[0009] [3]Henrique Pinto，Jussara M Almeida，and Marcos A Goncalves，"Using early view patterns to predict the popularity or youtobe videos，'，in ACM WSDM， 2013.
[0010] [4]Mohamed Ahmed,Stella Spagna，F(xiàn)elipe Huici，and Saverio Niccolini，"A peek into the future:Predicting the evolution of popularity in user generated content，"in ACM WSDM，2013.
[0011] [5]Zlatka Avramova,Sabine ffittevrongel,Herwig Bruneel,and Danny De Vleeschauwer，"Analysis and modeling of video popularity evolution in various online video content systems: Power-law versus exponential decay，'，in the First International Conference on Evolving Internet，2009·
[0012] [6]Jiqiang ffu,Yipeng Zhou ,Dah Ming Chiu,and Zirong Zhu，"Modeling dynamics of online video popularity，"in IEEE/ACM IWQ〇S,2015.
[0013] [7]Gabor Szabo and Bernardo A.Huberman，"Predicting the popularity of online con-Tent，'，Communications of the ACM, vol. 53,no. 8,pp. 80-88,2010.
[0014] [8]Haitao Li,Haiyang Wang,Jiangchuan Liu，and Ke Xu，"Video sharing in online social networks:Measurement and analysis In ACM N0SSDAV, 2012.
[0015] [9]Authors, ''Appendix,supplied as additi〇-nal material appendix.pdf".
[0016] [10]Han Hu,Yonggang ffen,Tat-Sent Chua,Zhi ffang,Jian Huang,ffenwu Zhu, and Di Wu，"Community based effective social video contents placement in cloud centric cdn network，"in IEEE ICME,2014.
[0017] [11]Alex Lobzhanidze and Wenjun Zeng，"Proactive caching of online video by mining mainstream media，"in IEEE ICME,2013.

【發(fā)明內(nèi)容】

[0018] 本發(fā)明提供了一種對(duì)網(wǎng)絡(luò)視頻流行度的演化分析方法，視頻擴(kuò)散的過(guò)程被直接推薦和口碑推薦所驅(qū)動(dòng)，
[0019] 在直接推薦驅(qū)動(dòng)步驟中，直接推薦驅(qū)動(dòng)下的視頻流行度演化公式：
[0021 ]在口碑推薦驅(qū)動(dòng)步驟中，口碑推薦的過(guò)程是一個(gè)離散的時(shí)間模型：
[0022] Ax(t+l)=0qAx(t)s(t) (5)
[0024]作為本發(fā)明的進(jìn)一步改進(jìn)，在所述口碑推薦驅(qū)動(dòng)步驟中，為了使得口碑推薦模型被處理，我們還需要考慮初始的條件:X(〇)=XQ>〇，X()是用戶的數(shù)量，我們讓xo〈l，在xo〈l情況下展示了視頻被第一個(gè)用戶發(fā)現(xiàn)需要經(jīng)歷多長(zhǎng)時(shí)間，
[0029] 作為本發(fā)明的進(jìn)一步改進(jìn)，根據(jù)視頻觀看總數(shù)的跟蹤記錄，確定信息擴(kuò)散過(guò)程的類(lèi)型由一個(gè)具有小的匹配錯(cuò)誤的模型所決定;通過(guò)將視頻記錄與理論模型匹配，可以量化每個(gè)推薦因素的強(qiáng)度。
[0030] 本發(fā)明還公開(kāi)了一種對(duì)網(wǎng)絡(luò)視頻流行度的演化分析系統(tǒng)，其特征在于，視頻擴(kuò)散的過(guò)程被直接推薦和口碑推薦所驅(qū)動(dòng)，
[0031 ]在直接推薦驅(qū)動(dòng)模塊中，直接推薦驅(qū)動(dòng)下的視頻流行度演化公式：
[0033] 在口碑推薦驅(qū)動(dòng)模塊中，口碑推薦的過(guò)程是一個(gè)離散的時(shí)間模型：
[0034] Ax(t+l)=0qAx(t)s(t) (5)
[0036]作為本發(fā)明的進(jìn)一步改進(jìn)，在所述口碑推薦驅(qū)動(dòng)模型中，為了使得口碑推薦模型被處理，我們還需要考慮初始的條件:1(〇)=10>〇，10是用戶數(shù)量，我們讓1()〈1，在1()〈1情況下展示了視頻被第一個(gè)用戶發(fā)現(xiàn)需要經(jīng)歷多長(zhǎng)時(shí)間，
[0041] 作為本發(fā)明的進(jìn)一步改進(jìn)，根據(jù)視頻觀看總數(shù)的跟蹤記錄，確定信息擴(kuò)散過(guò)程的類(lèi)型由一個(gè)具有小的匹配錯(cuò)誤的模型所決定;通過(guò)將視頻記錄與理論模型匹配，可以量化每個(gè)推薦因素的強(qiáng)度。
[0042] 本發(fā)明的有益效果是:在本發(fā)明中，我們建立了一個(gè)動(dòng)態(tài)的模型來(lái)描述視頻流行度的演化。尤其是，兩種推薦機(jī)制:直接推薦和口碑推薦，它們作為視頻信息擴(kuò)散過(guò)程的驅(qū) 動(dòng)力被納入在我們的模型中。我們的模型提供了一個(gè)系統(tǒng)化的方法去量化視頻推薦驅(qū)動(dòng)力和其他因素，同時(shí)，我們的模型對(duì)于表征用戶的行為和評(píng)估推薦測(cè)量都很有用。
【附圖說(shuō)明】
[0043] 圖1是最終的用戶數(shù)量X1隨著XQ增長(zhǎng)的凹函數(shù)圖。
[0044] 圖2是四種視頻類(lèi)型的匹配錯(cuò)誤分布圖。
[0045]圖3是用戶的行為模式和推薦策略圖。
【具體實(shí)施方式】 [0046] 2.定義和假設(shè)：
[0047] 在本發(fā)明中，我們通過(guò)計(jì)算視頻被觀看的次數(shù)來(lái)判定視頻的流行度。不失一般性，我們也討論了一個(gè)流行視頻的流行度演化。設(shè)定x(t)為隨時(shí)間累計(jì)變化的函數(shù)，意味著，看某個(gè)視頻的用戶數(shù)量是隨著時(shí)間t的增加而增加。那么在t時(shí)刻的瞬時(shí)流行度為x'（t)。在我們的模型中，所有的推薦被分類(lèi)為兩種:直接推薦和口碑推薦。內(nèi)容的創(chuàng)建者、提供者或是其他任何實(shí)體為了他們自己的利益建立的推薦算法屬于直接推薦方法，而那些基于用戶他們自己的喜好創(chuàng)建的推薦算法屬于口碑推薦。我們定義一個(gè)視頻本身固有的吸引力q為這個(gè)視頻被任何一個(gè)用戶喜歡的幾率。當(dāng)一些用戶通過(guò)推薦來(lái)知道視頻的存在后，他們中間平均有q倍的用戶會(huì)去觀看這個(gè)視頻。
[0048] 為了簡(jiǎn)化分析，我們定義了如下的假設(shè)。首先，用戶不會(huì)重新播放一個(gè)看過(guò)的視頻，這個(gè)假設(shè)基于一些之前的研究工作[2][3]。其次，用戶選擇觀看的視頻是自主選擇決定的，這個(gè)假設(shè)可能不符合相關(guān)的視頻。我們將在第5節(jié)介紹一種技術(shù)去解決這一問(wèn)題。然后，對(duì)于給定的視頻來(lái)說(shuō)，可被推薦的總的潛在的用戶數(shù)量是固定的。實(shí)際上，這個(gè)假設(shè)在一個(gè) 相對(duì)短的時(shí)期內(nèi)是有效的，例如幾個(gè)月。最后，當(dāng)用戶知道了視頻的存在和喜歡上這個(gè)視頻后就會(huì)立即觀看。之前的一些工作假設(shè)有一個(gè)用戶反饋的過(guò)程。然而，對(duì)于流行的視頻這個(gè) 過(guò)程是可以被忽略的，被作為近似的結(jié)果[6]。
[0049] 3.模型：
[0050] 視頻擴(kuò)散的過(guò)程可以被直接推薦和口碑推薦所驅(qū)動(dòng)，但是如果在單一的處理過(guò)程中融入這兩種推薦過(guò)程是非常復(fù)雜的。之前的一項(xiàng)研究[6]表明：對(duì)于一個(gè)給定的視頻，無(wú) 論是直接推薦還是口碑推薦，都是主要的驅(qū)動(dòng)力量。因此，我們學(xué)習(xí)了兩種簡(jiǎn)化的信息擴(kuò)散過(guò)程:DModel (D模型）由直接推薦所驅(qū)動(dòng)、WModel (W模型）由口碑推薦所驅(qū)動(dòng)。
[0051] 不失一般性，就像我們?cè)诘?部分中闡述的那樣，通過(guò)假設(shè)用戶獨(dú)立選擇視頻，我們建立了一個(gè)特定的視頻流行度演化模型。我們建立了一個(gè)流行的模型去描繪它的信息傳播過(guò)程。讓t表示從視頻發(fā)布開(kāi)始(在網(wǎng)上可訪問(wèn)）過(guò)去的時(shí)間。在t時(shí)刻，S(t)被設(shè)定為用戶不知道視頻的存在，X(t)被設(shè)定為用戶知道視頻存在并且被吸引，*y(t)被設(shè)定為用戶知道視頻的存在但是不喜歡這個(gè)視頻。設(shè)定 8(〇、以〇、7(〇分別為茗（0、1(0、漢(尤）的基。假設(shè)固定的總?cè)藬?shù)為N的情況下，我們有 8(〇+以〖）+7(〇=1還有近似的等式：
&最后，令V(t) = X'（t)為動(dòng)態(tài)觀看人數(shù)，意味著V(t)為在t時(shí)刻的瞬時(shí)流行度。
[0052] 3.1 DModel
[0053] 由于在實(shí)際測(cè)試中推薦資源有限，把視頻信息推薦給所有用戶是不可能的。因此，我們把變量α定義為直接推薦的比例，意味著，這是從各(t)集到X(t) U1(t)集的用戶比例，我們注意到，總的用戶數(shù)量N是一個(gè)很大的數(shù)字，例如：幾千萬(wàn)。因此我們可以建立一個(gè)如下的流體模型：
[0054] (t) = d gs(t) (1)
[0055] (t) = a (1 - g)s(t) (2)
[0056] 其中初始化條件為奴0)=7(0)=0, 3(〇)=1加上等式3(〇+以〇+7(〇=1我們可以推導(dǎo)出：
[0057] x(t)=qN(l-e_at) (3)
[0058] x'（t)=aqN · e-at (4)
[0059] 在以上的處理過(guò)程中對(duì)于直接推薦過(guò)程沒(méi)有直接限制。在實(shí)際測(cè)試中，當(dāng)新的視頻不斷地被納入新的系統(tǒng)中，每個(gè)存在的視頻僅僅在一個(gè)確定的時(shí)期被推薦，基于:視頻流行度的預(yù)測(cè)、用戶的反饋、新視頻的到達(dá)率、等等。因此，我們定義另一個(gè)參數(shù)L作為直接推薦的取消時(shí)刻。在時(shí)刻t e之后，如果沒(méi)有新的用戶加入x(t)中的話，X'（t)將會(huì)以遠(yuǎn)大于a 的速率γ迅速減小到0。
[0060] 總結(jié)以上的討論，我們得出由直接推薦驅(qū)動(dòng)下的視頻流行度演化公式：
[0062] 3.2 mtodel
[0063] 在麗ode 1模型中我們把時(shí)間線分成時(shí)隙。讓:D(t)表示在時(shí)隙t時(shí)加入X(t)集的新用戶，使得AX(t) = x(t)-x(t-l)為D(t)的基數(shù)。在t時(shí)隙，在2)⑴中的用戶執(zhí)行了兩種操作：
[0064] a)停止觀看視頻，因此產(chǎn)生一個(gè)查看總數(shù)Ax(t);b)僅僅在t時(shí)隙中將視頻推薦給其他用戶。換句話說(shuō)，當(dāng)用戶看完視頻后就迅速推薦給其他用戶，并且推薦期就僅僅持續(xù)一個(gè)時(shí)隙。這是符合實(shí)際情況的。用戶的注意力很容易被新的視頻所吸引，因此，沒(méi)有用戶會(huì) 長(zhǎng)時(shí)間推薦同一個(gè)視頻。時(shí)隙的粒度根據(jù)實(shí)際情況可以設(shè)為一天或是一周。
[0065] 讓?duì)伦鳛橛蒒歸一化作用的新用戶將視頻推薦給他的朋友的數(shù)量。那么口碑推薦的過(guò)程就是一個(gè)離散的時(shí)間模型：
[0066] Δ x(t+l) =0q Δ x(t)s(t) (5)
[0068]以下是對(duì)上面等式的解釋?zhuān)掠脩粼趖+l時(shí)隙加入了 I(t+1)集，意味著2)(t+l)中 Ax(t+1)的用戶被?)(?)中Ax(t)的用戶所建立的口碑推薦的視頻所吸引。m是將會(huì)被一個(gè) 用戶所推薦的平均用戶數(shù)，f是視頻的信息不被任何人知道的幾率。因此，^ xf X f (只有一小部分q是需要的）是:D(t)中的一個(gè)用戶貢獻(xiàn)的新用戶的數(shù)量，如果有AX(t)的用戶推薦視頻，那么我們就有Δχ(?+1)=βαΔχ(1:)8(1:)。
[0069]想要得到封閉形式x(t)或v(t)的解是很難的，為了得到理論見(jiàn)解，我們考慮一個(gè) 近似的連續(xù)模型，這個(gè)模型通過(guò)以下式子定義：
[0071] X"（t)=X'（t)[i3qs(t)-l] (7)
[0072] 為了處理口碑推薦模型，我們還需要考慮初始的條件：
[0073] X(0) =XQ>0，XQ是用戶種子的數(shù)量，我們讓XQ〈1，在XQ〈1情況下展示了視頻被第一個(gè)用戶發(fā)現(xiàn)需要經(jīng)歷多長(zhǎng)時(shí)間。
[0078] x(t)的解對(duì)于推導(dǎo)出U(t)的演變是很復(fù)雜的。我們用了一種替代的方法:我們主要分析X(t)的極限。很明顯的，當(dāng)t接近于無(wú)窮時(shí)，g(t)接近于0，x(t)接近于 X1。換句話說(shuō)，X ⑴的極限?Χ1的值所決定，且x(t)的值永不會(huì)超過(guò)qN，時(shí)間間隔#1是必要的，因?yàn)樗?明了視頻是否被有效地推薦過(guò)。
[0079]
，那么視頻信息可以被擴(kuò)散給所有用戶；換句話說(shuō)，用戶的一個(gè)子集可以了解到視頻的信息。
[0080] 視頻信息被擴(kuò)散給所有用戶當(dāng)且僅當(dāng)X1>qN時(shí)，當(dāng)令X1〈qN時(shí)，可以不難推導(dǎo)出
。具體的證明過(guò)程略過(guò)。從命題1中我們可以發(fā)現(xiàn)僅僅是小β或XQ可以導(dǎo)致推薦的不足。
[0081] 在以下的討論中，我們主要關(guān)注當(dāng)X1〈qN時(shí)的情況。我們對(duì)χο和β如何影響^感興趣，意味著，這部分人是最終看了視頻的那一部分。
[0082]
那么最終的用戶人口數(shù)^的增長(zhǎng)是隨著xo這個(gè)凹函數(shù)曲線變化而變化。
[0083] 這個(gè)命題可以通過(guò)以下式子證明：
[0084]
，圖la顯示出在不同的β值下χ〇如何影響到最終人數(shù)XI的。我們可以看出當(dāng)m= 1.67時(shí)，Χ0從1000增加到5000時(shí)，χΑ5000增加到15000。說(shuō)明在χο增長(zhǎng)的情況下，信息擴(kuò)散效率低下。
[0085] 命題3:存在一個(gè)不等式：
[0086]
，這樣，假如β彡Θ，那么最終的用戶人數(shù)X1的增長(zhǎng)曲線是類(lèi)似于邱勺凸函數(shù)
，最終的用戶人數(shù)X1的增長(zhǎng)曲線類(lèi)似于邱勺凹函數(shù)。
[0087]證明過(guò)程在文獻(xiàn)[9]中，圖lb中展示了當(dāng)在不同的xo取值下，X1如何隨著邱勺增長(zhǎng)而增長(zhǎng)。存在一個(gè)閾值，使得如果β的值大于閾值，對(duì)于增加用戶人數(shù)X1是非常有效的。然而，在現(xiàn)實(shí)中，對(duì)于視頻提供者來(lái)說(shuō)很難控制邱勺值，因?yàn)棣轮饕蓚€(gè)人用戶所決定。
[0088] 3.3討論
[0089] 即使我們已經(jīng)推導(dǎo)出了基于不同驅(qū)動(dòng)力量推薦下的DModel和WModel，但我們并不知道哪一種模型更適合于一個(gè)給定的視頻。如果可以得到一個(gè)視頻觀看總數(shù)的跟蹤記錄，那么信息擴(kuò)散過(guò)程的類(lèi)型就可以由一個(gè)具有小的匹配錯(cuò)誤的模型所決定。此外，通過(guò)將視頻記錄與理論模型匹配，我們可以量化每個(gè)推薦因素的強(qiáng)度，這對(duì)于評(píng)估推薦策略和觀察用戶的行為習(xí)慣有很大的幫助。具體的細(xì)節(jié)將在第五節(jié)介紹。
[0090]對(duì)于視頻信息被分享的假設(shè)，無(wú)論是通過(guò)直接推薦還是口碑推薦，都不一定特別有效，因?yàn)檫@兩種推動(dòng)力量可以同時(shí)影響這個(gè)過(guò)程。然而，在文獻(xiàn)[6]中指出對(duì)于大多數(shù)視頻，僅僅有其中的一種力量可以作為主要的推動(dòng)力量。因此，我們可以僅僅只考慮一種單一的力量，這樣可以簡(jiǎn)化信息擴(kuò)散的過(guò)程。通過(guò)簡(jiǎn)化過(guò)程，推薦資源(例如和口碑推薦中一段很短的時(shí)期）的局限性也可以被學(xué)習(xí)，這對(duì)于我們的模型來(lái)說(shuō)是一個(gè)重大的益處，就像在文獻(xiàn)[6]中建議的同時(shí)分析多種驅(qū)動(dòng)力量一樣。
[0091 ] 4 評(píng)估
[0092]在這部分，我們把從一個(gè)粒子系統(tǒng)中收集到的觀看人數(shù)總數(shù)與DModel和WModel擬合來(lái)校驗(yàn)DModel和WModel。每個(gè)視頻都將同時(shí)與兩種模型擬合，但只有一種低錯(cuò)誤的模型將被用于評(píng)估。為了方便，我們我們把更好的匹配模型設(shè)為BModel。
[0093]標(biāo)準(zhǔn)化均方誤差被用來(lái)作為評(píng)估匹配錯(cuò)誤的度量。定義為：
[0095] 和h分別代表被模型計(jì)算和從現(xiàn)實(shí)系統(tǒng)中收集到的第tth天的瀏覽數(shù)。注意到標(biāo) 準(zhǔn)化均方誤差已經(jīng)由真實(shí)跟蹤記錄的平均觀看用戶數(shù)量所標(biāo)準(zhǔn)化了，所以我們可以用不同的總觀看次數(shù)來(lái)對(duì)比不同的情況。
[0096] 4.1數(shù)據(jù)集
[0097] 我們不關(guān)注所有的視頻，而是關(guān)注四個(gè)主要的視頻類(lèi)型：電影、電視節(jié)目、新聞和音樂(lè)視頻。我們收集了系統(tǒng)的收視紀(jì)錄，選取了時(shí)間在2014年9月1號(hào)到2015年1月31號(hào)之間的所有這四種類(lèi)型的視頻，每個(gè)收視紀(jì)錄包含了以下的信息：時(shí)間、用戶ID、視頻ID。對(duì)于每個(gè)視頻，我們跟蹤收集了 6個(gè)月的每天的收視紀(jì)錄。我們從評(píng)估中移除了觀看次數(shù)小于1000 的視頻，因?yàn)檫@是受到了偶然觀看的影響。把不受歡迎的視頻移除并不影響這個(gè)研究的主體，因?yàn)樗鼈兊挠^看次數(shù)只占了不到總觀看數(shù)量的3%。最后的數(shù)據(jù)集包含了 1469個(gè)電影、 9705個(gè)電視節(jié)目、30720個(gè)新聞和4736個(gè)音樂(lè)視頻。
[0098] 在將數(shù)據(jù)集適配到我們的模型之前，我們需要弄清楚每個(gè)類(lèi)型的視頻的總用戶數(shù)。我們不能僅僅將總的用戶ID數(shù)量作為總的用戶數(shù)，因?yàn)檫@可能會(huì)包含偶爾觀看的用戶數(shù)量。取而代之，我們考慮實(shí)際上積極活躍的用戶，這些用戶一般都觀看了相當(dāng)數(shù)量的視頻。因此，對(duì)于每個(gè)類(lèi)型的視頻，我們通過(guò)觀測(cè)他們觀看的記錄之和，將用戶分為不同等級(jí)。然后，那些只有很少觀看記錄的用戶連同他們貢獻(xiàn)的視頻觀點(diǎn)一起被移除，直到移除了 25%的總觀看次數(shù)。剩余的用戶數(shù)從4千4百萬(wàn)到8千1百萬(wàn)。盡管這是個(gè)啟發(fā)式的規(guī)則去排除偶然的用戶，但也不用去得到準(zhǔn)確的N值，這個(gè)值主要是使得其他參數(shù)標(biāo)準(zhǔn)化，例如α、β等等。
[0099] 4.2模型匹配
[0?00] Levenberg-Marquardt (列文伯格-馬夸特)算法是一個(gè)通用算法，可以找到最小平方誤差，當(dāng)用跟蹤的數(shù)據(jù)匹配模型可以找到最佳的參數(shù)。通過(guò)這個(gè)最佳的參數(shù)，由等式9可以求出每個(gè)視頻的標(biāo)準(zhǔn)均方誤差。我們用文獻(xiàn)[6]中提出的EvoModel作為標(biāo)準(zhǔn)均方誤差的基準(zhǔn)和比較標(biāo)準(zhǔn)均方誤差的累積分布函數(shù)。結(jié)果在圖2中顯示，可以看到BModel的標(biāo)準(zhǔn)均方誤差比DModel和麗odel的小。通過(guò)模型的適配，我們自然而然地將視頻標(biāo)識(shí)成兩部分:d型推薦視頻和w型推薦模型。
[0101] 從圖2中我們可以看到對(duì)于電影和電視節(jié)目來(lái)說(shuō)，BModel比EvoModel達(dá)到了更好的表現(xiàn)(兩個(gè)電影的累積分布函數(shù)曲線幾乎重合），而EvoModel在新聞視頻和音樂(lè)視頻中性能略優(yōu)于BModel。下面我們將解釋一下原因，EvoModel同時(shí)分析了多種驅(qū)動(dòng)力量，而沒(méi)有限制推薦資源和短口碑推薦時(shí)期）。根據(jù)文獻(xiàn)[6]，許多電影和電視節(jié)目的信息的傳播通常是通過(guò)直接推薦或是口碑推薦。因此BModel可以通過(guò)結(jié)合推薦資源的限制條件，達(dá)到更佳的適配結(jié)果。然而，對(duì)于新聞和音樂(lè)視頻來(lái)說(shuō)，存在一部分視頻是依賴(lài)兩種推薦力量的，這對(duì)于BModel來(lái)說(shuō)導(dǎo)致了錯(cuò)誤的匹配結(jié)果。實(shí)際上，僅僅是這些熱門(mén)視頻容易被兩種驅(qū)動(dòng)力量影響。BModel對(duì)于大多數(shù)流行視頻來(lái)說(shuō)匹配效果更好。
[0102] 5案例分析:電視節(jié)目
[0103]就像之前討論的那樣，通過(guò)模型匹配，我們的動(dòng)態(tài)推廣模型可以量化推廣力量的強(qiáng)度，所以我們可以觀察用戶的行為習(xí)慣、評(píng)價(jià)推廣的策略。我們進(jìn)行電視節(jié)目的案例分析可以說(shuō)明這一點(diǎn)。
[0104] 5.1合并節(jié)目
[0105] DModel和麗odel都假定用戶自己決定去觀看任何視頻。事實(shí)上，許多視頻都是相關(guān)的，比如:報(bào)到相同事件的新聞視頻、相同電視劇的不同電視節(jié)目。因此，在我們學(xué)習(xí)這些推薦策略之前將一些相關(guān)的視頻合計(jì)成一個(gè)綜合的視頻是合理的并且是有必要的。在排除了 695個(gè)具有大的標(biāo)準(zhǔn)均方誤差且不能很好地進(jìn)行匹配的電視節(jié)目之后，總共有9〇1〇個(gè)電視節(jié)目用于案例分析。對(duì)每個(gè)電視節(jié)目來(lái)說(shuō)，我們把所有的電視節(jié)目和不同的版本(例如：高/低清晰度版本，不同語(yǔ)言的版本)合計(jì)為一個(gè)視頻，通過(guò)將參數(shù)α、β平均化。對(duì)于每個(gè)合并的視頻，如果節(jié)目與DModel能很好地匹配就被標(biāo)記為d型推薦模型，與此相對(duì)，節(jié)目與 WModel能很好地匹配就被標(biāo)記為w型推薦模型。通過(guò)合計(jì)，有190個(gè)d型推薦模型和112個(gè)w型推薦模型。大部分d型推薦視頻都是最新攝制的電視劇，大部分w型推薦視頻是最近被上傳到系統(tǒng)上的之前拍攝的電視劇。由于存在不同的推薦力量和用戶行為方式，它們將被分別研究。
[0106] 5.2 D型推薦模型視頻
[0107]圖3a顯示了 log(q)和log(a)的離散圖，取值是從合并之前的兩個(gè)相似的電視節(jié)目中取的。途中的交叉點(diǎn)代表的是熱門(mén)電視節(jié)目的參數(shù)，較熱門(mén)的電視節(jié)目用圓點(diǎn)表示。一些被選擇的點(diǎn)注釋上了電視節(jié)目的序號(hào)。我們可以觀察到第一個(gè)節(jié)目，比同樣是電視劇的其他節(jié)目吸引了更多的觀看次數(shù)。當(dāng)節(jié)目數(shù)量增加時(shí)，吸引力逐漸減小，意味著第一個(gè)節(jié)目是最吸引人的，而且用戶不一定會(huì)隨著電視節(jié)目的更新而繼續(xù)觀看。
[0108] 圖3b展示了log(q)和log(a)的離散圖，圖3c展示了 190個(gè)合并視頻的
的離散點(diǎn)。這些離散點(diǎn)表現(xiàn)出了正的泊松相關(guān)性。我們注意到用戶更侵向于自己決定去觀看合并的視頻，因此這對(duì)于復(fù)合視頻的推薦資源是公平的。圖3b顯示視頻的內(nèi)在吸引力和直接推薦力量之間存在一個(gè)強(qiáng)的正相關(guān)性。對(duì)于給定的有限的直接推薦資源，關(guān)注正在推薦的熱門(mén)視頻是合理的策略。圖3c展示的是a越大越趨向于大分子的分?jǐn)?shù)，這表明當(dāng)具有大量的推薦資源時(shí)，視頻信息將被有效地?cái)U(kuò)散。
[0109] 5.3 W型推薦模型視頻
[0110] 與圖3a相似，對(duì)于兩個(gè)相似電視劇節(jié)目，我們考察內(nèi)部的人氣q和它的口碑推薦比率β的關(guān)系。圖3d是1 og(q)和1 og(βΝ)的離散的點(diǎn)，他們來(lái)自于40集電熱門(mén)電視劇和39集的較熱門(mén)的電視劇。一個(gè)有趣的現(xiàn)象是電視劇的開(kāi)頭和結(jié)尾都很受歡迎。來(lái)自圖3a的不同的用戶行為事實(shí)上是因?yàn)閐型推薦模型的電視節(jié)目更新比較慢，一般都是每天1到2集。而w型推薦模型的視頻一般都是一起更新的，因?yàn)樗麄兪菐讉€(gè)月前或幾年前錄制的。對(duì)于給定的已經(jīng)可以觀看的節(jié)目，用戶可以方便地瀏覽開(kāi)始和最后一集。
[0111]對(duì)于圖3a和圖3b中的節(jié)目，存在一種趨勢(shì):推薦比率隨著電視節(jié)目的編號(hào)的增加而增加。我們相信更早的節(jié)目可以作為后來(lái)節(jié)目的廣告。這樣，用戶反饋的比率會(huì)越來(lái)越快。但是存在一個(gè)例外，w型模型視頻的最后的電視劇集不符合這個(gè)規(guī)律。我們相信這些視頻緊跟著第一集電視劇節(jié)目被用戶觀看。
[0112]圖3e展示了 log(q)和log(0N)的離散的點(diǎn)，圖3f展示了 112個(gè)w型模型合并的視頻
出乎意料之外的是，在圖3e中l(wèi)og(PN)和log(q)出現(xiàn)了很強(qiáng)的負(fù)相關(guān)性，表明用戶更傾向于選擇推薦不流行的視頻。這個(gè)觀察和我們的直覺(jué)是一致的。人們喜歡向朋友們推薦有趣的但是不常見(jiàn)的視頻。
一個(gè)強(qiáng)的正相關(guān)，意味著初始種子人數(shù)對(duì)于信息傳播是很有必要的。
[0113] 6相關(guān)工作
[0114] 一些之前的研究已經(jīng)提出了一些動(dòng)態(tài)視頻推薦模型。在文獻(xiàn)[8]中，作者研究了網(wǎng) 上視頻分享和一個(gè)可行的模型，這個(gè)模型可以匹配觀察到的動(dòng)態(tài)的流行度分布。但是他們的模型沒(méi)有描述個(gè)人的視頻流行度演化過(guò)程。文獻(xiàn)[5]中Avramova等人針對(duì)一個(gè)視頻的流行度演化提出了一個(gè)閉合表達(dá)式，這個(gè)表達(dá)式可以退化為一個(gè)冪定律和指數(shù)衰減函數(shù)。然而，這是一個(gè)特別指定的模型，而且沒(méi)有揭示信息擴(kuò)散的過(guò)程。在文獻(xiàn)[6]中，盡管坐著考慮到了推薦機(jī)制，他們的模型相當(dāng)復(fù)雜，而且不容易應(yīng)用或是將推薦力量定量化。
[0115] 流行度預(yù)測(cè)這個(gè)工作之前已經(jīng)有研究過(guò)的成果。文獻(xiàn)[7 ]中Szabo和Huberman發(fā)現(xiàn) 了在早期和晚期的視頻流行度之間存在一個(gè)線性關(guān)系，因此未來(lái)的流行度可以通過(guò)使用之前的數(shù)據(jù)集中學(xué)習(xí)到的一個(gè)線性的系數(shù)乘以早期的流行度來(lái)預(yù)測(cè)。在文獻(xiàn)[3]中，作者通過(guò) 考慮到多種初期的流行度和視頻的相似性，將Szabo-Huberman算法一般化。文獻(xiàn)[4]中 Ahmed等人按視頻流行度的演化模式將視頻分類(lèi)，按照分類(lèi)來(lái)預(yù)測(cè)未來(lái)的流行度。這些預(yù)測(cè) 模型專(zhuān)注于預(yù)測(cè)的準(zhǔn)確性，而忽略了解釋和可測(cè)量的因素，所以不能給出相應(yīng)的理論見(jiàn)解。
[0116] 視頻流行度對(duì)于內(nèi)容推送中的資源分發(fā)是一個(gè)很重要的參考。通過(guò)動(dòng)態(tài)地合并流行度，研究者已經(jīng)研究了大量的方案。例如，文獻(xiàn)[2]中的Zhou等人針對(duì)年齡敏感和流行度穩(wěn)定的視頻提出了一個(gè)混合的CDN模型。文獻(xiàn)[10]中Hu等人以社會(huì)視頻觀看行為為基礎(chǔ)建立了杠桿社區(qū)，以此來(lái)制定了云CDN的內(nèi)容設(shè)計(jì)方案。文獻(xiàn)[11]試圖通過(guò)挖掘主要的流媒體來(lái)檢測(cè)熱門(mén)視頻，以此來(lái)作為CDN的緩存候選。然而，在這些研究工作中，流行度的分析主要還是基于測(cè)量和理論模型，但是這些都沒(méi)有被提及到。
[0117] 7 總結(jié)
[0118] 在本發(fā)明中，我們建立了一個(gè)動(dòng)態(tài)的模型來(lái)描述視頻流行度的演化。尤其是兩種推薦機(jī)制:直接推薦和口碑推薦，它們作為視頻信息擴(kuò)散過(guò)程的驅(qū)動(dòng)力被納入在我們的模型中。我們的模型提供了一個(gè)系統(tǒng)化的方法去量化視頻推薦驅(qū)動(dòng)力和其他因素，同時(shí)，我們的模型對(duì)于表征用戶的行為和評(píng)估推薦測(cè)量都很有用，這些都是以電視節(jié)目為例說(shuō)明。我們將來(lái)的工作主要集中在考慮更多的因素來(lái)拓展我們的模型，還有預(yù)測(cè)視頻流行度的演化上。
[0119] 對(duì)于在線視頻業(yè)務(wù)中的最優(yōu)化資源分配和視頻推薦來(lái)說(shuō)，視頻的流行度是一種基礎(chǔ)的參照。然而，始終沒(méi)有一種有說(shuō)服力的模型去精確的描述視頻流行度的演變。在本發(fā)明中，通過(guò)將由各種形式承載的視頻信息傳播過(guò)程模型化，我們建立了一種動(dòng)態(tài)的流行度模型。通過(guò)擬合從實(shí)際系統(tǒng)中收集到的實(shí)時(shí)微量模型，我們可以量化推薦力量的大小。這種量化可以刻畫(huà)視頻的普及方式、用戶的行為和推薦的策略。
[0120] 以上內(nèi)容是結(jié)合具體的優(yōu)選實(shí)施方式對(duì)本發(fā)明所作的進(jìn)一步詳細(xì)說(shuō)明，不能認(rèn)定本發(fā)明的具體實(shí)施只局限于這些說(shuō)明。對(duì)于本發(fā)明所屬技術(shù)領(lǐng)域的普通技術(shù)人員來(lái)說(shuō)，在不脫離本發(fā)明構(gòu)思的前提下，還可以做出若干簡(jiǎn)單推演或替換，都應(yīng)當(dāng)視為屬于本發(fā)明的保護(hù)范圍。
【主權(quán)項(xiàng)】
1. 一種對(duì)網(wǎng)絡(luò)視頻流行度的演化分析方法，其特征在于，視頻擴(kuò)散的過(guò)程被直接推薦和口碑推薦所驅(qū)動(dòng)，在直接推薦驅(qū)動(dòng)步驟中，直接推薦驅(qū)動(dòng)下的視頻流行度演化公式：在口碑推薦驅(qū)動(dòng)步驟中，口碑推薦的過(guò)程是一個(gè)離散的時(shí)間模型：(6)。2. 根據(jù)權(quán)利要求1所述的演化分析方法，其特征在于，在所述口碑推薦驅(qū)動(dòng)步驟中，為了使得口碑推薦模型被處理，我們還需要考慮初始的條件 :X(〇)=XQ>〇，X()是用戶種子的數(shù) 量，我們讓 XQ〈1，在XP<1愔況下屏示了視頻被第一個(gè)用戶發(fā)現(xiàn)需要經(jīng)歷多長(zhǎng)時(shí)間，給定總的用戶銷(xiāo)初始化條件：i后我們得到：3. 根據(jù)權(quán)利要求1所述的演化分析方法，其特征在于，根據(jù)視頻觀看總數(shù)的跟蹤記錄，確定信息擴(kuò)散過(guò)程的類(lèi)型由一個(gè)具有小的匹配錯(cuò)誤的模型所決定;通過(guò)將視頻記錄與理論模型匹配，可以量化每個(gè)推薦因素的強(qiáng)度。4. 一種對(duì)網(wǎng)絡(luò)視頻流行度的演化分析系統(tǒng)，其特征在于，視頻擴(kuò)散的過(guò)程被直接推薦和口碑推薦所驅(qū)動(dòng)，在直接推薦驅(qū)動(dòng)模塊中，直接推薦驅(qū)動(dòng)下的視頻流行度演化公式：在口碑推薦驅(qū)動(dòng)模塊中，口碑推薦的過(guò)程是一個(gè)離散的時(shí)間模型：5. 根據(jù)權(quán)利要求4所述的演化分析系統(tǒng)，其特征在于，在所述口碑推薦驅(qū)動(dòng)模塊中，為了使得口碑推薦模型被處理，我們還需要考慮初始的條件 :X(〇)=XQ>〇，X()是用戶種子的數(shù) 量，我們讓XQ〈1，在XQ〈1情況下展示了視頻被第一個(gè)用戶發(fā)現(xiàn)需要經(jīng)歷多長(zhǎng)時(shí)間，給定總的用戶君6.根據(jù)權(quán)利要求4所述的演化分析系統(tǒng)，其特征在于，根據(jù)視頻觀看總數(shù)的跟蹤記錄，確定信息擴(kuò)散過(guò)程的類(lèi)型由一個(gè)具有小的匹配錯(cuò)誤的模型所決定;通過(guò)將視頻記錄與理論模型匹配，可以量化每個(gè)推薦因素的強(qiáng)度。
【文檔編號(hào)】H04N21/466GK106028155SQ201610460266
【公開(kāi)日】2016年10月12日
【申請(qǐng)日】2016年6月22日
【發(fā)明人】周義朋, 程華崢, 張勝利, 吳己強(qiáng)
【申請(qǐng)人】深圳大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：周義朋;程華崢;張勝利;吳己強(qiáng);
技術(shù)所有人：深圳大學(xué);
我是此專(zhuān)利的發(fā)明人

上一篇：電視觀眾興趣建模方法和系統(tǒng)的制作方法
上一篇：一種基于hls協(xié)議的節(jié)目播放方法和裝置的制造方法

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、王老師：1.數(shù)字信號(hào)處理 2.傳感器技術(shù)及應(yīng)用 3.機(jī)電一體化產(chǎn)品開(kāi)發(fā) 4.機(jī)械工程測(cè)試技術(shù) 5.逆向工程技術(shù)研究
2、王老師：1.機(jī)器人 2.嵌入式控制系統(tǒng)開(kāi)發(fā)
3、孫老師：1.振動(dòng)信號(hào)時(shí)頻分析理論與測(cè)試系統(tǒng)設(shè)計(jì) 2.汽車(chē)檢測(cè)系統(tǒng)設(shè)計(jì) 3.汽車(chē)電子控制系統(tǒng)設(shè)計(jì)
4、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
5、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

對(duì)網(wǎng)絡(luò)視頻流行度的演化分析方法及系統(tǒng)的制作方法