一種獲取多媒體數(shù)據(jù)間相關(guān)性的方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及計(jì)算機(jī)技術(shù)領(lǐng)域,尤其涉及一種獲取多媒體數(shù)據(jù)間相關(guān)性的方法及裝 置。
【背景技術(shù)】
[0002] 現(xiàn)今,在這個(gè)互聯(lián)網(wǎng)高速發(fā)展的時(shí)代,人們對(duì)于視聽(tīng)方面的需求越來(lái)越高,而音頻 關(guān)聯(lián)推薦業(yè)務(wù)可以根據(jù)用戶(hù)的個(gè)性化偏好為用戶(hù)推薦其他該用戶(hù)可能喜歡的曲目,有效地 幫助用戶(hù)發(fā)現(xiàn)需求,推進(jìn)用戶(hù)對(duì)于視聽(tīng)業(yè)務(wù)的點(diǎn)播。
[0003] 目前,終端在對(duì)音頻進(jìn)行關(guān)聯(lián)時(shí),通常采用基于內(nèi)容的方式來(lái)對(duì)音頻進(jìn)行關(guān)聯(lián):即 終端根據(jù)各個(gè)音頻的固有標(biāo)簽直接計(jì)算音頻間的音頻相關(guān)度。但是,這種關(guān)聯(lián)方式僅僅是 對(duì)音頻的音頻內(nèi)容進(jìn)行關(guān)聯(lián),并未考慮用戶(hù)的操作行為和具體的應(yīng)用場(chǎng)景,從而導(dǎo)致最終 關(guān)聯(lián)出的音頻間的相關(guān)性為音頻內(nèi)容間的相關(guān)度,并未對(duì)音頻間的相關(guān)性進(jìn)行全面的挖 掘,進(jìn)而為智能推薦系統(tǒng)或其他智能系統(tǒng)(例如,音頻數(shù)據(jù)庫(kù)建立系統(tǒng))提供并不全面的音 頻間的關(guān)聯(lián)性數(shù)據(jù),使得該智能推薦系統(tǒng)或其他智能系統(tǒng)不能更好的為用戶(hù)提供服務(wù)。例 如,智能推薦系統(tǒng)基于該音頻內(nèi)容間的相關(guān)度為用戶(hù)推薦音頻時(shí),便很可能為用戶(hù)推薦其 不感興趣的首頻。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明的實(shí)施例提供一種獲取多媒體數(shù)據(jù)間相關(guān)性的方法及裝置,解決了現(xiàn)有的 終端在計(jì)算音頻間的相關(guān)性時(shí)由于未考慮用戶(hù)的操作行為和具體的應(yīng)用場(chǎng)景,而導(dǎo)致的為 智能推薦系統(tǒng)及其他智能系統(tǒng)提供并不全面的音頻內(nèi)容間的關(guān)聯(lián)性數(shù)據(jù)的問(wèn)題。
[0005] 為達(dá)到上述目的,本發(fā)明的實(shí)施例采用如下技術(shù)方案:
[0006] 第一方面,提供一種獲取多媒體數(shù)據(jù)間相關(guān)性的方法,包括:
[0007] 獲取多媒體數(shù)據(jù)的屬性信息,所述屬性信息包括用戶(hù)的標(biāo)識(shí)、用戶(hù)所操作的多媒 體數(shù)據(jù)的標(biāo)識(shí)以及用戶(hù)對(duì)多媒體數(shù)據(jù)的歷史操作信息;
[0008] 根據(jù)所述多媒體數(shù)據(jù)的屬性信息以及預(yù)設(shè)用戶(hù)操作集中每個(gè)用戶(hù)操作的數(shù)字標(biāo) 識(shí)得到矩陣R,所述矩陣R的行和列分別表示用戶(hù)的標(biāo)識(shí)和多媒體數(shù)據(jù)的標(biāo)識(shí),所述用戶(hù)操 作的數(shù)字標(biāo)識(shí)用于表示用戶(hù)喜好度;
[0009] 對(duì)所述矩陣R進(jìn)行聚類(lèi),得到所有矩陣R',所述矩陣R'為所述矩陣R的子矩陣;
[0010] 依次對(duì)每個(gè)矩陣R'進(jìn)行分解,得到每個(gè)矩陣R'對(duì)應(yīng)的矩陣S,所述矩陣S的元素 Svu 表示多媒體數(shù)據(jù)v屬于多媒體數(shù)據(jù)類(lèi)型u的權(quán)重值,vei,2,……,m,uei,2,……,k,m為多 媒體數(shù)據(jù)個(gè)數(shù),k為多媒體數(shù)據(jù)類(lèi)型個(gè)數(shù);
[0011] 根據(jù)所有包含第一多媒體數(shù)據(jù)標(biāo)識(shí)以及第二多媒體數(shù)據(jù)標(biāo)識(shí)的矩陣S,計(jì)算出所 述第一多媒體數(shù)據(jù)與所述第二多媒體數(shù)據(jù)間的第一相關(guān)度。
[0012] 第二方面,提供一種獲取多媒體數(shù)據(jù)間相關(guān)性的裝置,包括:
[0013] 獲取模塊,用于獲取多媒體數(shù)據(jù)的屬性信息,所述屬性信息包括用戶(hù)的標(biāo)識(shí)、用戶(hù) 所操作的多媒體數(shù)據(jù)的標(biāo)識(shí)以及用戶(hù)對(duì)多媒體數(shù)據(jù)的歷史操作信息;
[0014] 生成模塊,用于根據(jù)所述獲取模塊得到的所述多媒體數(shù)據(jù)的屬性信息以及預(yù)設(shè)用 戶(hù)操作集中每個(gè)用戶(hù)操作的數(shù)字標(biāo)識(shí)得到矩陣R,所述矩陣R的行和列分別表示用戶(hù)的標(biāo)識(shí) 和多媒體數(shù)據(jù)的標(biāo)識(shí),所述用戶(hù)操作的數(shù)字標(biāo)識(shí)用于表示用戶(hù)喜好度;
[0015] 聚類(lèi)模塊,用于對(duì)所述生成模塊生成的所述矩陣R進(jìn)行聚類(lèi),得到所有矩陣R',所 述矩陣R'為所述矩陣R的子矩陣;
[0016] 分解模塊,用于依次對(duì)每個(gè)所述聚類(lèi)模塊得到的矩陣R '進(jìn)行分解,得到每個(gè)矩陣 R'對(duì)應(yīng)的矩陣S,所述矩陣S的元素 Svu表示多媒體數(shù)據(jù)v屬于多媒體數(shù)據(jù)類(lèi)型u的權(quán)重值,ve 1,2,......,m,uei,2,......,k,m為多媒體數(shù)據(jù)個(gè)數(shù),k為多媒體數(shù)據(jù)類(lèi)型個(gè)數(shù);
[0017] 第一計(jì)算模塊,用于根據(jù)所有包含第一多媒體數(shù)據(jù)標(biāo)識(shí)以及第二多媒體數(shù)據(jù)標(biāo)識(shí) 的所述分解模塊分解出的矩陣S,計(jì)算出所述第一多媒體數(shù)據(jù)與所述第二多媒體數(shù)據(jù)間的 第一相關(guān)度。
[0018] 本發(fā)明實(shí)施例提供的獲取多媒體數(shù)據(jù)間相關(guān)性的方法及裝置,根據(jù)多媒體數(shù)據(jù)的 屬性信息以及預(yù)設(shè)用戶(hù)操作集中每個(gè)用戶(hù)操作的數(shù)字標(biāo)識(shí)得到矩陣R,該矩陣R的行和列分 別表示用戶(hù)的標(biāo)識(shí)和多媒體數(shù)據(jù)的標(biāo)識(shí),用戶(hù)操作的數(shù)字標(biāo)識(shí)用于表示用戶(hù)喜好度,然后 對(duì)矩陣R進(jìn)行聚類(lèi),得到所有矩陣R',依次對(duì)每個(gè)矩陣R'進(jìn)行分解,得到每個(gè)矩陣R'的矩陣 S,該矩陣S的元素 Svu表示多媒體數(shù)據(jù)v屬于多媒體數(shù)據(jù)類(lèi)型u的權(quán)重值,最后,根據(jù)所有包含 第一多媒體數(shù)據(jù)標(biāo)識(shí)以及第二多媒體數(shù)據(jù)標(biāo)識(shí)的矩陣S,計(jì)算出第一多媒體數(shù)據(jù)與第二多 媒體數(shù)據(jù)間的第一相關(guān)度。
[0019]相比于現(xiàn)有技術(shù)僅根據(jù)音頻的固有標(biāo)簽來(lái)確定的音頻相關(guān)度,本申請(qǐng)?zhí)峁┑姆桨?中的矩陣R是根據(jù)預(yù)設(shè)用戶(hù)操作集中每個(gè)用戶(hù)操作的數(shù)字標(biāo)識(shí)以及用戶(hù)對(duì)多媒體數(shù)據(jù)的歷 史操作信息得到的,由于用戶(hù)對(duì)多媒體數(shù)據(jù)所執(zhí)行的用戶(hù)操作是多媒體數(shù)據(jù)在實(shí)際應(yīng)用場(chǎng) 景中場(chǎng)景特性的直接體現(xiàn),因此,上述過(guò)程所得到的矩陣R能夠充分的展現(xiàn)多媒體數(shù)據(jù)間在 實(shí)際的應(yīng)用場(chǎng)景中的關(guān)聯(lián)度,這樣在采用聚類(lèi)方法對(duì)矩陣R進(jìn)行聚類(lèi)時(shí),便可將大量的多媒 體數(shù)據(jù)劃分為多個(gè)具有場(chǎng)景關(guān)聯(lián)聚集效果的用戶(hù)群體矩陣R',然后,對(duì)每個(gè)用戶(hù)群體矩陣 R'進(jìn)行分解,得到每個(gè)用戶(hù)群體內(nèi)每個(gè)多媒體數(shù)據(jù)屬于各個(gè)多媒體數(shù)據(jù)類(lèi)型的權(quán)重值,最 后,再利用上述的每個(gè)用戶(hù)群體內(nèi)的每個(gè)多媒體數(shù)據(jù)屬于各個(gè)多媒體數(shù)據(jù)類(lèi)型的權(quán)重值來(lái) 計(jì)算多媒體數(shù)據(jù)間的相關(guān)度,由于本申請(qǐng)?jiān)谟?jì)算多媒體數(shù)據(jù)間的相關(guān)度時(shí)預(yù)先將現(xiàn)實(shí)場(chǎng)景 中用戶(hù)對(duì)多媒體數(shù)據(jù)的用戶(hù)操作進(jìn)行了聚類(lèi),使得具有場(chǎng)景關(guān)聯(lián)性的多媒體數(shù)據(jù)聚集在一 起,充分考慮了多媒體數(shù)據(jù)在實(shí)際應(yīng)用場(chǎng)景中的場(chǎng)景特性,從而為智能推薦系統(tǒng)及其他智 能系統(tǒng)提供了結(jié)合用戶(hù)行為和應(yīng)用場(chǎng)景的音頻間的關(guān)聯(lián)性數(shù)據(jù)。
【附圖說(shuō)明】
[0020]為了更清楚地說(shuō)明本發(fā)明實(shí)施例的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中 所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí) 施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖 獲得其他的附圖。
[0021 ]圖1為本發(fā)明實(shí)施例提供的一種獲取多媒體數(shù)據(jù)間相關(guān)性的方法流程圖;
[0022]圖2為本發(fā)明實(shí)施例提供的另一種獲取多媒體數(shù)據(jù)間相關(guān)性的方法流程圖;
[0023] 圖3為本發(fā)明實(shí)施例提供的一種獲取多媒體數(shù)據(jù)間相關(guān)性的裝置的結(jié)構(gòu)示意圖;
[0024] 圖4為本發(fā)明實(shí)施例提供的另一種獲取多媒體數(shù)據(jù)間相關(guān)性的裝置的結(jié)構(gòu)示意 圖。
【具體實(shí)施方式】
[0025]下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完 整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;?本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他 實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
[0026] 本發(fā)明的實(shí)施例提供一種獲取多媒體數(shù)據(jù)間相關(guān)性的方法,如圖1所示,該方法具 體包括如下步驟:
[0027] 101、獲取多媒體數(shù)據(jù)間相關(guān)性的裝置獲取多媒體數(shù)據(jù)的屬性信息。
[0028] 示例性的,本發(fā)明中的多媒體數(shù)據(jù)為視頻、音頻、文本文檔等多媒體文件數(shù)據(jù)。上 述的多媒體數(shù)據(jù)的屬性信息包括用戶(hù)的標(biāo)識(shí)、用戶(hù)觀看的多媒體數(shù)據(jù)的標(biāo)識(shí)、用戶(hù)所操作 的多媒體數(shù)據(jù)的標(biāo)識(shí)、用戶(hù)對(duì)多媒體數(shù)據(jù)的歷史操作信息以及多媒體數(shù)據(jù)所屬的多媒體數(shù) 據(jù)類(lèi)型。此外,該屬性信息還包括文件屬性信息,例如,當(dāng)該多媒體數(shù)據(jù)為音頻時(shí),該多媒體 數(shù)據(jù)的參數(shù)信息包括:音頻名稱(chēng)、作曲人、作詞人、文件大小等。其中,上述的用戶(hù)的標(biāo)識(shí)可 以為該用戶(hù)的登陸賬號(hào)或者其他可唯一表示該用戶(hù)的標(biāo)識(shí),本實(shí)施例中采用U1、U2、U3…… Un形式表示不同用戶(hù)的標(biāo)識(shí);多媒體數(shù)據(jù)的標(biāo)識(shí)可以為該多媒體數(shù)據(jù)的名稱(chēng)或其他可唯一 表示該多媒體數(shù)據(jù)的標(biāo)識(shí),本實(shí)施例中采用B1、B2、B3、......、Bm表示不同多媒體數(shù)據(jù)的標(biāo) 識(shí)。
[0029] 本實(shí)施例中的每個(gè)多媒體數(shù)據(jù)可以屬于一個(gè)多媒體數(shù)據(jù)類(lèi)型也可以同時(shí)屬于多 個(gè)多媒體數(shù)據(jù)類(lèi)型,例如,某一音頻即屬于小清新類(lèi)型又屬于大陸類(lèi)型。本實(shí)施例中的多媒 體數(shù)據(jù)類(lèi)型的種類(lèi)可以由技術(shù)人員預(yù)先進(jìn)行設(shè)定,并確定出每個(gè)多媒體數(shù)據(jù)所屬的多媒體 數(shù)據(jù)類(lèi)型。
[0030] 示例性的,獲取多媒體數(shù)據(jù)間相關(guān)性的裝置會(huì)獲取預(yù)定時(shí)間范圍內(nèi)所有用戶(hù)的操 作數(shù)據(jù),然后,對(duì)這個(gè)用戶(hù)的操作數(shù)據(jù)進(jìn)行預(yù)處理,提取出用戶(hù)對(duì)多媒體數(shù)據(jù)所執(zhí)行的特定 用戶(hù)操作的數(shù)據(jù),然后將用戶(hù)對(duì)多媒體數(shù)據(jù)所執(zhí)行的特定用戶(hù)操作的數(shù)據(jù)作為多媒體數(shù)據(jù) 的歷史操作信息。例如,對(duì)于音頻來(lái)說(shuō),該特定用戶(hù)操作包括:搜索、單曲循環(huán)、分享、播放、 收藏、切歌、刪除歌曲等,對(duì)于視頻來(lái)說(shuō),該特定用戶(hù)操作包括:搜索、分享、播放、收藏、刪除 等。需要說(shuō)明的是,上述的具體用戶(hù)操作僅僅是一種示例,僅僅是將可以代表用戶(hù)喜好的用 戶(hù)操作篩選出來(lái),然后,為其賦不同的值來(lái)表示用戶(hù)不同的用戶(hù)喜好度。例如,{:搜索5、單曲 循環(huán)4、分享3、收藏2、播放1、切歌-1、刪除歌曲-2}。
[0031] 優(yōu)選的,在步驟101中,可以設(shè)置一個(gè)更新周期,更新周期的長(zhǎng)短可以根據(jù)多媒體 數(shù)據(jù)數(shù)據(jù)庫(kù)更新情況進(jìn)行設(shè)定,例如,可以設(shè)為一個(gè)月,一周或一天,本發(fā)明對(duì)此不進(jìn)行限 制,在每個(gè)更新周期內(nèi)獲取所述每個(gè)更新周期內(nèi)的多媒體數(shù)據(jù)的屬性信息并進(jìn)行更新。本 實(shí)施例下述各步驟均以當(dāng)前周期為例進(jìn)行說(shuō)明。
[0032] 102、獲取多媒體數(shù)據(jù)間相關(guān)性的裝置根據(jù)多媒體數(shù)據(jù)的屬性信息以及預(yù)設(shè)用戶(hù) 操作集中每個(gè)用戶(hù)操作的數(shù)字標(biāo)識(shí)得到矩陣R。
[0033] 示例性的,上述的用戶(hù)操作集中的用戶(hù)操作的數(shù)字標(biāo)識(shí)用于表示用戶(hù)喜好度,上 述的矩陣R的行和列分別表示用戶(hù)的標(biāo)識(shí)和多媒體數(shù)據(jù)的標(biāo)識(shí),矩陣R的元素 Ru表示用戶(hù)i 對(duì)多媒體數(shù)據(jù)j的喜好度。具體的,該矩陣R的元素 Ru可以為用戶(hù)i在預(yù)定時(shí)間內(nèi)對(duì)多媒體數(shù) 據(jù)j執(zhí)行最多的用戶(hù)操作的數(shù)字標(biāo)識(shí),iei,2,……,n;jei,2,……,m;上述的η為用戶(hù)個(gè) 數(shù),上述的m為記錄中η個(gè)用戶(hù)所觀看的不重復(fù)的多媒體數(shù)據(jù)總和。
[0034] 示例性的,上述的矩陣R的每個(gè)多媒體類(lèi)型所在列中所有元素累計(jì)后的數(shù)值從左 至右依次遞減且所述矩陣R中每個(gè)用戶(hù)標(biāo)識(shí)所在行中所有元素累計(jì)后的數(shù)值由上至下依次 遞減;或者,上述的矩陣R的每個(gè)多媒體類(lèi)型所在列中所有元素累計(jì)后的數(shù)值從左至右依次 遞增且所述矩陣R中每個(gè)用戶(hù)標(biāo)識(shí)所在行中所有元素累計(jì)后的數(shù)值由上至下依次遞增。具 體的,獲取多媒體數(shù)據(jù)間相關(guān)性的裝置根據(jù)多媒體數(shù)據(jù)的屬性信息得到矩陣R前,首先會(huì)獲 取一個(gè)矩陣Α,該矩陣Α的行和列分別表示用戶(hù)的標(biāo)識(shí)和多媒體數(shù)據(jù)的標(biāo)識(shí),該矩陣Α的元素 表示用戶(hù)i在預(yù)定時(shí)間內(nèi)對(duì)多媒體數(shù)據(jù)j執(zhí)行最多的用戶(hù)操作對(duì)應(yīng)的標(biāo)識(shí)。然后,根據(jù)矩 陣A的每個(gè)多媒體類(lèi)型所在列中所有元素累計(jì)后的數(shù)值以及矩陣A中每個(gè)用戶(hù)標(biāo)識(shí)所在行 中所有元素累計(jì)后的數(shù)值,按照行從左至右,列從上至下對(duì)該矩陣A先列后行依次遞減或遞 增分別排序得到矩陣R。
[0035]示例性的,若以多媒體數(shù)據(jù)為音頻為例,假設(shè)用戶(hù)和音頻的集合分別為 U2, . . .,Un}和. . .,Bm},若將用戶(hù)標(biāo)識(shí)作為矩陣行,將多媒體數(shù)據(jù)標(biāo)識(shí)作為矩陣 列,則定義用戶(hù)與視頻間的關(guān)系矩陣為矩陣丨^,Rlj表示用戶(hù)出在預(yù)定時(shí)間內(nèi)對(duì)音頻& 執(zhí)行最多的用戶(hù)操作對(duì)應(yīng)的數(shù)字標(biāo)識(shí)。若搜索為5、單曲循環(huán)為4、分享為3、收藏為2、播放為 1、切歌為-1、刪除歌曲為-2時(shí),這里以表1來(lái)說(shuō)明對(duì)矩陣A的含義,用表2來(lái)說(shuō)明矩陣R的含 義,需要說(shuō)明的是,真實(shí)的矩陣A以及矩陣R具有百萬(wàn)級(jí)的維度,下述的表1以及表2僅僅是對(duì) 矩陣A以及矩陣R的含義進(jìn)行說(shuō)明,僅僅是一種示例。
[0036]
[0037]
[0038] 表