亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

基于譜聚類集成的廣播電視用戶分群系統(tǒng)及方法

文檔序號:9375901閱讀:522來源:國知局
基于譜聚類集成的廣播電視用戶分群系統(tǒng)及方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及廣播電視領(lǐng)域,更為具體地,涉及一種基于譜聚類集成的廣播電視用 戶分群系統(tǒng)及方法。
【背景技術(shù)】
[0002] 隨著廣播電視行業(yè)的發(fā)展以及電視資源的不斷豐富,用戶在收視過程中形成了不 同的節(jié)目類型偏好。通過對用戶收視行為進行分析,對用戶進行分群,找到具有不同收視習 慣的用戶群體,進行個性節(jié)目推薦,成為了廣電行業(yè)研究焦點。
[0003] 聚類分析,就是把對象按照性質(zhì)上的親疏程度分成多個類或簇,使得類或簇內(nèi)的 數(shù)據(jù)具有較高相似度,類或簇間的數(shù)據(jù)具有較高的相異程度,目前聚類分析已成功應(yīng)用到 信息檢索、數(shù)據(jù)挖掘等多個領(lǐng)域。聚類集成利用集成學(xué)習技術(shù),通過學(xué)習合并數(shù)據(jù)集的多個 聚類結(jié)果,得到一個新的聚類結(jié)果。與單一聚類算法相比,聚類集成通過處理分布式數(shù)據(jù) 源,不僅可以提高聚類結(jié)果的準確性和魯棒性,而且還可以檢測和處理孤立點以及噪音情 況。
[0004] 在聚類集成算法中,傳統(tǒng)一致性函數(shù)是通過將聚類集體中的多個聚類結(jié)果進行結(jié) 合(或稱為集成),以生成一個統(tǒng)一的聚類結(jié)果。傳統(tǒng)聚類集成算法主要采用基于互聯(lián)合矩 陣、基于圖形劃分或基于最大似然估計的一致性函數(shù)對聚類成員進行匹配,具有很大的局 限性。采用基于傳統(tǒng)一致性函數(shù)的聚類集成方法對用戶進行分群,并不能得到很好的效果。

【發(fā)明內(nèi)容】

[0005] 鑒于上述問題,本發(fā)明的目的是提供一種能夠?qū)V播電視用戶進行準確分群的基 于譜聚類集成的廣播電視用戶分群方法及系統(tǒng)。
[0006] 根據(jù)本發(fā)明的一個方面,提供一種基于譜聚類的集成廣播電視用戶分群系統(tǒng),包 括:輸入單元,用于輸入確定廣播電視用戶收視偏好所需的參數(shù),其中,所述參數(shù)至少包括: 節(jié)目類型、屬性特征指標、空間區(qū)域、時間區(qū)域、簇個數(shù)和組個數(shù),其中,所述屬性特征指標 是與收視時長成正比的一個或多個廣播電視參數(shù);節(jié)目數(shù)據(jù)庫,用于將各節(jié)目類型的節(jié)目 播放信息存儲為數(shù)據(jù)源或者從網(wǎng)站上采集各節(jié)目的節(jié)目標簽,將各節(jié)目的節(jié)目標簽與各節(jié) 目的播放信息存儲為數(shù)據(jù)源,其中,節(jié)目標簽是對電視節(jié)目內(nèi)容的多角度概括;收視數(shù)據(jù) 庫,通過用戶機頂盒的收視信號采集用戶對各節(jié)目類型的節(jié)目的收看信息,并存儲為數(shù)據(jù) 源;收視偏好空間構(gòu)建單元,根據(jù)輸入單元輸入的屬性特征指標,從節(jié)目數(shù)據(jù)庫和收視數(shù)據(jù) 庫調(diào)取計算節(jié)目類型或節(jié)目標簽的屬性特征指標所需的數(shù)據(jù)源,并進行計算得到各用戶對 各節(jié)目類型或各節(jié)目標簽的屬性特征指標數(shù)據(jù),構(gòu)成收視偏好矩陣,即,收視偏好空間;第 一分群單元,基于收視偏好空間對廣播電視用戶進行多次分群,包括第一相似度空間構(gòu)建 單元,利用高斯函數(shù)構(gòu)建基于收視偏好矩陣的相似度矩陣,即相似度空間;第一特征向量空 間構(gòu)建單元,構(gòu)建相似度矩陣的對角矩陣,將對角矩陣進行拉普拉斯變換,得到前k個最大 的特征值對應(yīng)的特征向量構(gòu)成特征向量空間,其中,k為簇個數(shù),為自然數(shù),同時也是特征向 量空間的列數(shù);第一譜聚類分群單元,將特征向量空間中每一行作為一個數(shù)據(jù)點,每一次采 用k個數(shù)據(jù)點作為k個簇的初始聚類中心對廣播電視用戶進行分群,直到特征向量空間中 每一個數(shù)據(jù)點均作為初始聚類中心進行分群,多次分群結(jié)束,多次分群結(jié)果構(gòu)成分群集合, 其中,每一次分群結(jié)果稱為一個譜聚類成員,每一次分群結(jié)果形成k個簇;匹配單元,采用 基于譜聚類的一致性函數(shù)對第一分群單元形成的分群集合中的簇進行共識匹配,找到不同 簇之間的對應(yīng)關(guān)系,構(gòu)建簇關(guān)系圖;第二分群單元,將匹配單元形成的簇關(guān)系圖轉(zhuǎn)換為簇關(guān) 系度矩陣,其作為相似度矩陣,采用譜聚類方法對簇進行分組;集成單元,集成第一分群單 元和第二分群單元的分群結(jié)果,將數(shù)據(jù)點在不同簇中出現(xiàn)次數(shù)最多的簇所在的組作為該數(shù) 據(jù)點最終所在組,從而確定每一組用戶的收視偏好。
[0007] 根據(jù)本發(fā)明的另一個方面,提供一種基于譜聚類集成的廣播電視用戶分群方法, 包括:通過輸入單元輸入確定廣播電視用戶收視偏好所需的參數(shù),其中,所述參數(shù)至少包 括:節(jié)目類型、屬性特征指標、空間區(qū)域、時間區(qū)域、簇個數(shù)和組個數(shù);構(gòu)建收視偏好空間, 具體地,根據(jù)輸入單元輸入的屬性特征指標,分別從節(jié)目數(shù)據(jù)庫和收視數(shù)據(jù)庫調(diào)取上述時 間區(qū)域和空間區(qū)域范圍內(nèi)計算各用戶對節(jié)目類型的屬性特征指標數(shù)據(jù)所需的數(shù)據(jù)源,并計 算得到各用戶對各節(jié)目類型或各節(jié)目標簽的屬性特征指標數(shù)據(jù),組合形成收視偏好矩陣; 基于收視偏好空間對廣播電視用戶進行多次分群,具體地,采用高斯函數(shù)構(gòu)建基于收視偏 好矩陣的相似度矩陣,構(gòu)建相似度矩陣的對角矩陣,將對角矩陣進行拉普拉斯變換,得到前 k個最大的特征值對應(yīng)的特征向量構(gòu)成特征向量空間,其中,k為簇個數(shù),為自然數(shù),也是特 征向量空間中的列數(shù),將特征向量空間中每一行作為一個數(shù)據(jù)點,每一行的元素作為數(shù)據(jù) 點,每一次采用k個數(shù)據(jù)點作為k個簇的初始聚類中心對廣播電視用戶進行分群,直到特征 向量空間中每一個數(shù)據(jù)點均作為初始聚類中心進行分群,多次分群結(jié)束,多次分群結(jié)果組 成分群集合,其中,每一次分群結(jié)果稱為一個譜聚類成員,每一次分群結(jié)果形成k個簇;構(gòu) 建簇關(guān)系圖,具體地,采用基于譜聚類的一致性函數(shù)對上述分群集合中的簇進行共識匹配, 找到不同簇之間的對應(yīng)關(guān)系,構(gòu)建簇關(guān)系圖;基于簇關(guān)系圖采用譜聚類算法對不同分群結(jié) 果中的簇進行分組,具體地,將簇關(guān)系圖轉(zhuǎn)換為簇關(guān)系度矩陣,其作為相似度矩陣,采用譜 聚類方法對簇進行分組;集成基于收視偏好空間對廣播電視用戶進行多次分群和基于簇關(guān) 系圖對簇進行分組的分群結(jié)果,將數(shù)據(jù)點在不同簇中出現(xiàn)次數(shù)最多的簇所在的組作為該數(shù) 據(jù)點最終所在組,從而確定每一組用戶的收視偏好。
[0008] 本發(fā)明所述基于譜聚類集成的廣播電視用戶分群系統(tǒng)及方法通過構(gòu)建節(jié)目類型 或節(jié)目標簽的收視偏好空間,基于所述收視偏好空間采用譜聚類方法將廣播電視用戶分成 多個簇,根據(jù)多個簇之間的關(guān)系構(gòu)建簇關(guān)系圖,基于簇關(guān)系圖采用譜聚類方法再對簇進行 分組,最后集成用戶在不同簇中出現(xiàn)的次數(shù)作為其所屬組,對廣播電視用戶進行了多次分 群,提高了分群的準確性,并且將基于譜聚類的一致性函數(shù)應(yīng)用到廣播電視領(lǐng)域,提高了分 群的集成性,可以產(chǎn)生更加準確的聚類集成效果。
【附圖說明】
[0009] 通過參考以下結(jié)合附圖的說明及權(quán)利要求書的內(nèi)容,并且隨著對本發(fā)明的更全面 理解,本發(fā)明的其它目的及結(jié)果將更加明白及易于理解。在附圖中:
[0010] 圖1是本發(fā)明基于譜聚類集成的廣播電視用戶分群系統(tǒng);
[0011] 圖2是現(xiàn)有技術(shù)電視節(jié)目分類體系的示意圖;
[0012] 圖3是本發(fā)明節(jié)目標簽的示意圖;
[0013] 圖4是本發(fā)明基于譜聚類集成的廣播電視用戶分群方法的流程圖;
[0014] 圖5是本發(fā)明構(gòu)建收視偏好空間一個實施例的流程圖;
[0015] 圖6是本發(fā)明構(gòu)建收視偏好空間另一個實施例的流程圖;
[0016] 圖7是本發(fā)明基于收視偏好空間對廣播電視用戶進行多次分群的一個實施例的 流程圖;
[0017] 圖8是本發(fā)明基于收視偏好空間對廣播電視用戶進行多次分群的另一個實施例 的流程圖;
[0018] 圖9是本發(fā)明采用k-means算法基于特征向量歸一化矩陣對廣播電視用戶進行多 次分群的一個實施例的流程圖;
[0019] 圖10是本發(fā)明采用k-means算法基于特征向量歸一化矩陣對廣播電視用戶進行 多次分群的另一個實施例的流程圖;
[0020] 圖11是本發(fā)明對基于收視偏好空間對廣播電視用戶分群形成分群集合構(gòu)建簇關(guān) 系圖的流程圖;
[0021] 圖12是本發(fā)明族關(guān)系圖的不意圖;
[0022] 圖13是本發(fā)明基于簇關(guān)系圖采用譜聚類算法對不同分群結(jié)果中的簇進行分組的 流程圖;
[0023] 圖14是本發(fā)明采用k-means算法基于特征向量歸一化矩陣對簇進行分組的流程 圖;
[0024] 圖15是本發(fā)明采用聚類方法對簇進行分組的示意圖。
[0025] 在所有附圖中相同的標號指示相似或相應(yīng)的特征或功能。
【具體實施方式】
[0026] 在下面的描述中,出于說明的目的,為了提供對一個或多個實施例的全面理解,闡 述了許多具體細節(jié)。然而,很明顯,也可以在沒有這些具體細節(jié)的情況下實現(xiàn)這些實施例。 以下將結(jié)合附圖對本發(fā)明的具體實施例進行詳細描述。
[0027] 以下將結(jié)合附圖對本發(fā)明的具體實施例進行詳細描述。
[0028] 圖1是本發(fā)明基于譜聚類集成的廣播電視用戶分群系統(tǒng),如圖1所示,所述廣播電 視用戶分群系統(tǒng),包括:
[0029] 輸入單元110,用于輸入確定廣播電視用戶收視偏好所需的各種參數(shù),其中,所述 參數(shù)至少包括:節(jié)目類型、屬性特征指標、空間區(qū)域、時間區(qū)域、簇個數(shù)和組個數(shù),其中,所述 屬性特征指標是與收視時長成正比的一個或多個廣播電視參數(shù),輸入單元110可以是觸摸 屏、鍵盤、手寫板、鼠標等,其中,所述節(jié)目類型包括節(jié)目分類體系(圖2示出)中的一種或 者多種類型,例如,可以為電視劇、電影、新聞、綜藝、廣告中的一種或多種;所述屬性特征指 標是與收視時長成正比的一個或多個廣播電視參數(shù),例如,收視時長、收視占比、忠誠指數(shù) 等,其中,收視占比是指某類節(jié)目單位播出時間內(nèi),用戶的收視時長,反映了用戶對節(jié)目類 型的偏愛程度,忠誠指數(shù)是指用戶對某類節(jié)目單位視頻次內(nèi)的收視時長,反映了用戶對該 節(jié)目的忠誠程度;所述空間區(qū)域可以是省、市、區(qū)等,例如北京市;所述時間區(qū)域為選定各 節(jié)目類型的計算時間段,例如,時間區(qū)域為2003年1月1日至2014年1月1日;
[0030] 節(jié)目數(shù)據(jù)庫120,用于將各節(jié)目類型的節(jié)目播放信息存儲為數(shù)據(jù)源或者從網(wǎng)站上 采集各節(jié)目的節(jié)目標簽,將各節(jié)目的節(jié)目標簽與各節(jié)目的播放信息存儲為數(shù)據(jù)源,其中,節(jié) 目標簽是對電視節(jié)目內(nèi)容的多角度概括,每一個節(jié)目標簽體現(xiàn)電視節(jié)目一個方面的特性, 如圖3所示,節(jié)目標簽包括節(jié)目類型標簽、年代標簽、參加人員標簽等,其中節(jié)目類型標簽 可以是新聞類、電視劇類、動漫類等;年代標簽可以是古代、現(xiàn)代、抗日年代等;參加人員標 簽可以是演員、導(dǎo)演、編劇等;
[0031] 收視數(shù)據(jù)庫130,通過用戶機頂盒的收視信號采集用戶對各節(jié)目類型的節(jié)目的收 看信息,并存儲為數(shù)據(jù)源;
[0032] 收視偏好空間構(gòu)建單元140,根據(jù)輸入單元110輸入的屬性特征指標,從節(jié)目數(shù)據(jù) 庫120和收視數(shù)據(jù)庫130調(diào)取計算節(jié)目類型或節(jié)目標簽的屬性特征指標所需的數(shù)據(jù)源,并 進行計算得到各用戶對各節(jié)目類型或各節(jié)目標簽的屬性特征指標數(shù)據(jù),組合形成收視偏好 矩陣,即,收視偏好空間,具體地,將在圖5至6中進行詳細描述;
[0033] 第一分群單元150,基于收視偏好空間構(gòu)建單元140構(gòu)建的收視偏好空間對廣播 電視用戶進行多次分群,包括:
[0034] 第一相似度空間構(gòu)建單元151,利用高斯函數(shù)構(gòu)建基于收視偏好矩陣的相似度矩 陣,即相似度空間;
[0035] 第一特征向量空間構(gòu)建單元152,構(gòu)建相似度矩陣的對角矩陣,將對角矩陣進行拉 普拉斯變換,得到前K個最大的特征值對應(yīng)的特征向量構(gòu)成特征向量空間,其中,k為簇個 數(shù),為自然數(shù),同時也是特征向量空間的列數(shù);
[0036] 第一譜聚類單元153,將特征向量空間中每一行作為一個數(shù)據(jù)點,每一次采用k個 數(shù)據(jù)點作為k個簇的初始聚類中心對
當前第1頁1 2 3 4 5 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1