一種基于內(nèi)容環(huán)境增強的用戶事件相關(guān)度計算方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種計算機語言內(nèi)容處理方法,尤其涉及計算機自然語言處理領(lǐng)域的 一種基于內(nèi)容環(huán)境增強的用戶事件相關(guān)度計算方法。
【背景技術(shù)】
[0002] 話題模型是一種在文檔集合中提取抽象話題的統(tǒng)計學(xué)方法。隱含狄利克雷分布 (LatentDirichletallocation,LDA)是一種常用的主題模型,它以詞袋模型為前提,即一 篇文檔是由一組詞構(gòu)成的集合,詞與詞之間沒有順序以及先后的關(guān)系。一篇文檔可以包含 多個話題,文檔中的每一個詞則由其中的某一個話題生成。LDA方法可以將文檔集合中每篇 文檔的話題以概率分布的形式生成,并且每個話題也能以詞語分布的形式來描述。由于通 常話題的數(shù)量遠遠小于詞的數(shù)量,因此主題模型還可以用來進行文本對象的降維,以優(yōu)化 文本處理的效果。
[0003] 協(xié)同過濾是推薦系統(tǒng)中的一種重要方法,被廣泛應(yīng)用于眾多商業(yè)系統(tǒng)中。協(xié)同過 濾利用興趣相似、擁有共同經(jīng)驗的其他用戶對某個對象的評分,來預(yù)測目標(biāo)用戶對該對象 的喜好程序。協(xié)同過濾可以分為基于用戶的方法、基于對象的方法和基于模型的方法。協(xié) 同過濾方法依賴于用戶針對對象的歷史評分信息,因此對于一個新加入系統(tǒng)的對象,只有 當(dāng)足夠的用戶對其進行評分后,推薦系統(tǒng)才能推薦出該對象。
[0004] 學(xué)習(xí)排序是在構(gòu)建信息檢索系統(tǒng)的排序模型時的一種機器學(xué)習(xí)方法,并被廣泛應(yīng) 用于許多領(lǐng)域,如文檔獲取、推薦系統(tǒng)、情感分析和廣告投放等。在推薦系統(tǒng)中,學(xué)習(xí)排序是 一種重要的排序方法。學(xué)習(xí)排序針對被推薦的用戶、所要推薦的對象和推薦任務(wù)學(xué)習(xí)特定 的排序模型。在用戶和推薦對象之間定義多項特征,訓(xùn)練數(shù)據(jù)是這些特征向量的列表的集 合,每個列表中的向量之間具有特定的順序。排序模型的目標(biāo)是對于新的對象產(chǎn)生的向量 組成的列表,能夠以訓(xùn)練集中相似的方式產(chǎn)生對象的排列。學(xué)習(xí)排序方法分為逐點方法、逐 對方法以及逐列方法。
[0005] 社交事件不同于傳統(tǒng)的推薦內(nèi)容,每一個待推薦的事件都還未發(fā)生,因此是一個 新對象。已有的推薦方法不能很好地解決這類新對象的推薦問題。另一方面,事件社交網(wǎng) 絡(luò)中包含了用戶之間線上和線下的雙重社交關(guān)系,需要同時考慮這兩種社交關(guān)系對用戶和 事件之間相關(guān)度的影響。本發(fā)明以用戶和事件的內(nèi)容為核心,充分挖掘內(nèi)容環(huán)境相關(guān)的多 種信息,提供了用戶事件相關(guān)度的計算方法,并解決了社交事件推薦的問題。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明的目的在于針對現(xiàn)有技術(shù)的不足,提供了一種基于內(nèi)容環(huán)境增強的用戶事 件相關(guān)度計算方法,其中包含有話題模型方法、推薦系統(tǒng)領(lǐng)域的協(xié)同過濾方法以及機器學(xué) 習(xí)領(lǐng)域的學(xué)習(xí)排序方法,很好地解決計算機語言處理中社交事件推薦這類對象計算的技術(shù) 問題。
[0007] 本發(fā)明解決其技術(shù)問題采用的技術(shù)方案如下:
[0008] 1)由單個用戶的描述信息和單個社交事件的描述信息分別組成文本形式的用戶 檔案和社交事件檔案,利用話題模型將用戶檔案和社交事件檔案降低維度轉(zhuǎn)化成話題分布 向量;通過比較一個用戶檔案和一個社交事件檔案的話題分布,計算得到該用戶檔案和該 社交事件檔案對應(yīng)下的用戶偏好特征;
[0009] 2)將用戶偏好特征作為用戶參加所對應(yīng)事件的概率,利用該概率對該事件進行計 算,采用基于協(xié)同過濾方法分別提取線上、線下社交影響特征;
[0010] 3)根據(jù)用戶所在地舉辦的所有事件,得到該城市的當(dāng)?shù)嘏d趣的話題分布,通過計 算事件和當(dāng)?shù)嘏d趣的話題分布的相似度來得到事件對于用戶的本地流行度特征;即通過計 算事件4和用戶ui所在城市的當(dāng)?shù)嘏d趣之間的話題相似度,作為事件^的本地流行度特 征。
[0011] 4)由步驟1)?步驟3)中得到的各個特征通過訓(xùn)練學(xué)習(xí)排序模型,得到用戶事件 相關(guān)度,以對用戶進行事件推薦。
[0012] 所述的用戶檔案包括用戶的描述信息以及該用戶已參加過的社交事件的描述信 息。
[0013] 所述的用戶的描述信息和社交事件的描述信息均為由關(guān)鍵詞構(gòu)成的集合,用戶的 描述信息為用戶自己選擇的興趣關(guān)鍵詞集合,社交事件的描述信息為社交事件的屬性關(guān)鍵 詞集合。
[0014] 本發(fā)明通過事件的內(nèi)容信息,即名字和描述來構(gòu)建事件4的檔案,該檔案是以文 本的形式表示,即一個詞的集合。用戶Ui的檔案則由兩部分組成:用戶自己選擇的興趣關(guān) 鍵詞以及他已參加過的社交事件,這樣用戶檔案便同時包含了用戶的自我評價和過往的行 為。
[0015] 然后,對用戶和事件的檔案進行比較,以得到用戶和事件的相似度。但是,由于文 本內(nèi)容的高維度和稀疏性,直接對文本形式的檔案之間計算相似度效果不好。因此,步驟1) 的用戶偏好特征采用以下方式計算得到:
[0016] 采用話題模型中的LDA方法將文本形式的用戶檔案和社交事件檔案分別轉(zhuǎn)化成 用戶話題分布貧和社交事件話題分布%,Ui表示第i個用戶,^表示第j個社交事件,然 后采用以下公式計算用戶偏好特征Pref(Ui,ej):
[0017]
【主權(quán)項】
1. 一種基于內(nèi)容環(huán)境增強的用戶事件相關(guān)度計算方法,其特征在于,該方法的步驟如 下: 1) 由單個用戶的描述信息和單個社交事件的描述信息分別組成文本形式的用戶檔案 和社交事件檔案,利用話題模型將用戶檔案和社交事件檔案降低維度轉(zhuǎn)化成話題分布;通 過比較一個用戶檔案和一個社交事件檔案的話題分布,計算得到該用戶檔案和該社交事件 檔案對應(yīng)下的用戶偏好特征; 2) 將用戶偏好特征作為用戶參加所對應(yīng)事件的概率,利用該概率對該事件進行計算, 采用基于協(xié)同過濾方法分別提取線上、線下社交影響特征; 3) 根據(jù)用戶所在城市舉辦的所有事件,得到該城市的當(dāng)?shù)嘏d趣的話題分布,通過計算 事件和當(dāng)?shù)嘏d趣的話題分布的相似度來得到事件對于用戶的本地流行度特征; 4) 由步驟1)?步驟3)中得到的各個特征通過訓(xùn)練學(xué)習(xí)排序模型,得到用戶事件相關(guān) 度。
2. 根據(jù)權(quán)利要求1所述的一種基于內(nèi)容環(huán)境增強的用戶事件相關(guān)度計算方法,其特征 在于:所述的用戶檔案包括用戶的描述信息以及該用戶已參加過的社交事件的描述信息。
3. 根據(jù)權(quán)利要求1所述的一種基于內(nèi)容環(huán)境增強的用戶事件相關(guān)度計算方法,其特征 在于:所述的用戶的描述信息和社交事件的描述信息均為由關(guān)鍵詞構(gòu)成的集合,用戶的描 述信息為用戶自己選擇的興趣關(guān)鍵詞集合,社交事件的描述信息為社交事件的屬性關(guān)鍵詞 集合。
4. 根據(jù)權(quán)利要求1所述的一種基于內(nèi)容環(huán)境增強的用戶事件相關(guān)度計算方法,其特征 在于:所述的步驟1)的用戶偏好特征采用以下方式計算得到: 采用話題模型中的LDA方法將文本形式的用戶檔案和社交事件檔案分別轉(zhuǎn)化成用戶 話題分布%和社交事件話題分布%W表示第i個用戶,h表示第j個社交事件,然后采 用以下公式計算用戶偏好特征Pref(Upe」):
其中,g和%分別是用戶檔案和事件檔案下的話題分布,M是用戶話題分布&am