亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

云環(huán)境下基于數(shù)據(jù)語義的信息推薦方法

文檔序號:8282295閱讀:481來源:國知局
云環(huán)境下基于數(shù)據(jù)語義的信息推薦方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種云環(huán)境下的數(shù)據(jù)處理方法,尤其是涉及一種云環(huán)境下基于數(shù)據(jù)語義的信息推薦方法。
【背景技術(shù)】
[0002]互聯(lián)網(wǎng)和物聯(lián)網(wǎng)技術(shù)的迅速發(fā)展使得海量信息同時(shí)呈現(xiàn)在我們面前,例如,當(dāng)當(dāng)網(wǎng)上有近百萬本圖書、Netflix在線上有數(shù)百萬部電影、eBay網(wǎng)每天都有數(shù)百萬的新刊登物品,而del.1c1.us社區(qū)網(wǎng)絡(luò)上面有超過15億的網(wǎng)頁收藏,信息過載呈爆發(fā)趨勢,其結(jié)果導(dǎo)致了終端用戶無法準(zhǔn)確和高效地發(fā)現(xiàn)自己感興趣的對象。因此,對于企業(yè)而言,信息過載問題將嚴(yán)重降低其自身的經(jīng)濟(jì)效益和市場競爭力。目前,信息推薦系統(tǒng)是解決信息超載問題最有效的工具之一。在日趨激烈的競爭環(huán)境下,信息推薦系統(tǒng)已經(jīng)不僅僅是一種商業(yè)的營銷手段,更重要的是可以增進(jìn)用戶的黏著性
[0003]近年來,研究人員把信息推薦系統(tǒng)的研究重心放在推薦方法的設(shè)計(jì)上,這主要是因?yàn)橥扑]方法是信息推薦系統(tǒng)的核心部分,它決定著系統(tǒng)性能的優(yōu)劣。目前,主流的推薦方法有3類,即基于內(nèi)容的推薦方法、協(xié)同過濾推薦方法和混合推薦方法。
[0004]基于內(nèi)容的推薦方法(Content-based Recommendat1n)主要采用人工智能、數(shù)據(jù)挖掘和概率統(tǒng)計(jì)等技術(shù),通過相關(guān)特征的屬性來定義對象,同時(shí)系統(tǒng)基于用戶評價(jià)對象的特征來學(xué)習(xí)用戶的興趣,依據(jù)用戶資料與待預(yù)測對象的匹配程度進(jìn)行推薦,努力向客戶推薦與其以前喜歡的產(chǎn)品相似的產(chǎn)品。目前,這方面比較典型的推薦方法有SKCBR方法、ADL方法、SNP方法和YSNLG方法。基于內(nèi)容推薦方法的最大缺陷是:它必須分析產(chǎn)品的內(nèi)容信息,因此對音樂、圖像、視頻等內(nèi)容無能為力,無法分析其信息的質(zhì)量。因此,這類方法在現(xiàn)實(shí)應(yīng)用中存在很大的局限性。
[0005]協(xié)同過濾推薦方法(CollaborativeFiltering Recommendat1n)跟蹤并使用用戶的歷史信息來計(jì)算用戶間的相似性,然后,利用與目標(biāo)用戶相似性較高的鄰居對其他產(chǎn)品的評價(jià)來預(yù)測目標(biāo)用戶對特定產(chǎn)品的喜好程度,最后,系統(tǒng)根據(jù)這一喜好程度來對目標(biāo)用戶進(jìn)行推薦。目前,協(xié)同過濾推薦方法有兩種不同的類型:基于記憶(Memory-based)的方法和基于模型的(Model-based)的方法。基于記憶的方法根據(jù)系統(tǒng)中所有被打過分的產(chǎn)品信息進(jìn)行預(yù)測,而基于模型的方法利用收集到的打分?jǐn)?shù)據(jù)來進(jìn)行學(xué)習(xí)并推薦用戶行為模型,進(jìn)而對某個(gè)產(chǎn)品進(jìn)行預(yù)測打分。協(xié)同過濾推薦方法最大的缺陷是:隨著產(chǎn)品和用戶數(shù)量的增多,方法的時(shí)間復(fù)雜度將呈指數(shù)級增長,從而導(dǎo)致系統(tǒng)無法實(shí)時(shí)或快速推薦適合的產(chǎn)品給用戶。此外,這類方法對于新注冊的用戶和新上線的產(chǎn)品的推薦效果較差。
[0006]為了彌補(bǔ)基于內(nèi)容的推薦方法和協(xié)同過濾推薦方法各自的缺陷,研究人員提出了混合推薦方法(Hybrid Recommendat1n)。針對不同的應(yīng)用場景和需求,混合推薦方法主要分為3類:(1)后集成:使用基于內(nèi)容的推薦方法和協(xié)同過濾推薦方法分別得到推薦列表,集成列表的結(jié)果決定最后推薦的對象。Claypool M等人使用了評分結(jié)果的線性組合,而Pazzani M等人]使用了投票機(jī)制來組合這些推薦結(jié)果。(2)中集成:以一種推薦方法為框架,集成另一種推薦方法。Soboroff I等人使用LSI (Latent Semantic Indexing)索引機(jī)制在基于內(nèi)容的框架中使用精化的用戶特征向量。而Good N等人把用戶當(dāng)作對象,通過基于內(nèi)容的特征提取方法把用戶本身的特征使用到相似度計(jì)算中,而不是僅僅依賴用戶的點(diǎn)擊行為。(3)前集成:直接將基于內(nèi)容和協(xié)同過濾的方法整合到一個(gè)統(tǒng)一的框架模型下。Basu C等人把用戶的年齡和電影的類型放到一個(gè)統(tǒng)一的分類器中訓(xùn)練學(xué)習(xí)。而AnsariA等人使用了貝葉斯混合效果回歸模型,并通過馬爾可夫蒙特卡洛方法得到這個(gè)模犁的參數(shù)。
[0007]然而,我們發(fā)現(xiàn),隨著海量數(shù)據(jù)的出現(xiàn)以及Web 2.0技術(shù)的成熟,現(xiàn)有的信息推薦技術(shù)至少面臨三個(gè)嚴(yán)重問題:(I)網(wǎng)站上大量的用戶和產(chǎn)品的信息是動(dòng)態(tài)改變的,這導(dǎo)致了現(xiàn)有推薦方法需要花費(fèi)巨大的計(jì)算量來重新建模,從而嚴(yán)重影響了推薦結(jié)果的實(shí)時(shí)性;
(2)Web 2.0網(wǎng)絡(luò)開放性使得網(wǎng)站經(jīng)常受到惡意用戶的攻擊,以及用戶流量壓力導(dǎo)致軟件模塊的異常,而現(xiàn)有的信息推薦方法的魯棒性較弱,這致使系統(tǒng)易于癱瘓;(3)現(xiàn)有的信息推薦方法通常只對用戶的當(dāng)前偏好進(jìn)行建模,而不關(guān)心偏好的演變過程,這在很大程度上將影響推薦的質(zhì)量和個(gè)性化自適應(yīng)效果。

【發(fā)明內(nèi)容】

[0008]本發(fā)明的目的就是為了克服上述現(xiàn)有技術(shù)存在的缺陷而提供一種云環(huán)境下基于數(shù)據(jù)語義的信息推薦方法。
[0009]本發(fā)明的目的可以通過以下技術(shù)方案來實(shí)現(xiàn):
[0010]一種云環(huán)境下基于數(shù)據(jù)語義的信息推薦方法,該方法通過基礎(chǔ)數(shù)據(jù)和用戶偏好信息的語義化模塊、云環(huán)境下海量語義信息索引模塊以及基于語義計(jì)算的信息推薦模塊實(shí)現(xiàn)信息推薦,其中
[0011]所述的基礎(chǔ)數(shù)據(jù)和用戶偏好信息的語義化模塊,通過云平臺(tái)獲取基礎(chǔ)數(shù)據(jù)和用戶偏好信息,并對基礎(chǔ)數(shù)據(jù)和用戶偏好信息進(jìn)行語義化描述,構(gòu)件基礎(chǔ)數(shù)據(jù)和用戶偏好信息的本體庫;
[0012]所述的云環(huán)境下海量語義信息索引模塊,對語義化的信息構(gòu)造索引結(jié)構(gòu),并在索引節(jié)點(diǎn)過載時(shí),進(jìn)行索引的分裂和重組;
[0013]所述的基于語義計(jì)算的信息推薦模塊,對基礎(chǔ)數(shù)據(jù)和用戶偏好信息的本體進(jìn)行語義計(jì)算,獲取信息推薦結(jié)果。
[0014]所述的基礎(chǔ)數(shù)據(jù)和用戶偏好信息的語義化模塊,對基礎(chǔ)數(shù)據(jù)的語義進(jìn)行形式化表示,并由此構(gòu)建基礎(chǔ)數(shù)據(jù)本體庫;同時(shí)對用戶偏好信息進(jìn)行顯性語義抽取和隱性語義發(fā)現(xiàn),并由顯性語義和隱性語義構(gòu)建用戶偏好信息本體庫。
[0015]基礎(chǔ)數(shù)據(jù)的本體采用五元組0=(C,R,P,I,A)來表示,其中C表示基礎(chǔ)數(shù)據(jù)中概念術(shù)語的集合,R是在CXC到R上的多元映射,即概念之間的關(guān)系集合,P是說明概念特征的屬性集合,I是概念的實(shí)例集合,A是規(guī)則集合。
[0016]用戶偏好信息的顯性語義抽取利用潛在語義索引和支持向量機(jī)技術(shù)來選擇出文檔片段中的概念,從而完成顯性語義抽??;用戶偏好信息的顯性語義發(fā)現(xiàn)則從選擇的語義概念出發(fā),利用已經(jīng)產(chǎn)生的基礎(chǔ)數(shù)據(jù)本體分析出與選擇出來的語義概念相關(guān)的其他概念、關(guān)系、屬性和實(shí)例,完成隱形語義的發(fā)現(xiàn)。
[0017]所述的索引結(jié)構(gòu)為基于CAN和CHORD混合路由協(xié)議的兩級分布式索引結(jié)構(gòu),其中全局索引分布于云平臺(tái)中的若干個(gè)服務(wù)器上,同時(shí)對于每個(gè)服務(wù)器維護(hù)的全局索引片斷,依據(jù)基于CAN和CHORD混合路由協(xié)議指定的特定服務(wù)器集群來存儲(chǔ)與其對應(yīng)的局部索引。
[0018]所述的基于語義計(jì)算的信息推薦模塊采用兩種方法進(jìn)行信息推薦:
[0019]I)以基礎(chǔ)數(shù)據(jù)本體和用戶偏好信息本體為輸入,以基礎(chǔ)數(shù)據(jù)本體和用戶偏好信息本體進(jìn)行基于本體代數(shù)的語義計(jì)算,保留用戶偏好信息本體相似度高于閾值的基礎(chǔ)數(shù)據(jù)本體,進(jìn)行信息推薦;
[0020]2)首先將該用戶偏好信息本體和從社區(qū)網(wǎng)絡(luò)中獲取的關(guān)聯(lián)用戶偏好信息本體進(jìn)行語義計(jì)算,保留與用戶偏好信息本體相似度高于閾值的關(guān)聯(lián)用戶偏好信息本體,作為關(guān)聯(lián)偏好本體;再將得到的關(guān)聯(lián)偏好本體和基礎(chǔ)數(shù)據(jù)本體進(jìn)行基于本體代數(shù)的語義計(jì)算,保留與關(guān)聯(lián)偏好本體相似度高于閾值的基礎(chǔ)數(shù)據(jù)本體,進(jìn)行信息推薦。
[0021]所述的基于語義計(jì)算的信息推薦模塊還包括用戶偏好演化鏈,該用戶偏好演化鏈由不同時(shí)間節(jié)點(diǎn)的用戶偏好信息本體組成,記錄和跟蹤不同時(shí)期用戶的偏好變化情況。
[0022]與現(xiàn)有技術(shù)相比,本發(fā)明具有以下優(yōu)點(diǎn):
[0023]1、當(dāng)網(wǎng)站上的用戶和產(chǎn)品的信息出現(xiàn)動(dòng)態(tài)改變時(shí),不需要耗費(fèi)巨大的計(jì)算量來重新建模,從而提高了推薦結(jié)果的實(shí)時(shí)性。
[0024]2、基于該方法的信息推薦系統(tǒng)魯棒性較強(qiáng),不易癱瘓。
[0025]3、本發(fā)明包含用戶偏好演化鏈,能夠提高信息推薦的質(zhì)量和個(gè)性化自適應(yīng)效果。
【附圖說明】
[0026]圖1為本發(fā)明的示意圖。
【具體實(shí)施方式】
[0027]下面結(jié)合附圖和具體實(shí)施例對本發(fā)明進(jìn)行詳細(xì)說明。
[0028]實(shí)施例
[0029]如圖1所示,一種云環(huán)境下基于數(shù)據(jù)語義的信息推薦方法,該方法通過基礎(chǔ)數(shù)據(jù)和用戶偏好信息的語義化模塊、云環(huán)境下海量語義信息索引模塊以及基于語義計(jì)算的信息推薦模塊實(shí)現(xiàn)信息推薦,其中
[0030]基礎(chǔ)數(shù)據(jù)和用戶偏好信息的語義化模塊通過云平臺(tái)獲取基礎(chǔ)數(shù)據(jù)和用戶偏好信息,并對基礎(chǔ)數(shù)據(jù)和用戶偏好信息進(jìn)行語義化描述,構(gòu)件基礎(chǔ)數(shù)據(jù)和用戶偏好信息的本體庫。
[0031]基礎(chǔ)數(shù)據(jù)本體用五元組0= (C,R,P,Ι,Α)來表示,其中C表示基礎(chǔ)數(shù)據(jù)中概念術(shù)語的集合:R是在CXC到R上的多元映射,即概念之間的關(guān)系集合;P是說明概念特征的屬性集合:1是概念的實(shí)例集合;A是規(guī)則集合?;诨A(chǔ)數(shù)據(jù)本體的表示模型,為了提高智能
當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
1