亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于混合推薦的數(shù)字化圖書館資源個(gè)性化推薦方法與系統(tǒng)的制作方法

文檔序號(hào):10725074閱讀:320來源:國(guó)知局
一種基于混合推薦的數(shù)字化圖書館資源個(gè)性化推薦方法與系統(tǒng)的制作方法
【專利摘要】本發(fā)明提供了一種基于混合推薦的數(shù)字化圖書館資源個(gè)性化推薦方法與系統(tǒng),包括如下五個(gè)步驟:步驟1,用戶資料管理與維護(hù);步驟2,圖書資源數(shù)據(jù)提取與管理;步驟3,圖書資源內(nèi)容數(shù)據(jù)分析;步驟4,用戶行為數(shù)據(jù)分析;步驟5,圖書資源個(gè)性化推薦。本發(fā)明利用數(shù)字化圖書館中已有的數(shù)字化信息,面向用戶進(jìn)行個(gè)性化圖書資源推薦,為有效地利用圖書資源提供一種新的思路,并以該方法為基礎(chǔ),提出了一種基于混合推薦的個(gè)性化資源推薦系統(tǒng)。通過該方法進(jìn)行數(shù)據(jù)分析和資源推薦,可以有效地幫助用戶發(fā)現(xiàn)自己感興趣的圖書資料,同時(shí)有效提高圖書資料的流通利用率和用戶滿意度,為國(guó)家知識(shí)創(chuàng)新提供有效的技術(shù)支撐。
【專利說明】
一種基于混合推薦的數(shù)字化圖書館資源個(gè)性化推薦方法與 系統(tǒng)
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及信息技術(shù)和互聯(lián)網(wǎng)技術(shù)領(lǐng)域,具體而言,涉及一種基于混合推薦的數(shù) 字化圖書館資源個(gè)性化推薦方法和系統(tǒng)。
【背景技術(shù)】
[0002] 圖書資源是知識(shí)傳播的重要載體,許多傳統(tǒng)的圖書館和企事業(yè)單位的圖書資料室 擁有大量的實(shí)體書籍資料,這些資料是一個(gè)國(guó)家知識(shí)創(chuàng)新的源泉。人們?cè)谑褂眠@些資源的 過程中,留下了大量的借閱記錄等歷史數(shù)據(jù),隨著管理體系的現(xiàn)代化,這些歷史記錄大部分 已經(jīng)采用電子計(jì)算機(jī)進(jìn)行存儲(chǔ)和管理。雖然實(shí)體書籍資源要實(shí)現(xiàn)數(shù)字化,一方面因?yàn)樯婕?版權(quán)等多方面問題可能性不大,另一方面由于基數(shù)龐大,從工作量而言也不太現(xiàn)實(shí),但是如 何的更好地利用它們,確實(shí)是一個(gè)現(xiàn)實(shí)中需要急切考慮的問題。如果考慮到那些大量的已 經(jīng)完成數(shù)字化的歷史記錄,則可以為利用這些傳統(tǒng)實(shí)體書籍資源提供新的思路。
[0003] 隨著計(jì)算機(jī)技術(shù)的進(jìn)步,目前越來越多的書籍已經(jīng)使用數(shù)字化方式進(jìn)行出版,數(shù) 字出版物已經(jīng)成為了許多圖書館的收藏重點(diǎn),也成為了許多圖書館購(gòu)置資金中占用最多的 部分之一。
[0004] 隨著我國(guó)經(jīng)濟(jì)的發(fā)展,人們對(duì)精神生活的要求越來越高,國(guó)家也投入了大量的資 金用于圖書館建設(shè),圖書館中收藏著越來越多的實(shí)體書籍和數(shù)字出版物等資源,這也為圖 書館資源的管理和流通帶來了更高的要求。提高它們的利用率是一個(gè)迫切需要解決的問 題,也是圖書館的使命與任務(wù),更是圖書館價(jià)值的體現(xiàn)與存在的目的。
[0005] 圖書館及企事業(yè)單位的圖書資料室在運(yùn)行過程中產(chǎn)生了大量的館藏情況、借閱記 錄等歷史數(shù)據(jù),這些內(nèi)容基本上已經(jīng)采用計(jì)算機(jī)管理,實(shí)現(xiàn)了數(shù)字化。針對(duì)數(shù)字化資源,系 統(tǒng)中也保存了大量的用戶信息、用戶行為、讀者評(píng)價(jià)等信息,在現(xiàn)階段卻缺乏對(duì)這些數(shù)據(jù)的 有效分析和利用,造成了這部分?jǐn)?shù)據(jù)價(jià)值的浪費(fèi)。

【發(fā)明內(nèi)容】

[0006] 針對(duì)上述問題,本發(fā)明提出了一種利用數(shù)字化圖書館及企事業(yè)單位的圖書資料室 已有的數(shù)字化信息,面向用戶進(jìn)行個(gè)性化資源推薦的方法,為有效地利用圖書資源提供一 種新的思路,并以該方法為基礎(chǔ),提出了一種基于混合推薦的個(gè)性化資源推薦系統(tǒng)。通過該 方法進(jìn)行數(shù)據(jù)分析和資源推薦,可以有效地幫助用戶發(fā)現(xiàn)自己感興趣的圖書資料,同時(shí)有 效提高圖書資料的流通利用率和用戶滿意度,為國(guó)家知識(shí)創(chuàng)新提供有效的技術(shù)支撐。
[0007] 本發(fā)明基于已有的圖書管理系統(tǒng),作為一個(gè)獨(dú)立的組件與原系統(tǒng)無縫集成,最大 限度利用系統(tǒng)現(xiàn)在資源,實(shí)現(xiàn)一個(gè)通用的系統(tǒng)。
[0008] 本發(fā)明提供了一種基于混合推薦的數(shù)字化圖書館資源個(gè)性化推薦方法和系統(tǒng),包 括:
[0009] 步驟1,用戶資料管理與維護(hù),用戶是系統(tǒng)的核心和服務(wù)對(duì)象,為了更好地為用戶 提供個(gè)性化服務(wù),需要對(duì)用戶資料數(shù)據(jù)進(jìn)行管理和維護(hù);
[0010]步驟2,圖書資源數(shù)據(jù)提取與管理,本方法與圖書管理系統(tǒng)進(jìn)行集成,提取出圖書 資料的書目等元數(shù)據(jù),在系統(tǒng)允許或者版權(quán)允許范圍內(nèi)提出圖書資料內(nèi)容信息,為實(shí)現(xiàn)基 于內(nèi)容的推薦做準(zhǔn)備;
[0011] 步驟3,圖書資源內(nèi)容數(shù)據(jù)分析,圖書資源內(nèi)容數(shù)據(jù)主要是文本數(shù)據(jù),本方法采用 文本數(shù)據(jù)處理方法進(jìn)行處理,鑒于通常的內(nèi)容數(shù)據(jù)主要是中文數(shù)據(jù),本方法將主要針對(duì)中 文數(shù)據(jù)進(jìn)行;
[0012] 步驟4,用戶行為數(shù)據(jù)分析,本方法基于用戶行為數(shù)據(jù)進(jìn)行分析和建模,將用戶的 行為作為隱式反饋來推測(cè)用戶的興趣,以彌補(bǔ)之前基于圖書資源自身內(nèi)容信息缺失的不 足;
[0013]步驟5,圖書資源個(gè)性化推薦,主要考慮基于圖書資料內(nèi)容的推薦,基于用戶行為 的推薦,以及二者的混合推薦方式,得出最終的推薦列表。
[0014] 作為本發(fā)明進(jìn)一步的改進(jìn),步驟1中,用戶資料數(shù)據(jù)包括用戶的人口統(tǒng)計(jì)學(xué)數(shù)據(jù)和 用戶的借閱歷史數(shù)據(jù);
[0015] 其中,
[0016] 用戶的人口統(tǒng)計(jì)學(xué)數(shù)據(jù),即用戶個(gè)人的基本描述信息,如性別、年齡、職業(yè)、住址、 聯(lián)系方式等,但不需要采集任何用戶的敏感身份信息,可以有效保護(hù)用戶隱私;
[0017] 用戶的借閱歷史數(shù)據(jù),通過借閱歷史數(shù)據(jù)的處理,可以發(fā)現(xiàn)興趣。我們將用戶的借 閱的圖書資料的文本內(nèi)容信息作為用戶興趣偏好向量。
[0018] 作為本發(fā)明進(jìn)一步的改進(jìn),步驟2中,圖書資源數(shù)據(jù)包括圖書資源的元數(shù)據(jù)和圖書 資源的內(nèi)容數(shù)據(jù);
[0019] 其中,
[0020] 圖書資源的元數(shù)據(jù),即圖書資源的基本描述信息,如標(biāo)題、作者、出版社、書號(hào)、簡(jiǎn) 介、關(guān)鍵字等,基于該部分內(nèi)容可以進(jìn)行基本的基于內(nèi)容的推薦;
[0021] 圖書資源的內(nèi)容數(shù)據(jù),將在系統(tǒng)允許或者版權(quán)允許范圍內(nèi)實(shí)現(xiàn)該功能,如果有圖 書資源內(nèi)容的補(bǔ)充,可以實(shí)現(xiàn)更好的基于內(nèi)容的推薦。
[0022] 作為本發(fā)明進(jìn)一步的改進(jìn),步驟3具體包括:
[0023]步驟301,分詞,分詞的主要作用是將整篇文檔處理為獨(dú)立的特征,本方法將采用 通常的中文分詞方法進(jìn)行;
[0024] 步驟302,去停用詞,去停用詞是刪除文檔中對(duì)于分類無用的信息、各種特殊符號(hào) 與字符,以及一些在文檔中頻繁出現(xiàn)的字和詞,如"的"、"地"、"得"之類的助詞,它們對(duì)于文 檔分類的結(jié)果不起任何作用,這類詞被統(tǒng)一稱為"停用詞",它們的集合被稱為"停用詞表";
[0025] 步驟303,特征選擇和特征提取,在文本的向量空間模型表示方法中,訓(xùn)練集中出 現(xiàn)的任何詞匯都將可能成為表示文本的特征項(xiàng),訓(xùn)練集中的全部特征項(xiàng)所構(gòu)成的向量空間 維度相當(dāng)高,一般情況下,都會(huì)達(dá)到幾萬維。因此,降維方法是文本分類器學(xué)習(xí)之前經(jīng)常采 用的一種方法,主要目的是在保證或提高分類器性能的前提下,有效降低向量空間的維度。 降維方法又可劃分為特征選擇和特征提取,特征選擇后的特征集合只是原來特征空間的一 個(gè)子集,而特征提取得到的特征已經(jīng)不是原始特征空間中的特征,而是原始特征的組合或 者變換后得到的全新特征。本方法主要采用特征選擇技術(shù)進(jìn)行降維,并加快系統(tǒng)的執(zhí)行。
[0026]步驟304,特征加權(quán),特征加權(quán)是指對(duì)文本數(shù)據(jù)中的每個(gè)特征,根據(jù)其對(duì)分類貢獻(xiàn) 程度的高低賦予一定權(quán)重的過程。本方法主要使用在信息檢索領(lǐng)域廣泛使用的tf-idf權(quán) 重;
[0027]步驟305,內(nèi)容相似度計(jì)算,本方法主要采用基于余弦相似度的計(jì)算。
[0028] 作為本發(fā)明進(jìn)一步的改進(jìn),步驟5具體包括:
[0029] 步驟501,基于圖書資料內(nèi)容的推薦首先根據(jù)用戶的借閱歷史數(shù)據(jù)的文本特征向 量,構(gòu)造用戶的興趣向量,其次根據(jù)圖書資料內(nèi)容的文本內(nèi)容向量與用戶興趣向量的相似 度,得到用戶的基于內(nèi)容的推薦列表;
[0030] 步驟502,基于用戶行為的推薦,首先為每位用戶尋找其鄰居用戶,再基于其鄰居 用戶,估計(jì)用戶對(duì)未評(píng)分項(xiàng)目的隱式評(píng)分,并引入時(shí)間函數(shù),把鄰居用戶在不同時(shí)間的評(píng)分 給予不同的權(quán)重,從而使得鄰居用戶近期給出的評(píng)分對(duì)目標(biāo)用戶評(píng)分估計(jì)的影響要高于其 較長(zhǎng)時(shí)間之前給出的評(píng)分。如用戶還未在系統(tǒng)中產(chǎn)生行為,則可以利用用戶的人口統(tǒng)計(jì)學(xué) 數(shù)據(jù),尋找與其具有相似人口統(tǒng)計(jì)學(xué)特征的鄰居用戶,估計(jì)用戶對(duì)未評(píng)分項(xiàng)目的隱式評(píng)分, 可以較好的解決系統(tǒng)的"冷啟動(dòng)"問題;
[0031] 步驟503,二者混合推薦方式,給出推薦結(jié)果列表,結(jié)合之前基于圖書資源內(nèi)容和 基于用戶行為得出的圖書相似度和隱式評(píng)分等關(guān)鍵數(shù)據(jù),擬合并產(chǎn)生它們的分?jǐn)?shù),將分?jǐn)?shù) 從大到小排序的前L件作為最終的推薦結(jié)果,形成長(zhǎng)度為L(zhǎng)的推薦結(jié)果列表并返回給用戶, 即完成推薦。
【附圖說明】
[0032] 圖1為本發(fā)明實(shí)施例所述的一種基于混合推薦的數(shù)字化圖書館資源個(gè)性化推薦方 法和系統(tǒng)的流程圖;
[0033] 圖2為本發(fā)明實(shí)施例所述的一種基于混合推薦的數(shù)字化圖書館資源個(gè)性化推薦方 法和系統(tǒng)中步驟3的流程圖;
[0034] 圖3為本發(fā)明實(shí)施例所述的一種基于混合推薦的數(shù)字化圖書館資源個(gè)性化推薦方 法和系統(tǒng)中步驟4的可行的用戶行為與對(duì)應(yīng)的隱式評(píng)分值的關(guān)系表;
[0035] 圖4為本發(fā)明實(shí)施例所述的一種基于混合推薦的數(shù)字化圖書館資源個(gè)性化推薦方 法和系統(tǒng)中步驟5的流程圖。
【具體實(shí)施方式】
[0036] 下面通過具體的實(shí)施例并結(jié)合附圖對(duì)本發(fā)明做進(jìn)一步的詳細(xì)描述。
[0037] 實(shí)施例1,如圖1所示,本發(fā)明實(shí)施例的一種基于混合推薦的數(shù)字化圖書館資源個(gè) 性化推薦方法和系統(tǒng),包括:
[0038] 步驟1,用戶資料管理與維護(hù),用戶是系統(tǒng)的核心和服務(wù)對(duì)象,為了更好地為用戶 提供個(gè)性化服務(wù),需要對(duì)用戶資料數(shù)據(jù)進(jìn)行管理和維護(hù);
[0039] 用戶資料數(shù)據(jù)包括用戶的人口統(tǒng)計(jì)學(xué)數(shù)據(jù)和用戶的借閱歷史數(shù)據(jù);
[0040] 其中,
[0041] 用戶的人口統(tǒng)計(jì)學(xué)數(shù)據(jù),即用戶個(gè)人的基本描述信息,如性別、年齡、職業(yè)、住址、 聯(lián)系方式等,但不需要采集任何用戶的敏感身份信息,可以有效保護(hù)用戶隱私;
[0042]用戶的借閱歷史數(shù)據(jù),通過借閱歷史數(shù)據(jù)的處理,可以發(fā)現(xiàn)興趣。我們將用戶的借 閱的圖書資料的文本內(nèi)容信息作為用戶興趣偏好向量。
[0043]步驟2,圖書資源數(shù)據(jù)提取與管理,本方法與圖書管理系統(tǒng)進(jìn)行集成,提取出圖書 資料的書目等元數(shù)據(jù),在系統(tǒng)允許或者版權(quán)允許范圍內(nèi)提出圖書資料內(nèi)容信息,為實(shí)現(xiàn)基 于內(nèi)容的推薦做準(zhǔn)備;
[0044] 圖書資源數(shù)據(jù)包括圖書資源的元數(shù)據(jù)和圖書資源的內(nèi)容數(shù)據(jù);
[0045] 其中,
[0046] 圖書資源的元數(shù)據(jù),即圖書資源的基本描述信息,如標(biāo)題、作者、出版社、書號(hào)、簡(jiǎn) 介、關(guān)鍵字等,基于該部分內(nèi)容可以進(jìn)行基本的基于內(nèi)容的推薦;
[0047] 圖書資源的內(nèi)容數(shù)據(jù),將在系統(tǒng)允許或者版權(quán)允許范圍內(nèi)實(shí)現(xiàn)該功能,如果有圖 書資源內(nèi)容的補(bǔ)充,可以實(shí)現(xiàn)更好的基于內(nèi)容的推薦。
[0048] 步驟3,圖書資源內(nèi)容數(shù)據(jù)分析,圖書資源內(nèi)容數(shù)據(jù)主要是文本數(shù)據(jù),本方法采用 文本數(shù)據(jù)處理方法進(jìn)行處理,鑒于通常的內(nèi)容數(shù)據(jù)主要是中文數(shù)據(jù),本方法將主要針對(duì)中 文數(shù)據(jù)進(jìn)行;
[0049] 如圖2所示,具體包括以下步驟:
[0050] 步驟301,分詞,分詞的主要作用是將整篇文檔處理為獨(dú)立的特征,本方法將采用 通常的中文分詞方法進(jìn)行;
[0051] 步驟302,去停用詞,去停用詞是刪除文檔中對(duì)于分類無用的信息、各種特殊符號(hào) 與字符,以及一些在文檔中頻繁出現(xiàn)的字和詞,如"的"、"地"、"得"之類的助詞,它們對(duì)于文 檔分類的結(jié)果不起任何作用,這類詞被統(tǒng)一稱為"停用詞",它們的集合被稱為"停用詞表";
[0052] 步驟303,特征選擇和特征提取,在文本的向量空間模型表示方法中,訓(xùn)練集中出 現(xiàn)的任何詞匯都將可能成為表示文本的特征項(xiàng),訓(xùn)練集中的全部特征項(xiàng)所構(gòu)成的向量空間 維度相當(dāng)高,一般情況下,都會(huì)達(dá)到幾萬維。因此,降維方法是文本分類器學(xué)習(xí)之前經(jīng)常采 用的一種方法,主要目的是在保證或提高分類器性能的前提下,有效降低向量空間的維度。 降維方法又可劃分為特征選擇和特征提取,特征選擇后的特征集合只是原來特征空間的一 個(gè)子集,而特征提取得到的特征已經(jīng)不是原始特征空間中的特征,而是原始特征的組合或 者變換后得到的全新特征。本方法主要采用特征選擇技術(shù)進(jìn)行降維,并加快系統(tǒng)的執(zhí)行。
[0053] 步驟304,特征加權(quán),特征加權(quán)是指對(duì)文本數(shù)據(jù)中的每個(gè)特征,根據(jù)其對(duì)分類貢獻(xiàn) 程度的高低賦予一定權(quán)重的過程。本方法主要使用在信息檢索領(lǐng)域廣泛使用的tf-idf權(quán) 重;
[0054]步驟305,內(nèi)容相似度計(jì)算,本方法主要采用基于余弦相似度的計(jì)算。
[0055]步驟4,用戶行為數(shù)據(jù)分析,本方法基于用戶行為數(shù)據(jù)進(jìn)行分析和建模,將用戶的 行為作為隱式反饋來推測(cè)用戶的興趣,以彌補(bǔ)之前基于圖書資源自身內(nèi)容信息缺失的不 足;
[0056]用戶的行為數(shù)據(jù),即用戶與管理系統(tǒng)進(jìn)行交互時(shí)所產(chǎn)生的各類數(shù)據(jù),包括借閱記 錄、瀏覽記錄、檢索記錄和收藏記錄等。由于管理系統(tǒng)或者用戶習(xí)慣的不同,目前在實(shí)際應(yīng) 用中對(duì)圖書資源進(jìn)行顯式評(píng)分的情形比較少見,這不利于對(duì)用戶行為進(jìn)行量化的分析。對(duì) 此我們采取隱式評(píng)分機(jī)制,通過制定較為合理的策略,將用戶常見的對(duì)圖書資源的非評(píng)分 行為轉(zhuǎn)化為評(píng)分行為,從而為之后的分析和計(jì)算做好鋪墊。圖3展示了一種可行的用戶行為 與對(duì)應(yīng)的隱式評(píng)分值的關(guān)系表。根據(jù)這樣的關(guān)系就可以構(gòu)造出用戶對(duì)圖書資源的隱式評(píng)分 矩陣R=(r^),矩陣中的每一項(xiàng)表示第i位用戶對(duì)第j件圖書資源的隱式評(píng)分。可以發(fā) 現(xiàn),若用戶對(duì)某件圖書資源的隱式評(píng)分越高,則表示他對(duì)該圖書資源的感興趣程度越大。 [0057]步驟5,圖書資源個(gè)性化推薦,主要考慮基于圖書資料內(nèi)容的推薦,基于用戶行為 的推薦,以及二者的混合推薦方式,得出最終的推薦列表。
[0058] 如圖4所示,具體包括以下步驟:
[0059] 步驟501,基于圖書資料內(nèi)容的推薦,首先根據(jù)用戶的借閱歷史數(shù)據(jù)的文本特征向 量,構(gòu)造用戶的興趣向量,再根據(jù)圖書資料內(nèi)容的文本內(nèi)容向量與用戶興趣向量的相似度, 得到用戶的基于內(nèi)容的推薦列表;
[0060] 步驟502,基于用戶行為的推薦,首先為每位用戶尋找其鄰居用戶。也就是說,我們 可以根據(jù)隱式評(píng)分矩陣R=(r^)分析出任兩位用戶之間的相似性。與某位用戶相似性較高 的其他用戶,稱為該用戶的鄰居用戶。本方法采用Pearson相關(guān)系數(shù)計(jì)算用戶之間的相似性 Sim(u,v),其公式為:
[0062] 其中ru,i、rv,i分別表示用戶u和v對(duì)圖書資源i的評(píng)分,/;、rv分別表示用戶u和v對(duì) 所有圖書資源的平均評(píng)分,Iu,v表示用戶u和v共同評(píng)分過的圖書資源集合。
[0063] 基于其鄰居用戶,估計(jì)用戶對(duì)未評(píng)分項(xiàng)目的隱式評(píng)分Q(u,i),其公式為:
[0065]其中Sim(u,v)表示目標(biāo)用戶u和鄰居用戶v的相似性,rvi表示鄰居用戶v對(duì)圖書資 源i的評(píng)分值,f分別表示目標(biāo)用戶u和鄰居用戶v對(duì)所有圖書資源的平均評(píng)分,Nu表示 目標(biāo)用戶u的鄰居用戶集合。
[0066]公式還引入了時(shí)間函數(shù),其公式為:
[0068] 其中t為進(jìn)行評(píng)價(jià)的時(shí)間,k為影響因子。它把鄰居用戶在不同時(shí)間的評(píng)分給予不 同的權(quán)重,從而使得鄰居用戶近期給出的評(píng)分對(duì)目標(biāo)用戶評(píng)分估計(jì)的影響要高于其較長(zhǎng)時(shí) 間之前給出的評(píng)分。
[0069] 如用戶還未在系統(tǒng)中產(chǎn)生行為,則可以利用用戶的人口統(tǒng)計(jì)學(xué)數(shù)據(jù),尋找與其具 有相似人口統(tǒng)計(jì)學(xué)特征的鄰居用戶,估計(jì)用戶對(duì)未評(píng)分項(xiàng)目的隱式評(píng)分,可以較好的解決 系統(tǒng)的"冷啟動(dòng)"問題。
[0070] 步驟503,二者混合推薦方式,給出推薦結(jié)果列表,結(jié)合之前基于圖書資源內(nèi)容和 基于用戶行為得出的圖書相似度和隱式評(píng)分等關(guān)鍵數(shù)據(jù),擬合并產(chǎn)生分?jǐn)?shù)Sc 〇re(u,i),其 公式為:
[0071] Score(u,i)=a · P(u,i)+P · Q(u,i)
[0072] 其中P(u,i)為用戶u的已借閱項(xiàng)目對(duì)未借閱項(xiàng)目i的基于內(nèi)容的相似度,Q(u,i)為 用戶u對(duì)項(xiàng)目i的隱式評(píng)分,a,β為影響因子。
[0073]容易看出,若用戶u對(duì)于某件圖書資源i的分?jǐn)?shù)Sc〇re(u,i)越高,則代表用戶越有 可能喜歡它。因此,計(jì)算出用戶u對(duì)于每件圖書資源i的分?jǐn)?shù)Sc〇re(u,i)之后,將分?jǐn)?shù)從大到 小排序的前L件作為最終的推薦結(jié)果,形成長(zhǎng)度為L(zhǎng)的推薦結(jié)果列表并返回給用戶u,即完成 推薦。
[0074]以上所述僅為本發(fā)明的優(yōu)選實(shí)施例而已,并不用于限制本發(fā)明,對(duì)于本領(lǐng)域的技 術(shù)人員來說,本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修 改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
【主權(quán)項(xiàng)】
1. 一種基于混合推薦的數(shù)字化圖書館資源個(gè)性化推薦方法和系統(tǒng),其特征在于,包括: 步驟1,用戶資料管理與維護(hù),用戶是系統(tǒng)的核心和服務(wù)對(duì)象,為了更好地為用戶提供 個(gè)性化服務(wù),需要對(duì)用戶資料數(shù)據(jù)進(jìn)行管理和維護(hù); 步驟2,圖書資源數(shù)據(jù)提取與管理,本方法與圖書管理系統(tǒng)進(jìn)行集成,提取出圖書資料 的書目等元數(shù)據(jù),在系統(tǒng)允許或者版權(quán)允許范圍內(nèi)提出圖書資料內(nèi)容信息,為實(shí)現(xiàn)基于內(nèi) 容的推薦做準(zhǔn)備; 步驟3,圖書資源內(nèi)容數(shù)據(jù)分析,圖書資源內(nèi)容數(shù)據(jù)主要是文本數(shù)據(jù),本方法采用文本 數(shù)據(jù)處理方法進(jìn)行處理,鑒于通常的內(nèi)容數(shù)據(jù)主要是中文數(shù)據(jù),本方法將主要針對(duì)中文數(shù) 據(jù)進(jìn)行; 步驟4,用戶行為數(shù)據(jù)分析,本方法基于用戶行為數(shù)據(jù)進(jìn)行分析和建模,將用戶的行為 作為隱式反饋來推測(cè)用戶的興趣,以彌補(bǔ)之前基于圖書資源自身內(nèi)容信息缺失的不足; 步驟5,圖書資源個(gè)性化推薦,主要考慮基于圖書資料內(nèi)容的推薦,基于用戶行為的推 薦,以及二者的混合推薦方式,得出最終的推薦列表。2. 根據(jù)權(quán)利要求1所述的基于混合推薦的數(shù)字化圖書館資源個(gè)性化推薦方法和系統(tǒng), 其特征在于,步驟1中,用戶資料數(shù)據(jù)包括用戶的人口統(tǒng)計(jì)學(xué)數(shù)據(jù)和用戶的借閱歷史數(shù)據(jù); 其中, 用戶的人口統(tǒng)計(jì)學(xué)數(shù)據(jù),即用戶個(gè)人的基本描述信息,如性別、年齡、職業(yè)、住址、聯(lián)系 方式等,但不需要采集任何用戶的敏感身份信息,可以有效保護(hù)用戶隱私; 用戶的借閱歷史數(shù)據(jù),通過借閱歷史數(shù)據(jù)的處理,可以發(fā)現(xiàn)興趣。我們將用戶的借閱的 圖書資料的文本內(nèi)容信息作為用戶興趣偏好向量。3. 根據(jù)權(quán)利要求1所述的基于混合推薦的數(shù)字化圖書館資源個(gè)性化推薦方法和系統(tǒng), 其特征在于,步驟2中,圖書資源數(shù)據(jù)包括圖書資源的元數(shù)據(jù)和圖書資源的內(nèi)容數(shù)據(jù); 其中, 圖書資源的元數(shù)據(jù),即圖書資源的基本描述信息,如標(biāo)題、作者、出版社、書號(hào)、簡(jiǎn)介、關(guān) 鍵字等,基于該部分內(nèi)容可以進(jìn)行基本的基于內(nèi)容的推薦; 圖書資源的內(nèi)容數(shù)據(jù),將在系統(tǒng)允許或者版權(quán)允許范圍內(nèi)實(shí)現(xiàn)該功能,如果有圖書資 源內(nèi)容的補(bǔ)充,可以實(shí)現(xiàn)更好的基于內(nèi)容的推薦。4. 根據(jù)權(quán)利要求1所述的基于混合推薦的數(shù)字化圖書館資源個(gè)性化推薦方法和系統(tǒng), 其特征在于,步驟3具體包括: 步驟301,分詞,分詞的主要作用是將整篇文檔處理為獨(dú)立的特征,本方法將采用通常 的中文分詞方法進(jìn)行; 步驟302,去停用詞,去停用詞是刪除文檔中對(duì)于分類無用的信息、各種特殊符號(hào)與字 符,以及一些在文檔中頻繁出現(xiàn)的字和詞,如"的"、"地"、"得"之類的助詞,它們對(duì)于文檔分 類的結(jié)果不起任何作用,這類詞被統(tǒng)一稱為"停用詞",它們的集合被稱為"停用詞表"; 步驟303,特征選擇和特征提取,在文本的向量空間模型表示方法中,訓(xùn)練集中出現(xiàn)的 任何詞匯都將可能成為表示文本的特征項(xiàng),訓(xùn)練集中的全部特征項(xiàng)所構(gòu)成的向量空間維度 相當(dāng)高,一般情況下,都會(huì)達(dá)到幾萬維。因此,降維方法是文本分類器學(xué)習(xí)之前經(jīng)常采用的 一種方法,主要目的是在保證或提高分類器性能的前提下,有效降低向量空間的維度。降維 方法又可劃分為特征選擇和特征提取,特征選擇后的特征集合只是原來特征空間的一個(gè)子 集,而特征提取得到的特征已經(jīng)不是原始特征空間中的特征,而是原始特征的組合或者變 換后得到的全新特征。本方法主要采用特征選擇技術(shù)進(jìn)行降維,并加快系統(tǒng)的執(zhí)行。 步驟304,特征加權(quán),特征加權(quán)是指對(duì)文本數(shù)據(jù)中的每個(gè)特征,根據(jù)其對(duì)分類貢獻(xiàn)程度 的高低賦予一定權(quán)重的過程。本方法主要使用在信息檢索領(lǐng)域廣泛使用的tf-idf權(quán)重; 步驟305,內(nèi)容相似度計(jì)算,本方法主要采用基于余弦相似度的計(jì)算。5.根據(jù)權(quán)利要求1所述的基于混合推薦的數(shù)字化圖書館資源個(gè)性化推薦方法和系統(tǒng), 其特征在于,步驟5具體包括: 步驟501,基于圖書資料內(nèi)容的推薦首先根據(jù)用戶的借閱歷史數(shù)據(jù)的文本特征向量,構(gòu) 造用戶的興趣向量,其次根據(jù)圖書資料內(nèi)容的文本內(nèi)容向量與用戶興趣向量的相似度,得 到用戶的基于內(nèi)容的推薦列表; 步驟502,基于用戶行為的推薦,首先為每位用戶尋找其鄰居用戶,再基于其鄰居用戶, 估計(jì)用戶對(duì)未評(píng)分項(xiàng)目的隱式評(píng)分,并引入時(shí)間函數(shù),把鄰居用戶在不同時(shí)間的評(píng)分給予 不同的權(quán)重,從而使得鄰居用戶近期給出的評(píng)分對(duì)目標(biāo)用戶評(píng)分估計(jì)的影響要高于其較長(zhǎng) 時(shí)間之前給出的評(píng)分。如用戶還未在系統(tǒng)中產(chǎn)生行為,則可以利用用戶的人口統(tǒng)計(jì)學(xué)數(shù)據(jù), 尋找與其具有相似人口統(tǒng)計(jì)學(xué)特征的鄰居用戶,估計(jì)用戶對(duì)未評(píng)分項(xiàng)目的隱式評(píng)分,可以 較好的解決系統(tǒng)的"冷啟動(dòng)"問題; 步驟503,二者混合推薦方式,給出推薦結(jié)果列表,結(jié)合之前基于圖書資源內(nèi)容和基于 用戶行為得出的圖書相似度和隱式評(píng)分等關(guān)鍵數(shù)據(jù),擬合并產(chǎn)生它們的分?jǐn)?shù),將分?jǐn)?shù)從大 到小排序的前L件作為最終的推薦結(jié)果,形成長(zhǎng)度為L(zhǎng)的推薦結(jié)果列表并返回給用戶,即完 成推薦。
【文檔編號(hào)】G06F17/30GK106095949SQ201610422756
【公開日】2016年11月9日
【申請(qǐng)日】2016年6月14日 公開號(hào)201610422756.4, CN 106095949 A, CN 106095949A, CN 201610422756, CN-A-106095949, CN106095949 A, CN106095949A, CN201610422756, CN201610422756.4
【發(fā)明人】張邦佐, 劉明昊, 徐坤, 彭凱宇, 牟聯(lián)富, 李瀚森
【申請(qǐng)人】東北師范大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1