一種基于混合推薦的數(shù)字化圖書館資源個(gè)性化推薦方法與系統(tǒng)的制作方法

文檔序號(hào)：10725074閱讀：320來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于混合推薦的數(shù)字化圖書館資源個(gè)性化推薦方法與系統(tǒng)的制作方法
【專利摘要】本發(fā)明提供了一種基于混合推薦的數(shù)字化圖書館資源個(gè)性化推薦方法與系統(tǒng)，包括如下五個(gè)步驟：步驟1，用戶資料管理與維護(hù)；步驟2，圖書資源數(shù)據(jù)提取與管理；步驟3，圖書資源內(nèi)容數(shù)據(jù)分析；步驟4，用戶行為數(shù)據(jù)分析；步驟5，圖書資源個(gè)性化推薦。本發(fā)明利用數(shù)字化圖書館中已有的數(shù)字化信息，面向用戶進(jìn)行個(gè)性化圖書資源推薦，為有效地利用圖書資源提供一種新的思路，并以該方法為基礎(chǔ)，提出了一種基于混合推薦的個(gè)性化資源推薦系統(tǒng)。通過該方法進(jìn)行數(shù)據(jù)分析和資源推薦，可以有效地幫助用戶發(fā)現(xiàn)自己感興趣的圖書資料，同時(shí)有效提高圖書資料的流通利用率和用戶滿意度，為國(guó)家知識(shí)創(chuàng)新提供有效的技術(shù)支撐。
【專利說明】
一種基于混合推薦的數(shù)字化圖書館資源個(gè)性化推薦方法與系統(tǒng)
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及信息技術(shù)和互聯(lián)網(wǎng)技術(shù)領(lǐng)域，具體而言，涉及一種基于混合推薦的數(shù) 字化圖書館資源個(gè)性化推薦方法和系統(tǒng)。
【背景技術(shù)】
[0002] 圖書資源是知識(shí)傳播的重要載體，許多傳統(tǒng)的圖書館和企事業(yè)單位的圖書資料室擁有大量的實(shí)體書籍資料，這些資料是一個(gè)國(guó)家知識(shí)創(chuàng)新的源泉。人們?cè)谑褂眠@些資源的過程中，留下了大量的借閱記錄等歷史數(shù)據(jù)，隨著管理體系的現(xiàn)代化，這些歷史記錄大部分已經(jīng)采用電子計(jì)算機(jī)進(jìn)行存儲(chǔ)和管理。雖然實(shí)體書籍資源要實(shí)現(xiàn)數(shù)字化，一方面因?yàn)樯婕?版權(quán)等多方面問題可能性不大，另一方面由于基數(shù)龐大，從工作量而言也不太現(xiàn)實(shí)，但是如何的更好地利用它們，確實(shí)是一個(gè)現(xiàn)實(shí)中需要急切考慮的問題。如果考慮到那些大量的已經(jīng)完成數(shù)字化的歷史記錄，則可以為利用這些傳統(tǒng)實(shí)體書籍資源提供新的思路。
[0003] 隨著計(jì)算機(jī)技術(shù)的進(jìn)步，目前越來越多的書籍已經(jīng)使用數(shù)字化方式進(jìn)行出版，數(shù) 字出版物已經(jīng)成為了許多圖書館的收藏重點(diǎn)，也成為了許多圖書館購(gòu)置資金中占用最多的部分之一。
[0004] 隨著我國(guó)經(jīng)濟(jì)的發(fā)展，人們對(duì)精神生活的要求越來越高，國(guó)家也投入了大量的資金用于圖書館建設(shè)，圖書館中收藏著越來越多的實(shí)體書籍和數(shù)字出版物等資源，這也為圖書館資源的管理和流通帶來了更高的要求。提高它們的利用率是一個(gè)迫切需要解決的問題，也是圖書館的使命與任務(wù)，更是圖書館價(jià)值的體現(xiàn)與存在的目的。
[0005] 圖書館及企事業(yè)單位的圖書資料室在運(yùn)行過程中產(chǎn)生了大量的館藏情況、借閱記錄等歷史數(shù)據(jù)，這些內(nèi)容基本上已經(jīng)采用計(jì)算機(jī)管理，實(shí)現(xiàn)了數(shù)字化。針對(duì)數(shù)字化資源，系統(tǒng)中也保存了大量的用戶信息、用戶行為、讀者評(píng)價(jià)等信息，在現(xiàn)階段卻缺乏對(duì)這些數(shù)據(jù)的有效分析和利用，造成了這部分?jǐn)?shù)據(jù)價(jià)值的浪費(fèi)。

【發(fā)明內(nèi)容】

[0006] 針對(duì)上述問題，本發(fā)明提出了一種利用數(shù)字化圖書館及企事業(yè)單位的圖書資料室已有的數(shù)字化信息，面向用戶進(jìn)行個(gè)性化資源推薦的方法，為有效地利用圖書資源提供一種新的思路，并以該方法為基礎(chǔ)，提出了一種基于混合推薦的個(gè)性化資源推薦系統(tǒng)。通過該方法進(jìn)行數(shù)據(jù)分析和資源推薦，可以有效地幫助用戶發(fā)現(xiàn)自己感興趣的圖書資料，同時(shí)有效提高圖書資料的流通利用率和用戶滿意度，為國(guó)家知識(shí)創(chuàng)新提供有效的技術(shù)支撐。
[0007] 本發(fā)明基于已有的圖書管理系統(tǒng)，作為一個(gè)獨(dú)立的組件與原系統(tǒng)無縫集成，最大限度利用系統(tǒng)現(xiàn)在資源，實(shí)現(xiàn)一個(gè)通用的系統(tǒng)。
[0008] 本發(fā)明提供了一種基于混合推薦的數(shù)字化圖書館資源個(gè)性化推薦方法和系統(tǒng)，包括：
[0009] 步驟1，用戶資料管理與維護(hù)，用戶是系統(tǒng)的核心和服務(wù)對(duì)象，為了更好地為用戶提供個(gè)性化服務(wù)，需要對(duì)用戶資料數(shù)據(jù)進(jìn)行管理和維護(hù)；
[0010]步驟2,圖書資源數(shù)據(jù)提取與管理，本方法與圖書管理系統(tǒng)進(jìn)行集成，提取出圖書資料的書目等元數(shù)據(jù)，在系統(tǒng)允許或者版權(quán)允許范圍內(nèi)提出圖書資料內(nèi)容信息，為實(shí)現(xiàn)基于內(nèi)容的推薦做準(zhǔn)備；
[0011] 步驟3,圖書資源內(nèi)容數(shù)據(jù)分析，圖書資源內(nèi)容數(shù)據(jù)主要是文本數(shù)據(jù)，本方法采用文本數(shù)據(jù)處理方法進(jìn)行處理，鑒于通常的內(nèi)容數(shù)據(jù)主要是中文數(shù)據(jù)，本方法將主要針對(duì)中文數(shù)據(jù)進(jìn)行；
[0012] 步驟4,用戶行為數(shù)據(jù)分析，本方法基于用戶行為數(shù)據(jù)進(jìn)行分析和建模，將用戶的行為作為隱式反饋來推測(cè)用戶的興趣，以彌補(bǔ)之前基于圖書資源自身內(nèi)容信息缺失的不足；
[0013]步驟5,圖書資源個(gè)性化推薦，主要考慮基于圖書資料內(nèi)容的推薦，基于用戶行為的推薦，以及二者的混合推薦方式，得出最終的推薦列表。
[0014] 作為本發(fā)明進(jìn)一步的改進(jìn)，步驟1中，用戶資料數(shù)據(jù)包括用戶的人口統(tǒng)計(jì)學(xué)數(shù)據(jù)和用戶的借閱歷史數(shù)據(jù)；
[0015] 其中，
[0016] 用戶的人口統(tǒng)計(jì)學(xué)數(shù)據(jù)，即用戶個(gè)人的基本描述信息，如性別、年齡、職業(yè)、住址、聯(lián)系方式等，但不需要采集任何用戶的敏感身份信息，可以有效保護(hù)用戶隱私；
[0017] 用戶的借閱歷史數(shù)據(jù)，通過借閱歷史數(shù)據(jù)的處理，可以發(fā)現(xiàn)興趣。我們將用戶的借閱的圖書資料的文本內(nèi)容信息作為用戶興趣偏好向量。
[0018] 作為本發(fā)明進(jìn)一步的改進(jìn)，步驟2中，圖書資源數(shù)據(jù)包括圖書資源的元數(shù)據(jù)和圖書資源的內(nèi)容數(shù)據(jù)；
[0019] 其中，
[0020] 圖書資源的元數(shù)據(jù)，即圖書資源的基本描述信息，如標(biāo)題、作者、出版社、書號(hào)、簡(jiǎn) 介、關(guān)鍵字等，基于該部分內(nèi)容可以進(jìn)行基本的基于內(nèi)容的推薦；
[0021] 圖書資源的內(nèi)容數(shù)據(jù)，將在系統(tǒng)允許或者版權(quán)允許范圍內(nèi)實(shí)現(xiàn)該功能，如果有圖書資源內(nèi)容的補(bǔ)充，可以實(shí)現(xiàn)更好的基于內(nèi)容的推薦。
[0022] 作為本發(fā)明進(jìn)一步的改進(jìn)，步驟3具體包括：
[0023]步驟301，分詞，分詞的主要作用是將整篇文檔處理為獨(dú)立的特征，本方法將采用通常的中文分詞方法進(jìn)行；
[0024] 步驟302,去停用詞，去停用詞是刪除文檔中對(duì)于分類無用的信息、各種特殊符號(hào) 與字符，以及一些在文檔中頻繁出現(xiàn)的字和詞，如"的"、"地"、"得"之類的助詞，它們對(duì)于文檔分類的結(jié)果不起任何作用，這類詞被統(tǒng)一稱為"停用詞"，它們的集合被稱為"停用詞表"；
[0025] 步驟303,特征選擇和特征提取，在文本的向量空間模型表示方法中，訓(xùn)練集中出現(xiàn)的任何詞匯都將可能成為表示文本的特征項(xiàng)，訓(xùn)練集中的全部特征項(xiàng)所構(gòu)成的向量空間維度相當(dāng)高，一般情況下，都會(huì)達(dá)到幾萬維。因此，降維方法是文本分類器學(xué)習(xí)之前經(jīng)常采用的一種方法，主要目的是在保證或提高分類器性能的前提下，有效降低向量空間的維度。降維方法又可劃分為特征選擇和特征提取，特征選擇后的特征集合只是原來特征空間的一個(gè)子集，而特征提取得到的特征已經(jīng)不是原始特征空間中的特征，而是原始特征的組合或者變換后得到的全新特征。本方法主要采用特征選擇技術(shù)進(jìn)行降維，并加快系統(tǒng)的執(zhí)行。
[0026]步驟304，特征加權(quán)，特征加權(quán)是指對(duì)文本數(shù)據(jù)中的每個(gè)特征，根據(jù)其對(duì)分類貢獻(xiàn) 程度的高低賦予一定權(quán)重的過程。本方法主要使用在信息檢索領(lǐng)域廣泛使用的tf-idf權(quán) 重；
[0027]步驟305,內(nèi)容相似度計(jì)算，本方法主要采用基于余弦相似度的計(jì)算。
[0028] 作為本發(fā)明進(jìn)一步的改進(jìn)，步驟5具體包括：
[0029] 步驟501，基于圖書資料內(nèi)容的推薦首先根據(jù)用戶的借閱歷史數(shù)據(jù)的文本特征向量，構(gòu)造用戶的興趣向量，其次根據(jù)圖書資料內(nèi)容的文本內(nèi)容向量與用戶興趣向量的相似度，得到用戶的基于內(nèi)容的推薦列表；
[0030] 步驟502,基于用戶行為的推薦，首先為每位用戶尋找其鄰居用戶，再基于其鄰居用戶，估計(jì)用戶對(duì)未評(píng)分項(xiàng)目的隱式評(píng)分，并引入時(shí)間函數(shù)，把鄰居用戶在不同時(shí)間的評(píng)分給予不同的權(quán)重，從而使得鄰居用戶近期給出的評(píng)分對(duì)目標(biāo)用戶評(píng)分估計(jì)的影響要高于其較長(zhǎng)時(shí)間之前給出的評(píng)分。如用戶還未在系統(tǒng)中產(chǎn)生行為，則可以利用用戶的人口統(tǒng)計(jì)學(xué) 數(shù)據(jù)，尋找與其具有相似人口統(tǒng)計(jì)學(xué)特征的鄰居用戶，估計(jì)用戶對(duì)未評(píng)分項(xiàng)目的隱式評(píng)分，可以較好的解決系統(tǒng)的"冷啟動(dòng)"問題；
[0031] 步驟503,二者混合推薦方式，給出推薦結(jié)果列表，結(jié)合之前基于圖書資源內(nèi)容和基于用戶行為得出的圖書相似度和隱式評(píng)分等關(guān)鍵數(shù)據(jù)，擬合并產(chǎn)生它們的分?jǐn)?shù)，將分?jǐn)?shù) 從大到小排序的前L件作為最終的推薦結(jié)果，形成長(zhǎng)度為L(zhǎng)的推薦結(jié)果列表并返回給用戶，即完成推薦。
【附圖說明】
[0032] 圖1為本發(fā)明實(shí)施例所述的一種基于混合推薦的數(shù)字化圖書館資源個(gè)性化推薦方法和系統(tǒng)的流程圖；
[0033] 圖2為本發(fā)明實(shí)施例所述的一種基于混合推薦的數(shù)字化圖書館資源個(gè)性化推薦方法和系統(tǒng)中步驟3的流程圖；
[0034] 圖3為本發(fā)明實(shí)施例所述的一種基于混合推薦的數(shù)字化圖書館資源個(gè)性化推薦方法和系統(tǒng)中步驟4的可行的用戶行為與對(duì)應(yīng)的隱式評(píng)分值的關(guān)系表；
[0035] 圖4為本發(fā)明實(shí)施例所述的一種基于混合推薦的數(shù)字化圖書館資源個(gè)性化推薦方法和系統(tǒng)中步驟5的流程圖。
【具體實(shí)施方式】
[0036] 下面通過具體的實(shí)施例并結(jié)合附圖對(duì)本發(fā)明做進(jìn)一步的詳細(xì)描述。
[0037] 實(shí)施例1，如圖1所示，本發(fā)明實(shí)施例的一種基于混合推薦的數(shù)字化圖書館資源個(gè) 性化推薦方法和系統(tǒng)，包括：
[0038] 步驟1，用戶資料管理與維護(hù)，用戶是系統(tǒng)的核心和服務(wù)對(duì)象，為了更好地為用戶提供個(gè)性化服務(wù)，需要對(duì)用戶資料數(shù)據(jù)進(jìn)行管理和維護(hù)；
[0039] 用戶資料數(shù)據(jù)包括用戶的人口統(tǒng)計(jì)學(xué)數(shù)據(jù)和用戶的借閱歷史數(shù)據(jù)；
[0040] 其中，
[0041] 用戶的人口統(tǒng)計(jì)學(xué)數(shù)據(jù)，即用戶個(gè)人的基本描述信息，如性別、年齡、職業(yè)、住址、聯(lián)系方式等，但不需要采集任何用戶的敏感身份信息，可以有效保護(hù)用戶隱私；
[0042]用戶的借閱歷史數(shù)據(jù)，通過借閱歷史數(shù)據(jù)的處理，可以發(fā)現(xiàn)興趣。我們將用戶的借閱的圖書資料的文本內(nèi)容信息作為用戶興趣偏好向量。
[0043]步驟2,圖書資源數(shù)據(jù)提取與管理，本方法與圖書管理系統(tǒng)進(jìn)行集成，提取出圖書資料的書目等元數(shù)據(jù)，在系統(tǒng)允許或者版權(quán)允許范圍內(nèi)提出圖書資料內(nèi)容信息，為實(shí)現(xiàn)基于內(nèi)容的推薦做準(zhǔn)備；
[0044] 圖書資源數(shù)據(jù)包括圖書資源的元數(shù)據(jù)和圖書資源的內(nèi)容數(shù)據(jù)；
[0045] 其中，
[0046] 圖書資源的元數(shù)據(jù)，即圖書資源的基本描述信息，如標(biāo)題、作者、出版社、書號(hào)、簡(jiǎn) 介、關(guān)鍵字等，基于該部分內(nèi)容可以進(jìn)行基本的基于內(nèi)容的推薦；
[0047] 圖書資源的內(nèi)容數(shù)據(jù)，將在系統(tǒng)允許或者版權(quán)允許范圍內(nèi)實(shí)現(xiàn)該功能，如果有圖書資源內(nèi)容的補(bǔ)充，可以實(shí)現(xiàn)更好的基于內(nèi)容的推薦。
[0048] 步驟3,圖書資源內(nèi)容數(shù)據(jù)分析，圖書資源內(nèi)容數(shù)據(jù)主要是文本數(shù)據(jù)，本方法采用文本數(shù)據(jù)處理方法進(jìn)行處理，鑒于通常的內(nèi)容數(shù)據(jù)主要是中文數(shù)據(jù)，本方法將主要針對(duì)中文數(shù)據(jù)進(jìn)行；
[0049] 如圖2所示，具體包括以下步驟：
[0050] 步驟301，分詞，分詞的主要作用是將整篇文檔處理為獨(dú)立的特征，本方法將采用通常的中文分詞方法進(jìn)行；
[0051] 步驟302,去停用詞，去停用詞是刪除文檔中對(duì)于分類無用的信息、各種特殊符號(hào) 與字符，以及一些在文檔中頻繁出現(xiàn)的字和詞，如"的"、"地"、"得"之類的助詞，它們對(duì)于文檔分類的結(jié)果不起任何作用，這類詞被統(tǒng)一稱為"停用詞"，它們的集合被稱為"停用詞表"；
[0052] 步驟303,特征選擇和特征提取，在文本的向量空間模型表示方法中，訓(xùn)練集中出現(xiàn)的任何詞匯都將可能成為表示文本的特征項(xiàng)，訓(xùn)練集中的全部特征項(xiàng)所構(gòu)成的向量空間維度相當(dāng)高，一般情況下，都會(huì)達(dá)到幾萬維。因此，降維方法是文本分類器學(xué)習(xí)之前經(jīng)常采用的一種方法，主要目的是在保證或提高分類器性能的前提下，有效降低向量空間的維度。降維方法又可劃分為特征選擇和特征提取，特征選擇后的特征集合只是原來特征空間的一個(gè)子集，而特征提取得到的特征已經(jīng)不是原始特征空間中的特征，而是原始特征的組合或者變換后得到的全新特征。本方法主要采用特征選擇技術(shù)進(jìn)行降維，并加快系統(tǒng)的執(zhí)行。
[0053] 步驟304,特征加權(quán)，特征加權(quán)是指對(duì)文本數(shù)據(jù)中的每個(gè)特征，根據(jù)其對(duì)分類貢獻(xiàn) 程度的高低賦予一定權(quán)重的過程。本方法主要使用在信息檢索領(lǐng)域廣泛使用的tf-idf權(quán) 重；
[0054]步驟305,內(nèi)容相似度計(jì)算，本方法主要采用基于余弦相似度的計(jì)算。
[0055]步驟4,用戶行為數(shù)據(jù)分析，本方法基于用戶行為數(shù)據(jù)進(jìn)行分析和建模，將用戶的行為作為隱式反饋來推測(cè)用戶的興趣，以彌補(bǔ)之前基于圖書資源自身內(nèi)容信息缺失的不足；
[0056]用戶的行為數(shù)據(jù)，即用戶與管理系統(tǒng)進(jìn)行交互時(shí)所產(chǎn)生的各類數(shù)據(jù)，包括借閱記錄、瀏覽記錄、檢索記錄和收藏記錄等。由于管理系統(tǒng)或者用戶習(xí)慣的不同，目前在實(shí)際應(yīng) 用中對(duì)圖書資源進(jìn)行顯式評(píng)分的情形比較少見，這不利于對(duì)用戶行為進(jìn)行量化的分析。對(duì) 此我們采取隱式評(píng)分機(jī)制，通過制定較為合理的策略，將用戶常見的對(duì)圖書資源的非評(píng)分行為轉(zhuǎn)化為評(píng)分行為，從而為之后的分析和計(jì)算做好鋪墊。圖3展示了一種可行的用戶行為與對(duì)應(yīng)的隱式評(píng)分值的關(guān)系表。根據(jù)這樣的關(guān)系就可以構(gòu)造出用戶對(duì)圖書資源的隱式評(píng)分矩陣R=(r^)，矩陣中的每一項(xiàng)表示第i位用戶對(duì)第j件圖書資源的隱式評(píng)分。可以發(fā) 現(xiàn)，若用戶對(duì)某件圖書資源的隱式評(píng)分越高，則表示他對(duì)該圖書資源的感興趣程度越大。 [0057]步驟5,圖書資源個(gè)性化推薦，主要考慮基于圖書資料內(nèi)容的推薦，基于用戶行為的推薦，以及二者的混合推薦方式，得出最終的推薦列表。
[0058] 如圖4所示，具體包括以下步驟：
[0059] 步驟501，基于圖書資料內(nèi)容的推薦，首先根據(jù)用戶的借閱歷史數(shù)據(jù)的文本特征向量，構(gòu)造用戶的興趣向量，再根據(jù)圖書資料內(nèi)容的文本內(nèi)容向量與用戶興趣向量的相似度，得到用戶的基于內(nèi)容的推薦列表；
[0060] 步驟502,基于用戶行為的推薦，首先為每位用戶尋找其鄰居用戶。也就是說，我們可以根據(jù)隱式評(píng)分矩陣R=(r^)分析出任兩位用戶之間的相似性。與某位用戶相似性較高的其他用戶，稱為該用戶的鄰居用戶。本方法采用Pearson相關(guān)系數(shù)計(jì)算用戶之間的相似性 Sim(u，v)，其公式為：
[0062] 其中ru,i、rv,i分別表示用戶u和v對(duì)圖書資源i的評(píng)分，/;、rv分別表示用戶u和v對(duì) 所有圖書資源的平均評(píng)分，Iu,v表示用戶u和v共同評(píng)分過的圖書資源集合。
[0063] 基于其鄰居用戶，估計(jì)用戶對(duì)未評(píng)分項(xiàng)目的隱式評(píng)分Q(u，i)，其公式為：
[0065]其中Sim(u，v)表示目標(biāo)用戶u和鄰居用戶v的相似性，rvi表示鄰居用戶v對(duì)圖書資源i的評(píng)分值，f分別表示目標(biāo)用戶u和鄰居用戶v對(duì)所有圖書資源的平均評(píng)分，Nu表示目標(biāo)用戶u的鄰居用戶集合。
[0066]公式還引入了時(shí)間函數(shù)，其公式為：
[0068] 其中t為進(jìn)行評(píng)價(jià)的時(shí)間，k為影響因子。它把鄰居用戶在不同時(shí)間的評(píng)分給予不同的權(quán)重，從而使得鄰居用戶近期給出的評(píng)分對(duì)目標(biāo)用戶評(píng)分估計(jì)的影響要高于其較長(zhǎng)時(shí) 間之前給出的評(píng)分。
[0069] 如用戶還未在系統(tǒng)中產(chǎn)生行為，則可以利用用戶的人口統(tǒng)計(jì)學(xué)數(shù)據(jù)，尋找與其具有相似人口統(tǒng)計(jì)學(xué)特征的鄰居用戶，估計(jì)用戶對(duì)未評(píng)分項(xiàng)目的隱式評(píng)分，可以較好的解決系統(tǒng)的"冷啟動(dòng)"問題。
[0070] 步驟503,二者混合推薦方式，給出推薦結(jié)果列表，結(jié)合之前基于圖書資源內(nèi)容和基于用戶行為得出的圖書相似度和隱式評(píng)分等關(guān)鍵數(shù)據(jù)，擬合并產(chǎn)生分?jǐn)?shù)Sc 〇re(u，i)，其公式為：
[0071] Score(u,i)=a · P(u,i)+P · Q(u,i)
[0072] 其中P(u，i)為用戶u的已借閱項(xiàng)目對(duì)未借閱項(xiàng)目i的基于內(nèi)容的相似度，Q(u，i)為用戶u對(duì)項(xiàng)目i的隱式評(píng)分，a，β為影響因子。
[0073]容易看出，若用戶u對(duì)于某件圖書資源i的分?jǐn)?shù)Sc〇re(u，i)越高，則代表用戶越有可能喜歡它。因此，計(jì)算出用戶u對(duì)于每件圖書資源i的分?jǐn)?shù)Sc〇re(u，i)之后，將分?jǐn)?shù)從大到小排序的前L件作為最終的推薦結(jié)果，形成長(zhǎng)度為L(zhǎng)的推薦結(jié)果列表并返回給用戶u，即完成推薦。
[0074]以上所述僅為本發(fā)明的優(yōu)選實(shí)施例而已，并不用于限制本發(fā)明，對(duì)于本領(lǐng)域的技術(shù)人員來說，本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi)，所作的任何修改、等同替換、改進(jìn)等，均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
【主權(quán)項(xiàng)】
1. 一種基于混合推薦的數(shù)字化圖書館資源個(gè)性化推薦方法和系統(tǒng)，其特征在于，包括：步驟1，用戶資料管理與維護(hù)，用戶是系統(tǒng)的核心和服務(wù)對(duì)象，為了更好地為用戶提供個(gè)性化服務(wù)，需要對(duì)用戶資料數(shù)據(jù)進(jìn)行管理和維護(hù)；步驟2，圖書資源數(shù)據(jù)提取與管理，本方法與圖書管理系統(tǒng)進(jìn)行集成，提取出圖書資料的書目等元數(shù)據(jù)，在系統(tǒng)允許或者版權(quán)允許范圍內(nèi)提出圖書資料內(nèi)容信息，為實(shí)現(xiàn)基于內(nèi) 容的推薦做準(zhǔn)備；步驟3,圖書資源內(nèi)容數(shù)據(jù)分析，圖書資源內(nèi)容數(shù)據(jù)主要是文本數(shù)據(jù)，本方法采用文本數(shù)據(jù)處理方法進(jìn)行處理，鑒于通常的內(nèi)容數(shù)據(jù)主要是中文數(shù)據(jù)，本方法將主要針對(duì)中文數(shù) 據(jù)進(jìn)行；步驟4,用戶行為數(shù)據(jù)分析，本方法基于用戶行為數(shù)據(jù)進(jìn)行分析和建模，將用戶的行為作為隱式反饋來推測(cè)用戶的興趣，以彌補(bǔ)之前基于圖書資源自身內(nèi)容信息缺失的不足；步驟5,圖書資源個(gè)性化推薦，主要考慮基于圖書資料內(nèi)容的推薦，基于用戶行為的推薦，以及二者的混合推薦方式，得出最終的推薦列表。2. 根據(jù)權(quán)利要求1所述的基于混合推薦的數(shù)字化圖書館資源個(gè)性化推薦方法和系統(tǒng)，其特征在于，步驟1中，用戶資料數(shù)據(jù)包括用戶的人口統(tǒng)計(jì)學(xué)數(shù)據(jù)和用戶的借閱歷史數(shù)據(jù)；其中，用戶的人口統(tǒng)計(jì)學(xué)數(shù)據(jù)，即用戶個(gè)人的基本描述信息，如性別、年齡、職業(yè)、住址、聯(lián)系方式等，但不需要采集任何用戶的敏感身份信息，可以有效保護(hù)用戶隱私；用戶的借閱歷史數(shù)據(jù)，通過借閱歷史數(shù)據(jù)的處理，可以發(fā)現(xiàn)興趣。我們將用戶的借閱的圖書資料的文本內(nèi)容信息作為用戶興趣偏好向量。3. 根據(jù)權(quán)利要求1所述的基于混合推薦的數(shù)字化圖書館資源個(gè)性化推薦方法和系統(tǒng)，其特征在于，步驟2中，圖書資源數(shù)據(jù)包括圖書資源的元數(shù)據(jù)和圖書資源的內(nèi)容數(shù)據(jù)；其中，圖書資源的元數(shù)據(jù)，即圖書資源的基本描述信息，如標(biāo)題、作者、出版社、書號(hào)、簡(jiǎn)介、關(guān) 鍵字等，基于該部分內(nèi)容可以進(jìn)行基本的基于內(nèi)容的推薦；圖書資源的內(nèi)容數(shù)據(jù)，將在系統(tǒng)允許或者版權(quán)允許范圍內(nèi)實(shí)現(xiàn)該功能，如果有圖書資源內(nèi)容的補(bǔ)充，可以實(shí)現(xiàn)更好的基于內(nèi)容的推薦。4. 根據(jù)權(quán)利要求1所述的基于混合推薦的數(shù)字化圖書館資源個(gè)性化推薦方法和系統(tǒng)，其特征在于，步驟3具體包括：步驟301，分詞，分詞的主要作用是將整篇文檔處理為獨(dú)立的特征，本方法將采用通常的中文分詞方法進(jìn)行；步驟302,去停用詞，去停用詞是刪除文檔中對(duì)于分類無用的信息、各種特殊符號(hào)與字符，以及一些在文檔中頻繁出現(xiàn)的字和詞，如"的"、"地"、"得"之類的助詞，它們對(duì)于文檔分類的結(jié)果不起任何作用，這類詞被統(tǒng)一稱為"停用詞"，它們的集合被稱為"停用詞表"；步驟303,特征選擇和特征提取，在文本的向量空間模型表示方法中，訓(xùn)練集中出現(xiàn)的任何詞匯都將可能成為表示文本的特征項(xiàng)，訓(xùn)練集中的全部特征項(xiàng)所構(gòu)成的向量空間維度相當(dāng)高，一般情況下，都會(huì)達(dá)到幾萬維。因此，降維方法是文本分類器學(xué)習(xí)之前經(jīng)常采用的一種方法，主要目的是在保證或提高分類器性能的前提下，有效降低向量空間的維度。降維方法又可劃分為特征選擇和特征提取，特征選擇后的特征集合只是原來特征空間的一個(gè)子集，而特征提取得到的特征已經(jīng)不是原始特征空間中的特征，而是原始特征的組合或者變換后得到的全新特征。本方法主要采用特征選擇技術(shù)進(jìn)行降維，并加快系統(tǒng)的執(zhí)行。步驟304,特征加權(quán)，特征加權(quán)是指對(duì)文本數(shù)據(jù)中的每個(gè)特征，根據(jù)其對(duì)分類貢獻(xiàn)程度的高低賦予一定權(quán)重的過程。本方法主要使用在信息檢索領(lǐng)域廣泛使用的tf-idf權(quán)重；步驟305，內(nèi)容相似度計(jì)算，本方法主要采用基于余弦相似度的計(jì)算。5.根據(jù)權(quán)利要求1所述的基于混合推薦的數(shù)字化圖書館資源個(gè)性化推薦方法和系統(tǒng)，其特征在于，步驟5具體包括：步驟501，基于圖書資料內(nèi)容的推薦首先根據(jù)用戶的借閱歷史數(shù)據(jù)的文本特征向量，構(gòu) 造用戶的興趣向量，其次根據(jù)圖書資料內(nèi)容的文本內(nèi)容向量與用戶興趣向量的相似度，得到用戶的基于內(nèi)容的推薦列表；步驟502,基于用戶行為的推薦，首先為每位用戶尋找其鄰居用戶，再基于其鄰居用戶，估計(jì)用戶對(duì)未評(píng)分項(xiàng)目的隱式評(píng)分，并引入時(shí)間函數(shù)，把鄰居用戶在不同時(shí)間的評(píng)分給予不同的權(quán)重，從而使得鄰居用戶近期給出的評(píng)分對(duì)目標(biāo)用戶評(píng)分估計(jì)的影響要高于其較長(zhǎng) 時(shí)間之前給出的評(píng)分。如用戶還未在系統(tǒng)中產(chǎn)生行為，則可以利用用戶的人口統(tǒng)計(jì)學(xué)數(shù)據(jù)，尋找與其具有相似人口統(tǒng)計(jì)學(xué)特征的鄰居用戶，估計(jì)用戶對(duì)未評(píng)分項(xiàng)目的隱式評(píng)分，可以較好的解決系統(tǒng)的"冷啟動(dòng)"問題；步驟503,二者混合推薦方式，給出推薦結(jié)果列表，結(jié)合之前基于圖書資源內(nèi)容和基于用戶行為得出的圖書相似度和隱式評(píng)分等關(guān)鍵數(shù)據(jù)，擬合并產(chǎn)生它們的分?jǐn)?shù)，將分?jǐn)?shù)從大到小排序的前L件作為最終的推薦結(jié)果，形成長(zhǎng)度為L(zhǎng)的推薦結(jié)果列表并返回給用戶，即完成推薦。
【文檔編號(hào)】G06F17/30GK106095949SQ201610422756
【公開日】2016年11月9日
【申請(qǐng)日】2016年6月14日公開號(hào)201610422756.4, CN 106095949 A, CN 106095949A, CN 201610422756, CN-A-106095949, CN106095949 A, CN106095949A, CN201610422756, CN201610422756.4
【發(fā)明人】張邦佐, 劉明昊, 徐坤, 彭凱宇, 牟聯(lián)富, 李瀚森
【申請(qǐng)人】東北師范大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：張邦佐;劉明昊;徐坤;彭凱宇;牟聯(lián)富;李瀚森;
技術(shù)所有人：東北師范大學(xué);
我是此專利的發(fā)明人

上一篇：一種人機(jī)對(duì)話中教授意圖答案生成方法
上一篇：表格的查詢方法、裝置和設(shè)備的制造方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

個(gè)性化圖書推薦系統(tǒng)相關(guān)技術(shù)

個(gè)性化推薦系統(tǒng)相關(guān)技術(shù)

個(gè)性化推薦系統(tǒng)架構(gòu)相關(guān)技術(shù)

亞馬遜個(gè)性化推薦系統(tǒng)相關(guān)技術(shù)

個(gè)性化推薦系統(tǒng)代碼相關(guān)技術(shù)

系統(tǒng)個(gè)性化設(shè)置工具相關(guān)技術(shù)

淘寶的個(gè)性化推薦系統(tǒng)相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于混合推薦的數(shù)字化圖書館資源個(gè)性化推薦方法與系統(tǒng)的制作方法