一種跨語言推薦方法和系統(tǒng)的制作方法

文檔序號：10687121閱讀：215來源：國知局

一種跨語言推薦方法和系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種跨語言推薦方法和系統(tǒng)，包括：基于用戶檢索會話日志構(gòu)建及更新的雙語檢索詞向量模型，挖掘雙語檢索詞間的關(guān)聯(lián)性；基于中英雙語平行語料庫構(gòu)建及更新的雙語概念向量模型，建立并更新概念詞向量模型，挖掘相關(guān)的雙語概念；檢索串預處理模塊，解析用戶輸入檢索串，過濾噪聲字符；基于雙語檢索詞向量模型和雙語概念詞向量模型構(gòu)建的推薦詞計算模塊，查找計算相似推薦詞；長尾檢索詞處理模塊，對不常見的低頻檢索詞，經(jīng)過檢索詞改寫和同義詞查找處理；結(jié)果輸出模塊，將經(jīng)過后處理的推薦詞呈現(xiàn)給用戶。該發(fā)明無需在線人工翻譯，提高了用戶的檢索效率，通過長尾檢索詞的相關(guān)檢索詞推薦方法，提高了推薦覆蓋率，擴大了相關(guān)檢索詞的支持范圍，通過動態(tài)更新推薦模型的機制，使模型能及時反映檢索系統(tǒng)用戶關(guān)注的最新研究熱點和研究趨勢。
【專利說明】
一種跨語言推薦方法和系統(tǒng)
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及信息檢索和推薦系統(tǒng)的技術(shù)領(lǐng)域，尤其涉及一種跨語言推薦方法和系統(tǒng)。
【背景技術(shù)】
[0002] 互聯(lián)網(wǎng)的發(fā)展為無國界知識共享提供了基礎(chǔ)條件，隨著文獻信息的日益增長，用戶對中外文文獻的檢索需求日漸豐富。海量學術(shù)資源的有效篩選離不開合理的檢索策略。用戶在檢索中文文獻時，通常也迫切希望了解相應研究方向的國外研究動態(tài)；由于申報國家課題項目等需要，在檢索外文文獻時，對相關(guān)的國內(nèi)動態(tài)也有所需求。由于語言的表達本身具有多樣性，對于中國人來說，檢索外文文獻資源的主要問題在于用戶往往不知道應該如何用專業(yè)英文術(shù)語表達自己的需求，而在表達的時候由于語言水平的局限性，也會帶來部分錯誤。這也增加了用戶使用英文進行檢索的難度。此外，如何以合適的中文檢索詞找到相應同一方向的中文文獻，開拓研究思路，也是用戶在檢索外文文獻時的一大問題。因此，如何對用戶進行智能引導，推薦雙語相關(guān)檢索詞，幫助用戶表達檢索需求，找到所需資源，擴展知識發(fā)現(xiàn)的范圍，了解專業(yè)領(lǐng)域國內(nèi)外同行的研究趨勢，是學術(shù)文獻搜索系統(tǒng)的重要一環(huán)，目前的相關(guān)檢索詞推薦系統(tǒng)存在的問題包括：（1)往往只考慮同語言層面上的推薦；
[2] 用戶檢索詞呈現(xiàn)長尾分布，缺乏合理的策略處理長尾查詢詞；（3)建立模型時沒有考慮動態(tài)更新問題，由于文獻資源的特殊性，用戶檢索詞的時效性很強，靜態(tài)的模型難以反映用戶關(guān)注的最新研究熱點和可能的最新研究趨勢。

【發(fā)明內(nèi)容】

[0003] 為實現(xiàn)上述目的，本發(fā)明提供如下技術(shù)方案:一種跨語言推薦方法和系統(tǒng)，包括雙語檢索詞向量模型模塊，基于用戶檢索會話日志，建立并更新檢索詞向量模型，挖掘用戶檢索會話中雙語query的關(guān)聯(lián)性；雙語概念詞向量模型模塊，基于中英雙語文獻平行語料庫，建立并更新概念詞向量模型，挖掘相關(guān)的雙語概念;檢索串預處理模塊，是對用戶輸入的檢索串進行解析，并過濾其中夾雜的噪聲字符;推薦詞計算模塊，基于雙語檢索詞向量模型和雙語概念詞向量模型，查找相似性最高的檢索詞推薦給用戶；長尾檢索詞處理模塊，針對不常見的低頻檢索詞，通過檢索詞改寫和同義詞查找方法，提高相關(guān)檢索詞的推薦覆蓋率;推薦詞后處理模塊，通過鄰近詞拼接、相似詞過濾等技術(shù)手段來提高、改善用戶體驗;結(jié) 果輸出模塊，將經(jīng)過后處理的推薦詞呈現(xiàn)給用戶。具體步驟如下：
[0004] 步驟一:雙語檢索詞向量模型模塊，主要基于用戶檢索會話日志，用戶的檢索會話中，往往蘊含了雙語query，例如，用戶在用中文檢索后，可能還會在同一會話中，再次檢索相關(guān)的英文檢索詞，例如，用戶在同一檢索會話中，既檢索了 "機器學習"，又檢索了 "machine learning"和"machine learning algorithms"，所以，通過對同一會話中的雙語 query序列建模，可以有效地將雙語query間的關(guān)聯(lián)性挖掘出來。
[0005] 模型的構(gòu)建主要分三步:首先，從用戶檢索日志中，提取并預處理含有雙語檢索詞的會話數(shù)據(jù)，然后，將雙語檢索詞組織成待用的模型訓練數(shù)據(jù)，最后，基于word embedding 模型訓練得到雙語檢索詞向量。具體如下：⑴會話提取、預處理，首先，根據(jù)時間間隔切分檢索會話，將時間間隔設(shè)為15分鐘，其次，從會話數(shù)據(jù)中提取檢索屬性和行為等必要的文本數(shù)據(jù)，包括用戶檢索詞等，最后，過濾不合法query，如HTML字符，標點符號等，保留需要的含有雙語檢索詞的會話數(shù)據(jù)；（2)生成訓練數(shù)據(jù)，根據(jù)采用的詞向量模型需求，將預處理后會話中的雙語檢索詞序列，組織成待用的文本訓練數(shù)據(jù)集，每個會話對應訓練數(shù)據(jù)集中的一個樣本；（3)訓練雙語檢索詞向量模型，根據(jù)預設(shè)的無監(jiān)督word embedding模型及參數(shù)，在文本訓練數(shù)據(jù)集上，訓練雙語檢索詞向量模型；
[0006] 模型的更新主要分三步，首先，從新生成的用戶檢索日志中，提取并預處理含有雙語檢索詞的會話數(shù)據(jù)，然后，將雙語檢索詞組織成待用的模型訓練數(shù)據(jù)，最后，加載原有雙語檢索詞向量模型，采用動態(tài)增量更新方式對雙語檢索詞向量進行更新。具體如下：（1)更新會話數(shù)據(jù)，基于新生成或搜集得到的用戶日志數(shù)據(jù)，提取并預處理會話數(shù)據(jù)；（2)更新訓練數(shù)據(jù)，根據(jù)新的會話數(shù)據(jù)，更新原有訓練數(shù)據(jù)集；（3)動態(tài)增量更新雙語檢索詞向量模型，基于原模型詞匯表及雙語檢索詞向量，采用動態(tài)增量更新方式，更新雙語檢索詞向量模型及詞匯表；
[0007] 步驟二:雙語概念詞向量模型模塊，主要基于中英雙語文獻平行語料庫，建立概念詞向量模型，挖掘相關(guān)的雙語概念，更新模型。模型的構(gòu)建主要分兩步:首先，從中英雙語文獻平行語料庫中，提取平行語料數(shù)據(jù)，組織成待用的模型訓練數(shù)據(jù)，然后，基于雙語word embedding模型訓練得到雙語概念詞向量。具體如下：（1)構(gòu)建雙語訓練數(shù)據(jù)，首先，從中英雙語文獻平行語料庫中，提取平行語料數(shù)據(jù)，平行語料主要包括雙語關(guān)鍵詞，然后，按模型需求組織成待用的模型訓練數(shù)據(jù)集，一篇文獻的關(guān)鍵詞序列構(gòu)成了訓練數(shù)據(jù)集中的一個樣本；（2)訓練雙語概念詞向量模型，根據(jù)預設(shè)的模型及參數(shù)，在文本訓練數(shù)據(jù)集上，訓練雙語概念詞向量模型。模型的更新主要分兩步:首先，更新中英雙語文獻平行語料數(shù)據(jù)，然后，加載原有雙語概念詞向量模型，采用動態(tài)增量更新方式對雙語概念詞詞向量進行更新。具體如下：（1)更新雙語訓練數(shù)據(jù)，首先，獲取新中英雙語文獻平行語料數(shù)據(jù)，然后，從中提取平行語料數(shù)據(jù)，最后，按模型需求，組織并更新待用的模型訓練數(shù)據(jù)集；（2)動態(tài)增量更新雙語概念詞向量模型，基于原模型詞匯表及雙語概念詞向量，采用動態(tài)增量更新方式，更新雙語概念詞向量模型及詞匯表；
[0008] 步驟三:檢索串預處理模塊，檢索串預處理主要用于解析用戶輸入檢索串，過濾噪聲字符；
[0009] 步驟四：推薦詞計算模塊，基于雙語檢索詞向量模型和雙語概念詞向量模型，首先，對現(xiàn)有詞向量模型進行單位化處理，然后，根據(jù)預設(shè)的向量夾角余弦相似度計算公式，在兩個模型中，分別計算檢索詞和可能的推薦詞之間的相似度，最后，按預設(shè)的權(quán)重合并，排序輸出相似性最高的前K個推薦詞，K為預先指定的數(shù)目，本實施例中，K取20。具體如下：首先，模型預處理，單位化兩模型詞向量，預處理主要包括檢查并單位化兩模型的詞向量，其次，計算檢索詞與模型詞向量的相似度，采用基于余弦度量法及預設(shè)權(quán)重的方法，具體公式如余弦度量法(cosine measure)，
-，其中：_表示向量5的長度(模），加權(quán)相似度(weighted similarity)，sim(x，y)=a ? simi(x，y) + (l_a) ? sim2(x，y)，其中， sinu(x，y)為各模型對應的相似度，sim(x，y)為計算得到的最終相似度，a為預設(shè)的權(quán)重(默認0.5)，最后，排序輸出最相似的前K個推薦詞，K為預先指定的數(shù)目，本發(fā)明中取20;
[0010] 步驟五:長尾檢索詞處理模塊，長尾檢索詞處理主要包括檢索詞改寫和同義詞查找。檢索詞改寫，基于編輯距離策略，同義詞查找策略包括縮略語還原擴展、基于同義詞典查找和拼音翻譯，同義詞查找，具體方法包括:縮略語還原，基于同義詞典查找，拼音翻譯。具體如下:第一，基于編輯距離算法，對檢索詞進行改寫后，重新查找，首先基于預設(shè)的策略或算法，對檢索詞進行改寫，本發(fā)明中采用基于編輯距離的方法，然后返回步驟四中的計算檢索詞與模型詞向量的相似度，重新查找相應的相似性最高的檢索詞作為推薦結(jié)果;第二，基于縮略語還原、同義詞典及拼音翻譯方法，查找同義詞，縮略語還原，通過查找縮略語詞典，將還原后的全稱作為推薦結(jié)果，本發(fā)明中，縮略語詞典的詞條數(shù)據(jù)格式為〈英文縮略語，英文全稱，中文釋義〉，如檢索詞為NER，縮略語詞典中該縮略語對應的英文全稱是"Name Entity Recognition"，中文釋義為"命名實體識別"，則將 "Name Entity Recognition" 和 "命名實體識別"作為推薦結(jié)果返回給用戶，基于同義詞典查找，通過查找預設(shè)的同義詞典，或其他資源(如:WordNet)，將得到的同義詞作為推薦結(jié)果，拼音翻譯，對檢索詞進行拼音識另IJ，如果識別出檢索詞為拼音，通過拼音-漢字詞典、隱馬爾科夫模型等方法，將拼音翻譯為漢字，作為推薦結(jié)果；
[0011] 步驟六:推薦詞后處理模塊，推薦詞的后處理旨在改善、提高用戶體驗，主要包括鄰近詞拼接、相似詞過濾等。
[0012] 步驟七:結(jié)果輸出模塊，將推薦詞反饋給用戶。
[0013] 優(yōu)選的，在步驟一和步驟二中，采用的動態(tài)增量更新詞向量模型的具體步驟如下： 1、加載原模型詞匯表;2、遍歷新增訓練數(shù)據(jù)，更新詞匯表;3、加載原詞向量模型，并隨機初始化新增單詞對應的向量;4、遍歷新增訓練數(shù)據(jù)，利用負采樣方法及隨機梯度下降算法，迭代更新詞向量;5、達到預設(shè)的迭代次數(shù)后，輸出更新后的詞向量模型及詞匯表。
[0014] 與現(xiàn)有技術(shù)相比，本發(fā)明的有益效果是:本發(fā)明通過提出了一種有效的跨語言推薦建模方法，無需在線人工翻譯，提高了用戶的檢索效率;通過提出了一種長尾檢索詞的相關(guān)檢索詞推薦方法，提高了推薦覆蓋率，擴大了相關(guān)檢索詞的支持范圍；通過提出了一種動態(tài)更新推薦模型的機制，使模型能及時反映檢索系統(tǒng)用戶關(guān)注的最新研究熱點和研究趨勢。
【附圖說明】
[0015]圖1為本發(fā)明的系統(tǒng)構(gòu)成圖；
[0016] 圖2為本發(fā)明的雙語檢索詞向量模型建立和更新示意圖；
[0017] 圖3為本發(fā)明的無監(jiān)督詞向量模型示意圖；
[0018] 圖4為本發(fā)明的雙語概念詞向量模型建立和更新示意圖；
[0019] 圖5為本發(fā)明的動態(tài)增量更新詞向量模型的流程示意圖；
[0020] 圖6為本發(fā)明的推薦詞計算示意圖；
[0021 ]圖7為本發(fā)明的長尾檢索詞處理示意圖。
[0022]圖中：S1雙語檢索詞向量模型模塊、S2雙語概念詞向量模型模塊、S3檢索串預處理模塊、S4推薦詞計算模塊、S5長尾檢索詞處理模塊、S6推薦詞后處理模塊、S7結(jié)果輸出模塊。
【具體實施方式】
[0023]下面將結(jié)合本發(fā)明實施例中的附圖，對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述，顯然，所描述的實施例僅僅是本發(fā)明一部分實施例，而不是全部的實施例?；?本發(fā)明中的實施例，本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例，都屬于本發(fā)明保護的范圍。
[0024] 請參閱圖1-7實施例。
[0025] -種跨語言推薦方法和系統(tǒng)，包括雙語檢索詞向量模型模塊，基于用戶檢索會話日志，建立并更新檢索詞向量模型，挖掘用戶檢索會話中雙語query的關(guān)聯(lián)性;雙語概念詞向量模型模塊，基于中英雙語文獻平行語料庫，建立并更新概念詞向量模型，挖掘相關(guān)的雙語概念;檢索串預處理模塊，是對用戶輸入的檢索串進行解析，并過濾其中夾雜的噪聲字符;推薦詞計算模塊，基于雙語檢索詞向量模型和雙語概念詞向量模型，查找相似性最高的檢索詞推薦給用戶；長尾檢索詞處理模塊，針對不常見的低頻檢索詞，通過檢索詞改寫和同義詞查找方法，提高相關(guān)檢索詞的推薦覆蓋率;推薦詞后處理模塊，通過鄰近詞拼接、相似詞過濾等技術(shù)手段來提高、改善用戶體驗;結(jié)果輸出模塊，將經(jīng)過后處理的推薦詞呈現(xiàn)給用戶。具體步驟如下：
[0026] 步驟一:雙語檢索詞向量模型模塊，主要基于用戶檢索會話日志，用戶的檢索會話中，往往蘊含了雙語query，例如，用戶在用中文檢索后，可能還會在同一會話中，再次檢索相關(guān)的英文檢索詞，例如，用戶在同一檢索會話中，既檢索了 "機器學習"，又檢索了 "machine learning"和"machine learning algorithms"，所以，通過對同一會話中的雙語 query序列建模，可以有效地將雙語query間的關(guān)聯(lián)性挖掘出來。
[0027]模型的構(gòu)建主要分三步:首先，從用戶檢索日志中，提取并預處理含有雙語檢索詞的會話數(shù)據(jù)，然后，將雙語檢索詞組織成待用的模型訓練數(shù)據(jù)，最后，基于word embedding 模型訓練得到雙語檢索詞向量。具體如下：⑴會話提取、預處理，首先，根據(jù)時間間隔切分檢索會話，將時間間隔設(shè)為15分鐘，其次，從會話數(shù)據(jù)中提取檢索屬性和行為等必要的文本數(shù)據(jù)，包括用戶檢索詞等，最后，過濾不合法query，如HTML字符，標點符號等，保留需要的含有雙語檢索詞的會話數(shù)據(jù)；（2)生成訓練數(shù)據(jù)，根據(jù)采用的詞向量模型需求，將預處理后會話中的雙語檢索詞序列，組織成待用的文本訓練數(shù)據(jù)集，每個會話對應訓練數(shù)據(jù)集中的一個樣本；（3)訓練雙語檢索詞向量模型，根據(jù)預設(shè)的無監(jiān)督word embedding模型及參數(shù)，在文本訓練數(shù)據(jù)集上，訓練雙語檢索詞向量模型。本實施例中，采用的詞向量模型為skip-gram模型或CB0W模型。Skip-gram模型和CB0W模型都是已知的模型，算法具體可以參見： Mikolov，Tomas，et al."Distributed representations of words and phrases and their
[0028] compositionality."Advances in Neural Information Processing Systems ? 2013，在此不再說明。
[0029]模型的更新主要分三步:首先，從新生成的用戶檢索日志中，提取并預處理含有雙語檢索詞的會話數(shù)據(jù)，然后，將雙語檢索詞組織成待用的模型訓練數(shù)據(jù)，最后，加載原有雙語檢索詞向量模型，采用動態(tài)增量更新方式對雙語檢索詞向量進行更新。具體如下：（1)更新會話數(shù)據(jù)，基于新生成或搜集得到的用戶日志數(shù)據(jù)，提取并預處理會話數(shù)據(jù)"2)更新訓練數(shù)據(jù)，根據(jù)新的會話數(shù)據(jù)，更新原有訓練數(shù)據(jù)集；（3)動態(tài)增量更新雙語檢索詞向量模型，基于原模型詞匯表及雙語檢索詞向量，采用動態(tài)增量更新方式，更新雙語檢索詞向量模型及詞匯表；
[0030] 步驟二:雙語概念詞向量模型模塊，主要基于中英雙語文獻平行語料庫，建立概念詞向量模型，挖掘相關(guān)的雙語概念，更新模型。模型的構(gòu)建主要分兩步:首先，從中英雙語文獻平行語料庫中，提取平行語料數(shù)據(jù)，組織成待用的模型訓練數(shù)據(jù)，然后，基于雙語word embedding模型訓練得到雙語概念詞向量。具體如下：（1)構(gòu)建雙語訓練數(shù)據(jù)，首先，從中英雙語文獻平行語料庫中，提取平行語料數(shù)據(jù)，平行語料主要包括雙語關(guān)鍵詞，然后，按模型需求組織成待用的模型訓練數(shù)據(jù)集，一篇文獻的關(guān)鍵詞序列構(gòu)成了訓練數(shù)據(jù)集中的一個樣本；（2)訓練雙語概念詞向量模型，根據(jù)預設(shè)的BILB0WA模型及參數(shù)，在文本訓練數(shù)據(jù)集上，訓練雙語概念詞向量模型;本實施例中，采用的雙語詞向量模型為BILB0WA模型，該模型為已知模型，具體算法參見Gouws S，Bengio Y，Corrado G.BilB0WA:Fast Bilingual Distributed Representations without Word Alignments[J]，在此不再說明。模型的更新主要分兩步:首先，更新中英雙語文獻平行語料數(shù)據(jù)，然后，加載原有雙語概念詞向量模型，采用動態(tài)增量更新方式對雙語概念詞詞向量進行更新。具體如下：（1)更新雙語訓練數(shù) 據(jù)，首先，獲取新中英雙語文獻平行語料數(shù)據(jù)，然后，從中提取平行語料數(shù)據(jù)，最后，按模型需求，組織并更新待用的模型訓練數(shù)據(jù)集；（2)動態(tài)增量更新雙語概念詞向量模型，基于原模型詞匯表及雙語概念詞向量，采用動態(tài)增量更新方式，更新雙語概念詞向量模型及詞匯表。
[0031] 在步驟一和步驟二中，采用的動態(tài)增量更新詞向量模型的具體步驟如下：1、加載原模型詞匯表;2、遍歷新增訓練數(shù)據(jù)，更新詞匯表;3、加載原詞向量模型，并隨機初始化新增單詞對應的向量;4、遍歷新增訓練數(shù)據(jù)，利用負采樣方法及隨機梯度下降算法，迭代更新詞向量;5、達到預設(shè)的迭代次數(shù)后，輸出更新后的詞向量模型及詞匯表；
[0032]步驟三:檢索串預處理模塊，檢索串預處理主要用于解析用戶輸入檢索串，過濾噪聲字符；
[0033]步驟四：推薦詞計算模塊，基于雙語檢索詞向量模型和雙語概念詞向量模型，首先，對現(xiàn)有詞向量模型進行單位化處理，然后，根據(jù)預設(shè)的向量夾角余弦相似度計算公式，在兩個模型中，分別計算檢索詞和可能的推薦詞之間的相似度，最后，按預設(shè)的權(quán)重合并，排序輸出相似性最高的前K個推薦詞，K為預先指定的數(shù)目，本實施例中，K取20。具體如下：首先，模型預處理，單位化兩模型詞向量，預處理主要包括檢查并單位化兩模型的詞向量，其次，計算檢索詞與模型詞向量的相似度，采用基于余弦度量法及預設(shè)權(quán)重的方法，具體公式如下：余弦度量法（cosine measure)，
，其中：_表示向量無的長度 (模），加權(quán)相似度(weighted similarity)，sim(x，y)=a ? simi(x，y) + (l_a) ? sim2(x，y)，其中，simi(x，y)為各模型對應的相似度，sim(x，y)為計算得到的最終相似度，a為預設(shè)的權(quán) 重(默認0.5)，最后，排序輸出最相似的前K個推薦詞，K為預先指定的數(shù)目，本實施例中取 20；
[0034] 步驟五:長尾檢索詞處理模塊，長尾檢索詞處理主要包括檢索詞改寫和同義詞查找，檢索詞改寫，基于編輯距離策略，同義詞查找策略包括縮略語還原擴展、基于同義詞典查找和拼音翻譯，同義詞查找，具體方法包括:縮略語還原，基于同義詞典查找，拼音翻譯。具體如下:第一，基于編輯距離算法，對檢索詞進行改寫后，重新查找，首先基于預設(shè)的策略或算法，對檢索詞進行改寫，本發(fā)明中采用基于編輯距離的方法，然后返回步驟四中的計算檢索詞與模型詞向量的相似度，重新查找相應的相似性最高的檢索詞作為推薦結(jié)果;第二，基于縮略語還原、同義詞典及拼音翻譯方法，查找同義詞，縮略語還原，通過查找縮略語詞典，將還原后的全稱作為推薦結(jié)果，本實施例中，縮略語詞典的詞條數(shù)據(jù)格式為〈英文縮略語，英文全稱，中文釋義〉，如檢索詞為NER，縮略語詞典中該縮略語對應的英文全稱是"Name Entity Recognition"，中文釋義為"命名實體識別"，則將 "Name Entity Recognition" 和 "命名實體識別"作為推薦結(jié)果返回給用戶，基于同義詞典查找，通過查找預設(shè)的同義詞典，或其他資源(如:WordNet)，將得到的同義詞作為推薦結(jié)果，拼音翻譯，對檢索詞進行拼音識另IJ，如果識別出檢索詞為拼音，通過拼音-漢字詞典、隱馬爾科夫模型等方法，將拼音翻譯為漢字，作為推薦結(jié)果；
[0035]步驟六:推薦詞后處理模塊，推薦詞的后處理旨在改善、提高用戶體驗，主要包括鄰近詞拼接、相似詞過濾等。本實施例中，如推薦詞和檢索詞的編輯距離〈4,則將其作為相似詞過濾。如推薦詞長度〈3,說明其信息量較小，則將其和檢索詞拼接重組后作為新推薦詞。例如，檢索詞為"機器學習"，推薦詞為"算法"，則將"機器學習算法"作為新推薦詞返回給用戶；
[0036] 步驟七:結(jié)果輸出模塊，將推薦詞反饋給用戶。
[0037] 本發(fā)明通過提出了一種有效的跨語言推薦建模方法，無需在線人工翻譯，提高了用戶的檢索效率;通過提出了一種長尾檢索詞的相關(guān)檢索詞推薦方法，提高了推薦覆蓋率，擴大了相關(guān)檢索詞的支持范圍；通過提出了一種動態(tài)更新推薦模型的機制，使模型能及時反映檢索系統(tǒng)用戶關(guān)注的最新研究熱點和研究趨勢。
[0038]對于本領(lǐng)域技術(shù)人員而言，顯然本發(fā)明不限于上述示范性實施例的細節(jié)，而且在不背離本發(fā)明的精神或基本特征的情況下，能夠以其他的具體形式實現(xiàn)本發(fā)明。因此，無論從哪一點來看，均應將實施例看作是示范性的，而且是非限制性的，本發(fā)明的范圍由所附權(quán) 利要求而不是上述說明限定，因此旨在將落在權(quán)利要求的等同要件的含義和范圍內(nèi)的所有變化囊括在本發(fā)明內(nèi)。不應將權(quán)利要求中的任何附圖標記視為限制所涉及的權(quán)利要求。
【主權(quán)項】
1. 一種跨語言推薦方法和系統(tǒng)，其特征在于:包括雙語檢索詞向量模型模塊，基于用戶檢索會話日志，建立并更新檢索詞向量模型，挖掘用戶檢索會話中雙語query的關(guān)聯(lián)性;雙語概念詞向量模型模塊，基于中英雙語文獻平行語料庫，建立并更新概念詞向量模型，挖掘相關(guān)的雙語概念;檢索串預處理模塊，是對用戶輸入的檢索串進行解析，并過濾其中夾雜的噪聲字符;推薦詞計算模塊，基于雙語檢索詞向量模型和雙語概念詞向量模型，查找相似性最高的檢索詞推薦給用戶;長尾檢索詞處理模塊，針對不常見的低頻檢索詞，通過檢索詞改寫和同義詞查找方法，提高相關(guān)檢索詞的推薦覆蓋率;推薦詞后處理模塊，通過鄰近詞拼接、相似詞過濾等技術(shù)手段來提高、改善用戶體驗;結(jié)果輸出模塊，將經(jīng)過后處理的推薦詞呈現(xiàn)給用戶。具體步驟如下：步驟一:雙語檢索詞向量模型模塊，主要基于用戶檢索會話日志，用戶的檢索會話中，往往蘊含了雙語query，例如，用戶在用中文檢索后，可能還會在同一會話中，再次檢索相關(guān) 的英文檢索詞，例如，用戶在同一檢索會話中，既檢索了 "機器學習"，又檢索了 "machine learning"和"machine learnin galgorithms"，所以，通過對同一會話中的雙語query序列建模，可以有效地將雙語query間的關(guān)聯(lián)性挖掘出來。模型的構(gòu)建主要分三步:首先，從用戶檢索日志中，提取并預處理含有雙語檢索詞的會話數(shù)據(jù)，然后，將雙語檢索詞組織成待用的模型訓練數(shù)據(jù)，最后，基于word embedding模型訓練得到雙語檢索詞向量。模型的更新主要分三步:首先，從新生成的用戶檢索日志中，提取并預處理含有雙語檢索詞的會話數(shù)據(jù)，然后，將雙語檢索詞組織成待用的模型訓練數(shù)據(jù)，最后，加載原有雙語檢索詞向量模型，采用動態(tài)增量更新方式對雙語檢索詞向量進行更新。具體如下：模型構(gòu)建步驟:第一步，會話提取、預處理，首先，根據(jù)時間間隔切分檢索會話，將時間間隔設(shè)為15分鐘，其次，從會話數(shù)據(jù)中提取檢索屬性和行為等必要的文本數(shù)據(jù)，包括用戶檢索詞等，最后，過濾不合法query，如HTML字符，標點符號等，保留需要的含有雙語檢索詞的會話數(shù)據(jù);第二步，生成訓練數(shù)據(jù)，根據(jù)采用的詞向量模型需求，將預處理后會話中的雙語檢索詞序列，組織成待用的文本訓練數(shù)據(jù)集，每個會話對應訓練數(shù)據(jù)集中的一個樣本;第三步，訓練雙語檢索詞向量模型，根據(jù)預設(shè)的無監(jiān)督word embedding模型及參數(shù)，在文本訓練數(shù)據(jù)集上，訓練雙語檢索詞向量模型。模型更新步驟:第一步，更新會話數(shù)據(jù)，基于新生成或搜集得到的用戶日志數(shù)據(jù)，提取并預處理會話數(shù)據(jù);第二步，更新訓練數(shù)據(jù)，根據(jù)新的會話數(shù)據(jù)，更新原有訓練數(shù)據(jù)集;第三步，動態(tài)增量更新雙語檢索詞向量模型，基于原模型詞匯表及雙語檢索詞向量，采用動態(tài)增量更新方式，更新雙語檢索詞向量模型及詞匯表；步驟二:雙語概念詞向量模型模塊，主要基于中英雙語文獻平行語料庫，建立概念詞向量模型，挖掘相關(guān)的雙語概念，更新模型。模型的構(gòu)建主要分兩步:首先，從中英雙語文獻平行語料庫中，提取平行語料數(shù)據(jù)，組織成待用的模型訓練數(shù)據(jù)，然后，基于雙語word embedding模型訓練得到雙語概念詞向量。具體如下：（1)構(gòu)建雙語訓練數(shù)據(jù)，首先，從中英雙語文獻平行語料庫中，提取平行語料數(shù)據(jù)，平行語料主要包括雙語關(guān)鍵詞，然后，按模型需求組織成待用的模型訓練數(shù)據(jù)集，一篇文獻的關(guān)鍵詞序列構(gòu)成了訓練數(shù)據(jù)集中的一個樣本；（2)訓練雙語概念詞向量模型，根據(jù)預設(shè)的詞向量模型及參數(shù)，在文本訓練數(shù)據(jù)集上，訓練雙語概念詞向量模型。模型的更新主要分兩步:首先，更新中英雙語文獻平行語料數(shù)據(jù)，然后，加載原有雙語概念詞向量模型，采用動態(tài)增量更新方式對雙語概念詞詞向量進行更新。具體如下：（1)更新雙語訓練數(shù)據(jù)，首先，獲取新中英雙語文獻平行語料數(shù)據(jù)，然后，從中提取平行語料數(shù)據(jù)，最后，按模型需求，組織并更新待用的模型訓練數(shù)據(jù)集；（2)動態(tài)增量更新雙語概念詞向量模型，基于原模型詞匯表及雙語概念詞向量，采用動態(tài)增量更新方式，更新雙語概念詞向量模型及詞匯表；步驟三:檢索串預處理模塊，檢索串預處理主要用于解析用戶輸入檢索串，過濾噪聲字符；步驟四：推薦詞計算模塊，基于雙語檢索詞向量模型和雙語概念詞向量模型，首先，對現(xiàn)有詞向量模型進行單位化處理;然后，根據(jù)預設(shè)的向量夾角余弦相似度計算公式，在兩個模型中，分別計算檢索詞和可能的推薦詞之間的相似度;最后，按預設(shè)的權(quán)重合并，排序輸出相似性最高的前K個推薦詞，K為預先指定的數(shù)目，本實施例中，K取20。具體如下:首先，模型預處理，單位化兩模型詞向量，預處理主要包括檢查并單位化兩模型的詞向量，其次，計算檢索詞與模型詞向量的相似度，采用基于余弦度量法及預設(shè)權(quán)重的方法，具體公式如下：余弦度量法(cosine measure)，.，其中：|ij表示向量i的長度(模），加權(quán) 相似度（weighted similarity)，sim(x，y) =a ? simi(x，y) + (l_a) ? sim2(x，y)，其中，sinu (x，y)為各模型對應的相似度，sim(X，y)為計算得到的最終相似度，a為預設(shè)的權(quán)重(默認 0.5)，最后，排序輸出最相似的前K個推薦詞，K為預先指定的數(shù)目，本發(fā)明中取20; 步驟五:長尾檢索詞處理模塊，長尾檢索詞處理主要包括檢索詞改寫和同義詞查找，檢索詞改寫，基于編輯距離策略，同義詞查找策略包括縮略語還原擴展、基于同義詞典查找和拼音翻譯，同義詞查找，具體方法包括:縮略語還原，基于同義詞典查找，拼音翻譯。，具體如下：，第一，基于編輯距離算法，對檢索詞進行改寫后，重新查找，首先基于預設(shè)的策略或算法，對檢索詞進行改寫，本發(fā)明中采用基于編輯距離的方法，然后返回步驟四中的計算檢索詞與模型詞向量的相似度，重新查找相應的相似性最高的檢索詞作為推薦結(jié)果;第二，基于縮略語還原、同義詞典及拼音翻譯方法，查找同義詞，縮略語還原，通過查找縮略語詞典，將還原后的全稱作為推薦結(jié)果，本發(fā)明中，縮略語詞典的詞條數(shù)據(jù)格式為〈英文縮略語，英文全稱，中文釋義〉，如檢索詞為NER，縮略語詞典中該縮略語對應的英文全稱是"Name Entity Recognition"，中文釋義為"命名實體識別"，則將 "Name Entity Recognition" 和 "命名實體識別"作為推薦結(jié)果返回給用戶，基于同義詞典查找，通過查找預設(shè)的同義詞典，或其他資源(如:WordNet)，將得到的同義詞作為推薦結(jié)果，拼音翻譯，對檢索詞進行拼音識另IJ，如果識別出檢索詞為拼音，通過拼音-漢字詞典、隱馬爾科夫模型等方法，將拼音翻譯為漢字，作為推薦結(jié)果；步驟六:推薦詞后處理模塊，推薦詞的后處理旨在改善、提高用戶體驗，主要包括鄰近詞拼接和相似詞過濾等。步驟七:結(jié)果輸出模塊，將推薦詞反饋給用戶。2.根據(jù)權(quán)利要求1所述的一種跨語言推薦方法和系統(tǒng)，其特征在于:在步驟一和步驟二中，采用的動態(tài)增量更新詞向量模型的具體步驟如下：1、加載原模型詞匯表;2、遍歷新增訓練數(shù)據(jù)，更新詞匯表;3、加載原詞向量模型，并隨機初始化新增單詞對應的向量;4、遍歷新增訓練數(shù)據(jù)，利用負采樣方法及隨機梯度下降算法，迭代更新詞向量;5、達到預設(shè)的迭代次數(shù)后，輸出更新后的詞向量模型及詞匯表。
【文檔編號】G06F17/30GK106055623SQ201610363346
【公開日】2016年10月26日
【申請日】2016年5月26日
【發(fā)明人】符文君, 陳勇, 魏圣磊, 王鵬, 王云飛, 張振海
【申請人】《中國學術(shù)期刊（光盤版）》電子雜志社有限公司

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：符文君;陳勇;魏圣磊;王鵬;王云飛;張振海;
技術(shù)所有人：《中國學術(shù)期刊（光盤版）》電子雜志社有限公司;
我是此專利的發(fā)明人

上一篇：一種基于圖片聚類的照片整理方法和移動終端的制作方法
上一篇：一種數(shù)據(jù)搜索方法及系統(tǒng)的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構(gòu)動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種跨語言推薦方法和系統(tǒng)的制作方法