通過計算機實現(xiàn)的計算文本相似度和搜索處理方法及裝置制造方法
【專利摘要】本發(fā)明提供的一種通過計算機實現(xiàn)的計算文本相似度和搜索處理方法及裝置。所述方法包括:獲取第一文本串和第二文本串;根據(jù)預(yù)先設(shè)置的短語翻譯模型和依存結(jié)構(gòu)模型,對所述第一文本串進行解碼,獲取K個翻譯文本串;分別計算所述K個翻譯文本串與所述第二文本串之間的第一語義相似度值,并且根據(jù)計算的K個第一語義相似度值計算所述第一文本串和第二文本串之間的第二語義相似度值。其解決了句子中長距離的依存關(guān)系問題,能夠更好地表示搜索語句的語義,從而更好地將搜索語句與網(wǎng)頁標(biāo)題進行匹配,使用戶得到語義匹配的搜索結(jié)果條目,增強用戶搜索體驗。
【專利說明】通過計算機實現(xiàn)的計算文本相似度和搜索處理方法及裝置
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及自然語言處理技術(shù),尤其涉及一種通過計算機實現(xiàn)的計算文本相似度 和搜索處理方法及裝置。
【背景技術(shù)】
[0002] 在搜索引擎當(dāng)中,為了能夠?qū)⒂脩糨斎氲乃阉髟~(或Query)盡可能好的匹配到文 檔的各個域上(例如,標(biāo)題、內(nèi)容),通常采用基于完全的詞的匹配的方法來實現(xiàn)所述匹配。
[0003] 目前也有利用翻譯模型的方法,從翻譯的角度來假定標(biāo)題和搜索詞(例如, Query)是以不同的子語言所寫成的假設(shè)下,來對類似于"有效果"被翻譯成"有用"這樣的 短語翻譯來實現(xiàn)語義的匹配。但是,這種方法并不能夠解決目標(biāo)語言當(dāng)中的長距離依賴問 題,只能簡單進行語義匹配,使得不能真實體現(xiàn)和表示搜索語句的語義,從而將搜索語句與 網(wǎng)頁標(biāo)題匹配錯誤,影響搜索結(jié)果顯示和排序,進而影響用戶體驗。例如,將句子"關(guān)羽當(dāng) 年為什么沒有殺曹操"匹配為"曹操當(dāng)年為什么不殺關(guān)羽",原句子(query)中"關(guān)羽"是主 語,"曹操"是賓語,而由于未解決長距離依存關(guān)系問題,搜索語句與網(wǎng)頁標(biāo)題僅進行詞的匹 配,而實際句子的依存關(guān)系卻未體現(xiàn)。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明的目的在于,提供一種通過計算機實現(xiàn)的計算文本相似度和搜索處理方法 及裝置,更好地刻畫非局部的依存關(guān)系,解決長距離依存關(guān)系,從而實現(xiàn)更好的匹配效果。
[0005] 根據(jù)本發(fā)明的一方面,提供一種通過計算機實現(xiàn)的計算文本相似度的方法,包括: 獲取第一文本串和第二文本串;根據(jù)預(yù)先設(shè)置的短語翻譯模型和依存結(jié)構(gòu)模型,對所述第 一文本串進行解碼,獲取K個翻譯文本串;分別計算所述K個翻譯文本串與所述第二文本串 之間的第一語義相似度值,并且根據(jù)計算的K個第一語義相似度值計算所述第一文本串和 第二文本串之間的第二語義相似度值。
[0006] 根據(jù)本發(fā)明的一方面,提供一種搜索處理方法,包括:接收搜索詞;根據(jù)所述搜索 詞獲取多個搜索結(jié)果條目;根據(jù)所述通過計算機實現(xiàn)的計算文本相似度的方法計算所述搜 索詞與所述多個搜索結(jié)果條目的內(nèi)容標(biāo)題的語義相似度值;根據(jù)計算的所述語義相似度值 對所述多個搜索結(jié)果條目進行排序;發(fā)送經(jīng)過排序的搜索結(jié)果條目。
[0007] 根據(jù)本發(fā)明的另一方面,提供一種計算文本相似度的裝置,包括:文本串獲取單 元,用于獲取第一文本串和第二文本串;文本串解碼單元,用于根據(jù)預(yù)先設(shè)置的短語翻譯模 型和依存結(jié)構(gòu)模型,對所述第一文本串進行解碼,獲取K個翻譯文本串;相似度值計算單 元,用于分別計算所述K個翻譯文本串與所述第二文本串之間的第一語義相似度值,并且 根據(jù)計算的K個第一語義相似度值計算所述第一文本串和第二文本串之間的第二語義相 似度值。
[0008] 根據(jù)本發(fā)明的另一方面,提供一種搜索處理裝置,包括:搜索詞接收單元,用于接 收搜索詞;搜索結(jié)果獲取單元,用于根據(jù)所述搜索詞獲取多個搜索結(jié)果條目;語義相似值 計算單元,用于所述計算文本相似度的裝置計算所述搜索詞與所述多個搜索結(jié)果條目的內(nèi) 容標(biāo)題的語義相似度值;排序單元,用于根據(jù)計算的所述語義相似度值對所述多個搜索結(jié) 果條目進行排序;發(fā)送單元,用于發(fā)送經(jīng)過排序的搜索結(jié)果條目。
[0009] 本發(fā)明實施例提供的通過計算機實現(xiàn)的計算文本相似度和搜索處理方法及裝置, 通過短語翻譯模型和依存結(jié)構(gòu)模型對第一文本串(如用戶輸入的搜索關(guān)鍵詞或query)進 行解碼獲得多個翻譯文本串,分別計算所述多個翻譯文本串與第二文本串(如搜索結(jié)果條 目的內(nèi)容標(biāo)題)之間的第一語義相似度值,并且根據(jù)計算的多個第一語義相似度值計算所 述第一文本串和第二文本串之間的第二語義相似度值,解決了文本串中長距離的依存關(guān)系 問題,能夠全面、準(zhǔn)確地計算文本串之間的相似度。
[0010] 在搜索技術(shù)中,通過將搜索詞和搜索獲取的搜索結(jié)果條目的內(nèi)容標(biāo)題進行如上所 述的語義相似度計算,可更好地表示搜索語句的語義,并且可綜合根據(jù)該相似度值以及第 一文本串,對返回的搜索結(jié)果進行排序,從而得到最優(yōu)的搜索結(jié)果,以供用戶查看。如此,解 決文本串中長距離的依存關(guān)系問題,從而更好地將搜索語句與網(wǎng)頁標(biāo)題進行匹配,向用戶 提供語義匹配的搜索結(jié)果條目,增強用戶搜索體驗。
【專利附圖】
【附圖說明】
[0011] 圖1是示出本發(fā)明示例性實施例的通過計算機實現(xiàn)的計算文本相似度的方法的 流程示意圖。
[0012] 圖2是示出本發(fā)明示例性實施例的句子的依存關(guān)系示例圖。
[0013] 圖3是示出本發(fā)明示例性實施例的搜索處理方法的流程示意圖。
[0014] 圖4是示出本發(fā)明示例性實施例的計算文本相似度的裝置的結(jié)構(gòu)框圖。
[0015] 圖5是示出本發(fā)明示例性實施例的搜索處理裝置的結(jié)構(gòu)框圖。
【具體實施方式】
[0016] 本發(fā)明的基本構(gòu)思是,在信息處理技術(shù)中,通過為翻譯模型引入目標(biāo)語言的依存 結(jié)構(gòu)模型來實現(xiàn)語義結(jié)構(gòu)的匹配;在文本匹配的處理中,將翻譯模型與依存結(jié)構(gòu)模型結(jié)合 對文本串進行解碼,用以產(chǎn)生Top K個翻譯文本串,再通過所述多個翻譯文本串與要進行比 較/匹配的另一文本串進行實現(xiàn)語義結(jié)構(gòu)的匹配,強化語義結(jié)構(gòu)信息,且通過語義相似度 的計算,向用戶推送與搜索語句匹配的網(wǎng)頁標(biāo)題。
[0017] 傳統(tǒng)的短語翻譯模型,在將搜索詞翻譯成Top K的標(biāo)題時,會使用NGRAM語言模型 來考察翻譯得到的標(biāo)題是否符合目標(biāo)語言的語言規(guī)律。本發(fā)明中,為了進一步考察目標(biāo)語 言的依存結(jié)構(gòu),故而進一步引入一個依存結(jié)構(gòu)模型。
[0018] 具體地說,一個句子的依存關(guān)系是指句子S = (wl,w2,......wn)中兩個詞(wi, wj)之間是通過wj修飾wi這樣的依存弧以描述詞wj對wi的修飾關(guān)系;此外,為了描述鏈 式的修飾關(guān)系,增加特殊的根(root)節(jié)點w0,以(w0,wi)來表示其起始關(guān)系。
[0019] 可以通過如下等式計算句子S的依存結(jié)構(gòu)概率:
【權(quán)利要求】
1. 一種通過計算機實現(xiàn)的計算文本相似度的方法,其特征在于,所述方法包括: 獲取第一文本串和第二文本串; 根據(jù)預(yù)先設(shè)置的短語翻譯模型和依存結(jié)構(gòu)模型,對所述第一文本串進行解碼,獲取K 個翻譯文本串; 分別計算所述K個翻譯文本串與所述第二文本串之間的第一語義相似度值,并且根據(jù) 計算的K個第一語義相似度值計算所述第一文本串和第二文本串之間的第二語義相似度 值。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述分別計算所述K個翻譯文本串與所述 第二文本串之間的第一語義相似度值的處理包括: 獲取對所述第二文本串進行依存關(guān)系分析取得的至少一個第二依存弧,并且對任一所 述翻譯文本串,執(zhí)行W下處理: 對所述翻譯文本串進行依存關(guān)系分析,取得至少一個第一依存弧, 基于所述至少一個第一依存弧和至少一個第二依存弧計算所述任一所述翻譯文本串 和所述第二文本串之間的第一語義相似度值。
3. 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述基于所述至少一個第一依存弧和至 少一個第二依存弧計算所述任一所述翻譯文本串和所述第二文本串之間的第一語義相似 度值的處理包括: 計算所述至少一個第一依存弧和至少一個第二依存弧的余弦相似度作為所述任一所 述翻譯文本串和所述第二文本串之間的第一語義相似度值。
4. 根據(jù)權(quán)利要求1?3中任一項所述的方法,其特征在于,所述根據(jù)計算的K個第一語 義相似度值計算所述第一文本串和第二文本串之間的第二語義相似度值的處理包括: W所述依存結(jié)構(gòu)模型給予每個翻譯文本串的得分作為權(quán)重,對所述K個第一語義相似 度值進行加權(quán)求和,取得所述第一文本串和第二文本串之間的第二語義相似度值。
5. 根據(jù)權(quán)利要求4所述的方法,其特征在于,所述根據(jù)預(yù)先設(shè)置的短語翻譯模型和依 存結(jié)構(gòu)模型對所述第一文本串進行解碼,獲取K個翻譯文本串的處理包括: 根據(jù)所述短語翻譯模型、所述依存結(jié)構(gòu)模型、NGRAM語言模型W及語序扭曲模型對所述 第一文本串進行解碼,獲取所述K個翻譯文本串。
6. 根據(jù)權(quán)利要求5所述的方法,其特征在于,在所述根據(jù)所述短語翻譯模型、所述依存 結(jié)構(gòu)模型、NGRAM語言模型W及語序扭曲模型對所述第一文本串Q進行解碼,獲取所述K個 翻譯文本串T的處理中, 通過W下公式對任一候選文本串T計算綜合評分Score(T); Score(T)=入 iLMOO + AsTM 他 T) + A30 他 T) + A4DEP(T) 其中,LM(T)是根據(jù)所述NGRAM語言模型對翻譯文本串T的評分,TM化T)是根據(jù)所述 短語翻譯模型由第一文本串Q翻譯為翻譯文本串T的概率評分,D化T)是根據(jù)所述語序扭 曲模型計算的由第一文本串Q翻譯為翻譯文本串T的評分,DEP(T)是根據(jù)所述依存結(jié)構(gòu)模 型對翻譯文本串T的評分,A 1?A 4分別是賦予前述四個模型的評分的權(quán)重, 通過所述綜合評分從候選文本串當(dāng)中選取所述K個翻譯文本串。
7. 根據(jù)權(quán)利要求6所述的方法,其特征在于,通過柱捜索解碼器對所述第一文本串進 行解碼,獲取K個翻譯文本串。
8. -種捜索處理方法,其特征在于,包括: 接收捜索詞; 根據(jù)所述捜索詞獲取多個捜索結(jié)果條目; 根據(jù)如權(quán)利要求1?7中任一項所述的方法計算所述捜索詞與所述多個捜索結(jié)果條目 的內(nèi)容標(biāo)題的語義相似度值; 根據(jù)計算的所述語義相似度值對所述多個捜索結(jié)果條目進行排序; 發(fā)送經(jīng)過排序的捜索結(jié)果條目。
9. 一種計算文本相似度的裝置,其特征在于,所述裝置包括: 文本串獲取單元,用于獲取第一文本串和第二文本串; 文本串解碼單元,用于根據(jù)預(yù)先設(shè)置的短語翻譯模型和依存結(jié)構(gòu)模型,對所述第一文 本串進行解碼,獲取K個翻譯文本串; 相似度值計算單元,用于分別計算所述K個翻譯文本串與所述第二文本串之間的第一 語義相似度值,并且根據(jù)計算的K個第一語義相似度值計算所述第一文本串和第二文本串 之間的第二語義相似度值。
10. 根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述相似度值計算單元獲取對所述第二 文本串進行依存關(guān)系分析取得的至少一個第二依存弧, 對任一所述翻譯文本串,執(zhí)行W下處理: 對所述翻譯文本串進行依存關(guān)系分析,取得至少一個第一依存弧, 基于所述至少一個第一依存弧和至少一個第二依存弧計算所述任一所述翻譯文本串 和所述第二文本串之間的第一語義相似度值。
11. 根據(jù)權(quán)利要求10所述的裝置,其特征在于,所述相似度值計算單元計算所述至少 一個第一依存弧和至少一個第二依存弧的余弦相似度作為所述任一所述翻譯文本串和所 述第二文本串之間的第一語義相似度值。
12. 根據(jù)權(quán)利要求9?11中任一項所述的裝置,其特征在于,所述相似度值計算單元W 所述依存結(jié)構(gòu)模型給予每個翻譯文本串的得分作為權(quán)重,對所述K個第一語義相似度值進 行加權(quán)求和,取得所述第一文本串和第二文本串之間的第二語義相似度值。
13. 根據(jù)權(quán)利要求12所述的裝置,其特征在于,所述文本串解碼單元根據(jù)所述短語翻 譯模型、所述依存結(jié)構(gòu)模型、NGRAM語言模型W及語序扭曲模型對所述第一文本串進行解 碼,獲取所述K個翻譯文本串。
14. 根據(jù)權(quán)利要求13所述的裝置,其特征在于,所述文本串解碼單元通過W下公式對 任一候選文本串T計算綜合評分Score(T); Score(T)=入 iLMOO + AsTM 他 T) + A30 他 T) + A4DEP(T) 其中,LM(T)是根據(jù)所述NGRAM語言模型對翻譯文本串T的評分,TM化T)是根據(jù)所述 短語翻譯模型由第一文本串Q翻譯為翻譯文本串T的概率評分,D化T)是根據(jù)所述語序扭 曲模型計算的由第一文本串Q翻譯為翻譯文本串T的評分,DEP(T)是根據(jù)所述依存結(jié)構(gòu)模 型對翻譯文本串T的評分,A 1?A 4分別是賦予前述四個模型的評分的權(quán)重, 通過所述綜合評分從候選文本串當(dāng)中選取所述K個翻譯文本串。
15. 根據(jù)權(quán)利要求14所述的裝置,其特征在于,通過柱捜索解碼器對所述第一文本串 進行解碼,獲取K個翻譯文本串。
16. -種捜索處理裝置,其特征在于,包括: 捜索詞接收單元,用于接收捜索詞; 捜索結(jié)果獲取單元,用于根據(jù)所述捜索詞獲取多個捜索結(jié)果條目; 語義相似值計算單元,用于根據(jù)如權(quán)利要求9?15中任一項所述的裝置計算所述捜索 詞與所述多個捜索結(jié)果條目的內(nèi)容標(biāo)題的語義相似度值; 排序單元,用于根據(jù)計算的所述語義相似度值對所述多個捜索結(jié)果條目進行排序; 發(fā)送單元,用于發(fā)送經(jīng)過排序的捜索結(jié)果條目。
【文檔編號】G06F17/27GK104462060SQ201410728432
【公開日】2015年3月25日 申請日期:2014年12月3日 優(yōu)先權(quán)日:2014年12月3日
【發(fā)明者】張軍, 吳先超, 劉占一 申請人:百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司