亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

搜索優(yōu)化方法和裝置的制造方法

文檔序號:10488976閱讀:926來源:國知局
搜索優(yōu)化方法和裝置的制造方法
【專利摘要】本發(fā)明公開了一種搜索優(yōu)化方法和裝置,其中,搜索優(yōu)化方法包括:獲取輸入的關(guān)鍵詞,并將關(guān)鍵詞切分為多個字段;獲取每個字段對于關(guān)鍵詞的重要度,并根據(jù)重要度獲取符合預(yù)設(shè)條件的候選字段;基于倒排庫對候選字段進(jìn)行倒排拉鏈檢索,并獲取對應(yīng)的候選關(guān)鍵詞;基于迭代決策樹GBDT模型對候選關(guān)鍵詞進(jìn)行排序,并獲取排序結(jié)果;以及根據(jù)排序結(jié)果優(yōu)化關(guān)鍵詞,并根據(jù)優(yōu)化后的關(guān)鍵詞進(jìn)行搜索,以獲取搜索結(jié)果。本發(fā)明實施例通過對輸入的關(guān)鍵詞進(jìn)行分析,并基于倒排庫獲取對應(yīng)的候選關(guān)鍵詞,再對候選關(guān)鍵詞進(jìn)行排序,以及根據(jù)排序結(jié)果優(yōu)化關(guān)鍵詞,最后根據(jù)優(yōu)化后的關(guān)鍵詞進(jìn)行搜索獲取搜索結(jié)果,從而獲得更加滿足用戶需求的搜索結(jié)果,提升用戶搜索體驗。
【專利說明】
搜索優(yōu)化方法和裝置
技術(shù)領(lǐng)域
[0001]本發(fā)明涉及搜索引擎技術(shù)領(lǐng)域,尤其涉及一種搜索優(yōu)化方法和裝置。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)的高速發(fā)展,搜索引擎已成為人們獲取信息資源的重要工具之一。而如何提高搜索引擎的性能,則是目前亟需解決的問題。目前,主要是將用戶輸入的關(guān)鍵詞修改為更通用、能夠獲得更多搜索結(jié)果的關(guān)鍵詞。具體地,可采用對關(guān)鍵詞中字段到字段的改寫的方式,如將關(guān)鍵詞“XXX的媳婦”中的字段“媳婦”,替換為“老婆”。也可采用詞對齊的方式,如將關(guān)鍵詞“桂林這個地方的著名景點有哪些”,替換為“桂林有哪些著名景點”。但是,以上兩種方式均為等同替換,無法獲得更加滿足用戶需求的搜索結(jié)果。

【發(fā)明內(nèi)容】

[0003]本發(fā)明旨在至少在一定程度上解決相關(guān)技術(shù)中的技術(shù)問題之一。為此,本發(fā)明的一個目的在于提出一種搜索優(yōu)化方法,能夠優(yōu)化關(guān)鍵詞,從而獲得更加滿足用戶需求的搜索結(jié)果,提升用戶搜索體驗。
[0004]本發(fā)明的第二個目的在于提出一種搜索優(yōu)化裝置。
[0005]為了實現(xiàn)上述目的,本發(fā)明第一方面實施例提出了一種搜索優(yōu)化方法,包括:獲取輸入的關(guān)鍵詞,并將所述關(guān)鍵詞切分為多個字段;獲取每個字段對于所述關(guān)鍵詞的重要度,并根據(jù)所述重要度獲取符合預(yù)設(shè)條件的候選字段;基于倒排庫對所述候選字段進(jìn)行倒排拉鏈檢索,并獲取對應(yīng)的候選關(guān)鍵詞;基于迭代決策樹GBDT模型對所述候選關(guān)鍵詞進(jìn)行排序,并獲取排序結(jié)果;以及根據(jù)所述排序結(jié)果優(yōu)化所述關(guān)鍵詞,并根據(jù)優(yōu)化后的關(guān)鍵詞進(jìn)行搜索,以獲取搜索結(jié)果。
[0006]本發(fā)明實施例的搜索優(yōu)化方法,通過對輸入的關(guān)鍵詞進(jìn)行分析,并基于倒排庫獲取對應(yīng)的候選關(guān)鍵詞,再對候選關(guān)鍵詞進(jìn)行排序,以及根據(jù)排序結(jié)果優(yōu)化關(guān)鍵詞,最后根據(jù)優(yōu)化后的關(guān)鍵詞進(jìn)行搜索獲取搜索結(jié)果,從而獲得更加滿足用戶需求的搜索結(jié)果,提升用戶搜索體驗。
[0007]本發(fā)明第二方面實施例提出了一種搜索優(yōu)化裝置,包括:切分模塊,用于獲取輸入的關(guān)鍵詞,并將所述關(guān)鍵詞切分為多個字段;獲取模塊,用于獲取每個字段對于所述關(guān)鍵詞的重要度,并根據(jù)所述重要度獲取符合預(yù)設(shè)條件的候選字段;檢索模塊,用于基于倒排庫對所述候選字段進(jìn)行倒排拉鏈檢索,并獲取對應(yīng)的候選關(guān)鍵詞;排序模塊,用于基于迭代決策樹GBDT模型對所述候選關(guān)鍵詞進(jìn)行排序,并獲取排序結(jié)果;以及優(yōu)化模塊,用于根據(jù)所述排序結(jié)果優(yōu)化所述關(guān)鍵詞,并根據(jù)優(yōu)化后的關(guān)鍵詞進(jìn)行搜索,以獲取搜索結(jié)果。
[0008]本發(fā)明實施例的搜索優(yōu)化裝置,通過對輸入的關(guān)鍵詞進(jìn)行分析,并基于倒排庫獲取對應(yīng)的候選關(guān)鍵詞,再對候選關(guān)鍵詞進(jìn)行排序,以及根據(jù)排序結(jié)果優(yōu)化關(guān)鍵詞,最后根據(jù)優(yōu)化后的關(guān)鍵詞進(jìn)行搜索獲取搜索結(jié)果,從而獲得更加滿足用戶需求的搜索結(jié)果,提升用戶搜索體驗。
【附圖說明】
[0009]圖1是根據(jù)本發(fā)明一個實施例的搜索優(yōu)化方法的流程圖。
[0010]圖2是根據(jù)本發(fā)明一個實施例的對候選關(guān)鍵詞進(jìn)行排序的流程圖。
[0011]圖3是根據(jù)本發(fā)明一個實施例的搜索優(yōu)化裝置的結(jié)構(gòu)示意圖一。
[0012]圖4是根據(jù)本發(fā)明一個實施例的搜索優(yōu)化裝置的結(jié)構(gòu)示意圖二。
【具體實施方式】
[0013]下面詳細(xì)描述本發(fā)明的實施例,所述實施例的示例在附圖中示出,其中自始至終相同或類似的標(biāo)號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實施例是示例性的,旨在用于解釋本發(fā)明,而不能理解為對本發(fā)明的限制。
[0014]下面參考附圖描述本發(fā)明實施例的搜索優(yōu)化方法和裝置。
[0015]圖1是根據(jù)本發(fā)明一個實施例的搜索優(yōu)化方法的流程圖。
[0016]如圖1所示,搜索優(yōu)化方法可包括:
[0017]S1、獲取輸入的關(guān)鍵詞,并將關(guān)鍵詞切分為多個字段。
[0018]舉例來說,可接收用戶在輸入框中輸入的關(guān)鍵詞“桂林這個地方的著名景點有哪些,,,然后將其切分為諸如“桂林”、“這個”、“地方”、“的”、“著名”、“景點”、“有”、“哪些”的字段。
[0019]S2、獲取每個字段對于關(guān)鍵詞的重要度,并根據(jù)重要度獲取符合預(yù)設(shè)條件的候選字段。
[0020]繼續(xù)上例進(jìn)行描述,可分別獲取“桂林”、“這個”、“地方”、“的”、“著名”、“景點”、“有”、“哪些”這些字段對于關(guān)鍵詞“桂林這個地方的著名景點有哪些”的重要度。其中,重要度可以是但不僅限于IDF(反文檔頻率,Inverse Document Frequency)。然后可選取重要度排名為前三名的字段作為候選字段。如果關(guān)鍵詞中的字段數(shù)小于三個,則選擇全部字段作為候選字段。應(yīng)當(dāng)理解的是,選取前三名的字段作為候選字段為根據(jù)需求預(yù)先設(shè)置的預(yù)設(shè)條件,選取的字段數(shù)越多,后續(xù)的計算量越大,因此會影響系統(tǒng)的性能。故本例中選取三個字段。
[0021]S3、基于倒排庫對候選字段進(jìn)行倒排拉鏈檢索,并獲取對應(yīng)的候選關(guān)鍵詞。
[0022]在獲取候選字段之后,可基于倒排庫對候選字段進(jìn)行倒排拉鏈檢索,并獲取對應(yīng)的候選關(guān)鍵詞。而在此之前,需要先建立倒排庫。具體地,可統(tǒng)計互聯(lián)網(wǎng)絡(luò)中待選關(guān)鍵詞樣本的檢索次數(shù)和滿意度,再根據(jù)檢索次數(shù)和滿意度篩選出滿足預(yù)設(shè)要求的關(guān)鍵詞樣本,然后根據(jù)關(guān)鍵詞樣本建立倒排庫。其中,檢索次數(shù)為互聯(lián)網(wǎng)絡(luò)中用戶輸入該待選關(guān)鍵詞樣本進(jìn)行檢索的次數(shù)。滿意度則是用戶點擊該待選關(guān)鍵詞樣本進(jìn)行檢索的點擊次數(shù)與用戶感到滿意次數(shù)之間的比值,例如用戶點擊了 “桂林自助游”10次,其中有5次用戶感到滿意,則滿意度可為50 %。假設(shè)預(yù)設(shè)要求為點擊次數(shù)大于等于1000次,且滿意度要求大于等于80 %,則可根據(jù)該要求篩選出符合的關(guān)鍵詞樣本。最后基于上述篩選出的關(guān)鍵詞樣本建立起倒排庫。
[0023]在建立好倒排庫之后,便可對候選字段進(jìn)行倒排拉鏈檢索,并獲取對應(yīng)的候選關(guān)鍵詞。舉例來說,對字段“桂林”進(jìn)行倒排拉鏈檢索,可獲取包含該字段的多個候選關(guān)鍵詞如“桂林有哪些著名景點”、“桂林好玩的地方”、“桂林自助游”、“桂林最著名的景點是什么啊”等等。應(yīng)當(dāng)注意的是,在獲取候選關(guān)鍵詞時,還包括以下規(guī)則:優(yōu)先獲取包含候選字段數(shù)量多的候選關(guān)鍵詞,例如候選關(guān)鍵詞“桂林有哪些著名景點”包含“桂林”、“著名”、“景點”三個候選字段,而候選關(guān)鍵詞“桂林好玩的地方”只包含“桂林” 一個候選字段,則優(yōu)先選取候選關(guān)鍵詞“桂林有哪些著名景點”。
[0024]S4、基于迭代決策樹GBDT模型對候選關(guān)鍵詞進(jìn)行排序,并獲取排序結(jié)果。
[0025]在獲取候選關(guān)鍵詞之后,可基于GBDT模型(Gradient Boosting Decis1n Tree,迭代決策樹,)對候選關(guān)鍵詞進(jìn)行排序,并獲取排序結(jié)果。具體地,如圖2所示,可包括以下步驟:
[0026]S41、對候選關(guān)鍵詞進(jìn)行分析,并獲取候選關(guān)鍵詞對應(yīng)的特征。其中,特征可包括字面特征、語義特征、點擊特征、結(jié)構(gòu)特征等。
[0027]S42、根據(jù)特征獲取關(guān)鍵詞與候選關(guān)鍵詞的相似度。
[0028]其中,獲取關(guān)鍵詞與候選關(guān)鍵詞的相似度可包括以下方式:
[0029]第一種方式,可基于字面特征獲取輸入的關(guān)鍵詞與候選關(guān)鍵詞的字編輯距離和/或拼音編輯距離來獲取關(guān)鍵詞與候選關(guān)鍵詞的相似度,也可以獲取相同字段對于包含相同字段的候選關(guān)鍵詞的重要度來獲取關(guān)鍵詞與候選關(guān)鍵詞的相似度。上述均為基于字面特征獲取的相似度。
[0030]第二種方式,可基于語義特征獲取關(guān)鍵詞與候選關(guān)鍵詞的詞向量相似度,也可基于二元語法BIGRAM模型獲取關(guān)鍵詞與候選關(guān)鍵詞的DNN(深層神經(jīng)網(wǎng)絡(luò),Deep NeuralNetworks)相似度。上述為基于語義特征獲取的相似度。
[0031]第三種方式,可基于點擊特征獲取關(guān)鍵詞與候選關(guān)鍵詞的點擊相似度,其中,點擊特征可包括點擊次數(shù)、滿意次數(shù)與點擊次數(shù)的比值等。
[0032]第四種方式,可基于結(jié)構(gòu)特征獲取關(guān)鍵詞與候選關(guān)鍵詞的結(jié)構(gòu)相似度。舉例來說,關(guān)鍵詞為“北京到上海的火車票”,其中一個候選關(guān)鍵詞為“上海到北京的火車票”,關(guān)鍵詞的結(jié)構(gòu)為:起點=北京,終點=上海,需求=火車票;候選關(guān)鍵詞的結(jié)構(gòu)為:起點=上海,終點=北京,需求=火車票,由此可知兩者的結(jié)構(gòu)相反,因此兩者結(jié)構(gòu)相似度為零,即可濾掉該候選關(guān)鍵詞。
[0033]S43、根據(jù)相似度對候選關(guān)鍵詞進(jìn)行排序,并獲取排序結(jié)果。
[0034]在獲取關(guān)鍵詞與候選關(guān)鍵詞的相似度之后,可根據(jù)相似度對候選關(guān)鍵詞進(jìn)行排序,并獲取排序結(jié)果。舉例來說,首先可優(yōu)先選擇包含候選字段數(shù)量多的候選關(guān)鍵詞。如果候選關(guān)鍵詞包含的候選字段數(shù)量相同,則優(yōu)先選擇候選字段重要度高的候選關(guān)鍵詞。其中,若候選字段數(shù)量為多個,則獲取候選字段重要度之和。然后再按照候選關(guān)鍵詞的點擊次數(shù)進(jìn)行排序。
[0035]另外,為了更好的處理口語化的關(guān)鍵詞,可先提取關(guān)鍵詞的主干信息,然后獲取關(guān)鍵詞與候選關(guān)鍵詞的第一 GBDT得分,再獲取主干信息與候選關(guān)鍵詞的第二 GBDT得分,最后獲取第一 GBDT得分和第二 GBDT得分的平均得分,并根據(jù)平均得分對候選關(guān)鍵詞進(jìn)行排序,以獲取排序結(jié)果。例如:用戶輸入的關(guān)鍵詞為“你知道王俊凱的女朋友嗎”,可對該關(guān)鍵詞進(jìn)行分析,然后提取對應(yīng)的主干信息“王俊凱女朋友”。其中,提取主干信息的方法可以是但不限于獲取字段對于關(guān)鍵詞的重要度。然后獲取“你知道王俊凱的女朋友嗎”與候選關(guān)鍵詞之間的相似度得分,再獲取主干信息“王俊凱女朋友”與候選關(guān)鍵詞之間的相似度得分,最后獲取兩者的平均值。按照數(shù)值從高到低的順序?qū)蜻x關(guān)鍵詞進(jìn)行排序。
[0036]S5、根據(jù)排序結(jié)果優(yōu)化關(guān)鍵詞,并根據(jù)優(yōu)化后的關(guān)鍵詞進(jìn)行搜索,以獲取搜索結(jié)果O
[0037]在獲取排序結(jié)果之后,可根據(jù)排序結(jié)果優(yōu)化關(guān)鍵詞,即將排序結(jié)果中最優(yōu)的候選關(guān)鍵詞替換掉用戶輸入的關(guān)鍵詞,再進(jìn)行搜索,并獲取對應(yīng)搜索結(jié)果,從而獲取更符合用戶需求的搜索結(jié)果。
[0038]此外,在根據(jù)優(yōu)化后的關(guān)鍵詞進(jìn)行搜索時,如果該關(guān)鍵詞能夠匹配到阿拉丁結(jié)果,則可直接在搜索結(jié)果頁展示阿拉丁結(jié)果。其中,阿拉丁結(jié)果為通過接口直接展示實體結(jié)果的搜索結(jié)果,例如關(guān)鍵詞中包含“天氣”,則可直接通過預(yù)設(shè)的接口展示當(dāng)天天氣及未來一周的天氣情況等。
[0039]本發(fā)明實施例的搜索優(yōu)化方法,通過對輸入的關(guān)鍵詞進(jìn)行分析,并基于倒排庫獲取對應(yīng)的候選關(guān)鍵詞,再對候選關(guān)鍵詞進(jìn)行排序,以及根據(jù)排序結(jié)果優(yōu)化關(guān)鍵詞,最后根據(jù)優(yōu)化后的關(guān)鍵詞進(jìn)行搜索獲取搜索結(jié)果,從而獲得更加滿足用戶需求的搜索結(jié)果,提升用戶搜索體驗。
[0040]為實現(xiàn)上述目的,本發(fā)明還提出一種搜索優(yōu)化裝置。
[0041]圖3是根據(jù)本發(fā)明一個實施例的搜索優(yōu)化裝置的結(jié)構(gòu)示意圖一。
[0042]如圖3所示,搜索優(yōu)化裝置可包括:切分模塊110、獲取模塊120、檢索模塊130、排序模塊140和優(yōu)化模塊150。
[0043]切分模塊110用于獲取輸入的關(guān)鍵詞,并將關(guān)鍵詞切分為多個字段。舉例來說,可接收用戶在輸入框中輸入的關(guān)鍵詞“桂林這個地方的著名景點有哪些”,然后切分模塊110將其切分為諸如“桂林”、“這個”、“地方”、“的”、“著名”、“景點”、“有”、“哪些”的字段。
[0044]獲取模塊120用于獲取每個字段對于關(guān)鍵詞的重要度,并根據(jù)重要度獲取符合預(yù)設(shè)條件的候選字段。繼續(xù)上例進(jìn)行描述,可分別獲取“桂林”、“這個”、“地方”、“的”、“著名”、“景點”、“有”、“哪些”這些字段對于關(guān)鍵詞“桂林這個地方的著名景點有哪些”的重要度。其中,重要度可以是但不僅限于IDF(反文檔頻率,Inverse Document Frequency)。然后可選取重要度排名為前三名的字段作為候選字段。如果關(guān)鍵詞中的字段數(shù)小于三個,則選擇全部字段作為候選字段。應(yīng)當(dāng)理解的是,選取前三名的字段作為候選字段為根據(jù)需求預(yù)先設(shè)置的預(yù)設(shè)條件,選取的字段數(shù)越多,后續(xù)的計算量越大,因此會影響系統(tǒng)的性能。故本例中選取三個字段。
[0045]檢索模塊130用于基于倒排庫對候選字段進(jìn)行倒排拉鏈檢索,并獲取對應(yīng)的候選關(guān)鍵詞。具體地,檢索模塊130可對候選字段進(jìn)行倒排拉鏈檢索,并獲取對應(yīng)的候選關(guān)鍵詞。舉例來說,對字段“桂林”進(jìn)行倒排拉鏈檢索,可獲取包含該字段的多個候選關(guān)鍵詞如“桂林有哪些著名景點”、“桂林好玩的地方”、“桂林自助游”、“桂林最著名的景點是什么啊”等等。應(yīng)當(dāng)注意的是,在獲取候選關(guān)鍵詞時,還包括以下規(guī)則:優(yōu)先獲取包含候選字段數(shù)量多的候選關(guān)鍵詞,例如候選關(guān)鍵詞“桂林有哪些著名景點”包含“桂林”、“著名”、“景點”三個候選字段,而候選關(guān)鍵詞“桂林好玩的地方”只包含“桂林” 一個候選字段,則優(yōu)先選取候選關(guān)鍵詞“桂林有哪些著名景點”。
[0046]排序模塊140用于基于迭代決策樹GBDT模型對候選關(guān)鍵詞進(jìn)行排序,并獲取排序結(jié)果。其中,排序模塊140可包括分析單元141、獲取單元142和排序單元143。
[0047]具體地,分析單元141可對候選關(guān)鍵詞進(jìn)行分析,并獲取候選關(guān)鍵詞對應(yīng)的特征。其中,特征可包括字面特征、語義特征、點擊特征、結(jié)構(gòu)特征等。然后獲取單元142可根據(jù)特征獲取關(guān)鍵詞與候選關(guān)鍵詞的相似度。其中,獲取關(guān)鍵詞與候選關(guān)鍵詞的相似度可包括以下方式:第一種方式,可基于字面特征獲取輸入的關(guān)鍵詞與候選關(guān)鍵詞的字編輯距離和/或拼音編輯距離來獲取關(guān)鍵詞與候選關(guān)鍵詞的相似度,也可以獲取相同字段對于包含相同字段的候選關(guān)鍵詞的重要度來獲取關(guān)鍵詞與候選關(guān)鍵詞的相似度。上述均為基于字面特征獲取的相似度。第二種方式,可基于語義特征獲取關(guān)鍵詞與候選關(guān)鍵詞的詞向量相似度,也可基于二元語法BIGRAM模型獲取關(guān)鍵詞與候選關(guān)鍵詞的DNN(深層神經(jīng)網(wǎng)絡(luò),Deep NeuralNetworks)相似度。上述為基于語義特征獲取的相似度。第三種方式,可基于點擊特征獲取關(guān)鍵詞與候選關(guān)鍵詞的點擊相似度,其中,點擊特征可包括點擊次數(shù)、滿意次數(shù)與點擊次數(shù)的比值等。第四種方式,可基于結(jié)構(gòu)特征獲取關(guān)鍵詞與候選關(guān)鍵詞的結(jié)構(gòu)相似度。舉例來說,關(guān)鍵詞為“北京到上海的火車票”,其中一個候選關(guān)鍵詞為“上海到北京的火車票”,關(guān)鍵詞的結(jié)構(gòu)為:起點=北京,終點=上海,需求=火車票;候選關(guān)鍵詞的結(jié)構(gòu)為:起點=上海,終點=北京,需求=火車票,由此可知兩者的結(jié)構(gòu)相反,因此兩者結(jié)構(gòu)相似度為零,即可濾掉該候選關(guān)鍵詞。在獲取關(guān)鍵詞與候選關(guān)鍵詞的相似度之后,排序單元143可根據(jù)相似度對候選關(guān)鍵詞進(jìn)行排序,并獲取排序結(jié)果。舉例來說,首先可優(yōu)先選擇包含候選字段數(shù)量多的候選關(guān)鍵詞。如果候選關(guān)鍵詞包含的候選字段數(shù)量相同,則優(yōu)先選擇候選字段重要度高的候選關(guān)鍵詞。其中,若候選字段數(shù)量為多個,則獲取候選字段重要度之和。然后再按照候選關(guān)鍵詞的點擊次數(shù)進(jìn)行排序。
[0048]另外,為了更好的處理口語化的關(guān)鍵詞,排序模塊140還可提取關(guān)鍵詞的主干信息,然后獲取關(guān)鍵詞與候選關(guān)鍵詞的第一GBDT得分,再獲取主干信息與候選關(guān)鍵詞的第二GBDT得分,最后獲取第一 GBDT得分和第二 GBDT得分的平均得分,并根據(jù)平均得分對候選關(guān)鍵詞進(jìn)行排序,以獲取排序結(jié)果。例如:用戶輸入的關(guān)鍵詞為“你知道王俊凱的女朋友嗎”,可對該關(guān)鍵詞進(jìn)行分析,然后提取對應(yīng)的主干信息“王俊凱女朋友”。其中,提取主干信息的方法可以是但不限于獲取字段對于關(guān)鍵詞的重要度。然后獲取“你知道王俊凱的女朋友嗎”與候選關(guān)鍵詞之間的相似度得分,再獲取主干信息“王俊凱女朋友”與候選關(guān)鍵詞之間的相似度得分,最后獲取兩者的平均值。按照數(shù)值從高到低的順序?qū)蜻x關(guān)鍵詞進(jìn)行排序。
[0049]優(yōu)化模塊150用于根據(jù)排序結(jié)果優(yōu)化關(guān)鍵詞,并根據(jù)優(yōu)化后的關(guān)鍵詞進(jìn)行搜索,以獲取搜索結(jié)果。在獲取排序結(jié)果之后,優(yōu)化模塊150可根據(jù)排序結(jié)果優(yōu)化關(guān)鍵詞,即將排序結(jié)果中最優(yōu)的候選關(guān)鍵詞替換掉用戶輸入的關(guān)鍵詞,再進(jìn)行搜索,并獲取對應(yīng)搜索結(jié)果,從而獲取更符合用戶需求的搜索結(jié)果。
[0050]此外,在根據(jù)優(yōu)化后的關(guān)鍵詞進(jìn)行搜索時,如果該關(guān)鍵詞能夠匹配到阿拉丁結(jié)果,則可直接在搜索結(jié)果頁展示阿拉丁結(jié)果。其中,阿拉丁結(jié)果為通過接口直接展示實體結(jié)果的搜索結(jié)果,例如關(guān)鍵詞中包含“天氣”,則可直接通過預(yù)設(shè)的接口展示當(dāng)天天氣及未來一周的天氣情況等。
[0051 ]如圖4所示,搜索優(yōu)化裝置還可包括建立模塊160。
[0052]在基于倒排庫對候選字段進(jìn)行倒排拉鏈檢索,并獲取對應(yīng)的候選關(guān)鍵詞之前,需要預(yù)先通過建立模塊160建立倒排庫。
[0053]具體地,建立模塊160可統(tǒng)計互聯(lián)網(wǎng)絡(luò)中待選關(guān)鍵詞樣本的檢索次數(shù)和滿意度,再根據(jù)檢索次數(shù)和滿意度篩選出滿足預(yù)設(shè)要求的關(guān)鍵詞樣本,然后根據(jù)關(guān)鍵詞樣本建立倒排庫。其中,檢索次數(shù)為互聯(lián)網(wǎng)絡(luò)中用戶輸入該待選關(guān)鍵詞樣本進(jìn)行檢索的次數(shù)。滿意度則是用戶點擊該待選關(guān)鍵詞樣本進(jìn)行檢索的點擊次數(shù)與用戶感到滿意次數(shù)之間的比值,例如用戶點擊了 “桂林自助游”10次,其中有5次用戶感到滿意,則滿意度可為50%。假設(shè)預(yù)設(shè)要求為點擊次數(shù)大于等于1000次,且滿意度要求大于等于80%,則可根據(jù)該要求篩選出符合的關(guān)鍵詞樣本。最后基于上述篩選出的關(guān)鍵詞樣本建立起倒排庫。
[0054]本發(fā)明實施例的搜索優(yōu)化裝置,通過對輸入的關(guān)鍵詞進(jìn)行分析,并基于倒排庫獲取對應(yīng)的候選關(guān)鍵詞,再對候選關(guān)鍵詞進(jìn)行排序,以及根據(jù)排序結(jié)果優(yōu)化關(guān)鍵詞,最后根據(jù)優(yōu)化后的關(guān)鍵詞進(jìn)行搜索獲取搜索結(jié)果,從而獲得更加滿足用戶需求的搜索結(jié)果,提升用戶搜索體驗。
[0055]在本發(fā)明的描述中,需要理解的是,術(shù)語“中心”、“縱向”、“橫向”、“長度”、“寬度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“豎直”、“水平”、“頂”、“底” “內(nèi)”、“外”、“順時針”、“逆時針”、“軸向”、“徑向”、“周向”等指示的方位或位置關(guān)系為基于附圖所示的方位或位置關(guān)系,僅是為了便于描述本發(fā)明和簡化描述,而不是指示或暗示所指的裝置或元件必須具有特定的方位、以特定的方位構(gòu)造和操作,因此不能理解為對本發(fā)明的限制。
[0056]此外,術(shù)語“第一”、“第二”僅用于描述目的,而不能理解為指示或暗示相對重要性或者隱含指明所指示的技術(shù)特征的數(shù)量。由此,限定有“第一”、“第二”的特征可以明示或者隱含地包括至少一個該特征。在本發(fā)明的描述中,“多個”的含義是至少兩個,例如兩個,三個等,除非另有明確具體的限定。
[0057]在本發(fā)明中,除非另有明確的規(guī)定和限定,術(shù)語“安裝”、“相連”、“連接”、“固定”等術(shù)語應(yīng)做廣義理解,例如,可以是固定連接,也可以是可拆卸連接,或成一體;可以是機(jī)械連接,也可以是電連接;可以是直接相連,也可以通過中間媒介間接相連,可以是兩個元件內(nèi)部的連通或兩個元件的相互作用關(guān)系,除非另有明確的限定。對于本領(lǐng)域的普通技術(shù)人員而言,可以根據(jù)具體情況理解上述術(shù)語在本發(fā)明中的具體含義。
[0058]在本發(fā)明中,除非另有明確的規(guī)定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接觸,或第一和第二特征通過中間媒介間接接觸。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或僅僅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或僅僅表示第一特征水平高度小于第二特征。
[0059]在本說明書的描述中,參考術(shù)語“一個實施例”、“一些實施例”、“示例”、“具體示例”、或“一些示例”等的描述意指結(jié)合該實施例或示例描述的具體特征、結(jié)構(gòu)、材料或者特點包含于本發(fā)明的至少一個實施例或示例中。在本說明書中,對上述術(shù)語的示意性表述不必須針對的是相同的實施例或示例。而且,描述的具體特征、結(jié)構(gòu)、材料或者特點可以在任一個或多個實施例或示例中以合適的方式結(jié)合。此外,在不相互矛盾的情況下,本領(lǐng)域的技術(shù)人員可以將本說明書中描述的不同實施例或示例以及不同實施例或示例的特征進(jìn)行結(jié)合和組合。
[0060]盡管上面已經(jīng)示出和描述了本發(fā)明的實施例,可以理解的是,上述實施例是示例性的,不能理解為對本發(fā)明的限制,本領(lǐng)域的普通技術(shù)人員在本發(fā)明的范圍內(nèi)可以對上述實施例進(jìn)行變化、修改、替換和變型。
【主權(quán)項】
1.一種搜索優(yōu)化方法,其特征在于,包括以下步驟: 獲取輸入的關(guān)鍵詞,并將所述關(guān)鍵詞切分為多個字段; 獲取每個字段對于所述關(guān)鍵詞的重要度,并根據(jù)所述重要度獲取符合預(yù)設(shè)條件的候選字段; 基于倒排庫對所述候選字段進(jìn)行倒排拉鏈檢索,并獲取對應(yīng)的候選關(guān)鍵詞; 基于迭代決策樹GK)T模型對所述候選關(guān)鍵詞進(jìn)行排序,并獲取排序結(jié)果;以及 根據(jù)所述排序結(jié)果優(yōu)化所述關(guān)鍵詞,并根據(jù)優(yōu)化后的關(guān)鍵詞進(jìn)行搜索,以獲取搜索結(jié)果O2.如權(quán)利要求1所述的方法,其特征在于,在基于倒排庫對所述候選字段進(jìn)行倒排拉鏈檢索,并獲取對應(yīng)的候選關(guān)鍵詞之前,還包括: 建立所述倒排庫。3.如權(quán)利要求2所述的方法,其特征在于,建立所述倒排庫,包括: 統(tǒng)計網(wǎng)絡(luò)中待選關(guān)鍵詞樣本的檢索次數(shù)和滿意度; 根據(jù)所述檢索次數(shù)和所述滿意度篩選出滿足預(yù)設(shè)要求的關(guān)鍵詞樣本;以及 根據(jù)所述關(guān)鍵詞樣本建立所述倒排庫。4.如權(quán)利要求1所述的方法,其特征在于,基于迭代決策樹GBDT模型對所述候選關(guān)鍵詞進(jìn)行排序,并獲取排序結(jié)果,包括: 對所述候選關(guān)鍵詞進(jìn)行分析,并獲取所述候選關(guān)鍵詞對應(yīng)的特征,所述特征包括字面特征、語義特征、點擊特征和結(jié)構(gòu)特征中的一種或多種; 根據(jù)所述特征獲取所述關(guān)鍵詞與所述候選關(guān)鍵詞的相似度; 根據(jù)所述相似度對所述候選關(guān)鍵詞進(jìn)行排序,并獲取排序結(jié)果。5.如權(quán)利要求4所述的方法,其特征在于,根據(jù)所述特征獲取所述關(guān)鍵詞與所述候選關(guān)鍵詞的相似度,包括: 基于所述字面特征獲取所述關(guān)鍵詞與所述候選關(guān)鍵詞的字編輯距離和/或拼音編輯距離;和/或 獲取相同字段對于包含所述相同字段的候選關(guān)鍵詞的重要度。6.如權(quán)利要求4所述的方法,其特征在于,根據(jù)所述特征獲取所述關(guān)鍵詞與所述候選關(guān)鍵詞的相似度,包括: 基于所述語義特征獲取所述關(guān)鍵詞與所述候選關(guān)鍵詞的詞向量相似度;和/或 基于二元語法BIGRAM模型獲取所述關(guān)鍵詞與所述候選關(guān)鍵詞的深層神經(jīng)網(wǎng)絡(luò)DNN相似度。7.如權(quán)利要求4所述的方法,其特征在于,根據(jù)所述特征獲取所述關(guān)鍵詞與所述候選關(guān)鍵詞的相似度,包括: 基于所述點擊特征獲取所述關(guān)鍵詞與所述候選關(guān)鍵詞的點擊相似度。8.如權(quán)利要求4所述的方法,其特征在于,根據(jù)所述特征獲取所述關(guān)鍵詞與所述候選關(guān)鍵詞的相似度,包括: 基于所述結(jié)構(gòu)特征獲取所述關(guān)鍵詞與所述候選關(guān)鍵詞的結(jié)構(gòu)相似度。9.如權(quán)利要求1所述的方法,其特征在于,基于迭代決策樹GBDT模型對所述候選關(guān)鍵詞進(jìn)行排序,并獲取排序結(jié)果,還包括: 提取所述關(guān)鍵詞的主干信息; 獲取所述關(guān)鍵詞與所述候選關(guān)鍵詞的第一 GK)T得分; 獲取所述主干信息與所述候選關(guān)鍵詞的第二 GK)T得分; 獲取所述第一 GBDT得分和所述第二 GBDT得分的平均得分,并根據(jù)所述平均得分對所述候選關(guān)鍵詞進(jìn)行排序,以獲取排序結(jié)果。10.一種搜索優(yōu)化裝置,其特征在于,包括: 切分模塊,用于獲取輸入的關(guān)鍵詞,并將所述關(guān)鍵詞切分為多個字段; 獲取模塊,用于獲取每個字段對于所述關(guān)鍵詞的重要度,并根據(jù)所述重要度獲取符合預(yù)設(shè)條件的候選字段; 檢索模塊,用于基于倒排庫對所述候選字段進(jìn)行倒排拉鏈檢索,并獲取對應(yīng)的候選關(guān)鍵詞; 排序模塊,用于基于迭代決策樹GBDT模型對所述候選關(guān)鍵詞進(jìn)行排序,并獲取排序結(jié)果;以及 優(yōu)化模塊,用于根據(jù)所述排序結(jié)果優(yōu)化所述關(guān)鍵詞,并根據(jù)優(yōu)化后的關(guān)鍵詞進(jìn)行搜索,以獲取搜索結(jié)果。11.如權(quán)利要求10所述的裝置,其特征在于,所述裝置還包括: 建立模塊,用于在基于倒排庫對所述候選字段進(jìn)行倒排拉鏈檢索,并獲取對應(yīng)的候選關(guān)鍵詞之前,建立所述倒排庫。12.如權(quán)利要求11所述的裝置,其特征在于,所述建立模塊,用于: 統(tǒng)計網(wǎng)絡(luò)中待選關(guān)鍵詞樣本的檢索次數(shù)和滿意度; 根據(jù)所述檢索次數(shù)和所述滿意度篩選出滿足預(yù)設(shè)要求的關(guān)鍵詞樣本;以及 根據(jù)所述關(guān)鍵詞樣本建立所述倒排庫。13.如權(quán)利要求10所述的裝置,其特征在于,所述排序模塊,包括: 分析單元,用于對所述候選關(guān)鍵詞進(jìn)行分析,并獲取所述候選關(guān)鍵詞對應(yīng)的特征,所述特征包括字面特征、語義特征、點擊特征和結(jié)構(gòu)特征中的一種或多種; 獲取單元,用于根據(jù)所述特征獲取所述關(guān)鍵詞與所述候選關(guān)鍵詞的相似度; 排序單元,用于根據(jù)所述相似度對所述候選關(guān)鍵詞進(jìn)行排序,并獲取排序結(jié)果。14.如權(quán)利要求13所述的裝置,其特征在于,所述獲取單元,用于: 基于所述字面特征獲取所述關(guān)鍵詞與所述候選關(guān)鍵詞的字編輯距離和/或拼音編輯距離;和/或 獲取相同字段對于包含所述相同字段的候選關(guān)鍵詞的重要度。15.如權(quán)利要求13所述的裝置,其特征在于,所述獲取單元,用于: 基于所述語義特征獲取所述關(guān)鍵詞與所述候選關(guān)鍵詞的詞向量相似度;和/或 基于二元語法BIGRAM模型獲取所述關(guān)鍵詞與所述候選關(guān)鍵詞的深層神經(jīng)網(wǎng)絡(luò)DNN相似度。16.如權(quán)利要求13所述的裝置,其特征在于,所述獲取單元,用于: 基于所述點擊特征獲取所述關(guān)鍵詞與所述候選關(guān)鍵詞的點擊相似度。17.如權(quán)利要求13所述的裝置,其特征在于,所述獲取單元,用于: 基于所述結(jié)構(gòu)特征獲取所述關(guān)鍵詞與所述候選關(guān)鍵詞的結(jié)構(gòu)相似度。18.如權(quán)利要求10所述的裝置,其特征在于,所述排序模塊,還用于: 提取所述關(guān)鍵詞的主干信息; 獲取所述關(guān)鍵詞與所述候選關(guān)鍵詞的第一 GK)T得分; 獲取所述主干信息與所述候選關(guān)鍵詞的第二 GK)T得分; 獲取所述第一 GBDT得分和所述第二 GBDT得分的平均得分,并根據(jù)所述平均得分對所述候選關(guān)鍵詞進(jìn)行排序,以獲取排序結(jié)果。
【文檔編號】G06F17/30GK105843850SQ201610148071
【公開日】2016年8月10日
【申請日】2016年3月15日
【發(fā)明人】王麗杰, 徐新超, 劉備, 劉占, 劉占一
【申請人】北京百度網(wǎng)訊科技有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1