亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

基于垂直搜索的相關度排序實現方法及裝置的制造方法

文檔序號:10612809閱讀:157來源:國知局
基于垂直搜索的相關度排序實現方法及裝置的制造方法
【專利摘要】本發(fā)明實施例提供一種基于垂直搜索的相關度排序實現方法及裝置。該方法包括:對待搜索名詞進行分詞后得到整詞分割詞、相鄰詞分割詞和字分割詞;根據所述整詞分割詞、相鄰詞分割詞和字分割詞搜索每個文檔中所述整詞分割詞、相鄰詞分割詞和字分割詞所出現的詞頻;根據所述詞頻和所述整詞分割詞的第一權重、相鄰詞分割詞的第二權重和字分割詞的第三權重對所述待搜索名詞的搜索結果進行相關度排序。
【專利說明】
基于垂直搜索的相關度排序實現方法及裝置
技術領域
[0001]本發(fā)明實施例涉及信息技術領域,尤其涉及一種基于垂直搜索的相關度排序實現方法及裝置。【背景技術】
[0002]垂直搜索引擎是針對某一個行業(yè)的專業(yè)搜索引擎,是搜索引擎的細分和延伸,是對網頁庫中的某類專門的信息進行一次整合,定向分字段抽取出需要的數據進行處理后再以某種形式返回給用戶的。垂直搜索是相對通用搜索引擎的信息量大、查詢不準確、深度不夠等提出來的新的搜索引擎服務模式,通過針對某一特定領域、某一特定人群或某一特定需求提供的有一定價值的信息和相關服務。
[0003]現有技術中,當有人使用面向特定用戶的垂直搜索時,經常會遇到這樣的問題。例如:用戶在平臺上搜索一個叫“劉東華”的公司總裁,但是搜索‘劉東華’,劉東華的個人資料沒有放在最前面;搜索‘東華’,先出來的是東華責任有限公司。搜索‘劉東’,第一頁根本顯示不出來劉東華等諸如此類的問題。[〇〇〇4] 雖然現有存在一些通用的搜索引擎框架,如solr,elastic search等。但因為solr 和elastic search都是通用的搜索引擎框架,不具有針對性。另外,這些都是國外的框架, 很多功能都只針對于英語等西方語言設計,需要進行改造才能達到理想的效果。因此針對一些非常具體又比較特別的領域,若想進行上述這樣的垂直搜索時,并沒有有效的解決方案,用戶很難直接搜索到想要的信息。
【發(fā)明內容】

[0005]本發(fā)明實施例提供一種基于垂直搜索的相關度排序實現方法及裝置,以解決現有技術中進行垂直搜索時,難以直接得到搜索結果的技術問題。
[0006]本發(fā)明實施例的一個方面是提供一種基于垂直搜索的相關度排序實現方法,包括:
[0007]對待搜索名詞進行分詞后得到整詞分割詞、相鄰詞分割詞和字分割詞;
[0008]根據所述整詞分割詞、相鄰詞分割詞和字分割詞搜索每個文檔中所述整詞分割詞、相鄰詞分割詞和字分割詞所出現的詞頻;
[0009]根據所述詞頻和所述整詞分割詞的第一權重、相鄰詞分割詞的第二權重和字分割詞的第三權重對所述待搜索名詞的搜索結果進行相關度排序。
[0010]可選地,該方法還包括:定期維護同義詞詞庫,所述同義詞詞庫中存儲有符合存儲原則的名詞,以及所述符合存儲原則的名詞的同義詞。
[0011]可選地,該方法還包括:
[0012]在所述同義詞詞庫中搜索所述整詞分割詞和相鄰詞分割詞;
[0013]針對搜索到對應同義詞的所述整詞分割詞或者相鄰詞分割詞,增加與所述待搜索名稱的相關度到所述搜索結果的排序中。
[0014]可選地,所述第一權重是所述第二權重的N倍,N大于等于3;所述第二權重大于所第三權重。
[0015]可選地,所述根據所述詞頻和所述整詞分割詞的第一權重、相鄰詞分割詞的第二權重和字分割詞的第三權重對所述待搜索名詞的搜索結果進行相關度排序,具體包括:
[0016]針對搜索的每篇文檔,根據所述詞頻和所述整詞分割詞的第一權重、相鄰詞分割詞的第二權重和字分割詞的第三權重計算該待搜索的名詞在該篇文檔中詞頻數值;
[0017]根據每篇文檔的所述詞頻數值,按照從高到低的順序對搜索到的文檔進行相關度排序。
[0018]本發(fā)明實施例的另一個方面是提供一種基于垂直搜索的相關度排序實現裝置,包括:
[0019]分詞器單元,用于對待搜索名詞進行分詞后得到整詞分割詞、相鄰詞分割詞和字分割詞;
[0020]統(tǒng)計單元,用于根據所述整詞分割詞、相鄰詞分割詞和字分割詞搜索每個文檔中所述整詞分割詞、相鄰詞分割詞和字分割詞所出現的詞頻;
[0021]排序單元,用于根據所述詞頻和所述整詞分割詞的第一權重、相鄰詞分割詞的第二權重和字分割詞的第三權重對所述待搜索名詞的搜索結果進行相關度排序。
[0022]可選的,該裝置還包括:同義詞器單元,用于定期維護同義詞詞庫,所述同義詞詞庫中存儲有符合存儲原則的名詞,以及所述符合存儲原則的名詞的同義詞。
[0023]可選地,該裝置還包括:過濾單元,用于在所述同義詞詞庫中搜索所述整詞分割詞和相鄰詞分割詞;
[0024]所述排序單元,還用于針對搜索到對應同義詞的所述整詞分割詞或者相鄰詞分割詞增加第四權重到對所述待搜索名詞的搜索結果的相關度排序中。
[0025]可選地,所述第一權重是所述第二權重的N倍,N大于等于3;所述第二權重大于所第三權重。
[0026]可選地,,所述排序單元,具體包用于針對搜索的每篇文檔,根據所述詞頻和所述整詞分割詞的第一權重、相鄰詞分割詞的第二權重和字分割詞的第三權重計算該待搜索的名詞在該篇文檔中詞頻數值;根據每篇文檔的所述詞頻數值,按照從高到低的順序對搜索到的文檔進行相關度排序。
[0027]本發(fā)明實施例提供的上述方法及裝置,通過對名詞采用整詞分割、鄰近詞分割,以及每字分割的技術手段,解決現有技術中因通用搜索引擎的分詞方法不符合人性化,沒有個性化分詞能力,影響了搜索結果排序的技術問題,實現了針對特定業(yè)務或領域的垂直搜索中,對搜索結果的排序進行了優(yōu)化,便于直接得到搜索結果的技術效果。【附圖說明】
[0028]圖1為本發(fā)明實施例提供的一種基于垂直搜索的相關度排序實現方法流程圖;
[0029]圖2為本發(fā)明實施例提供的另一種基于垂直搜索的相關度排序實現方法的流程圖;
[0030]圖3為本發(fā)明實施例提供的一種基于垂直搜索的相關度排序實現裝置的結構圖?!揪唧w實施方式】
[0031]現有技術中,會出現用戶在平臺上搜索一個叫“劉東華”的公司總裁,但是搜索‘劉東華’,劉東華的個人資料沒有放在最前面;搜索‘東華’,先出來的是東華責任有限公司。搜索‘劉東’,第一頁根本顯示不出來劉東華等諸如此類的技術問題,是因為某篇文章上劉東華這個詞的頻率出現的非常高。東華責任有限公司不管是名稱,簡介,內容等等都反復出現東華。另一原因在于現有的分詞器把劉東分詞成劉和東,而劉東華分詞成劉和東華,所以只有劉是匹配的,由此導致了上述搜索結果。這是由于現有的分詞器完全按照標準的相似度排序得到的非人性化的解釋,因此并不能讓用戶滿意,所以只能自己想辦法讓分詞器的分詞規(guī)律人性化起來。
[0032]為了解決上述問題,本實施例提供了一種基于垂直搜索的相關度排序實現方法, 如圖1所示,包括:
[0033]101,對待搜索名詞進行分詞后得到整詞分割詞、相鄰詞分割詞和字分割詞;
[0034]與現有的分詞方法不同,本實施例中是一種自定義的分詞方法,將待搜索名詞分別分割成整詞分割詞、相鄰詞分割詞和字分割詞。例如:劉東華要分割成劉東華(整詞分割詞);劉東(相鄰詞分割詞);東華,劉,東,華(字分割詞)。
[0035]102,根據所述整詞分割詞、相鄰詞分割詞和字分割詞搜索每個文檔中所述整詞分割詞、相鄰詞分割詞和字分割詞所出現的詞頻;
[0036]詞頻就是每個詞在該片文檔中出現的次數。如在含有上述整詞分割詞、相鄰詞分害J詞和字分割詞的文檔中,整詞分割詞出現的次數、相鄰詞分割詞出現的次數和字分割詞分別出現的次數。例如:在某文檔中東華出現2次,詞頻為2.
[0037]103,根據所述詞頻和所述整詞分割詞的第一權重、相鄰詞分割詞的第二權重和字分割詞的第三權重對所述待搜索名詞的搜索結果進行相關度排序。
[0038]上述步驟103可通過如下方式實現:針對搜索的每篇文檔,根據所述詞頻和所述整詞分割詞的第一權重、相鄰詞分割詞的第二權重和字分割詞的第三權重計算該待搜索的名詞在該篇文檔中詞頻數值;根據每篇文檔的所述詞頻數值,按照從高到低的順序對搜索到的文檔進行相關度排序。
[0039]現有通用搜索引擎solr(—個獨立的企業(yè)級搜索應用服務器)采用的是余弦相似度算法和TF-1DF(詞頻-反轉文件頻率)算法來計算相似度。并沒有考慮到有些頻率沒有意義的情況。例如:搜索“劉東華”,恰好有篇文件里出現了很多劉劉劉東東東諸如此類的,如果它位置排的比較靠前,也會出現排序結果不理想,得不到想要的搜索結果的技術問題,因此在方法上面的權重調整也是要做的。因此,在本實施例中國,可選的,所述第一權重是所述第二權重的N倍,N大于等于3,所述第二權重大于所第三權重。第三權重可比第一和第二權重還要小很多。
[0040]本實施例提供的方法,通過對名詞采用整詞分割、鄰近詞分割,以及每字分割的技術手段,解決現有技術中因通用搜索引擎的分詞方法不符合人性化,沒有個性化分詞能力, 影響了搜索結果排序的技術問題,實現了針對特定業(yè)務或領域的垂直搜索中,對搜索結果的排序進行了優(yōu)化,便于直接得到搜索結果的技術效果。
[0041]可選的,本實施例還包括:定期維護同義詞詞庫,所述同義詞詞庫中存儲有符合存儲原則的名詞,以及所述符合存儲原則的名詞的同義詞。存儲原則是該同義詞詞庫針對某一類特殊的名詞進行存儲的要求。例如要求對成功的企業(yè)家的人名進行存儲,就可以是該詞庫的存儲原則。
[0042]相應的,同義詞庫就是:“馬云”對應于“阿里巴巴”(馬云的同義詞阿里巴巴)。搜索 “馬云”同時也會把“阿里巴巴”相關的信息也搜索出來。同樣,“柳傳志”對應于“聯(lián)想”,“王健林”對應于“萬達”,“俞敏洪”對應于“新東方”等等。
[0043]相應地,同義詞庫的引入,是為了更加優(yōu)化相關度的排序結果,因此該方法還包括:
[0044]在所述同義詞詞庫中搜索所述整詞分割詞和相鄰詞分割詞;
[0045]針對搜索到對應同義詞的所述整詞分割詞或者相鄰詞分割詞,增加與所述待搜索名稱的相關度到所述搜索結果的排序中(具體實現方式可參照下述204)。
[0046]本實施例繼續(xù)提供一種基于垂直搜索的相關度排序實現方法,如圖2所示,包括:
[0047]201,接收到待搜索名詞劉東華,將其分詞成劉東華要分割成劉東華(整詞分割詞);劉東(相鄰詞分割詞);東華,劉,東,華(相鄰詞分割詞)。[〇〇48]202,以一篇文檔為例,搜索劉東華(整詞分割詞)在文檔中的詞頻為xl;劉東(相鄰詞分割詞)在文檔中的詞頻x2;東華在文檔中的詞頻x3;劉,東,華(字分割詞)分別在文檔中的詞頻x4,x5,x6。
[0049]203,針對搜索的每篇文檔,根據所述詞頻和所述整詞分割詞的第一權重、相鄰詞分割詞的第二權重和字分割詞的第三權重計算該待搜索的名詞在該篇文檔中詞頻數值;如第一權重值為50,第二權重值為10,第三權重值為1,則該篇文檔中,詞頻數值是:50*xl+10* x2+10*x3+x4+x5+x6。
[0050]204,在所述同義詞詞庫中搜索所述整詞分割詞和相鄰詞分割詞,并在搜索到的相應的詞上增加權重。如同義詞詞庫中存在劉華東對應企業(yè)雜志社,華東對應企業(yè)雜志社,則上述詞頻數值可以是:(50*xl+50)+10*x2+(10*x3+10)+x4+x5+x6,即在相應的詞上增加對應的權重值。
[0051]205,根據每篇文檔的所述詞頻數值,按照從高到低的順序對搜索到的文檔進行相關度排序。[〇〇52]例如:搜索劉東華,東華時劉東華的個人資料按照上述計算的數值排序就排在第一位了。若同義詞庫中真有一個叫“劉東”的會員,則搜索劉東的時候,劉東華排在第二。 [〇〇53]本實施例提供的方法中,通過個性化的分詞方式,整詞和鄰近詞的權重分配比例的提高,以及同義詞詞庫的過濾的技術手段,增加了垂直搜索引擎的精度和個性化,優(yōu)化了搜索結果的排序,使一些非常具體又比較特別的領域,通過該垂直搜索可以更直接搜索到想要的信息。[〇〇54]為了便于上述方法的實現,本實施例繼續(xù)提供一種基于垂直搜索的相關度排序實現裝置,如圖3所示,包括:
[0055]分詞器單元31,用于對待搜索名詞進行分詞后得到整詞分割詞、相鄰詞分割詞和字分割詞;
[0056]統(tǒng)計單元32,用于根據所述整詞分割詞、相鄰詞分割詞和字分割詞搜索每個文檔中所述整詞分割詞、相鄰詞分割詞和字分割詞所出現的詞頻;
[0057]排序單元33,用于根據所述詞頻和所述整詞分割詞的第一權重、相鄰詞分割詞的第二權重和字分割詞的第三權重對所述待搜索名詞的搜索結果進行相關度排序。其中,所述第一權重是所述第二權重的N倍,N大于等于3;所述第二權重大于所第三權重。[〇〇58]所述排序單元33,具體用于針對搜索的每篇文檔,根據所述詞頻和所述整詞分割詞的第一權重、相鄰詞分割詞的第二權重和字分割詞的第三權重計算該待搜索的名詞在該篇文檔中詞頻數值;根據每篇文檔的所述詞頻數值,按照從高到低的順序對搜索到的文檔進行相關度排序。[〇〇59] 可選地,該裝置還包括:
[0060]同義詞器單元,用于定期維護同義詞詞庫,所述同義詞詞庫中存儲有符合存儲原則的名詞,以及所述符合存儲原則的名詞的同義詞。
[0061]可選地,該裝置還可以包括過濾單元,用于在所述同義詞詞庫中搜索所述整詞分割詞和相鄰詞分割詞。相依地,所述排序單元33,還用于針對搜索到對應同義詞的所述整詞分割詞或者相鄰詞分割詞,增加與所述待搜索名稱的相關度到所述搜索結果的排序中。
[0062]本實施例提供的裝置具有整詞和鄰近詞的權重分配比例的提高,分詞個性化以及用同義詞詞庫過濾的功能,增加了垂直搜索引擎的精度和個性化,優(yōu)化了搜索結果的排序, 使一些非常具體又比較特別的領域,通過該垂直搜索可以更直接搜索到想要的信息。
[0063]在本發(fā)明所提供的幾個實施例中,應該理解到,所揭露的裝置和方法,可以通過其它的方式實現。例如,以上所描述的裝置實施例僅僅是示意性的,例如,所述單元的劃分,僅僅為一種邏輯功能劃分,實際實現時可以有另外的劃分方式,例如多個單元或組件可以結合或者可以集成到另一個系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另一點,所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些接口,裝置或單元的間接耦合或通信連接,可以是電性,機械或其它的形式。[〇〇64]所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個地方,或者也可以分布到多個網絡單元上??梢愿鶕嶋H的需要選擇其中的部分或者全部單元來實現本實施例方案的目的。
[0065]另外,在本發(fā)明各個實施例中的各功能單元可以集成在一個處理單元中,也可以是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個單元中。上述集成的單元既可以采用硬件的形式實現,也可以采用硬件加軟件功能單元的形式實現。
[0066]上述以軟件功能單元的形式實現的集成的單元,可以存儲在一個計算機可讀取存儲介質中。上述軟件功能單元存儲在一個存儲介質中,包括若干指令用以使得一臺計算機設備(可以是個人計算機,服務器,或者網絡設備等)或處理器(processor)執(zhí)行本發(fā)明各個實施例所述方法的部分步驟。而前述的存儲介質包括:U盤、移動硬盤、只讀存儲器(Read-Only Memory ,R0M)、隨機存取存儲器 (Random Access Memory ,RAM)、磁碟或者光盤等各種可以存儲程序代碼的介質。
[0067]本領域技術人員可以清楚地了解到,為描述的方便和簡潔,僅以上述各功能模塊的劃分進行舉例說明,實際應用中,可以根據需要而將上述功能分配由不同的功能模塊完成,即將裝置的內部結構劃分成不同的功能模塊,以完成以上描述的全部或者部分功能。上述描述的裝置的具體工作過程,可以參考前述方法實施例中的對應過程,在此不再贅述。
[0068]最后應說明的是:以上各實施例僅用以說明本發(fā)明的技術方案,而非對其限制;盡管參照前述各實施例對本發(fā)明進行了詳細的說明,本領域的普通技術人員應當理解:其依然可以對前述各實施例所記載的技術方案進行修改,或者對其中部分或者全部技術特征進行等同替換;而這些修改或者替換,并不使相應技術方案的本質脫離本發(fā)明各實施例技術方案的范圍。
【主權項】
1.一種基于垂直搜索的相關度排序實現方法,其特征在于,包括:對待搜索名詞進行分詞后得到整詞分割詞、相鄰詞分割詞和字分割詞;根據所述整詞分割詞、相鄰詞分割詞和字分割詞搜索每個文檔中所述整詞分割詞、相 鄰詞分割詞和字分割詞所出現的詞頻;根據所述詞頻和所述整詞分割詞的第一權重、相鄰詞分割詞的第二權重和字分割詞的 第三權重對所述待搜索名詞的搜索結果進行相關度排序。2.根據權利要求1所述的方法,其特征在于,該方法還包括:定期維護同義詞詞庫,所述 同義詞詞庫中存儲有符合存儲原則的名詞,以及所述符合存儲原則的名詞的同義詞。3.根據權利要求2所述的方法,其特征在在于,該方法還包括:在所述同義詞詞庫中搜索所述整詞分割詞和相鄰詞分割詞;針對搜索到對應同義詞的所述整詞分割詞或者相鄰詞分割詞,增加與所述待搜索名稱 的相關度到所述搜索結果的排序中。4.根據權利要求1-3中任意一項所述的方法,其特征在于,所述第一權重是所述第二權 重的N倍,N大于等于3;所述第二權重大于所第三權重。5.根據權利要求1-3中任意一項所述的方法,其特征在于,所述根據所述詞頻和所述整 詞分割詞的第一權重、相鄰詞分割詞的第二權重和字分割詞的第三權重對所述待搜索名詞 的搜索結果進行相關度排序,具體包括:針對搜索的每篇文檔,根據所述詞頻和所述整詞分割詞的第一權重、相鄰詞分割詞的 第二權重和字分割詞的第三權重計算該待搜索的名詞在該篇文檔中詞頻數值;根據每篇文檔的所述詞頻數值,按照從高到低的順序對搜索到的文檔進行相關度排序。6.—種基于垂直搜索的相關度排序實現裝置,其特征在于,包括:分詞器單元,用于對待搜索名詞進行分詞后得到整詞分割詞、相鄰詞分割詞和字分割 詞;統(tǒng)計單元,用于根據所述整詞分割詞、相鄰詞分割詞和字分割詞搜索每個文檔中所述 整詞分割詞、相鄰詞分割詞和字分割詞所出現的詞頻;排序單元,用于根據所述詞頻和所述整詞分割詞的第一權重、相鄰詞分割詞的第二權 重和字分割詞的第三權重對所述待搜索名詞的搜索結果進行相關度排序。7.根據權利要求6所述的裝置,其特征在于,該裝置還包括:同義詞器單元,用于定期維護同義詞詞庫,所述同義詞詞庫中存儲有符合存儲原則的 名詞,以及所述符合存儲原則的名詞的同義詞。8.根據權利要求7所述的裝置,其特征在在于,該裝置還包括:過濾單元,用于在所述同義詞詞庫中搜索所述整詞分割詞和相鄰詞分 割詞;所述排序單元,還用于針對搜索到對應同義詞的所述整詞分割詞或者相鄰詞分割詞, 增加與所述待搜索名稱的相關度到所述搜索結果的排序中。9.根據權利要求6-8中任意一項所述的裝置,其特征在于,所述第一權重是所述第二權 重的N倍,N大于等于3;所述第二權重大于所第三權重。10.根據權利要求6-8中任意一項所述的裝置,其特征在于,所述排序單元,具體包用于針對搜索的每篇文檔,根據所述詞頻和所述整詞分割詞的第一權重、相鄰詞分割詞的第二 權重和字分割詞的第三權重計算該待搜索的名詞在該篇文檔中詞頻數值;根據每篇文檔的 所述詞頻數值,按照從高到低的順序對搜索到的文檔進行相關度排序。
【文檔編號】G06F17/30GK105975482SQ201610262495
【公開日】2016年9月28日
【申請日】2016年4月25日
【發(fā)明人】謝曉靜
【申請人】樂視控股(北京)有限公司, 樂視網信息技術(北京)股份有限公司
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1