亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種搜索方法及裝置的制作方法

文檔序號(hào):6364634閱讀:243來(lái)源:國(guó)知局
專(zhuān)利名稱(chēng):一種搜索方法及裝置的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及計(jì)算機(jī)網(wǎng)絡(luò)搜索技術(shù)領(lǐng)域,尤其涉及一種搜索方法及裝置。
背景技術(shù)
目前,傳統(tǒng)的搜索方案主要為:根據(jù)用戶(hù)輸入待搜索信息在網(wǎng)絡(luò)中查找所有的關(guān)聯(lián)文檔,依據(jù)一定的算法規(guī)則計(jì)算每個(gè)關(guān)聯(lián)文檔與待搜索信息的關(guān)聯(lián)程度,基于關(guān)聯(lián)程度的高低對(duì)所有關(guān)聯(lián)文檔進(jìn)行排序處理,將排序結(jié)果作為搜索結(jié)果返回給用戶(hù)。上述可知,關(guān)聯(lián)程度的高低直接影響關(guān)聯(lián)文檔的排序結(jié)果,直接影響用戶(hù)的搜索結(jié)果,而關(guān)聯(lián)程度的高低一般采用相關(guān)度評(píng)分直觀(guān)反映。傳統(tǒng)的搜索方案中,通常采用詞匹配算法進(jìn)行相關(guān)度計(jì)算,例如采用BM25(BestMatch,最佳匹配)算法、proximity (Term proximity scoring,詞近鄰得分)算法等等進(jìn)行相關(guān)度評(píng)分,相關(guān)度評(píng)分越高,表明關(guān)聯(lián)程度越強(qiáng)。以基于BM25算法的搜索方案進(jìn)行說(shuō)明,如下:假設(shè)用戶(hù)輸入的待搜索信息為“中國(guó)的首都”,根據(jù)BM25算法的相關(guān)度評(píng)分原則,關(guān)聯(lián)文檔中必須出現(xiàn)“中國(guó)”、“首都”,才能夠獲得相應(yīng)的相關(guān)度評(píng)分,否則該關(guān)聯(lián)文檔的相關(guān)度評(píng)分則為O ;例如:其中一個(gè)關(guān)聯(lián)文檔為:“北京,它是一座有著3000多年的建城史,850多年的建者史的歷史文化名城;是全國(guó)政治、文化中心,也是全國(guó)最大的陸空產(chǎn)通樞紐”,根據(jù)上述傳統(tǒng)的搜索方案,該關(guān)聯(lián)文檔的相關(guān)度評(píng)分為0,表明與待搜索信息不相關(guān),然而,從語(yǔ)義關(guān)系來(lái)看,該關(guān)聯(lián)文檔與待搜索信息的相關(guān)性實(shí)際上是十分好的。經(jīng)過(guò)排序處理后,該關(guān)聯(lián)文檔可能排列于較后的搜索結(jié)果頁(yè)面中,不利于用戶(hù)的查看。上述例子可知,傳統(tǒng)的搜索方案僅僅基于詞進(jìn)行相關(guān)度的匹配,并未考慮詞與詞之間的語(yǔ)義關(guān)系,可能造成相關(guān)度計(jì)算結(jié)果的不準(zhǔn)確,影響搜索結(jié)果的排列順序,降低用戶(hù)對(duì)搜索結(jié)果的滿(mǎn)意度,降低用戶(hù)的搜索體驗(yàn)
發(fā)明內(nèi)容
本發(fā)明實(shí)施例所要解決的技術(shù)問(wèn)題在于,提供一種搜索方法及裝置,能夠獲得更準(zhǔn)確的搜索結(jié)果。一方面,本發(fā)明實(shí)施例提供了一種搜索方法,包括:獲取待搜索信息的關(guān)聯(lián)文檔;基于詞匹配算法及語(yǔ)義匹配算法,計(jì)算獲取到的每一個(gè)關(guān)聯(lián)文檔與所述待搜索信息的相關(guān)度;根據(jù)計(jì)算得到的相關(guān)度對(duì)獲取到的關(guān)聯(lián)文檔進(jìn)行排序,并顯示排序結(jié)果。另一方面,本發(fā)明實(shí)施例還提供了一種搜索裝置,包括:搜索模塊,用于獲取待搜索信息的關(guān)聯(lián)文檔;計(jì)算模塊,用于基于詞匹配算法及語(yǔ)義匹配算法,計(jì)算所述搜索模塊獲得的每一個(gè)關(guān)聯(lián)文檔與所述待搜索信息的相關(guān)度;排序模塊,用于根據(jù)所述計(jì)算模塊計(jì)算得到的相關(guān)度對(duì)所述搜索模塊獲得的所有關(guān)聯(lián)文檔進(jìn)行排序處理;
顯示模塊,用于顯示所述排序模塊獲得的排序結(jié)果。
實(shí)施本發(fā)明實(shí)施例,具有如下有益效果:
本發(fā)明實(shí)施例結(jié)合詞匹配算法及語(yǔ)義匹配算法,綜合考慮詞與詞的匹配,以及詞與詞之間的語(yǔ)義關(guān)系的匹配,獲得每一個(gè)關(guān)聯(lián)文檔與待搜索信息之間較為準(zhǔn)確的相關(guān)度,基于該相關(guān)度進(jìn)行排序并顯示排序結(jié)果,可以為用戶(hù)提供理想的搜索結(jié)果,使得用戶(hù)可以從顯示的搜索結(jié)果中快速獲得相關(guān)度較高的關(guān)聯(lián)文檔,滿(mǎn)足自己實(shí)際的搜索需求,提高了搜索效率,從而提高了用戶(hù)的滿(mǎn)意度。


為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1為本發(fā)明提供的搜索方法的一個(gè)實(shí)施例的流程圖2為圖1所示步驟S102的具體流程圖3為本發(fā)明提供的IDF表的示意圖4為本發(fā)明提供的MI表的示意圖5為圖1所示步驟S103的具體流程圖6為本發(fā)明提供的搜索裝置的一個(gè)實(shí)施例的結(jié)構(gòu)示意圖7為圖6所示的計(jì)算模塊的實(shí)施例的結(jié)構(gòu)示意圖。
具體實(shí)施方式
下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的·實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
本發(fā)明實(shí)施例提供的方案中,搜索裝置可以基于詞匹配以及詞與詞之間的語(yǔ)義匹配算法,計(jì)算待搜索信息的所有關(guān)聯(lián)文檔的相關(guān)度,并根據(jù)該相關(guān)度進(jìn)行排序和顯示,使得用戶(hù)可以從顯示的搜索結(jié)果中快速獲得相關(guān)度較高的關(guān)聯(lián)文檔,滿(mǎn)足自己的搜索需求,提高搜索效率。
其中,所述待搜索信息可以為用戶(hù)輸入的搜索關(guān)鍵詞句,其可以用query (查詢(xún))表示。所述關(guān)聯(lián)文檔可以為:基于用戶(hù)輸入的搜索關(guān)鍵詞句,利用現(xiàn)有的網(wǎng)絡(luò)搜索技術(shù)獲得的搜索結(jié)果中包含的文檔,其可以用document (文檔)表示。
所述詞匹配算法是指搜索過(guò)程基于詞進(jìn)行匹配,其可以為:BM25算法、proximity等算法,除特別說(shuō)明外,本發(fā)明實(shí)施例以BM25算法為例進(jìn)行說(shuō)明。所述語(yǔ)義匹配算法是指搜索過(guò)程基于詞與詞之間的語(yǔ)義關(guān)系進(jìn)行匹配,也即,搜索過(guò)程基于詞與詞之間的互信息進(jìn)行匹配。所謂MI (Mutual Information,互信息),是對(duì)兩個(gè)隨機(jī)變量的關(guān)聯(lián)程度的描述,在文本處理中,MI用來(lái)衡量?jī)蓚€(gè)詞的相關(guān)度,兩個(gè)詞的MI越大,表示該兩個(gè)詞的關(guān)聯(lián)程度越強(qiáng)。
下面將結(jié)合附圖1-附圖5,對(duì)本發(fā)明實(shí)施例提供的搜索方法進(jìn)行詳細(xì)介紹。
請(qǐng)參見(jiàn)圖1,為本發(fā)明提供的搜索方法的一個(gè)實(shí)施例的流程圖;該方法包括:
S101,獲取待搜索信息的關(guān)聯(lián)文檔。本步驟可以參照現(xiàn)有技術(shù),在此不贅述。
S102,基于詞匹配算法及語(yǔ)義匹配算法,計(jì)算獲取到的每一個(gè)關(guān)聯(lián)文檔與所述待搜索信息的相關(guān)度。
本步驟中,每一個(gè)關(guān)聯(lián)文檔與待搜索信息的相關(guān)度的評(píng)分可以由兩部分組成,一部分是基于詞匹配算法獲得的關(guān)聯(lián)評(píng)分,另一部分是基于語(yǔ)義匹配算法獲得的關(guān)聯(lián)評(píng)分。實(shí)際應(yīng)用中,可以根據(jù)具體情況,預(yù)先設(shè)置兩部分關(guān)聯(lián)評(píng)分的權(quán)重,使得加權(quán)后的兩部分關(guān)聯(lián)評(píng)分所組成的相關(guān)度評(píng)分更能準(zhǔn)確體現(xiàn)關(guān)聯(lián)文檔與待搜索信息的關(guān)聯(lián)程度。
S103,根據(jù)計(jì)算得到的相關(guān)度對(duì)獲取到的關(guān)聯(lián)文檔進(jìn)行排序處理,并顯示排序結(jié)果O
本步驟中,可以按照每個(gè)關(guān)聯(lián)文檔與待搜索信息的相關(guān)度評(píng)分由高至低的順序,對(duì)搜索得到的所有關(guān)聯(lián)文檔進(jìn)行排序和顯示,使得顯示在前的始終為與待搜索信息較相關(guān)的關(guān)聯(lián)文檔,從而使得用戶(hù)可以從顯示的搜索結(jié)果中快速獲得相關(guān)度較高的關(guān)聯(lián)文檔,滿(mǎn)足自己的搜索需求,提高搜索效率??梢岳斫獾氖?,本步驟也可以采用其他順序進(jìn)行排序處理,例如按照相關(guān)度評(píng)分由低至高的順序,或者設(shè)置一部分按照相關(guān)度評(píng)分由低至高的順序,一部分按照相關(guān)度評(píng)分由高至低的順序,等等。
請(qǐng)參見(jiàn)圖2,為圖1所示步驟S102的具體流程圖;該步驟S102包括:
S211,對(duì)所述待搜索信息進(jìn)行向量化處理,獲得m個(gè)向量tp
本步驟中,對(duì)待搜索信息進(jìn)行向量化處理,即是利用分詞技術(shù),對(duì)待搜索信息進(jìn)行分詞處理,將待搜索信息分割成m個(gè)詞組成,可以表示為h至tm,其中,m和i均為正整數(shù),且 I < i < m。
S212,對(duì)獲取到的每一個(gè)關(guān)聯(lián)文檔進(jìn)行向量化處理,獲得每一個(gè)關(guān)聯(lián)文檔所對(duì)應(yīng)的η個(gè)向量dj。
本步驟中,對(duì)獲取到的所有關(guān)聯(lián)文檔中的每一個(gè)文檔進(jìn)行向量化處理,即是利用分詞技術(shù),對(duì)每一個(gè)關(guān)聯(lián)文檔進(jìn)行分詞處理,將該關(guān)聯(lián)文檔分割成η個(gè)詞組成,可以表示為Cl1至七,其中,η和j均為正整數(shù),且I彡j彡η。
需要說(shuō)明的是,步驟S211與步驟S212在時(shí)序上不分先后,例如也可以先執(zhí)行步驟S212,再執(zhí)行步驟S211。步驟S211-``步驟S212中的向量化處理過(guò)程可以參照現(xiàn)有技術(shù),在此不贅述。
S213,基于詞匹配算法,計(jì)算得到每一個(gè)關(guān)聯(lián)文檔與所述待搜索信息的關(guān)聯(lián)評(píng)分S10
本步驟中,詞匹配算法的公式可以為:
權(quán)利要求
1.一種搜索方法,其特征在于,包括: 獲取待搜索信息的關(guān)聯(lián)文檔; 基于詞匹配算法及語(yǔ)義匹配算法,計(jì)算獲取到的每一個(gè)關(guān)聯(lián)文檔與所述待搜索信息的相關(guān)度; 根據(jù)計(jì)算得到的相關(guān)度對(duì)獲取到的關(guān)聯(lián)文檔進(jìn)行排序,并顯示排序結(jié)果。
2.如權(quán)利要求1所述的方法,其特征在于,所述基于詞匹配算法及語(yǔ)義匹配算法,計(jì)算獲取到的每一個(gè)關(guān)聯(lián)文檔與所述待搜索信息的相關(guān)度,包括: 對(duì)所述待搜索信息進(jìn)行向量化處理,獲得m個(gè)向量ti;其中,m和i均為正整數(shù),且1 ≤i ≤m ; 對(duì)獲取到的每一個(gè)關(guān)聯(lián)文檔進(jìn)行向量化處理,獲得每一個(gè)關(guān)聯(lián)文檔所對(duì)應(yīng)的η個(gè)向量屯其中,η和j均為正整數(shù),且I SjSn; 基于詞匹配算法,計(jì)算得到每一個(gè)關(guān)聯(lián)文檔與所述待搜索信息的關(guān)聯(lián)評(píng)分S1,基于語(yǔ)義匹配算法,計(jì)算得到每一個(gè)關(guān)聯(lián)文檔與所述待搜索信息的關(guān)聯(lián)評(píng)分S2 ; 根據(jù)公式S= a XS1+(1-Ci)XS2,計(jì)算得到每一個(gè)關(guān)聯(lián)文檔與所述待搜索信息的相關(guān)度S,其中,α為預(yù)設(shè)的權(quán)重,且O < α < I。
3.如權(quán)利要求2所述的方法,其特征在于:所述詞匹配算法的公式為:
4.如權(quán)利要求3所述的方法,其特征在于,向量\的權(quán)重的計(jì)算公式如下:
5.如權(quán)利要求2所述的方法,其特征在于:所述語(yǔ)義匹配算法的公式為:
6.如權(quán)利要求5所述的方法,其特征在于,向量\與向量Clj的互信息的計(jì)算公式如下:
7.如權(quán)利要求1-6任一項(xiàng)所述的方法,其特征在于,所述根據(jù)計(jì)算得到的相關(guān)度對(duì)獲取到的關(guān)聯(lián)文檔進(jìn)行排序,并顯示排序結(jié)果,包括: 根據(jù)每一個(gè)關(guān)聯(lián)文檔與所述待搜索信息的相關(guān)度,按照相關(guān)度從高至低的順序?qū)λ嘘P(guān)聯(lián)文檔進(jìn)行排序; 顯不排序后的所有關(guān)聯(lián)文檔。
8.一種搜索裝置,其特征在于,包括: 搜索模塊,用于獲取待搜索信息的關(guān)聯(lián)文檔; 計(jì)算模塊,用于基于詞匹配算法及語(yǔ)義匹配算法,計(jì)算所述搜索模塊獲得的每一個(gè)關(guān)聯(lián)文檔與所述待搜索信息的相關(guān)度; 排序模塊,用于根據(jù)所述計(jì)算模塊計(jì)算得到的相關(guān)度對(duì)所述搜索模塊獲得的關(guān)聯(lián)文檔進(jìn)行排序; 顯示模塊,用于顯示所述排序模塊獲得的排序結(jié)果。
9.如權(quán)利要求8所述的裝置,其特征在于,所述計(jì)算模塊包括: 第一向量化處理單元,用于對(duì)所述待搜索信息進(jìn)行向量化處理,獲得m個(gè)向量\,其中,m和i均為正整數(shù),且1≤i≤m ; 第二向量化處理單元,用于對(duì)所述搜索模塊獲得的每一個(gè)關(guān)聯(lián)文檔進(jìn)行向量化處理,獲得每一個(gè)關(guān)聯(lián)文檔所對(duì)應(yīng)的η個(gè)向量Clj,其中,η和j均為正整數(shù),且I SjSn; 詞匹配計(jì)算單元,用于基于詞匹配算法,計(jì)算得到所述第二向量化處理單元處理后的關(guān)聯(lián)文檔與 所述待搜索信息的關(guān)聯(lián)評(píng)分S1 ; 語(yǔ)義匹配計(jì)算單元,用于基于語(yǔ)義匹配算法,計(jì)算得到所述第二向量化處理單元處理后的關(guān)聯(lián)文檔與所述待搜索信息的關(guān)聯(lián)評(píng)分S2 ; 相關(guān)度計(jì)算單元,用于根據(jù)公式S= a XS1 (1-Ci)XS2,計(jì)算得到所述關(guān)聯(lián)文檔與所述待搜索信息的相關(guān)度S,其中,α為預(yù)設(shè)的權(quán)重,且O < α < I。
10.如權(quán)利要求9所述的裝置,其特征在于,所述詞匹配算法的公式為:
11.如權(quán)利要求8-10任一項(xiàng)所述的裝置,其特征在于, 所述排序模塊根據(jù)每個(gè)關(guān)聯(lián)文檔與所述待搜索信息的相關(guān)度,按照相關(guān)度從高至低的順序?qū)λ鏊阉髂K獲得的所有關(guān)聯(lián)文檔進(jìn)行排序; 所述顯示模塊顯示所述排序模`塊排序后的所有關(guān)聯(lián)文檔。
全文摘要
本發(fā)明實(shí)施例公開(kāi)了一種搜索方法,包括獲取待搜索信息的所有關(guān)聯(lián)文檔;基于詞匹配算法及語(yǔ)義匹配算法,計(jì)算每一個(gè)關(guān)聯(lián)文檔與所述待搜索信息的相關(guān)度;根據(jù)計(jì)算得到的相關(guān)度對(duì)所有關(guān)聯(lián)文檔進(jìn)行排序處理,并顯示排序結(jié)果。本發(fā)明實(shí)施例還公開(kāi)了一種搜索裝置。本發(fā)明綜合考慮詞與詞的匹配,以及詞與詞之間的語(yǔ)義關(guān)系的匹配,獲得準(zhǔn)確的相關(guān)度計(jì)算結(jié)果,為用戶(hù)提供理想的搜索結(jié)果,提高用戶(hù)的滿(mǎn)意度。
文檔編號(hào)G06F17/30GK103246681SQ20121003152
公開(kāi)日2013年8月14日 申請(qǐng)日期2012年2月13日 優(yōu)先權(quán)日2012年2月13日
發(fā)明者路彥雄, 楊月奎, 王亮, 焦峰 申請(qǐng)人:騰訊科技(深圳)有限公司
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1