亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

頁面的搜索特性的分析方法和分析裝置與流程

文檔序號:11386715閱讀:274來源:國知局
頁面的搜索特性的分析方法和分析裝置與流程

本發(fā)明涉及搜索技術(shù)領(lǐng)域,特別是涉及一種頁面的搜索特性的分析方法和分析裝置。



背景技術(shù):

現(xiàn)有的商業(yè)搜索引擎基本均采用了圖1所示的總體架構(gòu),即通過爬蟲定期抓取互聯(lián)網(wǎng)上的網(wǎng)頁,通過離線分析完成網(wǎng)頁的特征計算和索引構(gòu)建,最后由在線檢索系統(tǒng)為用戶提供檢索服務(wù)。然而經(jīng)估算,目前僅中文互聯(lián)網(wǎng)就有大約100萬億的網(wǎng)頁,且每天新增約100億新的網(wǎng)頁,如此龐大的規(guī)模對抓取、存儲、索引、檢索等構(gòu)成了巨大的挑戰(zhàn)。

目前主要的解決方法是從網(wǎng)頁全集中挑選出認(rèn)為有“價值”的子集優(yōu)先進(jìn)行處理,當(dāng)前比較出名的網(wǎng)頁價值分析方法主要包括pagerank(網(wǎng)頁排名)和hits(hyperlink-inducedtopicsearch,鏈接分析算法)。

pagerank的計算基于以下兩個基本假設(shè):

1.數(shù)量:在web圖模型中,如果一個頁面節(jié)點接收到的其他網(wǎng)頁指向的入鏈數(shù)量越多,那么這個頁面越重要。

2.質(zhì)量:指向頁面a的入鏈質(zhì)量不同,質(zhì)量高的頁面會通過鏈接向其他頁面?zhèn)鬟f更多的權(quán)重。所以越是質(zhì)量高的頁面指向頁面a,則頁面a越重要。

pagerank算法的優(yōu)點在于它是一個與查詢無關(guān)的靜態(tài)算法,所有網(wǎng)頁的pagerank值可以通過離線計算獲得。然而該算法也存在著一些缺點:一是,熱門頁面的等級往往比長冷頁面的等級高,不利于挖掘滿足用戶長冷需求的頁面;二是,舊的頁面等級會比新頁面高,因為即使是非常好的新頁面也不會有很多上游鏈接,因此不利于新頁面的發(fā)現(xiàn)。

hits算法是利用web的鏈接結(jié)構(gòu)進(jìn)行挖掘的典型算法,其核心思想是建立在頁面鏈接關(guān)系的基礎(chǔ)上,其基本思想是利用頁面之間的引用鏈來挖掘隱含在其中的有用信息,hits算法有兩個重要概念:

1.hub頁面:指包含了很多指向高質(zhì)量“authority”頁面的鏈接網(wǎng)頁;

2.authority頁面:指某個領(lǐng)域或者某個話題相關(guān)的高質(zhì)量網(wǎng)頁。

hits基于如下的基本假設(shè):

假設(shè)1:一個好的“authority”頁面會被很多好的“hub”頁面指向;

假設(shè)2:一個好的“hub”頁面會指向很多好的“authority”頁面。

hits算法的優(yōu)點在于它能更好地描述互聯(lián)網(wǎng)的組織特點,然而hits算法也存在著一些缺點,例如效率低,hits算法是與查詢有關(guān)的算法,所以必須接收到用戶查詢后實時的進(jìn)行計算,此外長冷鏈接挖掘和新鏈發(fā)現(xiàn)能力不足的問題也同樣存在。

由此,需要一種能夠更為準(zhǔn)確地挖掘出有價值的頁面的分析方案。



技術(shù)實現(xiàn)要素:

本發(fā)明的主要目的在于提供一種頁面的搜索特性的分析方法和分析裝置,其能夠更為準(zhǔn)確地挖掘出符合用戶的搜索需求的頁面。

根據(jù)本發(fā)明的一個方面,提供了一種頁面的搜索特性的分析方法,包括:計算查詢集中的歷史查詢請求和頁面集中的頁面之間的第一相似度;將第一相似度超過第一預(yù)定閾值的歷史查詢請求和頁面視為相互匹配;根據(jù)頁面的匹配信息,對頁面進(jìn)行分析,以確定頁面的搜索特性。

由此,可以根據(jù)頁面與歷史查詢請求的匹配信息確定頁面的搜索特性,與現(xiàn)有的頁面分析方案相比,所確定的頁面的搜索特性不僅更加符合用戶的搜索意圖,還可以挖掘出滿足用戶冷門需求的頁面以及新頁面。

優(yōu)選地,根據(jù)頁面的匹配信息對頁面進(jìn)行分析以確定頁面的搜索特性可以包括:根據(jù)匹配頁面的歷史查詢請求的數(shù)量,確定頁面的查詢熱門度;以及/或者根據(jù)匹配頁面的歷史查詢請求所匹配的頁面的數(shù)量,確定頁面的資源稀缺度。

由此,對于匹配的歷史查詢請求數(shù)量較多的頁面a來說,可以認(rèn)為頁面a的查詢熱門度較高,在匹配頁面a的歷史查詢請求所匹配的頁面的數(shù)量較少時,可以認(rèn)為頁面a的資源稀缺度較高。

優(yōu)選地,計算查詢集中的歷史查詢請求和頁面集中的頁面之間的第一相似度可以包括:對查詢集中的歷史查詢請求進(jìn)行分詞并計算權(quán)重,以得到多個第一分詞及每個第一分詞所對應(yīng)的權(quán)重;對頁面集中的頁面所對應(yīng)的文字信息進(jìn)行分詞并計算權(quán)重,以得到多個第二分詞及每個第二分詞所對應(yīng)的權(quán)重;通過計算歷史查詢請求所對應(yīng)的第一分詞和頁面所對應(yīng)的第二分詞之間的相似度,確定歷史查詢請求和頁面之間的第一相似度。

由此,可以分別對查詢集中的歷史查詢請求和頁面集中的頁面進(jìn)行分詞、計算分詞權(quán)重,通過計算分詞間的相似度,來確定歷史查詢請求和頁面之間的第一相似度

優(yōu)選地,可以僅計算具有至少一個相同的有效分詞的歷史查詢請求和頁面之間的第一相似度。

由此,可以不計算查詢集中全部歷史查詢請求和頁面集中全部頁面兩兩之間的相似度,而僅計算具有相同有效分詞的歷史查詢請求和頁面之間的相似度,這樣可以在不影響計算的準(zhǔn)確性的同時,大大減少計算量。

優(yōu)選地,相同的分詞具有相同的權(quán)重,根據(jù)下列相似度計算公式計算歷史查詢請求和頁面之間的第一相似度s(q,u):

其中,q表示歷史查詢請求,u表示頁面,kj表示屬于歷史查詢請求所對應(yīng)的第一分詞和頁面所對應(yīng)的第二分詞的交集的分詞,ki表示屬于歷史查詢請求所對應(yīng)的第一分詞和頁面所對應(yīng)的第二分詞的并集的分詞,表示分詞kj的權(quán)重,表示分詞ki的權(quán)重。

由此,可以優(yōu)選地使用jaccard相似度計算方式來確定歷史查詢請求和頁面之間的第一相似度s(q,u)。

優(yōu)選地,計算第一相似度s(q,u)的過程可以包括:計算歷史查詢請求和頁面之間的部分相似度sj'(q,u),其中,通過累加對應(yīng)于同一組歷史查詢請求和頁面的部分相似度sj'(q,u),得到該歷史查詢請求和該頁面之間的第一相似度。

由此,可以根據(jù)相似度計算公式的特點,將計算過程分解成多個部分相似度計算過程,通過累加多個針對同一組歷史查詢請求和頁面的部分相似度sj'(q,u),來得到第一相似度s(q,u)。

優(yōu)選地,計算部分相似度sj'(q,u)可以包括:生成多條第一記錄數(shù)據(jù),每條第一記錄數(shù)據(jù)包括第一分詞、第一分詞對應(yīng)的權(quán)重、第一分詞對應(yīng)的歷史查詢請求以及該歷史查詢請求對應(yīng)的全部第一分詞及其權(quán)重,多條第一記錄數(shù)據(jù)是按照第一分詞的哈希值排列的;生成多條第二記錄數(shù)據(jù),每條第二記錄數(shù)據(jù)包括第二分詞、第二分詞對應(yīng)的權(quán)重、第二分詞對應(yīng)的頁面、頁面的權(quán)重以及該頁面對應(yīng)的全部第二分詞及其權(quán)重,多條第二記錄數(shù)據(jù)是按照第二分詞的哈希值排列的;分別從多條第一記錄數(shù)據(jù)和多條第二記錄數(shù)據(jù)中選擇哈希值相同的第一記錄數(shù)據(jù)和第二記錄數(shù)據(jù)作為計算用數(shù)據(jù),計算部分相似度sj'(q,u)。

由此,可以利用并行計算模型map-reduce計算頁面集和查詢集中頁面和歷史查詢請求之間的相似度。

優(yōu)選地,對于哈希值相同的第一記錄數(shù)據(jù),按照第一記錄數(shù)據(jù)所針對的歷史查詢請求的字符順序進(jìn)行排序,并且/或者,對于哈希值相同的第二記錄數(shù)據(jù),按照第二記錄數(shù)據(jù)所針對的頁面的權(quán)重的大小進(jìn)行排序。

優(yōu)選地,該方法還可以包括:對于哈希值相同的多條第一記錄數(shù)據(jù),保留第一數(shù)量閾值的第一記錄數(shù)據(jù)參與部分相似度的計算;以及/或者對于哈希值相同的多條第二記錄數(shù)據(jù),保留第二數(shù)量閾值的第二記錄數(shù)據(jù)參與部分相似度的計算。

由此,可以通過對第一記錄數(shù)據(jù)和/或第二記錄數(shù)據(jù)進(jìn)行篩選,在避免數(shù)據(jù)長尾的同時,還可以進(jìn)一步減少計算量。

優(yōu)選地,在計算歷史查詢請求所對應(yīng)的第一分詞和頁面所對應(yīng)的第二分詞之間的相似度之前,該方法還可以包括:剔除第一分詞和/或第二分詞中的停用詞;和/或挑選權(quán)重大于第二預(yù)定閾值的第一分詞和/或第二分詞參與相似度的計算;和/或從查詢集和/或頁面集中剔除停用詞數(shù)量與非停用詞數(shù)量的比值超過第三預(yù)定閾值的歷史查詢請求和/或頁面;和/或從每個歷史查詢請求和/或頁面所對應(yīng)的分詞中,挑選權(quán)重排名靠前的第三數(shù)量閾值的分詞參與相似度的計算。

由此,在正式計算之前,還可以對歷史查詢請求和頁面的分詞進(jìn)行篩選,這樣,可以保證計算的準(zhǔn)確性的同時,減少計算量。

優(yōu)選地,該方法還可以包括:對于第一相似度超過第一預(yù)定閾值的歷史查詢請求和頁面,分別從該歷史查詢請求和頁面所對應(yīng)的分詞中選擇權(quán)重排名靠前的第四數(shù)量閾值的分詞,使用相似度計算公式進(jìn)一步計算歷史查詢請求和頁面之間的第二相似度,其中,第四數(shù)量閾值大于第三數(shù)量閾值;當(dāng)?shù)诙嗨贫却笮〕^第四預(yù)定閾值時,確定歷史查詢請求和頁面相互匹配,其中,第四預(yù)定閾值大于第一預(yù)定閾值。

根據(jù)本發(fā)明的另一個方面,還提供了一種頁面的搜索特性的分析裝置,包括:第一相似度計算單元,用于計算查詢集中的歷史查詢請求和頁面集中的頁面之間的第一相似度;匹配確定單元,用于將第一相似度超過預(yù)定閾值的歷史查詢請求和頁面視為相互匹配;搜索特性確定單元,用于根據(jù)頁面的匹配信息,對頁面進(jìn)行分析,以確定頁面的搜索特性。

優(yōu)選地,搜索特性確定單元可以包括:查詢熱門度確定模塊,用于根據(jù)匹配頁面的歷史查詢請求的數(shù)量,確定頁面的查詢熱門度;和/或資源稀缺度確定模塊,用于根據(jù)匹配頁面的歷史查詢請求所匹配的頁面的數(shù)量,確定頁面的資源稀缺度。

優(yōu)選地,第一相似度計算單元可以包括:第一分詞及權(quán)重計算模塊,用于對查詢集中的歷史查詢請求進(jìn)行分詞并計算權(quán)重,以得到多個第一分詞及每個第一分詞所對應(yīng)的權(quán)重;第二分詞及權(quán)重計算模塊,用于對頁面集中的頁面所對應(yīng)的文字信息進(jìn)行分詞并計算權(quán)重,以得到多個第二分詞及每個第二分詞所對應(yīng)的權(quán)重;相似度確定模塊,用于通過計算歷史查詢請求所對應(yīng)的第一分詞和頁面所對應(yīng)的第二分詞之間的相似度,確定歷史查詢請求和頁面之間的第一相似度。

優(yōu)選地,相同的分詞具有相同的權(quán)重,相似度確定模塊根據(jù)下列相似度計算公式計算歷史查詢請求和頁面之間的第一相似度s(q,u):

其中,q表示歷史查詢請求,u表示頁面,kj表示屬于歷史查詢請求所對應(yīng)的第一分詞和頁面所對應(yīng)的第二分詞的交集的分詞,ki表示屬于歷史查詢請求所對應(yīng)的第一分詞和頁面所對應(yīng)的第二分詞的并集的分詞,表示分詞kj的權(quán)重,表示分詞ki的權(quán)重。

優(yōu)選地,相似度確定模塊計算歷史查詢請求和頁面之間的部分相似度sj'(q,u),其中,通過累加對應(yīng)于同一歷史查詢請求和頁面的部分相似度sj'(q,u),得到該歷史查詢請求和該頁面之間的第一相似度。

優(yōu)選地,相似度確定模塊可以包括:第一生成模塊,用于生成多條第一記錄數(shù)據(jù),每條第一記錄數(shù)據(jù)包括第一分詞、第一分詞對應(yīng)的權(quán)重、第一分詞對應(yīng)的歷史查詢請求以及該歷史查詢請求對應(yīng)的全部第一分詞及其權(quán)重,多條第一記錄數(shù)據(jù)是按照第一分詞的哈希值排列的;第二生成模塊,用于生成多條第二記錄數(shù)據(jù),每條第二記錄數(shù)據(jù)包括第二分詞、第二分詞對應(yīng)的權(quán)重、第二分詞對應(yīng)的頁面、頁面的權(quán)重以及該頁面對應(yīng)的全部第二分詞及其權(quán)重,多條第二記錄數(shù)據(jù)是按照第二分詞的哈希值排列的;計算模塊,用于分別從多條第一記錄數(shù)據(jù)和多條第二記錄數(shù)據(jù)中選擇哈希值相同的第一記錄數(shù)據(jù)和第二記錄數(shù)據(jù)作為計算用數(shù)據(jù),計算部分相似度sj'(q,u)。

優(yōu)選地,該分析裝置還可以包括篩選單元,用于在相似度確定模塊計算歷史查詢請求所對應(yīng)的第一分詞和頁面所對應(yīng)的第二分詞之間的相似度之前,執(zhí)行以下一項或多項操作:剔除第一分詞和/或第二分詞中的停用詞;挑選權(quán)重大于第二預(yù)定閾值的第一分詞和/或第二分詞參與相似度的計算;從查詢集和/或頁面集中剔除停用詞數(shù)量與非停用詞數(shù)量的比值超過第三預(yù)定閾值的歷史查詢請求和/或頁面;從每個歷史查詢請求和/或頁面所對應(yīng)的分詞中,挑選權(quán)重排名靠前的第三數(shù)量閾值的分詞參與相似度的計算。

優(yōu)選地,該分析裝置還可以包括:第二相似度計算單元,用于針對第一相似度超過第一預(yù)定閾值的歷史查詢請求和頁面,分別從該歷史查詢請求和頁面所對應(yīng)的分詞中選擇權(quán)重排名靠前的第四數(shù)量閾值的分詞,使用相似度計算公式進(jìn)一步計算歷史查詢請求和頁面之間的第二相似度,其中,第四數(shù)量閾值大于第三數(shù)量閾值;匹配確定單元,用于當(dāng)?shù)诙嗨贫却笮〕^第四預(yù)定閾值時,確定歷史查詢請求和頁面相互匹配,其中,第四預(yù)定閾值大于第一預(yù)定閾值。

本發(fā)明的頁面的搜索特性的分析方法和分析裝置,可以通過計算頁面與歷史查詢請求之間的相似度,確定頁面和歷史查詢請求是否匹配,以根據(jù)頁面的匹配信息確定頁面的搜素特性,與現(xiàn)有的頁面分析方案相比,所確定的頁面的搜索特性不僅更加符合用戶的搜索意圖,還可以挖掘出滿足用戶冷門需求的頁面以及新頁面,并且計算相似度的過程均可以離線進(jìn)行。

附圖說明

通過結(jié)合附圖對本公開示例性實施方式進(jìn)行更詳細(xì)的描述,本公開的上述以及其它目的、特征和優(yōu)勢將變得更加明顯,其中,在本公開示例性實施方式中,相同的參考標(biāo)號通常代表相同部件。

圖1是示出了現(xiàn)有的商業(yè)搜索引擎采用的總體架構(gòu)的示意圖。

圖2是示出了根據(jù)本發(fā)明一實施例的頁面的搜索特性的分析方法的示意性流程圖。

圖3是示出了根據(jù)本發(fā)明一實施例的第一相似度計算過程的示意性流程圖。

圖4示出了基于map-reduce分布式計算模型實現(xiàn)頁面集中頁面和查詢集中的歷史查詢請求之間的匹配與優(yōu)化的流程圖。

圖5是示出了根據(jù)本發(fā)明一實施例的頁面的搜索特性的分析裝置的結(jié)構(gòu)的示意性方框圖。

圖6是示出了圖5中相似度確定模塊可以具有的功能模塊的示意性方框圖。

具體實施方式

下面將參照附圖更詳細(xì)地描述本公開的優(yōu)選實施方式。雖然附圖中顯示了本公開的優(yōu)選實施方式,然而應(yīng)該理解,可以以各種形式實現(xiàn)本公開而不應(yīng)被這里闡述的實施方式所限制。相反,提供這些實施方式是為了使本公開更加透徹和完整,并且能夠?qū)⒈竟_的范圍完整地傳達(dá)給本領(lǐng)域的技術(shù)人員。

如前所述,現(xiàn)有的頁面價值分析方案要么僅從頁面本身的特性出發(fā),通過分析頁面間的鏈接關(guān)系,確定頁面的價值,不利于挖掘出滿足用戶冷門需求的頁面以及新頁面;要么需要接收到用戶查詢后進(jìn)行計算,計算效率較低。針對現(xiàn)有的頁面價值分析方案存在的不足,本發(fā)明提出了一種新的頁面分析方案。

簡要來說,本發(fā)明的頁面分析方案可以通過離線計算頁面和歷史查詢請求之間的相似度,將相似度超過一定閾值的頁面和歷史查詢請求視為相互匹配,與歷史查詢請求相匹配的頁面可以視為該查詢請求所針對的目標(biāo)頁面,即計算得到的頁面的匹配信息可以在一定程度上反映用戶的搜索需求。因此,可以通過對計算得到的頁面的匹配信息進(jìn)行分析,來確定頁面的搜索特性。

下面結(jié)合附圖就本發(fā)明的頁面分析方案的具體實現(xiàn)過程做詳細(xì)說明,圖2是示出了根據(jù)本發(fā)明一實施例的頁面的搜索特性的分析方法的示意性流程圖。

參見圖2,首先可以執(zhí)行步驟s110,計算查詢集中的歷史查詢請求和頁面集中的頁面之間的第一相似度。

查詢集中的歷史查詢請求可以是預(yù)先統(tǒng)計的大量用戶在一定時間段內(nèi)的查詢請求。頁面集中的頁面可以是統(tǒng)計的一段時間內(nèi)(例如一天、一周)新增的頁面,也可以預(yù)先存儲在網(wǎng)頁庫中的大量頁面。

在獲取了查詢集和頁面集后,可以基于一定相似度計算規(guī)則計算查詢集中的歷史查詢請求和頁面集中的頁面之間的相似度。為了便于區(qū)分,這里稱為第一相似度,關(guān)于第一相似度的具體計算過程將在下文做詳細(xì)說明,這里暫不展開描述。

在計算得到第一相似度之后,可以將第一相似度超過第一預(yù)定閾值的查詢請求和頁面視為相互匹配(步驟s120)。其中,第一預(yù)定閾值的大小可以根據(jù)需要設(shè)定,例如,第一預(yù)定閾值可以在0.7~0.75之間進(jìn)行設(shè)定。

與歷史查詢請求相匹配的頁面可以視為該歷史查詢請求所針對的目標(biāo)頁面,因此可以根據(jù)頁面的匹配信息,對頁面進(jìn)行分析,以確定頁面的搜索特性(步驟s130)。

例如,如果計算后發(fā)現(xiàn)頁面a所匹配的歷史查詢請求數(shù)量較多,則可以認(rèn)為頁面a的查詢熱門度較高;相反,如果計算后發(fā)現(xiàn)頁面b所匹配的歷史查詢請求數(shù)量較多,則可以認(rèn)為頁面b的查詢熱門度較低。由此,可以根據(jù)匹配某一頁面的歷史查詢請求的數(shù)量,確定該頁面的查詢熱門度。

再例如,如果計算后發(fā)現(xiàn)匹配頁面a的歷史查詢請求(一個或多個)所匹配的頁面的數(shù)量普遍較少,則可以認(rèn)為頁面a的資源稀缺度較高;相反,如果最終計算的匹配頁面a的歷史查詢請求(一個或多個)所匹配的頁面的數(shù)量普遍較多,則可以認(rèn)為頁面a的資源稀缺度較低。也就是說,也可以根據(jù)匹配頁面的歷史查詢請求所匹配的頁面的數(shù)量,確定頁面的資源稀缺度。其中,在確定頁面a的資源稀缺度時,可以從計算得到的頁面a所匹配的所有歷史查詢請求中,挑選匹配頁面數(shù)量較少的前n個歷史查詢請求,根據(jù)挑選出的歷史查詢請求所匹配的頁面的數(shù)量來確定頁面a的資源稀缺度。

當(dāng)然,還可以根據(jù)計算得到的頁面的匹配信息,確定頁面的其它搜索特性,這里不再說明。

綜上,本發(fā)明的頁面的搜索特性的分析方法的上述步驟均可以離線實現(xiàn),并且頁面的搜索特性是基于頁面與歷史查詢請求的匹配信息確定的,與現(xiàn)有的頁面分析方案相比,所確定的頁面的搜索特性更加符合用戶的搜索意圖,并且可以挖掘出滿足用戶冷門需求的頁面以及新頁面。

上文結(jié)合圖2簡要說明了本發(fā)明的頁面的搜索特性的分析方法的流程,根據(jù)上文描述可知,本發(fā)明的分析方法的關(guān)鍵點在于計算頁面集中的頁面和查詢集中的歷史查詢請求之間的第一相似度,下面結(jié)合圖3就計算頁面和歷史查詢請求之間的第一相似度的過程進(jìn)行說明。

一、第一相似度的計算過程

圖3是示出了根據(jù)本發(fā)明一實施例的第一相似度計算過程的示意性流程圖。

參見圖3,可以首先執(zhí)行步驟s210和步驟s220,分別對查詢集中的歷史查詢請求、頁面集中的頁面所對應(yīng)的文字信息進(jìn)行分詞并計算分詞的權(quán)重。其中,頁面所對應(yīng)的文字信息可以是頁面的鏈接文本、錨文本、標(biāo)題等文字信息。另外,為了便于描述,可以將歷史查詢所對應(yīng)的分詞稱為第一分詞,頁面所對應(yīng)的分詞稱為第二分詞。

步驟s210和步驟s220中述及的分詞和權(quán)重計算過程可以通過調(diào)用nlp(naturallanguageprocessing,自然語言處理)服務(wù)中的分詞技術(shù)來實現(xiàn)。關(guān)于nlp服務(wù)的具體實現(xiàn)原理為本領(lǐng)域技術(shù)人員所公知,這里不再贅述。

需要說明的是,步驟s210和步驟s220可以使用同一nlp服務(wù),nlp服務(wù)中每個分詞所對應(yīng)的權(quán)重可以是預(yù)先設(shè)定好的,即可以是同一分詞對應(yīng)一個權(quán)重。例如,假設(shè)頁面a的分詞結(jié)果為{中國,好,聲音},歷史查詢請求b的分詞結(jié)果為{中國,好,歌曲},頁面a中的第一分詞“中國”和歷史查詢請求b中的第二分詞“中國”的權(quán)重可以是相同的。

然后可以執(zhí)行步驟s230,通過計算歷史查詢請求所對應(yīng)的第一分詞和頁面所對應(yīng)的第二分詞之間的相似度,確定歷史查詢請求和頁面之間的第一相似度。

此處可以使用多種方式來計算第一分詞和第二分詞之間的相似度,例如jaccard相似度、余弦相似度、ctrctn相似度等多種相似度計算方式。jaccard相似度、余弦相似度以及ctrctn相似度相比,余弦相似度計算要求最松,ctrctn最嚴(yán),jaccard介于兩者之間,例如對于a={0,1,1,1}和q={1,1,1,0},采用加權(quán)jaccard相似度為1/2,采用余弦為2/3,而采用ctrctn則為4/9。

jaccard相似度計算方式可以實現(xiàn)準(zhǔn)確率與召回率的平衡,若要求準(zhǔn)確率高于召回率,則可以選擇ctrctn相似度計算方式,若要求召回率高于準(zhǔn)確率則可以選擇余弦相似度計算方式。

作為示例,本發(fā)明可以采用加權(quán)jaccard相似度計算方法,此時可以使用如下相似度計算公式計算第一相似度s(q,u),

其中,q表示歷史查詢請求,u表示頁面,kj表示屬于歷史查詢請求所對應(yīng)的第一分詞和頁面所對應(yīng)的第二分詞的交集的分詞,ki表示屬于歷史查詢請求所對應(yīng)的第一分詞和頁面所對應(yīng)的第二分詞的并集的分詞,表示分詞kj的權(quán)重,表示分詞ki的權(quán)重。

二、相似度計算過程的優(yōu)化

根據(jù)上述相似度計算公式(1)可知,計算查詢集中的歷史查詢請求和頁面集中的頁面之間的第一相似度的時間復(fù)雜度計算公式為

o(|q|×|u|×|w|)(2)

其中,|q|表示查詢集中的歷史查詢請求數(shù)量,|u|表示頁面集中的頁面數(shù)量,|w|表示分詞數(shù)量。以通常情況下的數(shù)據(jù)規(guī)模為例,時間復(fù)雜度可以達(dá)到o(10^8×10^11×10^1)=o(10^20),可見若不對上述算法進(jìn)行改進(jìn)、優(yōu)化,將無法在合理的時間內(nèi)得到計算結(jié)果。

為此,本發(fā)明人在深入研究后發(fā)現(xiàn),可以通過在計算前對數(shù)據(jù)進(jìn)行篩選、在計算過程中進(jìn)行進(jìn)一步優(yōu)化,以減少計算的復(fù)雜度。

1、計算前的篩選

在完成對歷史查詢請求和頁面的分詞、分詞權(quán)重計算后,可以基于預(yù)定的篩選規(guī)則對歷史查詢請求、頁面歷史查詢請求所對應(yīng)的第一分詞頁面頁面所對應(yīng)的第二分詞進(jìn)行篩選,以選取符合要求的歷史查詢請求、頁面以及相應(yīng)的分詞參與相似度的計算。具體可以采用如下一種或多種篩選規(guī)則。

①剔除第一分詞和/或第二分詞中的停用詞。

②挑選權(quán)重大于第二預(yù)定閾值的第一分詞和/或第二分詞參與相似度的計算。

③從每個歷史查詢請求和/或頁面所對應(yīng)的分詞中,挑選權(quán)重排名靠前的第三數(shù)量閾值的分詞參與相似度的計算。

通過剔除停用詞、挑選權(quán)重大于預(yù)定閾值的分詞參與計算、權(quán)重排名靠前的分詞參與計算,可以有效減少時間復(fù)雜度計算公式(2)中|w|,可以加快計算速度,同時也可以提升相似度計算的準(zhǔn)確性。

④從查詢集和/或頁面集中剔除停用詞數(shù)量與非停用詞數(shù)量的比值超過第三預(yù)定閾值的歷史查詢請求和/或頁面。

停用詞數(shù)量與非停用詞數(shù)量的比值超過第三預(yù)定閾值的歷史查詢請求和/或頁面,可以視為垃圾歷史查詢請求和/或垃圾頁面。因此可以通過篩選垃圾歷史查詢請求和垃圾頁面,減少時間復(fù)雜度公式(2)中的|q|和|u|。

⑤僅計算具有至少一個相同的有效分詞的歷史查詢請求和頁面之間的第一相似度。

根據(jù)相似度計算公式(1)可知,沒有共同分詞的歷史查詢請求和頁面之間的第一相似度為零,因此可以剔除沒有共同有效分詞的歷史查詢請求和頁面,僅計算具有至少一個相同的有效分詞的歷史查詢請求和頁面之間的第一相似度。其中,這里述及的有效分詞是指采用上述篩選規(guī)則①、②、③篩選后的分詞。

2、計算過程的優(yōu)化

上文述及的相似度計算公式(1)可以表示為:

因此,可以通過先計算計算歷史查詢請求和頁面之間的部分相似度sj'(q,u),其中,

然后通過累加對應(yīng)于同一組歷史查詢請求和頁面的部分相似度sj'(q,u),得到該歷史查詢請求和該頁面之間的第一相似度。其中,部分相似度可以表示分詞對于整體相似度的貢獻(xiàn)度。

可以利用分布式計算模型來并行實現(xiàn)相似度計算過程。例如,可以使用map-reduce分布式計算模型模擬倒排索引召回,來實現(xiàn)并行化計算,具體計算過程如下。

圖4示出了基于map-reduce分布式計算模型計算頁面和歷史查詢請求之間的第一相似度的計算流程示意圖。

參見圖4,首先可以執(zhí)行步驟s410,對查詢集和頁面集進(jìn)行數(shù)據(jù)預(yù)處理操作。此處可以在步驟s410中執(zhí)行如下操作。

1、分別對查詢集中的歷史查詢請求、頁面集中的頁面進(jìn)行分詞并計算權(quán)重。

分詞及計算權(quán)重的過程可以參見上文對圖3中步驟s210和步驟s220的描述。

2、計算頁面集中頁面的權(quán)重uweight。可以采用如下計算公式uweight=a×(pr×b+hr×c+d×(linkfollow/urldepth))進(jìn)行計算,

其中,pr、hr、linkfollow和urldepth分別表示頁面的頁面分值(pagerank)、主站分值(hostrank)、入鏈數(shù)和鏈接深度,a、b、c、d為權(quán)重,通常可取值0.015254,9,5和45,pr、hr、linkfollow值越大,urldepth值越小,頁面的權(quán)重越大,權(quán)重大的頁面可認(rèn)為質(zhì)量較好。

3、數(shù)據(jù)篩選。

具體可以執(zhí)行的篩選過程可以參見上文對計算前的篩選的描述。例如,可以分別對歷史查詢請求和頁面所對應(yīng)的分詞進(jìn)行截斷,截斷方法為,對于每個歷史查詢請求/頁面,只保留權(quán)重最大的前n個分詞。其中,n通常取較小的整數(shù)值,例如2或3等,由公式(1)可看出,相似度主要受權(quán)重大的關(guān)鍵詞影響,通過增加截斷可在不影響召回率的情況下,降低相似度計算的計算復(fù)雜度(公式2中的|w|)。

在經(jīng)過數(shù)據(jù)預(yù)處理后,可以分別形成針對歷史查詢請求的第一記錄數(shù)據(jù)和針對頁面的第二記錄數(shù)據(jù)(步驟s420、步驟s425)。下面就第一記錄數(shù)據(jù)和第二記錄數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)以及排列方式做進(jìn)一步說明。

4.1、第一記錄數(shù)據(jù)的結(jié)構(gòu)及排列方式

如前文所述,對一條歷史查詢請求進(jìn)行分詞后,可以得到該歷史查詢請求下的一個或多個第一分詞。由此,可以針對每條歷史查詢請求下的每個第一分詞,生成針對該第一分詞的第一記錄數(shù)據(jù)。第一記錄數(shù)據(jù)可以包括第一分詞、第一分詞對應(yīng)的權(quán)重、第一分詞對應(yīng)的歷史查詢請求以及該歷史查詢請求對應(yīng)的全部第一分詞及其權(quán)重。

例如,假設(shè)對歷史查詢請求q1進(jìn)行分詞后得到q1={中國,好,聲音},其中,中國的權(quán)重為2,好的權(quán)重為1,聲音的權(quán)重為0.6,那么針對q1,可以形成三條第一記錄數(shù)據(jù):{中國、2、q1(中國2;好1;聲音0.6)}、{好、1、q1(中國2;好1;聲音0.6)}、{聲音、0.6、q1(中國2;好1;聲音0.6)}。

由此,可以針對不同的歷史查詢請求,生成多條第一記錄數(shù)據(jù)。其中,生成的多條第一記錄數(shù)據(jù)可以按照所對應(yīng)的第一分詞進(jìn)行排序,將對應(yīng)于同一第一分詞的第一記錄數(shù)據(jù)排列在一起。而為了便于將對應(yīng)于同一第一分詞的第一記錄數(shù)據(jù)排列在一起,可以使用預(yù)定的哈希算法為第一分詞賦予特定的哈希值,由此可以將哈希值相同的第一記錄數(shù)據(jù)排在一起。其中,對于哈希值相同的第一記錄數(shù)據(jù),可以按照第一記錄數(shù)據(jù)所針對的歷史查詢請求的字符順序進(jìn)行排序。

4.2、第二記錄數(shù)據(jù)的結(jié)構(gòu)及排列方式

第二記錄數(shù)據(jù)的結(jié)構(gòu)及排列方式與第一記錄數(shù)據(jù)的結(jié)構(gòu)及排列方式原理相同。即可以針對每個頁面下的每個第二分詞,生成針對該第二分詞的第二記錄數(shù)據(jù),第二記錄數(shù)據(jù)可以包括第二分詞、第二分詞對應(yīng)的權(quán)重、第二分詞對應(yīng)的頁面、頁面的權(quán)重以及該頁面對應(yīng)的全部第二分詞及其權(quán)重。

在排列第二記錄數(shù)據(jù)時,可以將對應(yīng)于同一第二分詞的第二記錄數(shù)據(jù)排列在一起,此處可以使用與步驟3.1中相同的哈希算法為第二分詞賦予特定的哈希值,由此可以將哈希值相同的第二記錄數(shù)據(jù)排在一起。其中,對于哈希值相同的第二記錄數(shù)據(jù),可以按照第二記錄數(shù)據(jù)所針對的頁面的權(quán)重的大小進(jìn)行排序。

在形成第一記錄數(shù)據(jù)和第二記錄數(shù)據(jù)之后,就可以執(zhí)行步驟s430,分別從多條第一記錄數(shù)據(jù)和多條第二記錄數(shù)據(jù)中選擇哈希值相同的第一記錄數(shù)據(jù)和第二記錄數(shù)據(jù)作為計算用數(shù)據(jù),計算部分相似度sj'(q,u),部分相似度sj'(q,u)的計算公式可以參見上文公式(2)。

在計算部分相似度sj'(q,u)之前,還可以對第一記錄數(shù)據(jù)和第二記錄數(shù)據(jù)進(jìn)行截斷,以避免數(shù)據(jù)長尾。

具體來說,對于哈希值相同的多條第一記錄數(shù)據(jù),可以保留第一數(shù)量閾值的第一記錄數(shù)據(jù)參與部分相似度的計算。第一數(shù)量閾值可以根據(jù)實際情況下設(shè)定,例如,第一數(shù)量閾值可以在1000~10000之間進(jìn)行選取。

對于哈希值相同的多條第二記錄數(shù)據(jù),可以保留第二數(shù)量閾值的第二記錄數(shù)據(jù)參與部分相似度的計算。例如,可以從哈希值相同的多條第二記錄數(shù)據(jù)中挑選權(quán)重(uweight)排名靠前的前y個頁面,然后隨機(jī)保留x條頁面。其中,y可取100000~500000,x可取50000~100000。

在完成部分相似度sj'(q,u)的計算之后,可以形成多條第三記錄數(shù)據(jù),每條第三記錄數(shù)據(jù)可以是(k,q,u,s’)形式的數(shù)據(jù)結(jié)構(gòu)。其中,q表示歷史查詢請求、u表示頁面,k表示同時屬于q和u的分詞,s’表示基于分詞k計算得到的部分相似度計算結(jié)果。

然后可以執(zhí)行步驟s440,計算第一相似度。這里通過將具有相同q+u的第三記錄數(shù)據(jù)(k,q,u,s’)中的s’相加,就可以得到q和u之間的第一相似度。

在得到第一相似度之后,可以首先對歷史查詢請求和頁面進(jìn)行一次粗篩,如果計算得到的第一相似度s不大于閾值則則丟棄,否則繼續(xù)進(jìn)行下一步,其中,閾值一般可取0.7~0.75。

經(jīng)過粗篩后,可以形成第四記錄數(shù)據(jù),第四記錄數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)如下:(q,u,uweight,s)記錄。各字段含義同上,這里不再贅述。多條第四記錄數(shù)據(jù)可以首先按照q的字符順序進(jìn)行排序,相同q的再按照s由大到小排序,相同q相同s的再按照uweight由大到小排序。

然后可以對通過初篩的歷史查詢請求和頁面進(jìn)行精篩(步驟s450)。具體地,對于第一相似度超過第一預(yù)定閾值的歷史查詢請求和頁面,可以分別從該歷史查詢請求和頁面所對應(yīng)的分詞中選擇權(quán)重排名靠前的第四數(shù)量閾值的分詞,使用上文述及的相似度計算公式(1)進(jìn)一步計算歷史查詢請求和頁面之間的第二相似度,其中,第四數(shù)量閾值可以大于第三數(shù)量閾值。當(dāng)?shù)诙嗨贫却笮〕^第四預(yù)定閾值時,可以確定歷史查詢請求和頁面相互匹配,其中,第四預(yù)定閾值大于第一預(yù)定閾值。

經(jīng)過精篩后,可以將得到的頁面和歷史查詢請求的匹配信息寫入相應(yīng)的數(shù)據(jù)庫(步驟s460)。其中,在寫入數(shù)據(jù)庫的過程中,對于一個歷史查詢請求,可以僅把與其相匹配的前k個頁面寫入數(shù)據(jù)庫,一般k可以在2000~3000中進(jìn)行取值。

最后就可以根據(jù)數(shù)據(jù)庫中存儲的頁面和歷史查詢請求之間的匹配信息,計算頁面的搜索特性。

例如,可以在頁面a匹配的所有歷史查詢請求中,計算匹配的頁面數(shù)量少于k(可以與上述及的k取值相同)的所有歷史查詢請求數(shù)來確定頁面a的訪問熱門度pop(u),即

pop(u)=|{q|s(q,u)>γand|u′|s(q,u′)>γ|<k}|

再例如,還可以根據(jù)頁面a匹配的所有歷史查詢請求中,匹配頁面數(shù)量最少的歷史查詢請求所匹配的頁面的數(shù)量作為頁面a的資源稀缺度scarcity(u),

至此,結(jié)合圖4詳細(xì)說明了基于map-reduce分布式計算模型實現(xiàn)頁面集中頁面和查詢集中的歷史查詢請求之間的匹配與優(yōu)化。基于上述說明可知,通過采用map-reduce計算模型模擬倒排索引召回的過程,可以實現(xiàn)海量頁面和歷史查詢請求的相似度計算,并且計算過程可彈性伸縮,可節(jié)約計算資源。

另外,本發(fā)明還提供了一種頁面搜索特性的分析裝置,分析裝置可以用于執(zhí)行本發(fā)明的頁面搜索特性的分析方法,因此下面主要就分析裝置可以具有的結(jié)構(gòu)進(jìn)行說明,對于其中的細(xì)節(jié)部分可以參見上文相關(guān)說明,下文不再詳述。

圖5是示出了根據(jù)本發(fā)明一實施例的頁面搜索特性的分析裝置的結(jié)構(gòu)的示意性方框圖。

參見圖5,分析裝置500包括第一相似度計算單元510、匹配確定單元520以及搜索特性確定單元530。

第一相似度計算單元510用于計算查詢集中的歷史查詢請求和頁面集中的頁面之間的第一相似度.

匹配確定單元520用于將第一相似度超過預(yù)定閾值的歷史查詢請求和頁面視為相互匹配。

搜索特性確定單元530用于根據(jù)頁面的匹配信息,對頁面進(jìn)行分析,以確定頁面的搜索特性。

作為本發(fā)明的一個可選實施例,如圖5所示,搜索特性確定單元530可以包括查詢熱門度確定模塊531和資源稀缺度確定模塊533。

查詢熱門度確定模塊531用于根據(jù)匹配頁面的歷史查詢請求的數(shù)量,確定頁面的查詢熱門度。

資源稀缺度確定模塊533用于根據(jù)匹配頁面的歷史查詢請求所匹配的頁面的數(shù)量,確定頁面的資源稀缺度。

作為本發(fā)明的另一個可選實施例,如圖5所示,第一相似度計算單元510可以包括第一分詞及權(quán)重計算模塊511、第二分詞及權(quán)重計算模塊513以及相似度確定模塊515。

第一分詞及權(quán)重計算模塊511用于對查詢集中的歷史查詢請求進(jìn)行分詞并計算權(quán)重,以得到多個第一分詞及每個第一分詞所對應(yīng)的權(quán)重。

第二分詞及權(quán)重計算模塊513用于對頁面集中的頁面所對應(yīng)的文字信息進(jìn)行分詞并計算權(quán)重,以得到多個第二分詞及每個第二分詞所對應(yīng)的權(quán)重。

相似度確定模塊515用于通過計算歷史查詢請求所對應(yīng)的第一分詞和頁面所對應(yīng)的第二分詞之間的相似度,確定歷史查詢請求和頁面之間的第一相似度。

相同的分詞可以具有相同的權(quán)重,相似度確定模塊可以根據(jù)下列相似度計算公式計算歷史查詢請求和頁面之間的第一相似度s(q,u):

其中,q表示歷史查詢請求,u表示頁面,kj表示屬于歷史查詢請求所對應(yīng)的第一分詞和頁面所對應(yīng)的第二分詞的交集的分詞,ki表示屬于歷史查詢請求所對應(yīng)的第一分詞和頁面所對應(yīng)的第二分詞的并集的分詞,表示分詞kj的權(quán)重,表示分詞ki的權(quán)重。

相似度確定模塊515可以計算歷史查詢請求和頁面之間的部分相似度sj'(q,u),其中,

然后通過累加對應(yīng)于同一歷史查詢請求和頁面的部分相似度,得到該歷史查詢請求和該頁面之間的第一相似度。

圖6示出了相似度確定模塊515可以具有的功能模塊的示意性方框圖。

參見圖6,相似度確定模塊515可以包括第一生成模塊5151、第二生成模塊5153以及計算模塊5155。

第一生成模塊5151用于生成多條第一記錄數(shù)據(jù),每條第一記錄數(shù)據(jù)包括第一分詞、第一分詞對應(yīng)的權(quán)重、第一分詞對應(yīng)的歷史查詢請求以及該歷史查詢請求對應(yīng)的全部第一分詞及其權(quán)重,多條第一記錄數(shù)據(jù)是按照第一分詞的哈希值排列的。

第二生成模塊5153用于生成多條第二記錄數(shù)據(jù),每條第二記錄數(shù)據(jù)包括第二分詞、第二分詞對應(yīng)的權(quán)重、第二分詞對應(yīng)的頁面、頁面的權(quán)重以及該頁面對應(yīng)的全部第二分詞及其權(quán)重,多條第二記錄數(shù)據(jù)是按照第二分詞的哈希值排列的。

計算模塊5155用于分別從多條第一記錄數(shù)據(jù)和多條第二記錄數(shù)據(jù)中選擇哈希值相同的第一記錄數(shù)據(jù)和第二記錄數(shù)據(jù)作為計算用數(shù)據(jù),計算部分相似度sj'(q,u)。

回到圖5,作為本發(fā)明的另一個可選實施例,分析裝置500還可以包括篩選單元540。篩選單元540可以在相似度確定模塊515計算歷史查詢請求所對應(yīng)的第一分詞和頁面所對應(yīng)的第二分詞之間的相似度之前,執(zhí)行以下一項或多項操作:

剔除第一分詞和/或第二分詞中的停用詞;

挑選權(quán)重大于第二預(yù)定閾值的第一分詞和/或第二分詞參與相似度的計算;

從查詢集和/或頁面集中剔除停用詞數(shù)量與非停用詞數(shù)量的比值超過第三預(yù)定閾值的歷史查詢請求和/或頁面;

從每個歷史查詢請求和/或頁面所對應(yīng)的分詞中,挑選權(quán)重排名靠前的第三數(shù)量閾值的分詞參與相似度的計算。

作為本發(fā)明的另一個可選實施例,分析裝置500還可以包括第二相似度計算單元550和匹配確定單元560。

第二相似度計算單元550用于針對第一相似度超過第一預(yù)定閾值的歷史查詢請求和頁面,分別從該歷史查詢請求和頁面所對應(yīng)的分詞中選擇權(quán)重排名靠前的第四數(shù)量閾值的分詞,使用相似度公式進(jìn)一步計算歷史查詢請求和頁面之間的第二相似度,其中,第四數(shù)量閾值大于第三數(shù)量閾值。

匹配確定單元560用于當(dāng)?shù)诙嗨贫却笮〕^第四預(yù)定閾值時,確定歷史查詢請求和頁面相互匹配,其中,第四預(yù)定閾值大于第一預(yù)定閾值。

上文中已經(jīng)參考附圖詳細(xì)描述了根據(jù)本發(fā)明的頁面搜索特性分析方法和分析裝置。

此外,根據(jù)本發(fā)明的方法還可以實現(xiàn)為一種計算機(jī)程序,該計算機(jī)程序包括用于執(zhí)行本發(fā)明的上述方法中限定的上述各步驟的計算機(jī)程序代碼指令。或者,根據(jù)本發(fā)明的方法還可以實現(xiàn)為一種計算機(jī)程序產(chǎn)品,該計算機(jī)程序產(chǎn)品包括計算機(jī)可讀介質(zhì),在該計算機(jī)可讀介質(zhì)上存儲有用于執(zhí)行本發(fā)明的上述方法中限定的上述功能的計算機(jī)程序。本領(lǐng)域技術(shù)人員還將明白的是,結(jié)合這里的公開所描述的各種示例性邏輯塊、模塊、電路和算法步驟可以被實現(xiàn)為電子硬件、計算機(jī)軟件或兩者的組合。

附圖中的流程圖和框圖顯示了根據(jù)本發(fā)明的多個實施例的系統(tǒng)和方法的可能實現(xiàn)的體系架構(gòu)、功能和操作。在這點上,流程圖或框圖中的每個方框可以代表一個模塊、程序段或代碼的一部分,所述模塊、程序段或代碼的一部分包含一個或多個用于實現(xiàn)規(guī)定的邏輯功能的可執(zhí)行指令。也應(yīng)當(dāng)注意,在有些作為替換的實現(xiàn)中,方框中所標(biāo)記的功能也可以以不同于附圖中所標(biāo)記的順序發(fā)生。例如,兩個連續(xù)的方框?qū)嶋H上可以基本并行地執(zhí)行,它們有時也可以按相反的順序執(zhí)行,這依所涉及的功能而定。也要注意的是,框圖和/或流程圖中的每個方框、以及框圖和/或流程圖中的方框的組合,可以用執(zhí)行規(guī)定的功能或操作的專用的基于硬件的系統(tǒng)來實現(xiàn),或者可以用專用硬件與計算機(jī)指令的組合來實現(xiàn)。

以上已經(jīng)描述了本發(fā)明的各實施例,上述說明是示例性的,并非窮盡性的,并且也不限于所披露的各實施例。在不偏離所說明的各實施例的范圍和精神的情況下,對于本技術(shù)領(lǐng)域的普通技術(shù)人員來說許多修改和變更都是顯而易見的。本文中所用術(shù)語的選擇,旨在最好地解釋各實施例的原理、實際應(yīng)用或?qū)κ袌鲋械募夹g(shù)的改進(jìn),或者使本技術(shù)領(lǐng)域的其它普通技術(shù)人員能理解本文披露的各實施例。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1