本申請(qǐng)涉及計(jì)算機(jī)處理技術(shù)領(lǐng)域,特別是涉及一種信息搜索方法和一種信息搜索裝置。
背景技術(shù):
隨著網(wǎng)絡(luò)的迅速發(fā)展,網(wǎng)絡(luò)信息急劇增加。用戶為了在海量的網(wǎng)絡(luò)信息中尋找所需的網(wǎng)絡(luò)信息,通常使用搜索引擎進(jìn)行搜索。
搜索引擎指自動(dòng)從因特網(wǎng)搜集信息,經(jīng)過一定整理以后,提供給用戶進(jìn)行查詢的系統(tǒng),讓用戶盡可能快速地找到期望的結(jié)果,一般包括兩個(gè)環(huán)節(jié):
1、基于用戶提交的搜索詞,按文本匹配原則,召回相關(guān)的信息。
2、根據(jù)歷史用戶行為數(shù)據(jù),預(yù)估這些信息在該搜索詞下的點(diǎn)擊率,按點(diǎn)擊率高低排序,呈現(xiàn)給用戶。
在預(yù)估信息的點(diǎn)擊率時(shí),根據(jù)歷史用戶的點(diǎn)擊行為偏好,在信息的維度進(jìn)行匯集,從而將用戶偏好點(diǎn)擊的信息優(yōu)先展示。
假設(shè)信息的歷史統(tǒng)計(jì)的真實(shí)點(diǎn)擊率為hctr(historyclick-throughratio),那么預(yù)估點(diǎn)擊率pctr(predictionclitck-throughratio)通常是對(duì)真實(shí)統(tǒng)計(jì)hctr的逼近,可表示為:
pctr=f(hctr)
其中,f()表示預(yù)估的模型。
即歷史統(tǒng)計(jì)點(diǎn)擊率hctr越高,那么預(yù)估點(diǎn)擊率pctr也會(huì)相應(yīng)地越高。
采用模型預(yù)估的主要原因是通過特征泛化的形式,對(duì)那些歷史統(tǒng)計(jì)數(shù)據(jù)稀疏的信息給出合理的預(yù)估值。
然而,目前這種機(jī)制不僅逐漸被作弊團(tuán)體所利用,而且其排序效果也不高,嚴(yán)重影響了搜索引擎排序的準(zhǔn)確性。
例如,少量非法廠商為了使自己的信息排序靠前,采用了雇人刷點(diǎn)擊的方式,短期內(nèi)將自己的信息點(diǎn)擊率刷高,搜索引擎一般不能夠有效地識(shí)別出這些刷點(diǎn)擊行為,將這些信息排序在前,而用戶所需的信息可能排序在后, 影響用戶的搜索體驗(yàn)。
技術(shù)實(shí)現(xiàn)要素:
鑒于上述問題,提出了本申請(qǐng)實(shí)施例以便提供一種克服上述問題或者至少部分地解決上述問題的一種信息搜索方法和相應(yīng)的一種信息搜索裝置。
為了解決上述問題,本申請(qǐng)實(shí)施例公開了一種信息搜索方法,包括:
當(dāng)接收到信息的搜索請(qǐng)求時(shí),根據(jù)所述搜索請(qǐng)求查找一個(gè)或多個(gè)候選信息;
查找在先針對(duì)所述候選信息進(jìn)行操作的用戶標(biāo)識(shí)對(duì)應(yīng)的行為置信度;
根據(jù)所述行為置信度從所述一個(gè)或多個(gè)候選信息中選取一個(gè)或多個(gè)目標(biāo)候選信息;以及
返回所述一個(gè)或多個(gè)目標(biāo)候選信息。
可選地,所述行為置信度表征用戶行為的可信程度,和/或,表征某用戶行為對(duì)度量信息質(zhì)量的價(jià)值;
所述方法還包括:
采集基于用戶標(biāo)識(shí)在針對(duì)展示的信息進(jìn)行操作時(shí)產(chǎn)生的行為數(shù)據(jù);
從所述行為數(shù)據(jù)中提取點(diǎn)擊行為特征數(shù)據(jù);以及
根據(jù)所述點(diǎn)擊行為特征數(shù)據(jù)計(jì)算所述用戶標(biāo)識(shí)的行為置信度。
可選地,所述點(diǎn)擊行為特征數(shù)據(jù)為信息、公司、行業(yè)中的至少一個(gè)維度的數(shù)據(jù),包括如下的至少一者:
平均信息點(diǎn)擊數(shù)、平均公司點(diǎn)擊數(shù)、點(diǎn)擊行業(yè)數(shù)、點(diǎn)擊總數(shù)、平均行業(yè)點(diǎn)擊數(shù)、平均點(diǎn)擊時(shí)間間隔、平均點(diǎn)擊序列長度。
可選地,所述根據(jù)所述點(diǎn)擊行為特征數(shù)據(jù)計(jì)算所述用戶標(biāo)識(shí)的行為置信度的步驟包括:
將所述點(diǎn)擊行為特征數(shù)據(jù)輸入至預(yù)設(shè)的非線性模型中,以計(jì)算所述用戶標(biāo)識(shí)的行為置信度。
可選地,所述根據(jù)所述搜索請(qǐng)求查找一個(gè)或多個(gè)候選信息的步驟包括:
從所述搜索請(qǐng)求中提取搜索關(guān)鍵詞;以及
在預(yù)設(shè)的索引文件中查找與所述搜索關(guān)鍵詞匹配的候選信息。
可選地,所述根據(jù)所述行為置信度從所述一個(gè)或多個(gè)候選信息中選取一個(gè)或多個(gè)目標(biāo)候選信息的步驟包括:
采用所述行為置信度計(jì)算所述一個(gè)或多個(gè)候選信息對(duì)應(yīng)的一個(gè)或多個(gè)預(yù)估點(diǎn)擊率;
至少按照所述一個(gè)或多個(gè)預(yù)估點(diǎn)擊率對(duì)所述一個(gè)或多個(gè)候選信息進(jìn)行排序;以及
按照排序從所述一個(gè)或多個(gè)候選信息中確定一個(gè)或多個(gè)目標(biāo)候選信息。
可選地,所述采用所述行為置信度計(jì)算所述一個(gè)或多個(gè)候選信息對(duì)應(yīng)的一個(gè)或多個(gè)預(yù)估點(diǎn)擊率的步驟包括:
針對(duì)每個(gè)候選信息,查找每個(gè)用戶標(biāo)識(shí)對(duì)應(yīng)的點(diǎn)擊數(shù)和展示數(shù);
采用所述行為置信度修正用戶點(diǎn)擊率,獲得信息度量值;
將所述信息度量值與預(yù)設(shè)的模型預(yù)估誤差之和設(shè)置為所述候選信息的預(yù)估點(diǎn)擊率其中,所述用戶點(diǎn)擊率為所述點(diǎn)擊數(shù)與所述展示數(shù)之間的比值。
本申請(qǐng)實(shí)施例還公開了一種信息搜索裝置,包括:
候選信息查找模塊,用于在接收到信息的搜索請(qǐng)求時(shí),根據(jù)所述搜索請(qǐng)求查找一個(gè)或多個(gè)候選信息;
行為置信度查找模塊,用于查找在先針對(duì)所述候選信息進(jìn)行操作的用戶標(biāo)識(shí)對(duì)應(yīng)的行為置信度;
目標(biāo)候選信息選取模塊,用于根據(jù)所述行為置信度從所述一個(gè)或多個(gè)候選信息中選取一個(gè)或多個(gè)目標(biāo)候選信息;以及
目標(biāo)候選信息返回模塊,用于返回所述一個(gè)或多個(gè)目標(biāo)候選信息。
可選地,所述行為置信度表征用戶行為的可信程度,和/或,表征某用戶行為對(duì)度量信息質(zhì)量的價(jià)值;
所述裝置還包括:
行為數(shù)據(jù)采集模塊,用于采集基于用戶標(biāo)識(shí)在針對(duì)展示的信息進(jìn)行操作時(shí)產(chǎn)生的行為數(shù)據(jù);
點(diǎn)擊行為特征數(shù)據(jù)提取模塊,用于從所述行為數(shù)據(jù)中提取點(diǎn)擊行為特征數(shù)據(jù);以及
行為置信度計(jì)算模塊,用于根據(jù)所述點(diǎn)擊行為特征數(shù)據(jù)計(jì)算所述用戶標(biāo)識(shí)的行為置信度。
可選地,所述點(diǎn)擊行為特征數(shù)據(jù)為信息、公司、行業(yè)中的至少一個(gè)維度的數(shù)據(jù),包括如下的至少一者:
平均信息點(diǎn)擊數(shù)、平均公司點(diǎn)擊數(shù)、點(diǎn)擊行業(yè)數(shù)、點(diǎn)擊總數(shù)、平均行業(yè)點(diǎn)擊數(shù)、平均點(diǎn)擊時(shí)間間隔、平均點(diǎn)擊序列長度。
可選地,所述行為置信度計(jì)算模塊包括:
非線性模型計(jì)算子模塊,用于將所述點(diǎn)擊行為特征數(shù)據(jù)輸入至預(yù)設(shè)的非線性模型中,以計(jì)算所述用戶標(biāo)識(shí)的行為置信度。
可選地,所述候選信息查找模塊包括:
搜索關(guān)鍵詞提取子模塊,用于從所述搜索請(qǐng)求中提取搜索關(guān)鍵詞;以及
索引文件查找子模塊,用于在預(yù)設(shè)的索引文件中查找與所述搜索關(guān)鍵詞匹配的候選信息。
可選地,所述目標(biāo)候選信息選取模塊包括:
預(yù)估點(diǎn)擊率計(jì)算子模塊,用于采用所述行為置信度計(jì)算所述一個(gè)或多個(gè)候選信息對(duì)應(yīng)的一個(gè)或多個(gè)預(yù)估點(diǎn)擊率;
排序子模塊,用于至少按照所述一個(gè)或多個(gè)預(yù)估點(diǎn)擊率對(duì)所述一個(gè)或多個(gè)候選信息進(jìn)行排序;以及
確定子模塊,用于按照排序從所述一個(gè)或多個(gè)候選信息中確定一個(gè)或多個(gè)目標(biāo)候選信息。
可選地,所述預(yù)估點(diǎn)擊率計(jì)算子模塊包括:
歷史數(shù)據(jù)查找單元,用于針對(duì)每個(gè)候選信息,查找每個(gè)用戶標(biāo)識(shí)對(duì)應(yīng)的點(diǎn)擊數(shù)和展示數(shù);
信息度量值計(jì)算單元,用于采用所述行為置信度修正用戶點(diǎn)擊率,獲得信息度量值;
預(yù)估點(diǎn)擊率設(shè)置單元,用于將所述信息度量值與預(yù)設(shè)的模型預(yù)估誤差之 和設(shè)置為所述候選信息的預(yù)估點(diǎn)擊率;
其中,所述用戶點(diǎn)擊率為所述點(diǎn)擊數(shù)與所述展示數(shù)之間的比值。
本申請(qǐng)實(shí)施例包括以下優(yōu)點(diǎn):
本申請(qǐng)實(shí)施例通過行為置信度對(duì)檢索進(jìn)行修正,返回修正后的目標(biāo)候選信息:
1、以用戶為維度進(jìn)行異常檢測,識(shí)別出作弊行為,避免了隨著用戶的行為模式發(fā)生變化而相應(yīng)地修正升級(jí)的情況下,保證了作弊行為檢測的召回率和準(zhǔn)確率,大大降低了檢測修正升級(jí)成本;
2、以用戶為維度進(jìn)行異常檢測,提高了泛化能力,解決了當(dāng)前信息的局限性,提高了作弊行為識(shí)別的召回率;
3、通過行為置信度評(píng)價(jià)用戶的點(diǎn)擊行為對(duì)度量信息優(yōu)劣質(zhì)量的貢獻(xiàn)度,使得建模時(shí)區(qū)別不同用戶的點(diǎn)擊行為數(shù)據(jù),提升了建模準(zhǔn)確性,進(jìn)而提升了排序效果。
附圖說明
圖1是本申請(qǐng)的一種信息搜索方法實(shí)施例的步驟流程圖;
圖2是本申請(qǐng)的一種信息搜索裝置實(shí)施例的結(jié)構(gòu)框圖。
具體實(shí)施方式
為使本申請(qǐng)的上述目的、特征和優(yōu)點(diǎn)能夠更加明顯易懂,下面結(jié)合附圖和具體實(shí)施方式對(duì)本申請(qǐng)作進(jìn)一步詳細(xì)的說明。
目前的一些搜索引擎根據(jù)信息的點(diǎn)擊、曝光數(shù)據(jù),采用邏輯回歸(lr,logisticregression)模型預(yù)估信息的點(diǎn)擊率,并按預(yù)估點(diǎn)擊率從高到低排序。
令y表示歷史用戶瀏覽信息后是否點(diǎn)擊,f表示信息特征,w表示特征權(quán)重,lr模型采用最大似然求解特征權(quán)重w,最優(yōu)化目標(biāo)關(guān)系式(如表達(dá)式)如下:
其中,yk表示信息k的標(biāo)準(zhǔn)目標(biāo),如果樣本k在一次曝光中被點(diǎn)擊,那么yk=1,否則yk=0;w為待求解的模型參數(shù)向量;fk表示信息k抽取得到的特征向量,特征維度可以包括信息id、信息標(biāo)題、信息所屬行業(yè)、信息所屬公司等等。
待w求解得到后,對(duì)于任意給定信息,抽取出其特征fx,則其預(yù)估點(diǎn)擊率為:
pctr=func(w,fx)
其中,func()為預(yù)設(shè)的模型,以lr模型為例,func()可表示為:
歷史統(tǒng)計(jì)點(diǎn)擊率hctr是根據(jù)日志數(shù)據(jù)的統(tǒng)計(jì)值,由于很多信息曝光點(diǎn)擊數(shù)據(jù)稀疏,如最新發(fā)布的產(chǎn)品,那么,歷史統(tǒng)計(jì)點(diǎn)擊率hctr就不置信。
例如,如果某個(gè)新發(fā)布的產(chǎn)品曝光1次、并且發(fā)生了1次點(diǎn)擊,hctr就等于1,排序就絕對(duì)靠前,有可能是誤點(diǎn)噪聲,因此,這個(gè)hctr是不置信的。
又例如,如果某個(gè)新發(fā)布的產(chǎn)品曝光1次,但是沒有發(fā)生點(diǎn)擊,hctr就等于0,排序就絕對(duì)靠后,同樣,這個(gè)hctr也是不置信的。
因此,在這種情況下,hctr就不能有效度量這些信息的優(yōu)劣。
因此,可以以曝光點(diǎn)擊產(chǎn)品的歷史統(tǒng)計(jì)點(diǎn)擊率hctr為目標(biāo),以曝光點(diǎn)擊產(chǎn)品的信息(例如,標(biāo)題、價(jià)格、圖片)構(gòu)建特征fx,從而訓(xùn)練出模型權(quán)重w。
這樣,對(duì)于新發(fā)布的產(chǎn)品等沒有曝光點(diǎn)擊數(shù)據(jù),我們也能夠根據(jù)其產(chǎn)品信息設(shè)計(jì)出特征,并根據(jù)模型權(quán)重w計(jì)算預(yù)估點(diǎn)擊率pctr。
對(duì)于曝光點(diǎn)擊數(shù)據(jù)豐富的信息,pctr就約等于hctr,對(duì)于曝光點(diǎn)擊數(shù)據(jù)稀疏的信息,pctr就近似等于其假設(shè)足夠曝光情況下的hctr。
以下表所示數(shù)據(jù)為例:
其中,id1、id2、id3的信息在搜索關(guān)鍵詞“mp3”下被召回,其歷史統(tǒng)計(jì)點(diǎn)擊率hctr可分別表示為:
hctr1=3/100=0.03
hctr2=5/100=0.05
hctr3=50/100=0.5
在模型預(yù)估準(zhǔn)確的情況下,預(yù)估點(diǎn)擊率pctr是統(tǒng)計(jì)點(diǎn)擊率hctr的近似,因此,信息id1、信息id2、信息id3等信息的預(yù)估點(diǎn)擊率pctr是可表示為:
pctri=hctri+εi
其中,εi為模型預(yù)估誤差(即歷史統(tǒng)計(jì)點(diǎn)擊率hctr和預(yù)估點(diǎn)擊率pctr之間的差異),εi越小,表示模型預(yù)估越準(zhǔn)確。
εi通常和模型的選擇、特征的設(shè)計(jì)比較相關(guān),通常0<εi<<1,結(jié)合上表的數(shù)據(jù),id1的信息的點(diǎn)擊數(shù)為3,曝光數(shù)為100,那么其歷史統(tǒng)計(jì)點(diǎn)擊率hctr為0.03,假設(shè)信息id1的信息的標(biāo)題單詞長度為10、價(jià)格為5,以這兩個(gè)數(shù)據(jù)為信息特征,及標(biāo)題長度特征f1=10,價(jià)格特征f2=5,假設(shè)模型訓(xùn)練出的w1=-0.3,w2=-0.1,代入pctr=func(w,fx)中,計(jì)算出pctr=0.0293,此時(shí)誤差為0.0007。
需要說明的是,采用模型預(yù)估而非歷史統(tǒng)計(jì)點(diǎn)擊率排序,可以避免數(shù)據(jù)稀疏的影響,因?yàn)橛袣v史點(diǎn)擊的信息數(shù)量不多。
當(dāng)用戶搜索mp3時(shí),信息id1、信息id2、信息id3的排序?yàn)椋?/p>
ranker1-id3(pctr=0.50+ε3)
ranker2-id2(pctr=0.05+ε2)
ranker3-id1(pctr=0.03+ε1)
通常而言,搜索引擎中的信息的點(diǎn)擊率小于0.10,而上表中所舉示例中id3的信息的點(diǎn)擊率異常高,屬于刷點(diǎn)擊的作弊行為嫌疑比較高。
為了確保搜索引擎的公正性,維護(hù)用戶的搜索體驗(yàn),很多搜索引擎都配置反作弊機(jī)制,采用異常檢測算法,清除id3的信息中的異常點(diǎn)擊,并基于清除后的數(shù)據(jù)訓(xùn)練lr模型計(jì)算預(yù)估點(diǎn)擊率。
假設(shè)反作弊機(jī)制檢測出id3的信息有46個(gè)點(diǎn)擊是作弊,那么id3的歷史統(tǒng)計(jì)點(diǎn)擊率可表示為:
hctr3=(50-46)/100=0.04
如此,基于清理后的數(shù)據(jù)建模,當(dāng)用戶搜索mp3時(shí),三個(gè)產(chǎn)品的排序?yàn)椋?/p>
ranker1–id2(pctr=0.05+ε2)
ranker2–id3(pctr=0.04+ε3)
ranker3-id1(pctr=0.03+ε1)
很多搜索引擎剔除作弊行為的方法,其主要對(duì)象是信息的維度,即對(duì)信息的每一個(gè)點(diǎn)擊進(jìn)行異常檢測,并根據(jù)檢測結(jié)果判定該點(diǎn)擊是否保留于訓(xùn)練數(shù)據(jù)。
這種異常檢測方式的缺點(diǎn)至少包括如下幾點(diǎn):
1、作弊用戶的行為模式通常是變化的,對(duì)信息維度的點(diǎn)擊進(jìn)行異常檢測規(guī)則也需要相應(yīng)地修正升級(jí),以維持作弊行為檢測的召回率和準(zhǔn)確率,檢測修正升級(jí)成本較高。
例如,初始刷點(diǎn)擊的作弊行為,是為了盡快拿到效果,會(huì)在短時(shí)間對(duì)同一個(gè)信息內(nèi)連續(xù)點(diǎn)擊,那么異常檢測規(guī)則可設(shè)置為點(diǎn)擊時(shí)間間隔是否超過閾值,如果沒有超過閾值,那么就認(rèn)為是作弊的點(diǎn)擊。
隨后,作弊用戶發(fā)現(xiàn)這一異常檢測規(guī)則之后,可能會(huì)升級(jí)作弊模式,將作弊的點(diǎn)擊分散到各個(gè)時(shí)間段,那么這個(gè)異常檢測規(guī)則就無法生效,從而嚴(yán)重影響作弊行為的清理效果,最終影響排序效果。
2、作弊用戶的標(biāo)簽有效性是持續(xù)的,如果一個(gè)用戶是作弊的,那么這個(gè)用戶所有行為都應(yīng)該不是百分百置信的,而對(duì)信息維度的點(diǎn)擊進(jìn)行異常檢測只限定于當(dāng)前信息,作弊行為識(shí)別的召回率較低。
例如,用戶a對(duì)信息1短時(shí)間內(nèi)連續(xù)點(diǎn)擊了46次,同時(shí)對(duì)信息2在相對(duì)比較長的一段時(shí)間內(nèi)連續(xù)點(diǎn)擊了100次,進(jìn)行異常檢測,能夠?qū)π畔?的46次點(diǎn) 擊識(shí)別為作弊,并在模型訓(xùn)練前清理掉,而很難檢測出信息2的100次作弊點(diǎn)擊。
3、即使用戶是非作弊的,由于不同用戶的點(diǎn)擊傾向不同,那么,用戶的點(diǎn)擊行為對(duì)度量信息優(yōu)劣質(zhì)量的貢獻(xiàn)度不同,在建模時(shí)不同用戶的點(diǎn)擊行為數(shù)據(jù)應(yīng)該區(qū)分對(duì)待,以提升建模準(zhǔn)確性,然而這一點(diǎn)被很多搜索引擎所忽略,沒有對(duì)用戶點(diǎn)擊傾向進(jìn)行太多的分析和應(yīng)用,將所有用戶的點(diǎn)擊行為數(shù)據(jù)同等對(duì)待,導(dǎo)致排序效果較差。
例如,用戶a點(diǎn)擊傾向比較低,平均每次搜索,會(huì)點(diǎn)擊10個(gè)信息,用戶b點(diǎn)擊傾向比較高,平均每次搜索,只會(huì)點(diǎn)擊2個(gè)較為相關(guān)的信息。
假設(shè)用戶a點(diǎn)擊了id1的信息一次,用戶b點(diǎn)擊了id2的信息一次,那么在搜索排序時(shí),id2的信息更應(yīng)該排序在id1的信息之前,而很多搜索引擎通常沒有區(qū)分。
這種基于信息的維度進(jìn)行作弊檢測的排序方式可能會(huì)導(dǎo)致用戶需求的信息的排序很低,使得其展示的位置靠后,甚至無法展示。
一方面,這些不匹配用戶需求的信息不僅占用了網(wǎng)絡(luò)平臺(tái)的資源,而且還占用了客戶端的資源,造成不必要的資源占用與浪費(fèi)。
另一方面,用戶需要獲取自己感興趣的信息,可能需要進(jìn)行多次翻頁操作,甚至再次去其他平臺(tái)進(jìn)行搜索,再次進(jìn)行海量信息的搜索、對(duì)比、篩選等獲取相關(guān)的信息,操作更加繁瑣,耗費(fèi)用戶的時(shí)間,而且,將大大增加其他平臺(tái)和客戶端的資源消耗。
基于上述問題,本申請(qǐng)實(shí)施例從用戶的維度分析行為數(shù)據(jù),將作弊用戶和不同點(diǎn)擊傾向的用戶統(tǒng)一于用戶行為置信度指標(biāo),并用該行為置信度修正該用戶所有點(diǎn)擊過的信息的訓(xùn)練數(shù)據(jù),提升建模準(zhǔn)確性,從而提升排序的準(zhǔn)確性,優(yōu)化用戶搜索體驗(yàn)。
本申請(qǐng)實(shí)施例,可以將置信用戶行為抽象為以下幾個(gè)合理的規(guī)則:
(1)、假設(shè)用戶的點(diǎn)擊集中在一個(gè)產(chǎn)品,那么該用戶有可能是作弊用戶,其行為不置信。
(2)、假設(shè)用戶的點(diǎn)擊集中在一個(gè)公司,那么該用戶有可能是作弊用戶,其行為不置信。
(3)、如果用戶的點(diǎn)擊非常多,那么該用戶點(diǎn)擊傾向比較低,用戶行為不置信。
上述規(guī)則之所以合理的前提是,用戶作弊的對(duì)象是有針對(duì)性的,即其刷點(diǎn)擊行為是為了提高某一個(gè)產(chǎn)品或者公司的搜索排名。
然而,上述規(guī)則可能過于嚴(yán)格,造成泛化能力不足,其中,泛化能力指的是某種處理方式能夠覆蓋的范圍。
以作弊用戶舉例而言,如果用戶a接受了id1的信息的刷點(diǎn)擊的任務(wù),那么用戶a也有可能接受產(chǎn)品id2的信息的刷點(diǎn)擊的任務(wù)。
因此,用戶a的點(diǎn)擊主要集中在id1和id2的信息上,但是id1和id2兩者的刷點(diǎn)擊的作弊模式可能不同,使得一種反作弊檢測機(jī)制只能檢測出一種模式的作弊點(diǎn)擊。
為了提升規(guī)則的泛化性,并且方便建模,本申請(qǐng)實(shí)施例可以將抽象規(guī)則修正為:
(1)、如果用戶的點(diǎn)擊行為數(shù)非常多,那么其行為不置信。
(2)、如果用戶對(duì)信息的平均點(diǎn)擊數(shù)很大,那么其作弊的嫌疑比較高、行為不置信。
(3)、如果用戶對(duì)公司的平均點(diǎn)擊數(shù)很大,那么其作弊的嫌疑比較高、行為不置信。
參照?qǐng)D1,示出了本申請(qǐng)的一種信息搜索方法實(shí)施例的步驟流程圖,該方法100具體可以包括如下步驟:
步驟101,當(dāng)接收到信息的搜索請(qǐng)求時(shí),根據(jù)所述搜索請(qǐng)求查找一個(gè)或多個(gè)候選信息;
需要說明的是,在本申請(qǐng)實(shí)施例可以應(yīng)用在網(wǎng)絡(luò)平臺(tái)的搜索引擎中,其可以為服務(wù)器或服務(wù)器集群,如分布式系統(tǒng),存儲(chǔ)了海量的信息。
在不同的領(lǐng)域中,可以具有不同的信息,該信息為體現(xiàn)該領(lǐng)域特性的數(shù) 據(jù)。
例如,在新聞媒體領(lǐng)域中,該信息可以為新聞數(shù)據(jù),在網(wǎng)絡(luò)領(lǐng)域中,該信息可以為網(wǎng)頁數(shù)據(jù),在電子商務(wù)領(lǐng)域中,該信息可以為廣告數(shù)據(jù),等等。
在不同的領(lǐng)域中,雖然該信息承載領(lǐng)域特性而有所不同,但其本質(zhì)都是數(shù)據(jù),例如,文本數(shù)據(jù)、圖像數(shù)據(jù)、音頻數(shù)據(jù)、視頻數(shù)據(jù)等等,相對(duì)地,對(duì)該信息的處理,本質(zhì)都是對(duì)數(shù)據(jù)的處理。
候選信息、目標(biāo)信息等是邏輯意義上的本同,其本質(zhì)也是信息。
信息的搜索請(qǐng)求可以是指客戶端(如瀏覽器)發(fā)出的搜索信息的指示,對(duì)于網(wǎng)絡(luò)平臺(tái)而言,該搜索請(qǐng)求相當(dāng)于流量(traffic,網(wǎng)站的訪問量)。
通常情況下,網(wǎng)絡(luò)平臺(tái)的流量可以是網(wǎng)絡(luò)平臺(tái)本身的流量,也可以是外部(服務(wù)器)引入的流量,因此,用戶可以在網(wǎng)絡(luò)平臺(tái)本身或者其他網(wǎng)站進(jìn)行操作,觸發(fā)信息的搜索請(qǐng)求。
例如,用戶可以在網(wǎng)絡(luò)平臺(tái)的頁面輸入某個(gè)搜索關(guān)鍵詞觸發(fā)信息的搜索請(qǐng)求,也可以在搜索引擎中搜索某個(gè)關(guān)鍵詞觸發(fā)信息的搜索請(qǐng)求,還可以在其他網(wǎng)站瀏覽相關(guān)的網(wǎng)頁、點(diǎn)擊logo觸發(fā)業(yè)務(wù)對(duì)象的信息的搜索請(qǐng)求,等等。
以輸入某個(gè)搜索關(guān)鍵詞觸發(fā)信息的搜索請(qǐng)求為例,則在本示例中,步驟101可以包括如下子步驟:
子步驟s11,從所述搜索請(qǐng)求中提取搜索關(guān)鍵詞;
子步驟s12,在預(yù)設(shè)的索引文件中查找與所述搜索關(guān)鍵詞匹配的候選信息。
應(yīng)用本申請(qǐng)實(shí)施例,可以預(yù)先對(duì)信息建立索引文件,如正排索引、倒排索引(invertedindex)等。
而索引文件一般由索引表和主文件兩部分構(gòu)成,索引表是一張指示邏輯記錄和物理記錄之間對(duì)應(yīng)關(guān)系的表,索引表中的每項(xiàng)稱作索引項(xiàng),索引項(xiàng)是按鍵(或邏輯記錄號(hào))順序排列。
以倒排索引為例,倒排索引的索引對(duì)象是信息或者信息集合(如網(wǎng)頁數(shù)據(jù)、廣告數(shù)據(jù)等)中的單詞(如標(biāo)題)等,用來存儲(chǔ)這些單詞在一個(gè)文檔或 者一組文檔中的存儲(chǔ)位置。
例如,某個(gè)索引文件的格式為term:docid,標(biāo)題…..,在檢索中召回過程主要基于term匹配完成的。
假設(shè)有兩個(gè)doc(信息),它們的信息為:
doc1:標(biāo)題為redmp3player
doc2:標(biāo)題為bestmp3
這兩個(gè)doc在索引文件的格式為:
red:doc1
mp3:doc1、doc2
player:doc1
best:doc2
當(dāng)用戶提交的搜索關(guān)鍵詞為“mp3player”時(shí),在索引文件會(huì)分別用“mp3”召回doc1和doc2,用player召回doc1,并取兩者的交集doc1作為最終召回的候選信息。
步驟102,查找在先針對(duì)所述候選信息進(jìn)行操作的用戶標(biāo)識(shí)對(duì)應(yīng)的行為置信度;
在本申請(qǐng)實(shí)施例中,用戶標(biāo)識(shí)為能夠代表一個(gè)唯一確定的用戶的信息,例如,用戶賬號(hào)、cookie、imei(internationalmobileequipmentidentity,移動(dòng)設(shè)備國際身份碼)、mac(mediaaccesscontrol或者mediumaccesscontrol,物理地址或者硬件地址)地址等等。
若召回了搜索請(qǐng)求所需的候選信息,則可以查找在先針對(duì)候選信息進(jìn)行操作(如搜索展示、點(diǎn)擊、評(píng)論、購買等等)的用戶標(biāo)識(shí),在數(shù)據(jù)庫、hash(哈希)表等存儲(chǔ)空間中查找該用戶標(biāo)識(shí)的行為置信度。
一方面,行為置信度可以表征某個(gè)用戶(以用戶標(biāo)識(shí)表征)的用戶行為的可信程度,可信程度與行為置信度成正比,即可信程度越高,行為置信度越高。
例如,刷點(diǎn)擊率等作弊行為的行為置信度較低,反之,正常(非作弊)點(diǎn)擊行為的行為置信度較高。
另一方面,行為置信度可以表征某個(gè)用戶(以用戶標(biāo)識(shí)表征)的用戶行為對(duì)度量信息質(zhì)量的價(jià)值,價(jià)值與行為置信度成正比,即價(jià)值越高,行為置信度越高。
在本申請(qǐng)的一種實(shí)施例中,可以通過以下方式計(jì)算行為置信度:
子步驟s21,采集基于用戶標(biāo)識(shí)在針對(duì)展示的信息進(jìn)行操作時(shí)產(chǎn)生的行為數(shù)據(jù);
在具體實(shí)現(xiàn)中,可以通過網(wǎng)站日志等方式采集源數(shù)據(jù),如對(duì)源數(shù)據(jù)進(jìn)行解析,去掉無意義的信息,如字段“-”,獲得結(jié)構(gòu)化的行為數(shù)據(jù),如用戶id,用戶訪問的信息id,訪問時(shí)間,用戶行為(如搜索展示、點(diǎn)擊、評(píng)論、購買等等),等等。
例如,網(wǎng)站日志為:
118.112.27.164---[24/oct/2012:11:00:00+0800]"get/b.jpg?cd17mn0mdt17l2noaw5hlmfsawjhymeuy29tl30mbt17r0vufszzpxsymdb9jni9e2h0dha6ly9mdy50bwfsbc5jb20vp3nwbt0zlje2otqwni4xotg0mdeufszhpxtzawq9mtdjmdm2mjetztk2mc00ndg0lwiwntytzdjkmdcwm2nkyme4fhn0aw1lptezntewndc3mdu3otz8c2rhdgu9mjr8ywxpx2fwywnozv9pzd0xmtgumteylji3lje2nc43mju3mzi0nzu5odmzms43fgnuyt0tfszipxstfszjpxtjx3npz25lzd0wfq==&pageid=7f0000017f00000113511803054674156071647816&sys=ie6.0|windowsxp|1366*768|zh-cn&ver=43&t=1351047705828http/1.0"200-"mozilla/4.0(compatible;msie6.0;windowsnt5.1;sv1;.netclr2.0.50727)"118.112.27.164.135104760038.61^sid%3d17c03621-e960-4484-b056-d2d0703cdba8%7cstime%3d1351047705796%7csdate%3d24|cna=-^-^aid=118.112.27.164.72573247598331.7
過濾后獲得的結(jié)構(gòu)化的行為數(shù)據(jù)為:
1,b2b-1633112210,1215596848,1,07/aug/2013:08:27:22
子步驟s22,從所述行為數(shù)據(jù)中提取點(diǎn)擊行為特征數(shù)據(jù);
點(diǎn)擊行為特征數(shù)據(jù),可以指表征用戶在點(diǎn)擊時(shí)的特征的信息。
在本申請(qǐng)實(shí)施例中,可以從行為數(shù)據(jù)中直接過濾出點(diǎn)擊行為特征數(shù)據(jù),或者,對(duì)點(diǎn)擊行為特征數(shù)據(jù)進(jìn)行統(tǒng)計(jì),獲得目標(biāo)特征數(shù)據(jù),以訓(xùn)練用戶行為置信度。
在本申請(qǐng)實(shí)施例中,點(diǎn)擊行為特征數(shù)據(jù)落為特征數(shù)據(jù)為信息、公司、行業(yè)中的至少一個(gè)維度的數(shù)據(jù),具體包括如下的至少一者:
平均信息點(diǎn)擊數(shù)、平均公司點(diǎn)擊數(shù)、點(diǎn)擊行業(yè)數(shù)、點(diǎn)擊總數(shù)、平均行業(yè)點(diǎn)擊數(shù)、平均點(diǎn)擊時(shí)間間隔、平均點(diǎn)擊序列長度。
其中,平均信息點(diǎn)擊數(shù),可以指某個(gè)用戶(以用戶標(biāo)識(shí)表征)對(duì)在一定時(shí)間內(nèi)平均對(duì)每個(gè)信息的點(diǎn)擊數(shù)量,為點(diǎn)擊的總數(shù)量與信息的總數(shù)量之間的比值;
平均公司點(diǎn)擊數(shù),可以指某個(gè)用戶(以用戶標(biāo)識(shí)表征)對(duì)在一定時(shí)間內(nèi)平均對(duì)每個(gè)公司的信息的點(diǎn)擊數(shù)量,為點(diǎn)擊的總數(shù)量與公司的總數(shù)量之間的比值;
點(diǎn)擊行業(yè)數(shù),可以指某個(gè)用戶(以用戶標(biāo)識(shí)表征)對(duì)在一定時(shí)間內(nèi)點(diǎn)擊的信息所屬的行業(yè)的數(shù)量;
點(diǎn)擊總數(shù),可以指某個(gè)用戶(以用戶標(biāo)識(shí)表征)對(duì)在一定時(shí)間內(nèi)的點(diǎn)擊數(shù)量,不區(qū)分公司、行業(yè);
平均行業(yè)點(diǎn)擊數(shù),可以指某個(gè)用戶(以用戶標(biāo)識(shí)表征)對(duì)在一定時(shí)間內(nèi)平均對(duì)每個(gè)行業(yè)的信息的點(diǎn)擊數(shù)量,為點(diǎn)擊的總數(shù)量與行業(yè)的總數(shù)量之間的比值;
平均點(diǎn)擊時(shí)間間隔,可以指某個(gè)用戶(以用戶標(biāo)識(shí)表征)在一定時(shí)間內(nèi)的每次搜索時(shí),每兩次點(diǎn)擊行為之間的平均時(shí)間間隔;
平均點(diǎn)擊序列長度,可以指某個(gè)用戶(以用戶標(biāo)識(shí)表征)在一定時(shí)間內(nèi)每次搜索時(shí)的平均點(diǎn)擊次數(shù),為點(diǎn)擊的總數(shù)量與搜索次數(shù)的比值。
當(dāng)然,上述點(diǎn)擊行為特征數(shù)據(jù)只是作為示例,在實(shí)施本申請(qǐng)實(shí)施例時(shí),可以根據(jù)實(shí)際情況設(shè)置其他點(diǎn)擊行為特征數(shù)據(jù),本申請(qǐng)實(shí)施例對(duì)此不加以限制。另外,除了上述判斷點(diǎn)擊行為特征數(shù)據(jù)外,本領(lǐng)域技術(shù)人員還可以根據(jù)實(shí)際需要采用其它點(diǎn)擊行為特征數(shù)據(jù),本申請(qǐng)實(shí)施例對(duì)此也不加以限制。
子步驟s23,根據(jù)所述點(diǎn)擊行為特征數(shù)據(jù)計(jì)算所述用戶標(biāo)識(shí)的行為置信度。
在具體實(shí)現(xiàn)中,特征通常分為離散型和連續(xù)型,離散型通常用“1”和“0”表示這個(gè)特征“有”和“沒有”,而本申請(qǐng)中的點(diǎn)擊行為特征數(shù)據(jù),如平均信息點(diǎn)擊數(shù)、平均公司點(diǎn)擊數(shù)、點(diǎn)擊行業(yè)數(shù)、點(diǎn)擊總數(shù)、平均行業(yè)點(diǎn)擊數(shù)、平均點(diǎn)擊時(shí)間間隔、平均點(diǎn)擊序列長度等,大多是一個(gè)大于0的實(shí)數(shù),為連續(xù)型的連續(xù)值。
如果采用線性模型計(jì)算行為置信度,對(duì)于給定的特征權(quán)重w和連續(xù)型特征f,其預(yù)估分值為w·f,如果w>0,那么f越大,預(yù)估分值就越高,如果w<0,那么f越大,預(yù)估分值就越小,而很多實(shí)際情況并不是這么簡單的線性關(guān)系。
因此,可以采用非線性模型(如決策樹,decisiontree)計(jì)算行為置信度,以決策樹為例,決策樹可以在已知各種情況發(fā)生概率的基礎(chǔ)上,通過構(gòu)成決策樹來求取凈現(xiàn)值的期望值大于等于零的概率,評(píng)價(jià)項(xiàng)目風(fēng)險(xiǎn),判斷其可行性,能夠避免連續(xù)型特征值描述非線性問題的不足。
具體而言,將點(diǎn)擊行為特征數(shù)據(jù)輸入至預(yù)設(shè)的非線性模型中,以計(jì)算所述用戶標(biāo)識(shí)的行為置信度,即預(yù)測該用戶(以用戶標(biāo)識(shí)表征)為作弊用戶或正常用戶的概率,和/或,其行為對(duì)度量信息優(yōu)劣質(zhì)量的價(jià)值。
該非線性模型可以包括gbdt模型(gradientboostingdecisiontress)、id3和c4.5等等。
以gbdt模型為例,gbdt是一種迭代的決策樹算法,由多棵決策樹組成,在是先構(gòu)造一棵決策樹,然后不斷在已有決策樹和實(shí)際樣本輸出的殘差上再構(gòu)造一棵決策樹,依次迭代,所有決策樹的結(jié)果累加起來做最終結(jié)果。
gbdt模型可以以如下公式表示:
funcm(fx)=func0+a1func1(fx)+a2func2(fx)+…+amfuncm(fx)
其中,fx表示樣本特征(如點(diǎn)擊行為特征數(shù)據(jù)),funci表示第i(i≤m,i、m為整數(shù))棵決策樹,func0表示模型常數(shù),ai表示第i棵決策樹的加權(quán)系數(shù)。
步驟103,根據(jù)所述行為置信度從所述一個(gè)或多個(gè)候選信息中選取一個(gè)或多個(gè)目標(biāo)候選信息;
在本申請(qǐng)實(shí)施例中,可以采用行為置信度對(duì)候選信息的選取進(jìn)行修正。
在本申請(qǐng)的一個(gè)實(shí)施例中,步驟103可以包括如下子步驟:
子步驟s31,采用所述行為置信度計(jì)算所述一個(gè)或多個(gè)候選信息對(duì)應(yīng)的一個(gè)或多個(gè)預(yù)估點(diǎn)擊率;
預(yù)估點(diǎn)擊率,可以指對(duì)某個(gè)信息將要在某個(gè)情形下展現(xiàn)前,預(yù)估其可能的點(diǎn)擊概率。
在本申請(qǐng)實(shí)施例的一個(gè)示例中,子步驟s31進(jìn)一步可以包括如下子步驟:
子步驟s311,針對(duì)每個(gè)候選信息,查找每個(gè)用戶標(biāo)識(shí)對(duì)應(yīng)的點(diǎn)擊數(shù)和展示數(shù)(又稱曝光數(shù));
子步驟s312,采用行為置信度修正用戶點(diǎn)擊率,獲得信息度量值;
其中,用戶點(diǎn)擊率為點(diǎn)擊數(shù)與展示數(shù)之間的比值。
若候選信息對(duì)應(yīng)的用戶標(biāo)識(shí)為一個(gè),則可以以該用戶標(biāo)識(shí)的用戶點(diǎn)擊率與行為置信度的乘積作為信息度量值。
若候選信息對(duì)應(yīng)的用戶標(biāo)識(shí)為多個(gè),則可以計(jì)算每個(gè)用戶標(biāo)識(shí)的用戶點(diǎn)擊率與行為置信度的乘積,采用乘積計(jì)算信息度量值,如所有乘積的平均值、所有乘積的加權(quán)平均值等等。
修正之后的用戶點(diǎn)擊率,可以作為信息度量值,度量某個(gè)候選信息的質(zhì)量。
子步驟s313,將信息度量值與預(yù)設(shè)的模型預(yù)估誤差之和設(shè)置為候選信息的預(yù)估點(diǎn)擊率。
在本示例中,預(yù)估點(diǎn)擊率可以表示如下:
pctr=(點(diǎn)擊數(shù)*行為置信度)/展示數(shù)+ε
以下表所示數(shù)據(jù)為例:
其中,id1、id2、id3的信息在搜索關(guān)鍵詞“mp3”下被召回。
假設(shè)id1的信息由用戶a點(diǎn)擊了3次,id2的信息由用戶b點(diǎn)擊了5次,id3的信息由用戶c點(diǎn)擊了50次,用戶a的行為置信度為0.8,用戶b的行為置信度為0.5,用戶c的行為置信度為0.01,那么,修正后的預(yù)估點(diǎn)擊率可分別表示為:
pctr1=(3*0.8)/100+ε1=0.024+ε1
pctr2=(5*0.5)/100+ε2=0.025+ε2
pctr3=(50*0.01)/100+ε1=0.005+ε3
需要說明的是,信息度量值的計(jì)算(步驟102,步驟103中的子步驟s311、s312,)和/或預(yù)估點(diǎn)擊率的計(jì)算(步驟102,步驟103中的子步驟s31)可以在離線時(shí)執(zhí)行,也可以在線搜索時(shí)進(jìn)行執(zhí)行,本申請(qǐng)實(shí)施例對(duì)此不加以限制。
若離線計(jì)算了信息度量值,則在線搜索時(shí)提取候選信息對(duì)應(yīng)的信息度量值,計(jì)算預(yù)估點(diǎn)擊率;
若離線計(jì)算了預(yù)估點(diǎn)擊率,則在線搜索時(shí)直接提取候選信息對(duì)應(yīng)的預(yù)估點(diǎn)擊率。
子步驟s32,至少按照所述一個(gè)或多個(gè)預(yù)估點(diǎn)擊率對(duì)所述一個(gè)或多個(gè)候選信息進(jìn)行排序;
以上表所示數(shù)據(jù)為例,基于修正后的數(shù)據(jù)訓(xùn)練點(diǎn)擊率預(yù)估模型,最終的搜索排序序列為:
ranker1–id2(pctr=0.025+ε2)
ranker2–id1(pctr=0.024+ε1)
ranker3–id3(pctr=0.005+ε3)
當(dāng)然,除了預(yù)估點(diǎn)擊率之外,還可以采用其他參數(shù)進(jìn)行排序,例如,廣告數(shù)據(jù)的競價(jià)bidprice、信息的質(zhì)量等等,本申請(qǐng)實(shí)施例對(duì)此不加以限制。
子步驟s33,按照排序從所述一個(gè)或多個(gè)候選信息中確定一個(gè)或多個(gè)目 標(biāo)候選信息。
由于客戶端展示的位置一般有限,因此,可以優(yōu)先選取排序最高的前n個(gè)候選信息作為目標(biāo)候選信息。
步驟104,返回所述一個(gè)或多個(gè)目標(biāo)候選信息。
在具體實(shí)現(xiàn)中,網(wǎng)絡(luò)平臺(tái)可以對(duì)客戶端的加載請(qǐng)求進(jìn)行響應(yīng),將查找到的目標(biāo)業(yè)務(wù)對(duì)象推送至客戶端,由客戶端在承載頁面進(jìn)行加載,展示給用戶。
若在分布式系統(tǒng)等計(jì)算機(jī)集群中,應(yīng)用服務(wù)器接收到加載請(qǐng)求后,確定目標(biāo)業(yè)務(wù)對(duì)象,根據(jù)該目標(biāo)對(duì)象的id從資源服務(wù)器請(qǐng)求該目標(biāo)對(duì)象的數(shù)據(jù),然后連同承載頁面返回客戶端進(jìn)行展示。
本申請(qǐng)實(shí)施例通過行為置信度對(duì)檢索進(jìn)行修正,返回修正后的目標(biāo)候選信息:
1、以用戶為維度進(jìn)行異常檢測,識(shí)別出作弊行為,避免了隨著用戶的行為模式發(fā)生變化而相應(yīng)地修正升級(jí)的情況下,保證了作弊行為檢測的召回率和準(zhǔn)確率,大大降低了檢測修正升級(jí)成本;
2、以用戶為維度進(jìn)行異常檢測,提高了泛化能力,解決了當(dāng)前信息的局限性,提高了作弊行為識(shí)別的召回率;
3、通過行為置信度評(píng)價(jià)用戶的點(diǎn)擊行為對(duì)度量信息優(yōu)劣質(zhì)量的貢獻(xiàn)度,使得建模時(shí)區(qū)別不同用戶的點(diǎn)擊行為數(shù)據(jù),提升了建模準(zhǔn)確性,進(jìn)而提升了排序效果。
此外,本申請(qǐng)實(shí)施例由于排序效果提升了,因此提高了用戶需求的信息的展示幾率,降低了當(dāng)前平臺(tái)、客戶端的資源占用與浪費(fèi),避免用戶多次翻頁操作或者去其他平臺(tái)進(jìn)行搜索,提高了操作的簡便性,減少用戶時(shí)間的耗費(fèi),也減少了其他平臺(tái)和客戶端的資源消耗。
需要說明的是,對(duì)于方法實(shí)施例,為了簡單描述,故將其都表述為一系列的動(dòng)作組合,但是本領(lǐng)域技術(shù)人員應(yīng)該知悉,本申請(qǐng)實(shí)施例并不受所描述的動(dòng)作順序的限制,因?yàn)橐罁?jù)本申請(qǐng)實(shí)施例,某些步驟可以采用其他順序或者同時(shí)進(jìn)行。其次,本領(lǐng)域技術(shù)人員也應(yīng)該知悉,說明書中所描述的實(shí)施例 均屬于優(yōu)選實(shí)施例,所涉及的動(dòng)作并不一定是本申請(qǐng)實(shí)施例所必須的。
參照?qǐng)D2,示出了本申請(qǐng)的一種信息搜索裝置實(shí)施例的結(jié)構(gòu)框圖,該裝置200具體可以包括如下模塊:
候選信息查找模塊201,用于在接收到信息的搜索請(qǐng)求時(shí),根據(jù)所述搜索請(qǐng)求查找一個(gè)或多個(gè)候選信息;
行為置信度查找模塊202,用于查找在先針對(duì)所述候選信息進(jìn)行操作的用戶標(biāo)識(shí)對(duì)應(yīng)的行為置信度;
目標(biāo)候選信息選取模塊203,用于根據(jù)所述行為置信度從所述一個(gè)或多個(gè)候選信息中選取一個(gè)或多個(gè)目標(biāo)候選信息;以及
目標(biāo)候選信息返回模塊204,用于返回所述一個(gè)或多個(gè)目標(biāo)候選信息。
在本申請(qǐng)的一個(gè)實(shí)施例中,所述行為置信度可以表征用戶行為的可信程度,和/或,可以表征某用戶行為對(duì)度量信息質(zhì)量的價(jià)值;
所述裝置還可以包括如下模塊:
行為數(shù)據(jù)采集模塊,用于采集基于用戶標(biāo)識(shí)在針對(duì)展示的信息進(jìn)行操作時(shí)產(chǎn)生的行為數(shù)據(jù);
點(diǎn)擊行為特征數(shù)據(jù)提取模塊,用于從所述行為數(shù)據(jù)中提取點(diǎn)擊行為特征數(shù)據(jù);以及
行為置信度計(jì)算模塊,用于根據(jù)所述點(diǎn)擊行為特征數(shù)據(jù)計(jì)算所述用戶標(biāo)識(shí)的行為置信度。
在具體實(shí)現(xiàn)中,所述點(diǎn)擊行為特征數(shù)據(jù)可以為信息、公司、行業(yè)中的至少一個(gè)維度的數(shù)據(jù),可以包括如下的至少一者:
平均信息點(diǎn)擊數(shù)、平均公司點(diǎn)擊數(shù)、點(diǎn)擊行業(yè)數(shù)、點(diǎn)擊總數(shù)、平均行業(yè)點(diǎn)擊數(shù)、平均點(diǎn)擊時(shí)間間隔、平均點(diǎn)擊序列長度。
在本申請(qǐng)的一個(gè)實(shí)施例中,所述行為置信度計(jì)算模塊可以包括如下子模塊:
非線性模型計(jì)算子模塊,用于將所述點(diǎn)擊行為特征數(shù)據(jù)輸入至預(yù)設(shè)的非線性模型中,以計(jì)算所述用戶標(biāo)識(shí)的行為置信度。
在本申請(qǐng)的一個(gè)實(shí)施例中,所述候選信息查找模塊201可以包括如下子模塊:
搜索關(guān)鍵詞提取子模塊,用于從所述搜索請(qǐng)求中提取搜索關(guān)鍵詞;以及
索引文件查找子模塊,用于在預(yù)設(shè)的索引文件中查找與所述搜索關(guān)鍵詞匹配的候選信息。
在本申請(qǐng)的一個(gè)實(shí)施例中,所述目標(biāo)候選信息選取模塊203可以包括如下子模塊:
預(yù)估點(diǎn)擊率計(jì)算子模塊,用于采用所述行為置信度計(jì)算所述一個(gè)或多個(gè)候選信息對(duì)應(yīng)的一個(gè)或多個(gè)預(yù)估點(diǎn)擊率;
排序子模塊,用于至少按照所述一個(gè)或多個(gè)預(yù)估點(diǎn)擊率對(duì)所述一個(gè)或多個(gè)候選信息進(jìn)行排序;以及
確定子模塊,用于按照排序從所述一個(gè)或多個(gè)候選信息中確定一個(gè)或多個(gè)目標(biāo)候選信息。
在本申請(qǐng)實(shí)施例的一個(gè)示例中,所述預(yù)估點(diǎn)擊率計(jì)算子模塊可以包括如下單元:
歷史數(shù)據(jù)查找單元,用于針對(duì)每個(gè)候選信息,查找每個(gè)用戶標(biāo)識(shí)對(duì)應(yīng)的點(diǎn)擊數(shù)和展示數(shù);
信息度量值計(jì)算單元,用于采用所述行為置信度修正用戶點(diǎn)擊率,獲得信息度量值;
預(yù)估點(diǎn)擊率設(shè)置單元,用于將所述信息度量值與預(yù)設(shè)的模型預(yù)估誤差之和設(shè)置為所述候選信息的預(yù)估點(diǎn)擊率;
其中,所述用戶點(diǎn)擊率為所述點(diǎn)擊數(shù)與所述展示數(shù)之間的比值。
對(duì)于裝置實(shí)施例而言,由于其與方法實(shí)施例基本相似,所以描述的比較簡單,相關(guān)之處參見方法實(shí)施例的部分說明即可。
本說明書中的各個(gè)實(shí)施例均采用遞進(jìn)的方式描述,每個(gè)實(shí)施例重點(diǎn)說明的都是與其他實(shí)施例的不同之處,各個(gè)實(shí)施例之間相同相似的部分互相參見 即可。
本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本申請(qǐng)實(shí)施例的實(shí)施例可提供為方法、裝置、或計(jì)算機(jī)程序產(chǎn)品。因此,本申請(qǐng)實(shí)施例可采用完全硬件實(shí)施例、完全軟件實(shí)施例、或結(jié)合軟件和硬件方面的實(shí)施例的形式。而且,本申請(qǐng)實(shí)施例可采用在一個(gè)或多個(gè)其中包含有計(jì)算機(jī)可用程序代碼的計(jì)算機(jī)可用存儲(chǔ)介質(zhì)(包括但不限于磁盤存儲(chǔ)器、cd-rom、光學(xué)存儲(chǔ)器等)上實(shí)施的計(jì)算機(jī)程序產(chǎn)品的形式。
在一個(gè)典型的配置中,所述計(jì)算機(jī)設(shè)備包括一個(gè)或多個(gè)處理器(cpu)、輸入/輸出接口、網(wǎng)絡(luò)接口和內(nèi)存。內(nèi)存可能包括計(jì)算機(jī)可讀介質(zhì)中的非永久性存儲(chǔ)器,隨機(jī)存取存儲(chǔ)器(ram)和/或非易失性內(nèi)存等形式,如只讀存儲(chǔ)器(rom)或閃存(flashram)。內(nèi)存是計(jì)算機(jī)可讀介質(zhì)的示例。計(jì)算機(jī)可讀介質(zhì)包括永久性和非永久性、可移動(dòng)和非可移動(dòng)媒體可以由任何方法或技術(shù)來實(shí)現(xiàn)信息存儲(chǔ)。信息可以是計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序的模塊或其他數(shù)據(jù)。計(jì)算機(jī)的存儲(chǔ)介質(zhì)的例子包括,但不限于相變內(nèi)存(pram)、靜態(tài)隨機(jī)存取存儲(chǔ)器(sram)、動(dòng)態(tài)隨機(jī)存取存儲(chǔ)器(dram)、其他類型的隨機(jī)存取存儲(chǔ)器(ram)、只讀存儲(chǔ)器(rom)、電可擦除可編程只讀存儲(chǔ)器(eeprom)、快閃記憶體或其他內(nèi)存技術(shù)、只讀光盤只讀存儲(chǔ)器(cd-rom)、數(shù)字多功能光盤(dvd)或其他光學(xué)存儲(chǔ)、磁盒式磁帶,磁帶磁磁盤存儲(chǔ)或其他磁性存儲(chǔ)設(shè)備或任何其他非傳輸介質(zhì),可用于存儲(chǔ)可以被計(jì)算設(shè)備訪問的信息。按照本文中的界定,計(jì)算機(jī)可讀介質(zhì)不包括非持續(xù)性的電腦可讀媒體(transitorymedia),如調(diào)制的數(shù)據(jù)信號(hào)和載波。
本申請(qǐng)實(shí)施例是參照根據(jù)本申請(qǐng)實(shí)施例的方法、終端設(shè)備(系統(tǒng))、和計(jì)算機(jī)程序產(chǎn)品的流程圖和/或方框圖來描述的。應(yīng)理解可由計(jì)算機(jī)程序指令實(shí)現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商峁┻@些計(jì)算機(jī)程序指令到通用計(jì)算機(jī)、專用計(jì)算機(jī)、嵌入式處理機(jī)或其他可編程數(shù)據(jù)處理終端設(shè)備的處理器以產(chǎn)生一個(gè)機(jī)器,使得通過計(jì)算機(jī)或其他可編程數(shù)據(jù)處理終端設(shè)備的處理器執(zhí)行的 指令產(chǎn)生用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的裝置。
這些計(jì)算機(jī)程序指令也可存儲(chǔ)在能引導(dǎo)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理終端設(shè)備以特定方式工作的計(jì)算機(jī)可讀存儲(chǔ)器中,使得存儲(chǔ)在該計(jì)算機(jī)可讀存儲(chǔ)器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能。
這些計(jì)算機(jī)程序指令也可裝載到計(jì)算機(jī)或其他可編程數(shù)據(jù)處理終端設(shè)備上,使得在計(jì)算機(jī)或其他可編程終端設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計(jì)算機(jī)實(shí)現(xiàn)的處理,從而在計(jì)算機(jī)或其他可編程終端設(shè)備上執(zhí)行的指令提供用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的步驟。
盡管已描述了本申請(qǐng)實(shí)施例的優(yōu)選實(shí)施例,但本領(lǐng)域內(nèi)的技術(shù)人員一旦得知了基本創(chuàng)造性概念,則可對(duì)這些實(shí)施例做出另外的變更和修改。所以,所附權(quán)利要求意欲解釋為包括優(yōu)選實(shí)施例以及落入本申請(qǐng)實(shí)施例范圍的所有變更和修改。
最后,還需要說明的是,在本文中,諸如第一和第二等之類的關(guān)系術(shù)語僅僅用來將一個(gè)實(shí)體或者操作與另一個(gè)實(shí)體或操作區(qū)分開來,而不一定要求或者暗示這些實(shí)體或操作之間存在任何這種實(shí)際的關(guān)系或者順序。而且,術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者終端設(shè)備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者終端設(shè)備所固有的要素。在沒有更多限制的情況下,由語句“包括一個(gè)……”限定的要素,并不排除在包括所述要素的過程、方法、物品或者終端設(shè)備中還存在另外的相同要素。
以上對(duì)本申請(qǐng)所提供的一種信息搜索方法和一種信息搜索裝置,進(jìn)行了詳細(xì)介紹,本文中應(yīng)用了具體個(gè)例對(duì)本申請(qǐng)的原理及實(shí)施方式進(jìn)行了闡述,以上實(shí)施例的說明只是用于幫助理解本申請(qǐng)的方法及其核心思想;同時(shí),對(duì) 于本領(lǐng)域的一般技術(shù)人員,依據(jù)本申請(qǐng)的思想,在具體實(shí)施方式及應(yīng)用范圍上均會(huì)有改變之處,綜上所述,本說明書內(nèi)容不應(yīng)理解為對(duì)本申請(qǐng)的限制。