一種基于搜索引擎的數(shù)據(jù)處理方法及平臺的制作方法
【專利摘要】本發(fā)明公開了一種基于搜索引擎的數(shù)據(jù)處理方法及平臺,該方法包括:通過搜索引擎的搜索結(jié)果獲取在N個時間段內(nèi)的N×r個初始統(tǒng)計信息;對N個時間段的每一個時間段內(nèi)的r個設(shè)定點擊位置對應(yīng)的r個樣本量的第一均值與第一方差以各自的樣本量為權(quán)值進(jìn)行加權(quán)合并,得到N個每一個時間段內(nèi)的位置合并后的第二均值與第二方差;對N個位置合并后的第二均值與第二方差在時間上進(jìn)行加權(quán)合并,得到N個時間段對應(yīng)的整體均值與整體方差;根據(jù)整體均值與整體方差獲取用于A/B測試的統(tǒng)計量。本發(fā)明實施例可以使互聯(lián)網(wǎng)搜索中的指標(biāo)通過A/B測試進(jìn)行有效的檢驗,為分析人員對實驗效果的評估提供科學(xué)、客觀的依據(jù)。
【專利說明】一種基于搜索引擎的數(shù)據(jù)處理方法及平臺
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及互聯(lián)網(wǎng)絡(luò)【技術(shù)領(lǐng)域】,尤其涉及一種基于搜索引擎的數(shù)據(jù)處理方法及平 臺。
【背景技術(shù)】
[0002] 搜索引擎上的搜索頁上每年都有幾百個商業(yè)產(chǎn)品和策略做小流量實驗,這些產(chǎn)品 和策略是否能全流量上線,是通過對各類指標(biāo)的實驗效果進(jìn)行評估來決定的。目前,在生 物、醫(yī)療和教育等領(lǐng)域比較常用的方法是A/B測試(A/B test)。但在互聯(lián)網(wǎng)搜索領(lǐng)域,因互 聯(lián)網(wǎng)需要檢測的數(shù)據(jù)結(jié)構(gòu)復(fù)雜、指標(biāo)類型多,因此尚未構(gòu)造出合適的統(tǒng)計量來執(zhí)行A/B測 試。現(xiàn)有技術(shù)通過判斷絕對差A(yù)-B或相對差A(yù)/B是否在經(jīng)驗范圍內(nèi),從而確定對各類指標(biāo) 的實驗是否有效果,然而,由于通過判斷絕對差A(yù)-B或相對差A(yù)/B是否在經(jīng)驗范圍內(nèi)的方式 完全依賴經(jīng)驗,因此有失客觀。
【發(fā)明內(nèi)容】
[0003] 本發(fā)明的實施例提供一種基于搜索引擎的數(shù)據(jù)處理方法及平臺,為分析人員對實 驗效果的評估提供科學(xué)、客觀的依據(jù)。
[0004] 為達(dá)到上述目的,本發(fā)明的實施例采用如下技術(shù)方案:
[0005] -種基于搜索引擎的數(shù)據(jù)處理方法,包括:
[0006] 通過所述搜索引擎的搜索結(jié)果獲取在N個時間段內(nèi)的NXr個初始統(tǒng)計信息,其 中,所述N個時間段內(nèi)的每一個時間段對應(yīng)r個設(shè)定點擊位置的初始統(tǒng)計信息,所述初始統(tǒng) 計信息包括樣本量、所述樣本量對應(yīng)的第一均值與第一方差,N,r均為正整數(shù)。
[0007] 對所述N個時間段的每一個時間段內(nèi)的r個設(shè)定點擊位置對應(yīng)的r個樣本量的第 一均值與第一方差以各自的樣本量為權(quán)值進(jìn)行加權(quán)合并,得到N個每一個時間段內(nèi)的位置 合并后的第二均值與第二方差。
[0008] 對N個所述位置合并后的第二均值與第二方差在時間上進(jìn)行加權(quán)合并,得到所述 N個時間段對應(yīng)的整體均值與整體方差。
[0009] 根據(jù)所述整體均值與整體方差獲取用于A/B測試的統(tǒng)計量。
[0010] 一種基于搜索引擎的數(shù)據(jù)處理平臺,包括:
[0011] 第一獲取模塊,用于通過所述搜索引擎的搜索結(jié)果獲取在N個時間段內(nèi)的NXr個 初始統(tǒng)計信息,其中,所述N個時間段內(nèi)的每一個時間段對應(yīng)r個設(shè)定點擊位置的初始統(tǒng)計 信息,所述初始統(tǒng)計信息包括樣本量、所述樣本量對應(yīng)的均值與方差,N,r均為正整數(shù)。
[0012] 第一處理模塊,用于對所述N個時間段的每一個時間段內(nèi)的r個設(shè)定點擊位置對 應(yīng)的r個樣本量的第一均值與第一方差以各自的樣本量為權(quán)值進(jìn)行加權(quán)合并,得到N個每 一個時間段內(nèi)的位置合并后的第二均值與第二方差。
[0013] 第二處理模塊,用于對N個所述位置合并后的第二均值與第二方差在時間上進(jìn)行 加權(quán)合并,得到所述N個時間段對應(yīng)的整體均值與整體方差。
[0014] 第二獲取模塊,用于根據(jù)所述整體均值與整體方差獲取用于A/B測試的統(tǒng)計量。 [0015] 本發(fā)明實施例提供的基于搜索引擎的數(shù)據(jù)處理方法及平臺,通過對N個時間段內(nèi) 的NXr個初始統(tǒng)計信息進(jìn)行處理得到整體均值與方差,該整體均值與方差可以作為A/B測 試的輸入,從而可以使互聯(lián)網(wǎng)搜索中的指標(biāo)通過A/B測試進(jìn)行有效的檢驗,為分析人員對 實驗效果的評估提供科學(xué)、客觀的依據(jù);此外,通過N個時間段的長短可以確定獲取整體均 值與方差的時長,從而提高了實驗效率,節(jié)省了實驗資源。
【專利附圖】
【附圖說明】
[0016] 圖1為本發(fā)明實施例一提供的基于搜索引擎的數(shù)據(jù)處理方法的流程示意圖。
[0017] 圖2為圖1所示實施例中的場景示意圖之一。
[0018] 圖3為圖1所示實施例中的場景示意圖之二。
[0019] 圖4為本發(fā)明實施例二提供的基于搜索引擎的數(shù)據(jù)處理方法的流程示意圖。
[0020] 圖5為圖3所示實施例中的場景示意圖之一。
[0021] 圖6為本發(fā)明實施例三提供的基于搜索引擎的數(shù)據(jù)處理平臺的結(jié)構(gòu)示意圖。
[0022] 圖7為本發(fā)明實施例四提供的基于搜索引擎的數(shù)據(jù)處理平臺的結(jié)構(gòu)示意圖。
【具體實施方式】
[0023] 下面結(jié)合附圖對本發(fā)明實施例基于搜索引擎的數(shù)據(jù)處理方法及平臺進(jìn)行詳細(xì)描 述。
[0024] A/B測試通過比較A組與B組之間是否有差別的核心思想是假設(shè)檢驗,假設(shè)檢驗的 基本原理是先對總體的特征做出某種假設(shè),然后通過抽樣研究的統(tǒng)計推理,對該假設(shè)應(yīng)該 被拒絕還是接受做出推斷。
[0025] 實施例一:
[0026] 圖1為本發(fā)明實施例一提供的基于搜索引擎的數(shù)據(jù)處理方法的流程示意圖,圖2 為圖1所示實施例中的場景示意圖之一,圖3為圖1所示實施例中的場景示意圖之二;圖1 將結(jié)合圖2和圖3說明,如圖1所示,本發(fā)明實施例包括如下步驟:
[0027] 步驟101,通過搜索引擎的搜索結(jié)果獲取在N個時間段內(nèi)的NXr個初始統(tǒng)計信息, 其中,N個時間段內(nèi)的每一個時間段對應(yīng)r個設(shè)定點擊位置的初始統(tǒng)計信息,初始統(tǒng)計信息 包括樣本量、樣本量對應(yīng)的第一均值與第一方差,N,r均為正整數(shù)。
[0028] 步驟102,對N個時間段的每一個時間段內(nèi)的r個設(shè)定點擊位置對應(yīng)的r個樣本量 的第一均值與第一方差以各自的樣本量為權(quán)值進(jìn)行加權(quán)合并,得到N個每一個時間段內(nèi)的 位置合并后的第二均值與第二方差。
[0029] 步驟103,對N個位置合并后的第二均值與第二方差在時間上進(jìn)行加權(quán)合并,得到 N個時間段對應(yīng)的整體均值與整體方差。
[0030] 步驟104,根據(jù)整體均值與整體方差獲取用于A/B測試的統(tǒng)計量。
[0031] 在步驟101中,可以通過動態(tài)服務(wù)器頁面(Active Server Page,簡稱為ASP)日志 獲取到搜索引擎的搜索結(jié)果,進(jìn)一步在該搜索結(jié)果中獲取N個時間段內(nèi)的r個設(shè)定點擊位 置的NXr個初始統(tǒng)計信息。如圖2所示,在T1時間段獲取第1位的初始統(tǒng)計信息、第2位 的初始統(tǒng)計信息、…、第N位的初始統(tǒng)計信息,其中,第1位、第2位、…、第N位在搜索引 擎的頁面上的位置如圖3所示。在圖3中以關(guān)鍵詞"鮮花"進(jìn)行搜索,出現(xiàn)在該搜索頁面的 排位即為本發(fā)明實施例中的設(shè)定點擊位置,該設(shè)定點擊位置的個數(shù)可以依據(jù)互聯(lián)網(wǎng)運營商 的具體情況設(shè)置,本發(fā)明實施例對設(shè)定點擊位置的個數(shù)以及在搜索頁面中的具體位置不做 限制。
[0032] 進(jìn)一步地,初始統(tǒng)計信息包括樣本量以及樣本量對應(yīng)的均值與方差,例如,以第1 位的點擊位置為例,在T1時間段內(nèi),在第1位的抽樣觀測值分別為 Xl,x2,…,xn,則第1位的 設(shè)定點擊位置的抽樣觀測均值為L
【權(quán)利要求】
1. 一種基于搜索引擎的數(shù)據(jù)處理方法,其特征在于,所述方法包括: 通過所述搜索引擎的搜索結(jié)果獲取在N個時間段內(nèi)的NXr個初始統(tǒng)計信息,其中,所 述N個時間段內(nèi)的每一個時間段對應(yīng)r個設(shè)定點擊位置的初始統(tǒng)計信息,所述初始統(tǒng)計信 息包括樣本量、所述樣本量對應(yīng)的第一均值與第一方差,N,r均為正整數(shù); 對所述N個時間段的每一個時間段內(nèi)的r個設(shè)定點擊位置對應(yīng)的r個樣本量的第一均 值與第一方差以各自的樣本量為權(quán)值進(jìn)行加權(quán)合并,得到N個每一個時間段內(nèi)的位置合并 后的第二均值與第二方差; 對N個所述位置合并后的第二均值與第二方差在時間上進(jìn)行加權(quán)合并,得到所述N個 時間段對應(yīng)的整體均值與整體方差; 根據(jù)所述整體均值與整體方差獲取用于A/B測試的統(tǒng)計量。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,對所述N個時間段的每一個時間段內(nèi)的r 個設(shè)定點擊位置對應(yīng)的r個樣本量的第一均值與第一方差進(jìn)行加權(quán)合并,得到N個每一個 時間段內(nèi)的位置合并后的第二均值與第二方差的步驟包括: 對所述N個時間段的每一個時間段的數(shù)據(jù)按點擊位置進(jìn)行聚類,并分別統(tǒng)計每一個時 間段下r個聚類結(jié)果的表示數(shù)據(jù)分布特征的第一均值和第一方差,其中,所述每一個時間 段下的聚類結(jié)果有r個聚類集合; 統(tǒng)計所述r個聚類集合之間的相關(guān)系數(shù)矩陣; 根據(jù)所述相關(guān)系數(shù)矩陣對每一時間段下所述r個聚類集合的所述第一均值與所述第 一方差進(jìn)行加權(quán)合并,得到所述r個聚類集合合并后的表示分布特征的第二均值與第二方 差。
3. 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述統(tǒng)計所述r個聚類集合之間的相關(guān)系 數(shù)矩陣的步驟包括: 獲取所述每一個時間段內(nèi)對應(yīng)的搜索結(jié)果; 如果所述r個聚類集合之間的數(shù)據(jù)存在相關(guān)性,根據(jù)所述每一個時間段內(nèi)對應(yīng)的搜索 結(jié)果獲取所述r個聚類集合之間的每一個時間段內(nèi)的相關(guān)系數(shù)矩陣。
4. 根據(jù)權(quán)利要求3所述的方法,其特征在于,所述方法還包括: 確定所述每一個時間段內(nèi)對應(yīng)的搜索結(jié)果是在同一次搜索下進(jìn)行; 確定所述同一次搜索下的在所述r個設(shè)定點擊位置之間的點擊存在相關(guān)性。
5. 根據(jù)權(quán)利要求3或4所述的方法,其特征在于,所述根據(jù)所述每一個時間段內(nèi)對應(yīng)的 搜索結(jié)果獲取所述r個聚類集合之間的每一個時間段內(nèi)的相關(guān)系數(shù)矩陣的步驟包括: 在每一時間段內(nèi)統(tǒng)計任意兩個不同設(shè)定位置在一次搜索下同時有展現(xiàn)和同時有點擊 的次數(shù),對r個設(shè)定點擊位置,共有r X (r-1)/2種位置組合; 根據(jù)對r X (r-1)/2種位置組合的展現(xiàn)次數(shù)和點擊次數(shù)的統(tǒng)計結(jié)果,獲取所述r個聚類 集合之間的相關(guān)系數(shù)矩陣。
6. 根據(jù)權(quán)利要求5所述的方法,其特征在于,所述根據(jù)所述r相關(guān)系數(shù)矩陣對每一時間 段下所述r個聚類集合的所述第一均值與所述一方差進(jìn)行加權(quán)合并,得到所述r個聚類集 合合并后的表示分布特征的第二均值與第二方差的步驟包括: 對所述每一個時間段,根據(jù)所述r個聚類集合的第一均值、第一方差和所述相關(guān)系數(shù) 矩陣,同時按所述r個聚類集合的樣本量加權(quán); 獲取加權(quán)后的所述每一個時間段下按點擊位置合并后的第二均值與第二方差,得到N 個合并后的第二均值與N個合并后的第二方差。
7. -種基于搜索引擎的數(shù)據(jù)處理平臺,其特征在于,所述平臺包括: 第一獲取模塊,用于通過所述搜索引擎的搜索結(jié)果獲取在N個時間段內(nèi)的NXr個初 始統(tǒng)計信息,其中,所述N個時間段內(nèi)的每一個時間段對應(yīng)r個設(shè)定點擊位置的初始統(tǒng)計信 息,所述初始統(tǒng)計信息包括樣本量、所述樣本量對應(yīng)的第一均值與第一方差,N,r均為正整 數(shù); 第一處理模塊,用于對所述N個時間段的每一個時間段內(nèi)的r個設(shè)定點擊位置對應(yīng)的r 個樣本量的第一均值與第一方差以各自的樣本量為權(quán)值進(jìn)行加權(quán)合并,得到N個每一個時 間段內(nèi)的位置合并后的第二均值與第二方差; 第二處理模塊,用于對N個所述位置合并后的第二均值與第二方差在時間上進(jìn)行加權(quán) 合并,得到所述N個時間段對應(yīng)的整體均值與整體方差; 第二獲取模塊,用于根據(jù)所述整體均值與整體方差獲取用于A/B測試的統(tǒng)計量。
8. 根據(jù)權(quán)利要求7所述的平臺,其特征在于,所述第一處理模塊包括: 聚類單元,用于對所述N個時間段的每一個時間段的數(shù)據(jù)按點擊位置進(jìn)行聚類,并分 別統(tǒng)計每一個時間段下r個聚類結(jié)果的表示數(shù)據(jù)分布特征的第一均值和第一方差,其中, 所述每一個時間段下的聚類結(jié)果有r個聚類集合; 統(tǒng)計單元,用于統(tǒng)計所述r個聚類集合之間的相關(guān)系數(shù)矩陣; 第一獲取單元,用于根據(jù)所述r相關(guān)系數(shù)矩陣對每一時間段下所述r個聚類集合的所 述第一均值與所述第一方差進(jìn)行加權(quán)合并,得到所述r個聚類集合合并后的表示分布特征 的第二均值與第二方差。
9. 根據(jù)權(quán)利要求8所述的平臺,其特征在于,所述統(tǒng)計單元包括: 第二獲取單元,用于獲取所述每一個時間段內(nèi)對應(yīng)的搜索結(jié)果; 第三獲取單元,用于如果所述r個聚類集合之間的數(shù)據(jù)存在相關(guān)性,根據(jù)所述每一個 時間段內(nèi)對應(yīng)的搜索結(jié)果獲取所述r個聚類集合之間的每一個時間段內(nèi)的相關(guān)系數(shù)矩陣。
10. 根據(jù)權(quán)利要求9所述的平臺,其特征在于,所述平臺還包括: 第一確定模塊,用于確定所述每一個時間段內(nèi)對應(yīng)的搜索結(jié)果是在同一次搜索下進(jìn) 行; 第二確定模塊,用于確定所述同一次搜索下的在所述r個設(shè)定點擊位置之間的點擊存 在相關(guān)性。
11. 根據(jù)權(quán)利要求9或10所述的平臺,其特征在于,所述第三獲取單元包括: 第一統(tǒng)計單元,用于在每一時間段內(nèi)統(tǒng)計任意兩個不同設(shè)定位置在一次搜索下同時有 展現(xiàn)和同時有點擊的次數(shù),對r個設(shè)定點擊位置共有rX (r-l)/2種位置組合; 第四獲取單元,用于根據(jù)對rX(r-l)/2種位置組合的展現(xiàn)次數(shù)和點擊次數(shù)的統(tǒng)計結(jié) 果,獲取所述r個聚類集合之間的相關(guān)系數(shù)矩陣。
12. 根據(jù)權(quán)利要求11所述的平臺,其特征在于,所述第一獲取單元包括: 加權(quán)單元,用于對所述每一個時間段,根據(jù)所述r個聚類集合的第一均值、第一方差和 所述相關(guān)系數(shù)矩陣,同時按所述r個聚類集合的樣本量加權(quán); 第五獲取單元,用于獲取加權(quán)后的所述每一個時間段下按點擊位置合并后的第二均值 與第二方差,得到N個合并后的第二均值與N個合并后的第二方差。
【文檔編號】G06F17/30GK104281691SQ201410535635
【公開日】2015年1月14日 申請日期:2014年10月11日 優(yōu)先權(quán)日:2014年10月11日
【發(fā)明者】鄭鵬, 韓聰 申請人:百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司