一種基于搜索引擎的數(shù)據(jù)處理方法及平臺的制作方法

文檔序號：6629919閱讀：209來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于搜索引擎的數(shù)據(jù)處理方法及平臺的制作方法
【專利摘要】本發(fā)明公開了一種基于搜索引擎的數(shù)據(jù)處理方法及平臺，該方法包括：通過搜索引擎的搜索結(jié)果獲取在N個時間段內(nèi)的N×r個初始統(tǒng)計信息；對N個時間段的每一個時間段內(nèi)的r個設(shè)定點擊位置對應(yīng)的r個樣本量的第一均值與第一方差以各自的樣本量為權(quán)值進(jìn)行加權(quán)合并，得到N個每一個時間段內(nèi)的位置合并后的第二均值與第二方差；對N個位置合并后的第二均值與第二方差在時間上進(jìn)行加權(quán)合并，得到N個時間段對應(yīng)的整體均值與整體方差；根據(jù)整體均值與整體方差獲取用于A/B測試的統(tǒng)計量。本發(fā)明實施例可以使互聯(lián)網(wǎng)搜索中的指標(biāo)通過A/B測試進(jìn)行有效的檢驗，為分析人員對實驗效果的評估提供科學(xué)、客觀的依據(jù)。
【專利說明】一種基于搜索引擎的數(shù)據(jù)處理方法及平臺

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及互聯(lián)網(wǎng)絡(luò)【技術(shù)領(lǐng)域】，尤其涉及一種基于搜索引擎的數(shù)據(jù)處理方法及平臺。

【背景技術(shù)】
[0002] 搜索引擎上的搜索頁上每年都有幾百個商業(yè)產(chǎn)品和策略做小流量實驗，這些產(chǎn)品和策略是否能全流量上線，是通過對各類指標(biāo)的實驗效果進(jìn)行評估來決定的。目前，在生物、醫(yī)療和教育等領(lǐng)域比較常用的方法是A/B測試（A/B test)。但在互聯(lián)網(wǎng)搜索領(lǐng)域，因互聯(lián)網(wǎng)需要檢測的數(shù)據(jù)結(jié)構(gòu)復(fù)雜、指標(biāo)類型多，因此尚未構(gòu)造出合適的統(tǒng)計量來執(zhí)行A/B測試。現(xiàn)有技術(shù)通過判斷絕對差A(yù)-B或相對差A(yù)/B是否在經(jīng)驗范圍內(nèi)，從而確定對各類指標(biāo) 的實驗是否有效果，然而，由于通過判斷絕對差A(yù)-B或相對差A(yù)/B是否在經(jīng)驗范圍內(nèi)的方式完全依賴經(jīng)驗，因此有失客觀。

【發(fā)明內(nèi)容】

[0003] 本發(fā)明的實施例提供一種基于搜索引擎的數(shù)據(jù)處理方法及平臺，為分析人員對實驗效果的評估提供科學(xué)、客觀的依據(jù)。
[0004] 為達(dá)到上述目的，本發(fā)明的實施例采用如下技術(shù)方案：
[0005] -種基于搜索引擎的數(shù)據(jù)處理方法，包括：
[0006] 通過所述搜索引擎的搜索結(jié)果獲取在N個時間段內(nèi)的NXr個初始統(tǒng)計信息，其中，所述N個時間段內(nèi)的每一個時間段對應(yīng)r個設(shè)定點擊位置的初始統(tǒng)計信息，所述初始統(tǒng) 計信息包括樣本量、所述樣本量對應(yīng)的第一均值與第一方差，N，r均為正整數(shù)。
[0007] 對所述N個時間段的每一個時間段內(nèi)的r個設(shè)定點擊位置對應(yīng)的r個樣本量的第一均值與第一方差以各自的樣本量為權(quán)值進(jìn)行加權(quán)合并，得到N個每一個時間段內(nèi)的位置合并后的第二均值與第二方差。
[0008] 對N個所述位置合并后的第二均值與第二方差在時間上進(jìn)行加權(quán)合并，得到所述 N個時間段對應(yīng)的整體均值與整體方差。
[0009] 根據(jù)所述整體均值與整體方差獲取用于A/B測試的統(tǒng)計量。
[0010] 一種基于搜索引擎的數(shù)據(jù)處理平臺，包括：
[0011] 第一獲取模塊，用于通過所述搜索引擎的搜索結(jié)果獲取在N個時間段內(nèi)的NXr個初始統(tǒng)計信息，其中，所述N個時間段內(nèi)的每一個時間段對應(yīng)r個設(shè)定點擊位置的初始統(tǒng)計信息，所述初始統(tǒng)計信息包括樣本量、所述樣本量對應(yīng)的均值與方差，N，r均為正整數(shù)。
[0012] 第一處理模塊，用于對所述N個時間段的每一個時間段內(nèi)的r個設(shè)定點擊位置對應(yīng)的r個樣本量的第一均值與第一方差以各自的樣本量為權(quán)值進(jìn)行加權(quán)合并，得到N個每一個時間段內(nèi)的位置合并后的第二均值與第二方差。
[0013] 第二處理模塊，用于對N個所述位置合并后的第二均值與第二方差在時間上進(jìn)行加權(quán)合并，得到所述N個時間段對應(yīng)的整體均值與整體方差。
[0014] 第二獲取模塊，用于根據(jù)所述整體均值與整體方差獲取用于A/B測試的統(tǒng)計量。 [0015] 本發(fā)明實施例提供的基于搜索引擎的數(shù)據(jù)處理方法及平臺，通過對N個時間段內(nèi) 的NXr個初始統(tǒng)計信息進(jìn)行處理得到整體均值與方差，該整體均值與方差可以作為A/B測試的輸入，從而可以使互聯(lián)網(wǎng)搜索中的指標(biāo)通過A/B測試進(jìn)行有效的檢驗，為分析人員對實驗效果的評估提供科學(xué)、客觀的依據(jù)；此外，通過N個時間段的長短可以確定獲取整體均值與方差的時長，從而提高了實驗效率，節(jié)省了實驗資源。

【專利附圖】

【附圖說明】
[0016] 圖1為本發(fā)明實施例一提供的基于搜索引擎的數(shù)據(jù)處理方法的流程示意圖。
[0017] 圖2為圖1所示實施例中的場景示意圖之一。
[0018] 圖3為圖1所示實施例中的場景示意圖之二。
[0019] 圖4為本發(fā)明實施例二提供的基于搜索引擎的數(shù)據(jù)處理方法的流程示意圖。
[0020] 圖5為圖3所示實施例中的場景示意圖之一。
[0021] 圖6為本發(fā)明實施例三提供的基于搜索引擎的數(shù)據(jù)處理平臺的結(jié)構(gòu)示意圖。
[0022] 圖7為本發(fā)明實施例四提供的基于搜索引擎的數(shù)據(jù)處理平臺的結(jié)構(gòu)示意圖。

【具體實施方式】
[0023] 下面結(jié)合附圖對本發(fā)明實施例基于搜索引擎的數(shù)據(jù)處理方法及平臺進(jìn)行詳細(xì)描述。
[0024] A/B測試通過比較A組與B組之間是否有差別的核心思想是假設(shè)檢驗，假設(shè)檢驗的基本原理是先對總體的特征做出某種假設(shè)，然后通過抽樣研究的統(tǒng)計推理，對該假設(shè)應(yīng)該被拒絕還是接受做出推斷。
[0025] 實施例一：
[0026] 圖1為本發(fā)明實施例一提供的基于搜索引擎的數(shù)據(jù)處理方法的流程示意圖，圖2 為圖1所示實施例中的場景示意圖之一，圖3為圖1所示實施例中的場景示意圖之二；圖1 將結(jié)合圖2和圖3說明，如圖1所示，本發(fā)明實施例包括如下步驟：
[0027] 步驟101，通過搜索引擎的搜索結(jié)果獲取在N個時間段內(nèi)的NXr個初始統(tǒng)計信息，其中，N個時間段內(nèi)的每一個時間段對應(yīng)r個設(shè)定點擊位置的初始統(tǒng)計信息，初始統(tǒng)計信息包括樣本量、樣本量對應(yīng)的第一均值與第一方差，N，r均為正整數(shù)。
[0028] 步驟102,對N個時間段的每一個時間段內(nèi)的r個設(shè)定點擊位置對應(yīng)的r個樣本量的第一均值與第一方差以各自的樣本量為權(quán)值進(jìn)行加權(quán)合并，得到N個每一個時間段內(nèi)的位置合并后的第二均值與第二方差。
[0029] 步驟103,對N個位置合并后的第二均值與第二方差在時間上進(jìn)行加權(quán)合并，得到 N個時間段對應(yīng)的整體均值與整體方差。
[0030] 步驟104,根據(jù)整體均值與整體方差獲取用于A/B測試的統(tǒng)計量。
[0031] 在步驟101中，可以通過動態(tài)服務(wù)器頁面（Active Server Page,簡稱為ASP)日志獲取到搜索引擎的搜索結(jié)果，進(jìn)一步在該搜索結(jié)果中獲取N個時間段內(nèi)的r個設(shè)定點擊位置的NXr個初始統(tǒng)計信息。如圖2所示，在T1時間段獲取第1位的初始統(tǒng)計信息、第2位的初始統(tǒng)計信息、…、第N位的初始統(tǒng)計信息，其中，第1位、第2位、…、第N位在搜索引擎的頁面上的位置如圖3所示。在圖3中以關(guān)鍵詞"鮮花"進(jìn)行搜索，出現(xiàn)在該搜索頁面的排位即為本發(fā)明實施例中的設(shè)定點擊位置，該設(shè)定點擊位置的個數(shù)可以依據(jù)互聯(lián)網(wǎng)運營商的具體情況設(shè)置，本發(fā)明實施例對設(shè)定點擊位置的個數(shù)以及在搜索頁面中的具體位置不做限制。
[0032] 進(jìn)一步地，初始統(tǒng)計信息包括樣本量以及樣本量對應(yīng)的均值與方差，例如，以第1 位的點擊位置為例，在T1時間段內(nèi)，在第1位的抽樣觀測值分別為 Xl，x2，…，xn，則第1位的設(shè)定點擊位置的抽樣觀測均值為L

【權(quán)利要求】
1. 一種基于搜索引擎的數(shù)據(jù)處理方法，其特征在于，所述方法包括：通過所述搜索引擎的搜索結(jié)果獲取在N個時間段內(nèi)的NXr個初始統(tǒng)計信息，其中，所述N個時間段內(nèi)的每一個時間段對應(yīng)r個設(shè)定點擊位置的初始統(tǒng)計信息，所述初始統(tǒng)計信息包括樣本量、所述樣本量對應(yīng)的第一均值與第一方差，N，r均為正整數(shù)；對所述N個時間段的每一個時間段內(nèi)的r個設(shè)定點擊位置對應(yīng)的r個樣本量的第一均值與第一方差以各自的樣本量為權(quán)值進(jìn)行加權(quán)合并，得到N個每一個時間段內(nèi)的位置合并后的第二均值與第二方差；對N個所述位置合并后的第二均值與第二方差在時間上進(jìn)行加權(quán)合并，得到所述N個時間段對應(yīng)的整體均值與整體方差；根據(jù)所述整體均值與整體方差獲取用于A/B測試的統(tǒng)計量。
2. 根據(jù)權(quán)利要求1所述的方法，其特征在于，對所述N個時間段的每一個時間段內(nèi)的r 個設(shè)定點擊位置對應(yīng)的r個樣本量的第一均值與第一方差進(jìn)行加權(quán)合并，得到N個每一個時間段內(nèi)的位置合并后的第二均值與第二方差的步驟包括：對所述N個時間段的每一個時間段的數(shù)據(jù)按點擊位置進(jìn)行聚類，并分別統(tǒng)計每一個時間段下r個聚類結(jié)果的表示數(shù)據(jù)分布特征的第一均值和第一方差，其中，所述每一個時間段下的聚類結(jié)果有r個聚類集合；統(tǒng)計所述r個聚類集合之間的相關(guān)系數(shù)矩陣；根據(jù)所述相關(guān)系數(shù)矩陣對每一時間段下所述r個聚類集合的所述第一均值與所述第一方差進(jìn)行加權(quán)合并，得到所述r個聚類集合合并后的表示分布特征的第二均值與第二方差。
3. 根據(jù)權(quán)利要求2所述的方法，其特征在于，所述統(tǒng)計所述r個聚類集合之間的相關(guān)系數(shù)矩陣的步驟包括：獲取所述每一個時間段內(nèi)對應(yīng)的搜索結(jié)果；如果所述r個聚類集合之間的數(shù)據(jù)存在相關(guān)性，根據(jù)所述每一個時間段內(nèi)對應(yīng)的搜索結(jié)果獲取所述r個聚類集合之間的每一個時間段內(nèi)的相關(guān)系數(shù)矩陣。
4. 根據(jù)權(quán)利要求3所述的方法，其特征在于，所述方法還包括：確定所述每一個時間段內(nèi)對應(yīng)的搜索結(jié)果是在同一次搜索下進(jìn)行；確定所述同一次搜索下的在所述r個設(shè)定點擊位置之間的點擊存在相關(guān)性。
5. 根據(jù)權(quán)利要求3或4所述的方法，其特征在于，所述根據(jù)所述每一個時間段內(nèi)對應(yīng)的搜索結(jié)果獲取所述r個聚類集合之間的每一個時間段內(nèi)的相關(guān)系數(shù)矩陣的步驟包括：在每一時間段內(nèi)統(tǒng)計任意兩個不同設(shè)定位置在一次搜索下同時有展現(xiàn)和同時有點擊的次數(shù)，對r個設(shè)定點擊位置，共有r X (r-1)/2種位置組合；根據(jù)對r X (r-1)/2種位置組合的展現(xiàn)次數(shù)和點擊次數(shù)的統(tǒng)計結(jié)果，獲取所述r個聚類集合之間的相關(guān)系數(shù)矩陣。
6. 根據(jù)權(quán)利要求5所述的方法，其特征在于，所述根據(jù)所述r相關(guān)系數(shù)矩陣對每一時間段下所述r個聚類集合的所述第一均值與所述一方差進(jìn)行加權(quán)合并，得到所述r個聚類集合合并后的表示分布特征的第二均值與第二方差的步驟包括：對所述每一個時間段，根據(jù)所述r個聚類集合的第一均值、第一方差和所述相關(guān)系數(shù) 矩陣，同時按所述r個聚類集合的樣本量加權(quán)；獲取加權(quán)后的所述每一個時間段下按點擊位置合并后的第二均值與第二方差，得到N 個合并后的第二均值與N個合并后的第二方差。
7. -種基于搜索引擎的數(shù)據(jù)處理平臺，其特征在于，所述平臺包括：第一獲取模塊，用于通過所述搜索引擎的搜索結(jié)果獲取在N個時間段內(nèi)的NXr個初始統(tǒng)計信息，其中，所述N個時間段內(nèi)的每一個時間段對應(yīng)r個設(shè)定點擊位置的初始統(tǒng)計信息，所述初始統(tǒng)計信息包括樣本量、所述樣本量對應(yīng)的第一均值與第一方差，N，r均為正整數(shù)；第一處理模塊，用于對所述N個時間段的每一個時間段內(nèi)的r個設(shè)定點擊位置對應(yīng)的r 個樣本量的第一均值與第一方差以各自的樣本量為權(quán)值進(jìn)行加權(quán)合并，得到N個每一個時間段內(nèi)的位置合并后的第二均值與第二方差；第二處理模塊，用于對N個所述位置合并后的第二均值與第二方差在時間上進(jìn)行加權(quán) 合并，得到所述N個時間段對應(yīng)的整體均值與整體方差；第二獲取模塊，用于根據(jù)所述整體均值與整體方差獲取用于A/B測試的統(tǒng)計量。
8. 根據(jù)權(quán)利要求7所述的平臺，其特征在于，所述第一處理模塊包括：聚類單元，用于對所述N個時間段的每一個時間段的數(shù)據(jù)按點擊位置進(jìn)行聚類，并分別統(tǒng)計每一個時間段下r個聚類結(jié)果的表示數(shù)據(jù)分布特征的第一均值和第一方差，其中，所述每一個時間段下的聚類結(jié)果有r個聚類集合；統(tǒng)計單元，用于統(tǒng)計所述r個聚類集合之間的相關(guān)系數(shù)矩陣；第一獲取單元，用于根據(jù)所述r相關(guān)系數(shù)矩陣對每一時間段下所述r個聚類集合的所述第一均值與所述第一方差進(jìn)行加權(quán)合并，得到所述r個聚類集合合并后的表示分布特征的第二均值與第二方差。
9. 根據(jù)權(quán)利要求8所述的平臺，其特征在于，所述統(tǒng)計單元包括：第二獲取單元，用于獲取所述每一個時間段內(nèi)對應(yīng)的搜索結(jié)果；第三獲取單元，用于如果所述r個聚類集合之間的數(shù)據(jù)存在相關(guān)性，根據(jù)所述每一個時間段內(nèi)對應(yīng)的搜索結(jié)果獲取所述r個聚類集合之間的每一個時間段內(nèi)的相關(guān)系數(shù)矩陣。
10. 根據(jù)權(quán)利要求9所述的平臺，其特征在于，所述平臺還包括：第一確定模塊，用于確定所述每一個時間段內(nèi)對應(yīng)的搜索結(jié)果是在同一次搜索下進(jìn) 行；第二確定模塊，用于確定所述同一次搜索下的在所述r個設(shè)定點擊位置之間的點擊存在相關(guān)性。
11. 根據(jù)權(quán)利要求9或10所述的平臺，其特征在于，所述第三獲取單元包括：第一統(tǒng)計單元，用于在每一時間段內(nèi)統(tǒng)計任意兩個不同設(shè)定位置在一次搜索下同時有展現(xiàn)和同時有點擊的次數(shù)，對r個設(shè)定點擊位置共有rX (r-l)/2種位置組合；第四獲取單元，用于根據(jù)對rX(r-l)/2種位置組合的展現(xiàn)次數(shù)和點擊次數(shù)的統(tǒng)計結(jié) 果，獲取所述r個聚類集合之間的相關(guān)系數(shù)矩陣。
12. 根據(jù)權(quán)利要求11所述的平臺，其特征在于，所述第一獲取單元包括：加權(quán)單元，用于對所述每一個時間段，根據(jù)所述r個聚類集合的第一均值、第一方差和所述相關(guān)系數(shù)矩陣，同時按所述r個聚類集合的樣本量加權(quán)；第五獲取單元，用于獲取加權(quán)后的所述每一個時間段下按點擊位置合并后的第二均值與第二方差，得到N個合并后的第二均值與N個合并后的第二方差。
【文檔編號】G06F17/30GK104281691SQ201410535635
【公開日】2015年1月14日申請日期:2014年10月11日優(yōu)先權(quán)日:2014年10月11日
【發(fā)明者】鄭鵬, 韓聰申請人:百度在線網(wǎng)絡(luò)技術(shù)（北京）有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：鄭鵬;韓聰
技術(shù)所有人：百度在線網(wǎng)絡(luò)技術(shù)（北京）有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

監(jiān)測數(shù)據(jù)處理平臺相關(guān)技術(shù)

數(shù)據(jù)處理方法相關(guān)技術(shù)

缺失數(shù)據(jù)處理方法相關(guān)技術(shù)

數(shù)據(jù)處理平臺相關(guān)技術(shù)

農(nóng)業(yè)普查數(shù)據(jù)處理平臺相關(guān)技術(shù)

三農(nóng)普數(shù)據(jù)處理平臺相關(guān)技術(shù)

準(zhǔn)實時數(shù)據(jù)處理平臺相關(guān)技術(shù)

物聯(lián)網(wǎng)數(shù)據(jù)處理平臺相關(guān)技術(shù)

遙感數(shù)據(jù)處理平臺相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于搜索引擎的數(shù)據(jù)處理方法及平臺的制作方法