數(shù)據(jù)抽樣方法及裝置制造方法
【專利摘要】本申請(qǐng)公開了一種數(shù)據(jù)抽樣方法及裝置,其中,該方法包括:獲取目標(biāo)數(shù)據(jù),其中,該目標(biāo)數(shù)據(jù)包括多個(gè)數(shù)據(jù)塊,計(jì)算所述目標(biāo)數(shù)據(jù)的數(shù)據(jù)塊總數(shù)N;根據(jù)對(duì)樣本數(shù)的要求計(jì)算所述目標(biāo)數(shù)據(jù)的抽樣樣本數(shù)M;從每個(gè)數(shù)據(jù)塊中分別隨機(jī)選取R個(gè)樣本,并構(gòu)成所述目標(biāo)數(shù)據(jù)的抽樣樣本,其中,在M/N是整數(shù)的情況下,R=M/N,在M/N是小數(shù)的情況下,R等于M/N向上取整或者向下取整得到的整數(shù)。本申請(qǐng)解決了相關(guān)技術(shù)中的數(shù)據(jù)抽樣的隨機(jī)性不好的問(wèn)題,從而提高了抽樣樣本的隨機(jī)分布。
【專利說(shuō)明】數(shù)據(jù)抽樣方法及裝置
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及數(shù)據(jù)處理領(lǐng)域,具體而言,涉及一種數(shù)據(jù)抽樣方法及裝置。
【背景技術(shù)】
[0002] -般地,隨機(jī)抽樣是設(shè)一個(gè)總體含有N個(gè)個(gè)體,從中逐個(gè)不放回地抽取η個(gè)個(gè)體作 為樣本(n S Ν),如果每次抽取使總體內(nèi)的各個(gè)個(gè)體被抽到的機(jī)會(huì)都相等,就把這種抽樣方 法叫做簡(jiǎn)單隨機(jī)抽樣。
[0003] 相關(guān)技術(shù)中,隨機(jī)抽樣有以下兩種方法:
[0004] 在第一種方法中認(rèn)為輸入的數(shù)據(jù)就是隨機(jī)的,因此在該方法中,認(rèn)為直接取前η 行。
[0005] 在第二種方法中,取數(shù)據(jù)中行數(shù)取模m等于c的行,這樣隨機(jī)取出的數(shù)據(jù)中的行應(yīng) 該是隨機(jī)的。在這種方法中,可以根據(jù)N和η的大小決定m大概等于多少。
[0006] 對(duì)于上述兩種方法,都存在問(wèn)題:
[0007] 對(duì)于第一種方法而言,該方法的前提是輸入的數(shù)據(jù)是隨機(jī)的,但是,在實(shí)際情況 中,一般情況下輸入的數(shù)據(jù)的分布是未知的,需要強(qiáng)調(diào)的是,未知并不等同隨機(jī),其數(shù)據(jù)的 輸入有可能是隨機(jī)的也有可能不是隨機(jī)的。
[0008] 第二種方法存在的問(wèn)題與第一種方法存在的問(wèn)題是類似的。該方法對(duì)數(shù)據(jù)的排列 要求比較高,如果輸入的數(shù)據(jù)的排列是隨機(jī)的,那么該方取出的數(shù)據(jù)基本上是隨機(jī)的。但是 同第一種方法一樣,一般輸入的數(shù)據(jù)可能不是隨機(jī)排列的。例如,如果數(shù)據(jù)是按時(shí)間排序 的,取模抽樣得到的有可能是一天某幾個(gè)特定小時(shí)的或某些特定分鐘的數(shù)據(jù)。因此,第二種 數(shù)據(jù)抽樣方法的隨機(jī)性也不好。
[0009] 針對(duì)相關(guān)技術(shù)中的數(shù)據(jù)抽樣的隨機(jī)性不好的問(wèn)題,尚未提出解決方案。
【發(fā)明內(nèi)容】
[0010] 本申請(qǐng)?zhí)峁┝艘环N數(shù)據(jù)抽樣的方法及裝置,以至少相關(guān)技術(shù)中的數(shù)據(jù)抽樣的隨機(jī) 性不好的問(wèn)題。
[0011] 根據(jù)本申請(qǐng)的一個(gè)方面,提供了一種數(shù)據(jù)抽樣方法,包括:獲取目標(biāo)數(shù)據(jù),其中,所 述目標(biāo)數(shù)據(jù)包括多個(gè)數(shù)據(jù)塊;計(jì)算所述目標(biāo)數(shù)據(jù)的數(shù)據(jù)塊總數(shù)N ;根據(jù)對(duì)樣本數(shù)的要求計(jì) 算所述目標(biāo)數(shù)據(jù)的抽樣樣本數(shù)M ;從每個(gè)數(shù)據(jù)塊中分別隨機(jī)選取R個(gè)樣本,并并進(jìn)行匯總構(gòu) 成所述目標(biāo)數(shù)據(jù)的抽樣樣本,其中,在M/N是整數(shù)的情況下,R=M/N,在M/N是小數(shù)的情況下, R等于M/N向上取整或者向下取整得到的整數(shù)。
[0012] 根據(jù)本申請(qǐng)的另一個(gè)方面,還提供了一種數(shù)據(jù)抽樣裝置,包括:第一獲取模塊,用 于獲取包括多個(gè)數(shù)據(jù)塊的目標(biāo)數(shù)據(jù),并計(jì)算所述目標(biāo)數(shù)據(jù)的數(shù)據(jù)塊總數(shù)N ;第二獲取模塊, 用于根據(jù)對(duì)樣本數(shù)的要求計(jì)算所述目標(biāo)數(shù)據(jù)的抽樣樣本數(shù)M ;構(gòu)成模塊,用于從每個(gè)數(shù)據(jù) 塊中分別隨機(jī)選取R個(gè)樣本,并進(jìn)行匯總構(gòu)成所述目標(biāo)數(shù)據(jù)的抽樣樣本,其中,在M/N是整 數(shù)的情況下,R=M/N,在M/N是小數(shù)的情況下,R等于M/N向上取整或者向下取整得到的整數(shù)。
[0013] 通過(guò)本申請(qǐng),采用了計(jì)算所述目標(biāo)數(shù)據(jù)的數(shù)據(jù)塊總數(shù)N ;根據(jù)對(duì)樣本數(shù)的要求計(jì) 算所述目標(biāo)數(shù)據(jù)的抽樣樣本數(shù)M ;從每個(gè)數(shù)據(jù)塊中分別隨機(jī)選取R個(gè)樣本,并構(gòu)成所述目標(biāo) 數(shù)據(jù)的抽樣樣本,解決了相關(guān)技術(shù)中的數(shù)據(jù)抽樣的隨機(jī)性不好的問(wèn)題,從而提高了抽樣樣 本的隨機(jī)分布。
【專利附圖】
【附圖說(shuō)明】
[0014] 此處所說(shuō)明的附圖用來(lái)提供對(duì)本發(fā)明的進(jìn)一步理解,構(gòu)成本申請(qǐng)的一部分,本發(fā) 明的示意性實(shí)施例及其說(shuō)明用于解釋本發(fā)明,并不構(gòu)成對(duì)本發(fā)明的不當(dāng)限定。在附圖中:
[0015] 圖1是根據(jù)本申請(qǐng)實(shí)施例的數(shù)據(jù)抽樣方法的流程圖;
[0016] 圖2是根據(jù)本申請(qǐng)實(shí)施例的優(yōu)選的從數(shù)據(jù)塊中抽取數(shù)據(jù)方法的流程圖;
[0017] 圖3是根據(jù)本申請(qǐng)實(shí)施例的優(yōu)選的從每個(gè)數(shù)據(jù)塊中選取R行數(shù)據(jù)方法的流程圖;
[0018] 圖4是根據(jù)本申請(qǐng)實(shí)施例的優(yōu)選的從每個(gè)數(shù)據(jù)塊中選取R行數(shù)據(jù)方法的流程圖; [0019]圖5是根據(jù)本申請(qǐng)優(yōu)選實(shí)施例的抽樣算法的流程圖一;
[0020] 圖6是根據(jù)本申請(qǐng)優(yōu)選實(shí)施例的抽樣算法的流程圖二;
[0021] 圖7是根據(jù)本申請(qǐng)實(shí)施例的數(shù)據(jù)抽樣裝置的結(jié)構(gòu)圖;
[0022] 圖8是根據(jù)本申請(qǐng)實(shí)施例的構(gòu)成模塊的結(jié)構(gòu)圖。
【具體實(shí)施方式】
[0023] 需要說(shuō)明的是,在不沖突的情況下,本申請(qǐng)中的實(shí)施例及實(shí)施例中的特征可以相 互組合。下面將參考附圖并結(jié)合實(shí)施例來(lái)詳細(xì)說(shuō)明本申請(qǐng)。
[0024] 需要說(shuō)明的是,在附圖的流程示意圖示出的步驟可以在諸如一組計(jì)算機(jī)可執(zhí)行指 令的計(jì)算機(jī)系統(tǒng)中執(zhí)行,并且,雖然在流程示意圖中示出了邏輯順序,但是在某些情況下, 可以以不同于此處的順序執(zhí)行所示出或描述的步驟。
[0025] 在以下描述中,除非另外指明,否則將參考由一個(gè)或多個(gè)計(jì)算機(jī)執(zhí)行的動(dòng)作和操 作的符號(hào)表示來(lái)描述本申請(qǐng)的各實(shí)施例。其中,計(jì)算機(jī)可以包括個(gè)人計(jì)算機(jī)、服務(wù)器、移動(dòng) 終端等各種產(chǎn)品,在以下實(shí)施例中,使用了 CPU、單片機(jī)、DSP等具有處理芯片的設(shè)備均可以 稱為計(jì)算機(jī)。由此,可以理解,有時(shí)被稱為計(jì)算機(jī)執(zhí)行的這類動(dòng)作和操作包括計(jì)算機(jī)的處理 單元對(duì)以結(jié)構(gòu)化形式表示數(shù)據(jù)的電信號(hào)的操縱。這一操縱轉(zhuǎn)換了數(shù)據(jù)或在計(jì)算機(jī)的存儲(chǔ)器 系統(tǒng)中的位置上維護(hù)它,這以本領(lǐng)域的技術(shù)人員都理解的方式重配置或改變了計(jì)算機(jī)的操 作。維護(hù)數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)是具有數(shù)據(jù)的格式所定義的特定屬性的存儲(chǔ)器的物理位置。然 而,盡管在上述上下文中描述本申請(qǐng),但它并不意味著限制性的,如本領(lǐng)域的技術(shù)人員所理 解的,后文所描述的動(dòng)作和操作的各方面也可用硬件來(lái)實(shí)現(xiàn)。
[0026] 轉(zhuǎn)向附圖,其中相同的參考標(biāo)號(hào)指代相同的元素,本申請(qǐng)的原理被示為在合適的 計(jì)算環(huán)境中實(shí)現(xiàn)。以下描述基于所述的本申請(qǐng)的實(shí)施例,并且不應(yīng)認(rèn)為是關(guān)于此處未明確 描述的替換實(shí)施例而限制本申請(qǐng)。
[0027] 優(yōu)選地,本申請(qǐng)實(shí)施例可以提供一個(gè)其上存儲(chǔ)有本申請(qǐng)實(shí)施例的機(jī)器可讀媒體。 需要說(shuō)明的是,任一適合存儲(chǔ)設(shè)計(jì)關(guān)于本申請(qǐng)的指令的媒體都在本申請(qǐng)的范圍以內(nèi)。例如, 這樣的媒體可以采用磁性媒體、光學(xué)媒體或半導(dǎo)體媒體的形式。
[0028] 在本實(shí)施例中,提供了一種數(shù)據(jù)抽樣方法,圖1是根據(jù)本申請(qǐng)實(shí)施例的數(shù)據(jù)抽樣 方法的流程圖,如圖1所示,該流程包括如下步驟:
[0029] 步驟S102,獲取目標(biāo)數(shù)據(jù),其中,該目標(biāo)數(shù)據(jù)包括多個(gè)數(shù)據(jù)塊;
[0030] 步驟S104,計(jì)算該目標(biāo)數(shù)據(jù)的數(shù)據(jù)塊的總數(shù)N ;
[0031] 步驟S106,根據(jù)對(duì)樣本數(shù)的要求計(jì)算該目標(biāo)數(shù)據(jù)的抽樣樣本數(shù)M ;
[0032] 步驟S108,從每個(gè)數(shù)據(jù)塊中分別隨機(jī)選取R個(gè)樣本,并進(jìn)行匯總構(gòu)成目標(biāo)數(shù)據(jù)的 抽樣樣本,其中,在M/N是整數(shù)的情況下,R=M/N,在M/N是小數(shù)的情況下,R等于M/N向上取 整或者向下取整得到的整數(shù)。
[0033] 通過(guò)上述步驟,將目標(biāo)數(shù)據(jù)分成了多個(gè)數(shù)據(jù)塊,然后從每個(gè)數(shù)據(jù)塊中隨機(jī)抽出所 需要的樣本,再將這些樣本組成目標(biāo)數(shù)據(jù)的抽樣樣本。由于采用了將數(shù)據(jù)分成數(shù)據(jù)塊的處 理方式,但對(duì)于每個(gè)數(shù)據(jù)塊來(lái)抽樣,相對(duì)于對(duì)于整個(gè)目標(biāo)數(shù)據(jù)進(jìn)行抽樣的方法其抽樣的隨 機(jī)性更好,從而解決了相關(guān)技術(shù)中的數(shù)據(jù)抽樣的隨機(jī)性不好的問(wèn)題,從而提高了抽樣樣本 的隨機(jī)性。對(duì)于抽樣樣本的隨機(jī)性提高,會(huì)使樣本更加真實(shí)的反應(yīng)該目標(biāo)數(shù)據(jù),從而為了解 目標(biāo)數(shù)據(jù)提供了依據(jù)。
[0034] 上述步驟解決了抽樣樣本的隨機(jī)性的問(wèn)題,相關(guān)技術(shù)中的第一種方法和第二種方 法還存在一種問(wèn)題:即使第一種方法和第二種方法的數(shù)據(jù)是均勻打散,即隨機(jī)輸入的,但 是,由于第一種方法和第二種方法,總是取相同的行,例如在第一種方法中總是取前η行, 因此,不能難滿足多次抽樣結(jié)果不同的需求。
[0035] 上述步驟S108中,從每個(gè)數(shù)據(jù)塊中選出的樣本均是隨機(jī)選取的,因此,通過(guò)上述 步驟,在多次抽樣中,所取得的抽樣結(jié)果是不相同的。
[0036] 從數(shù)據(jù)塊中抽樣的方式有很多種,在一個(gè)優(yōu)選的實(shí)施例中可以通過(guò)行的方式來(lái)進(jìn) 行抽取,圖2是根據(jù)本申請(qǐng)實(shí)施例的優(yōu)選的從數(shù)據(jù)塊中抽取數(shù)據(jù)方法的流程圖,如圖2所 示,該流程包括如下步驟:
[0037] 步驟S202,獲取一個(gè)數(shù)據(jù)塊中的數(shù)據(jù)行數(shù)r ;計(jì)算該目標(biāo)數(shù)據(jù)的總行數(shù)N*r ;
[0038] 步驟S204,使用隨機(jī)抽樣公式根據(jù)總行數(shù)得到該抽樣樣本數(shù)M ;
[0039] 步驟S206,從每個(gè)數(shù)據(jù)塊中分別隨機(jī)選取R行數(shù)據(jù)作為R個(gè)樣本,其中在M/N是 整數(shù)的情況下,R=M/N,在M/N是小數(shù)的情況下,R等于M/N向上取整或者向下取整得到的整 數(shù)。
[0040] 圖2中示出了圖1中的一種優(yōu)選的實(shí)施方式,但并不限于此,可以根據(jù)不同的方式 來(lái)選擇如何從數(shù)據(jù)塊中抽出數(shù)據(jù)。
[0041] 對(duì)于圖2中示出的采用行來(lái)抽取數(shù)據(jù)的方式,如果不對(duì)目標(biāo)數(shù)據(jù)進(jìn)行分塊,那么 就需要對(duì)目標(biāo)數(shù)據(jù)中的每一行都分配一個(gè)隨機(jī)數(shù),最后按此隨機(jī)數(shù)排序取前η個(gè),這種方 法抽取出來(lái)的數(shù)據(jù)應(yīng)該是隨機(jī)分布的,但是,在數(shù)據(jù)量很大的情況下,這種方式需要對(duì)大量 的行分配隨機(jī)數(shù),這種計(jì)算量是非常大,效率比較低。
[0042] 對(duì)于每個(gè)數(shù)據(jù)塊中的數(shù)據(jù)抽取方式可以采用為每一行都分配一個(gè)隨機(jī)數(shù)的方式, 圖3是根據(jù)本申請(qǐng)實(shí)施例的優(yōu)選的從每個(gè)數(shù)據(jù)塊中選取R行數(shù)據(jù)方法的流程圖,如圖3所 示,該流程包括如下步驟:
[0043] 步驟S302,獲取一個(gè)數(shù)據(jù)塊中的數(shù)據(jù)行數(shù)r ;計(jì)算該目標(biāo)數(shù)據(jù)的總行數(shù)N*r ;
[0044] 步驟S304,使用隨機(jī)抽樣公式根據(jù)總行數(shù)得到該抽樣樣本數(shù)M ;
[0045] 步驟S306,為每個(gè)數(shù)據(jù)塊中的每一行數(shù)據(jù)分配一個(gè)隨機(jī)數(shù);
[0046] 步驟S308,將每個(gè)數(shù)據(jù)塊中的行數(shù)據(jù)分別按照隨機(jī)數(shù)的大小進(jìn)行排列;
[0047] 步驟S310,在每個(gè)數(shù)據(jù)塊中的排列好的數(shù)據(jù)中分別取連續(xù)的R行數(shù)據(jù)。
[0048] 上述步驟S306至步驟S310是步驟S206的一種優(yōu)選的實(shí)施方式。為每個(gè)數(shù)據(jù)塊 中的每一行數(shù)據(jù)分配一個(gè)隨機(jī)數(shù);這樣就可以保證抽樣數(shù)據(jù)塊是隨機(jī)分布的,將每個(gè)數(shù)據(jù) 塊中的行數(shù)據(jù)分別按照隨機(jī)數(shù)的大小進(jìn)行排列;在每個(gè)數(shù)據(jù)塊中的排列好的數(shù)據(jù)中分別取 連續(xù)的R行數(shù)據(jù)。例如,可以在每個(gè)數(shù)據(jù)塊中排列好的數(shù)據(jù)中取隨機(jī)數(shù)最大的R行數(shù)據(jù); 或者,也可以在每個(gè)數(shù)據(jù)塊中排列好的數(shù)據(jù)中取隨機(jī)數(shù)最小的R行數(shù)據(jù)。這種處理方式是 對(duì)數(shù)據(jù)塊中的每一行數(shù)據(jù)分配隨機(jī)數(shù),相對(duì)于對(duì)整個(gè)目標(biāo)數(shù)據(jù)分配隨機(jī)數(shù)并進(jìn)行排序的算 法,其計(jì)算量減少了。
[0049] 優(yōu)選地,可以采用數(shù)組的方式來(lái)實(shí)現(xiàn)上述步驟S306至步驟S310,圖4是根據(jù)本申 請(qǐng)實(shí)施例的優(yōu)選的從每個(gè)數(shù)據(jù)塊中選取R行數(shù)據(jù)方法的流程圖,如圖4所示,該流程包括如 下步驟:
[0050] 步驟S402,獲取一個(gè)數(shù)據(jù)塊中的數(shù)據(jù)行數(shù)r ;計(jì)算該目標(biāo)數(shù)據(jù)的總行數(shù)N*r ;
[0051] 步驟S404,使用隨機(jī)抽樣公式根據(jù)總行數(shù)得到該抽樣樣本數(shù)M ;
[0052] 步驟S406,將每個(gè)數(shù)據(jù)塊中的數(shù)據(jù)分別讀入內(nèi)存并存放在數(shù)組中,為數(shù)組的每一 列生成一個(gè)隨機(jī)數(shù);
[0053] 例如,假定一個(gè)數(shù)據(jù)塊中存在1000行數(shù)據(jù),則可以建立一個(gè)1000列的數(shù)組,該數(shù) 據(jù)的每一列均對(duì)應(yīng)內(nèi)存中的一個(gè)存儲(chǔ)空間,然后將該1000行數(shù)據(jù)分別存入到該1000列的 數(shù)組中,即該數(shù)組的每一列都保存了一行數(shù)據(jù)。然后,可以為數(shù)組的每一列生成一個(gè)隨機(jī) 數(shù),并保存。
[0054] 步驟S408,按照隨機(jī)數(shù)的大小對(duì)該數(shù)組中的列進(jìn)行排序;
[0055] 步驟S410,在每個(gè)數(shù)據(jù)塊中排列好的數(shù)組中分別取連續(xù)的R列作為R行數(shù)據(jù)。
[0056] 在上述步驟S406至步驟S410中采用了數(shù)組的實(shí)現(xiàn)方式,通過(guò)數(shù)組的方式,效率比 較聞。
[0057] 上述步驟S102、步驟S202、步驟S302和步驟S402中,均涉及到將目標(biāo)數(shù)據(jù)分成N 個(gè)數(shù)據(jù)塊,將目標(biāo)數(shù)據(jù)拆成多個(gè)數(shù)據(jù)塊的方法可以由很多種,例如,在大量數(shù)據(jù)處理中一般 情況下可以采用分布式處理的軟件框架。在分布式軟件處理框架中,可以將一個(gè)大文件(即 目標(biāo)數(shù)據(jù))分割成一個(gè)或多個(gè)數(shù)據(jù)塊,這些數(shù)據(jù)塊的大小可以是相同的,也可以是不同的。 上述實(shí)施例可以應(yīng)用到Hadoop軟件框架中,但是并不限于該軟件框架,其他的分布式數(shù)據(jù) 存儲(chǔ)系統(tǒng)或者軟件框架同樣可以應(yīng)用本優(yōu)選實(shí)施例中的處理方法。Hadoop :是一個(gè)能夠?qū)?大量數(shù)據(jù)進(jìn)行分布式處理的軟件框架,HDFS =Hadoop框架下的分布式文件系統(tǒng)。HDFS文件 系統(tǒng)內(nèi)部機(jī)制是將一個(gè)大文件分割成一個(gè)或多個(gè)相同大小的數(shù)據(jù)塊(一般是64M),然后存 儲(chǔ)在一組數(shù)據(jù)節(jié)點(diǎn)中。因此對(duì)單個(gè)數(shù)據(jù)塊進(jìn)行隨機(jī)抽樣的和,就可以得到整個(gè)大數(shù)據(jù)文件 的隨機(jī)抽樣樣本。
[0058] 圖5是根據(jù)本申請(qǐng)優(yōu)選實(shí)施例的抽樣算法的流程圖一,如圖5所示,該流程包括如 下步驟:
[0059] 步驟S502,對(duì)于每一份Hadoop上的數(shù)據(jù),計(jì)算出該數(shù)據(jù)在HDFS上的數(shù)據(jù)塊個(gè)數(shù)為 N;
[0060] 步驟S504,對(duì)于每一個(gè)數(shù)據(jù)塊,計(jì)算出該數(shù)據(jù)塊中包含的數(shù)據(jù)行數(shù)r ;
[0061] 步驟S506,得到該份數(shù)據(jù)的總行數(shù)N*r ;
[0062] 步驟S508,根據(jù)隨機(jī)抽樣公式得到抽樣樣本數(shù)M ;
[0063] 步驟S510,得到單個(gè)數(shù)據(jù)塊應(yīng)該抽出的樣本數(shù)R ;
[0064] 步驟S512,為單個(gè)數(shù)據(jù)塊的每一行數(shù)據(jù)隨機(jī)分配一個(gè)隨機(jī)數(shù),將數(shù)據(jù)按照隨機(jī)數(shù) 大小進(jìn)行排序,然后取前R行;
[0065] 步驟S514,將所有單個(gè)數(shù)據(jù)塊抽出的樣本進(jìn)行匯總,得到整個(gè)數(shù)據(jù)的抽樣樣本。 [0066] 圖6是根據(jù)本申請(qǐng)優(yōu)選實(shí)施例的抽樣算法的流程圖二,在圖6中使用了數(shù)組的方 式來(lái)進(jìn)行處理,如圖6所示,將每個(gè)數(shù)據(jù)塊的數(shù)據(jù)讀入內(nèi)存,存放在數(shù)組中,給數(shù)組的每一 個(gè)列生成一個(gè)隨機(jī)數(shù),按照隨機(jī)數(shù)的大小對(duì)數(shù)組進(jìn)行排序,輸出前m列數(shù)據(jù),獲得該數(shù)據(jù)塊 的樣本,最后將這N個(gè)數(shù)據(jù)塊加在一起,就是總體抽樣樣本。
[0067] 上述步驟S104、步驟S204、步驟S304和步驟S404中,均涉及到獲取目標(biāo)數(shù)據(jù)的抽 樣樣本數(shù)M,對(duì)于M越大則該抽樣樣本越接近于該目標(biāo)數(shù)據(jù)的真實(shí)情況,但是,M值越大抽樣 的計(jì)算量也就越大。該M的取值可以是根據(jù)經(jīng)驗(yàn)值來(lái)取值的。下面對(duì)樣本數(shù)進(jìn)行說(shuō)明。 [0068] 樣本數(shù)又稱為樣本容量,指一個(gè)樣本的必要抽樣單位數(shù)目。抽樣誤差的大小直接 影響樣本指標(biāo)代表性的大小,而必要的樣本單位數(shù)目是保證抽樣誤差不超過(guò)某一給定范圍 的重要因素之一。因此,在抽樣設(shè)計(jì)時(shí),適當(dāng)?shù)臉颖締挝粩?shù)目是保證樣本指標(biāo)具有充分代表 性的基本前提。一般來(lái)說(shuō),樣本的容量大的話,樣本的誤差就小。反之則大。
[0069] 確定樣本容量的大小可以考慮很多的方面,例如,變量個(gè)數(shù),數(shù)據(jù)分析的性質(zhì),同 類研究中所用的樣本量,發(fā)生率,完成率,資源限制等。具體地說(shuō),如果需要更多的信息和 更準(zhǔn)確的信息,就需要較大的樣本;如果需要的信息不需要特別精確,則可以采用較小的樣 本,因此,抽樣樣本數(shù)可以根據(jù)實(shí)際的需要來(lái)進(jìn)行確定。
[0070] 具體確定樣本量可以采用公式計(jì)算的方式,在本實(shí)施例中提供了優(yōu)選的計(jì)算方 式,樣本量的計(jì)算還可以采用其他的公式,并不限于本實(shí)施例提供的計(jì)算方式。下面對(duì)該優(yōu) 選的計(jì)算方式進(jìn)行說(shuō)明。
[0071] 在一定的抽樣方式下,建立置信區(qū)間所需樣本容量的大小取決于以下幾個(gè)因素:
[0072] (-)置信度,也即總體參數(shù)真值落在置信區(qū)間內(nèi)的可靠程度。要求較高的置信度, 就需要較大的樣本容量,置信度越高,樣本容量就越大。
[0073] (二)估計(jì)的精度,也即置信區(qū)間的寬度。要求較高的置信度,就會(huì)擴(kuò)大置信區(qū)間的 寬度,也就是說(shuō)降低了估計(jì)的精度。因此,要想既提高估計(jì)的精度,又不降低估計(jì)的可靠性 程度,必須增加樣本容量。
[0074] (三)建立置信區(qū)間的費(fèi)用。雖然增加樣本容量可以提高置信區(qū)間的可靠性程度和 估計(jì)的精度,但也不是樣本容量愈大愈好。因?yàn)樵黾訕颖救萘浚蜁?huì)延長(zhǎng)調(diào)查時(shí)間,增大工 作量和成本費(fèi)用,同時(shí)還可能增大調(diào)查誤差。
[0075] 1.已知總體方差σ,重復(fù)抽樣條件下:
[0076]
【權(quán)利要求】
1. 一種數(shù)據(jù)抽樣方法,其特征在于包括: 獲取目標(biāo)數(shù)據(jù),其中,所述目標(biāo)數(shù)據(jù)包括多個(gè)數(shù)據(jù)塊; 計(jì)算所述目標(biāo)數(shù)據(jù)的數(shù)據(jù)塊總數(shù)N ; 根據(jù)對(duì)樣本數(shù)的要求計(jì)算所述目標(biāo)數(shù)據(jù)的抽樣樣本數(shù)M ; 從每個(gè)數(shù)據(jù)塊中分別隨機(jī)選取R個(gè)樣本,并進(jìn)行匯總構(gòu)成所述目標(biāo)數(shù)據(jù)的抽樣樣本, 其中,在M/N是整數(shù)的情況下,R=M/N,在M/N是小數(shù)的情況下,R等于M/N向上取整或者向 下取整得到的整數(shù)。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于, 計(jì)算所述目標(biāo)數(shù)據(jù)的抽樣樣本數(shù)M包括:獲取一個(gè)數(shù)據(jù)塊中的數(shù)據(jù)行數(shù)r ;計(jì)算所述目 標(biāo)數(shù)據(jù)的總行數(shù)N*r,使用隨機(jī)抽樣公式根據(jù)所述總行數(shù)得到所述抽樣樣本數(shù)M ; 從所述每個(gè)數(shù)據(jù)塊中分別隨機(jī)選取R個(gè)樣本包括:從所述每個(gè)數(shù)據(jù)塊中隨機(jī)選取R行 數(shù)據(jù)作為所述R個(gè)樣本。
3. 根據(jù)權(quán)利要求2所述的方法,其特征在于,從所述每個(gè)數(shù)據(jù)塊中隨機(jī)選取R行數(shù)據(jù)包 括: 為所述每個(gè)數(shù)據(jù)塊中的每一行數(shù)據(jù)分配一個(gè)隨機(jī)數(shù); 將所述每個(gè)數(shù)據(jù)塊中的行數(shù)據(jù)分別按照隨機(jī)數(shù)的大小進(jìn)行排列; 在所述每個(gè)數(shù)據(jù)塊中的排列好的數(shù)據(jù)中分別取連續(xù)的R行數(shù)據(jù)。
4. 根據(jù)權(quán)利要求3所述的方法,其特征在于,在所述每個(gè)數(shù)據(jù)塊中的排列好的數(shù)據(jù)中 取連續(xù)的M/N行數(shù)據(jù)包括: 在所述每個(gè)數(shù)據(jù)塊中排列好的數(shù)據(jù)中取隨機(jī)數(shù)最大的R行數(shù)據(jù);或者, 在所述每個(gè)數(shù)據(jù)塊中排列好的數(shù)據(jù)中取隨機(jī)數(shù)最小的R行數(shù)據(jù)。
5. 根據(jù)權(quán)利要求3所述的方法,其特征在于, 為所述每個(gè)數(shù)據(jù)塊中的每一行數(shù)據(jù)分配一個(gè)隨機(jī)數(shù)包括:將所述每個(gè)數(shù)據(jù)塊中的數(shù)據(jù) 分別讀入內(nèi)存并存放在數(shù)組中;為所述數(shù)組的每一列生成一個(gè)隨機(jī)數(shù); 將所述每個(gè)數(shù)據(jù)塊中的行數(shù)據(jù)分別按照隨機(jī)數(shù)的大小進(jìn)行排列包括:按照隨機(jī)數(shù)的大 小對(duì)所述數(shù)組中的列進(jìn)行排序; 在所述每個(gè)數(shù)據(jù)塊中的排列好的數(shù)據(jù)中分別取連續(xù)的R行數(shù)據(jù)包括:在所述每個(gè)數(shù)據(jù) 塊中排列好的數(shù)組中分別取連續(xù)的R列作為所述R行數(shù)據(jù)。
6. -種數(shù)據(jù)抽樣裝置,其特征在于包括: 第一獲取模塊,用于獲取包括多個(gè)數(shù)據(jù)塊的目標(biāo)數(shù)據(jù),并計(jì)算所述目標(biāo)數(shù)據(jù)的數(shù)據(jù)塊 總數(shù)N ; 第二獲取模塊,用于根據(jù)對(duì)樣本數(shù)的要求計(jì)算所述目標(biāo)數(shù)據(jù)的抽樣樣本數(shù)M ; 構(gòu)成模塊,用于從每個(gè)數(shù)據(jù)塊中分別隨機(jī)選取R個(gè)樣本,并進(jìn)行匯總構(gòu)成所述目標(biāo)數(shù) 據(jù)的抽樣樣本,其中,在M/N是整數(shù)的情況下,R=M/N,在M/N是小數(shù)的情況下,R等于M/N向 上取整或者向下取整得到的整數(shù)。
7. 根據(jù)權(quán)利要求6所述的裝置,其特征在于, 所述第二獲取模塊,用于獲取一個(gè)數(shù)據(jù)塊中的數(shù)據(jù)行數(shù)r,計(jì)算所述目標(biāo)數(shù)據(jù)的總行數(shù) N*r,并使用隨機(jī)抽樣公式根據(jù)所述總行數(shù)得到所述抽樣樣本數(shù)M ; 所述構(gòu)成模塊,用于從所述每個(gè)數(shù)據(jù)塊中隨機(jī)選取R行數(shù)據(jù)作為所述R個(gè)樣本。
8. 根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述構(gòu)成模塊包括: 分配單元,用于為所述每個(gè)數(shù)據(jù)塊中的每一行數(shù)據(jù)分配一個(gè)隨機(jī)數(shù); 排列單元,用于將所述每個(gè)數(shù)據(jù)塊中的行數(shù)據(jù)分別按照隨機(jī)數(shù)的大小進(jìn)行排列; 抽取單元,用于在所述每個(gè)數(shù)據(jù)塊中的排列好的數(shù)據(jù)中分別取連續(xù)的R行數(shù)據(jù)。
9. 根據(jù)權(quán)利要求8所述的裝置,其特征在于, 所述抽取單元,用于在所述每個(gè)數(shù)據(jù)塊中排列好的數(shù)據(jù)中取隨機(jī)數(shù)最大的R行數(shù)據(jù); 或者,用于在所述每個(gè)數(shù)據(jù)塊中排列好的數(shù)據(jù)中取隨機(jī)數(shù)最小的R行數(shù)據(jù)。
10. 根據(jù)權(quán)利要求8所述的裝置,其特征在于, 所述分配單元,用于將所述每個(gè)數(shù)據(jù)塊中的數(shù)據(jù)分別讀入內(nèi)存并存放在數(shù)組中;為所 述數(shù)組的每一列生成一個(gè)隨機(jī)數(shù); 所述排列單元,用于按照隨機(jī)數(shù)的大小對(duì)所述數(shù)組中的列進(jìn)行排序; 所述抽取單元,用于在所述每個(gè)數(shù)據(jù)塊中排列好的數(shù)組中分別取連續(xù)的R列作為所述 R行數(shù)據(jù)。
【文檔編號(hào)】G06F17/30GK104424331SQ201310411200
【公開日】2015年3月18日 申請(qǐng)日期:2013年9月10日 優(yōu)先權(quán)日:2013年9月10日
【發(fā)明者】陳少懷 申請(qǐng)人:深圳市騰訊計(jì)算機(jī)系統(tǒng)有限公司