1.一種高通量測序數(shù)據(jù)統(tǒng)計方法,其特征在于,所述方法包括:
根據(jù)高通量測序數(shù)據(jù)為并行計算做準(zhǔn)備;
對準(zhǔn)備好的高通量測序數(shù)據(jù)進(jìn)行并行計算;
將并行計算結(jié)果匯總得出統(tǒng)計數(shù)據(jù)。
2.根據(jù)權(quán)利要求1所述的高通量測序數(shù)據(jù)統(tǒng)計方法,其特征在于,所述根據(jù)所述高通量測序數(shù)據(jù)為并行計算做準(zhǔn)備包括:
根據(jù)所述高通量測序數(shù)據(jù)中的堿基質(zhì)量值確定堿基質(zhì)量值轉(zhuǎn)換方式;
對已確定堿基質(zhì)量值轉(zhuǎn)換方式的高通量測序數(shù)據(jù)進(jìn)行切分;
生成對切分后的數(shù)據(jù)塊進(jìn)行并行計算的執(zhí)行實(shí)體。
3.根據(jù)權(quán)利要求2所述的高通量測序數(shù)據(jù)統(tǒng)計方法,其特征在于,所述對已確定堿基質(zhì)量值轉(zhuǎn)換方式的高通量測序數(shù)據(jù)進(jìn)行切分包括:
將包含已確定堿基質(zhì)量值轉(zhuǎn)換方式的文件轉(zhuǎn)換為RDD;
將RDD切分為partition。
4.根據(jù)權(quán)利要求3所述的高通量測序數(shù)據(jù)統(tǒng)計方法,其特征在于,所述生成對切分后的數(shù)據(jù)塊進(jìn)行并行計算的執(zhí)行實(shí)體包括:生成對partition進(jìn)行并行計算的執(zhí)行實(shí)體task。
5.根據(jù)權(quán)利要求2-4中任意一項(xiàng)所述的高通量測序數(shù)據(jù)統(tǒng)計方法,其特征在于,所述對準(zhǔn)備好的高通量測序數(shù)據(jù)進(jìn)行并行計算包括:通過執(zhí)行實(shí)體并行地計算每個切分后的數(shù)據(jù)塊中與序列行相關(guān)的統(tǒng)計信息以及堿基質(zhì)量值。
6.根據(jù)權(quán)利要求5所述的高通量測序數(shù)據(jù)統(tǒng)計方法,其特征在于,所述將并行計算結(jié)果匯總得出統(tǒng)計數(shù)據(jù)包括:根據(jù)每個切分后的數(shù)據(jù)塊中與序列行相關(guān)的統(tǒng)計信息和堿基質(zhì)量值統(tǒng)計所述高通量測序數(shù)據(jù)中每一列的堿基質(zhì)量值分布。
7.一種對高通量測序數(shù)據(jù)進(jìn)行統(tǒng)計的裝置,其特征在于,所述裝置包括:
并行準(zhǔn)備模塊,用于根據(jù)高通量測序數(shù)據(jù)為并行計算做準(zhǔn)備;
并行計算模塊,用于對準(zhǔn)備好的高通量測序數(shù)據(jù)進(jìn)行并行計算;
結(jié)果匯總模塊,用于將并行計算結(jié)果匯總得出統(tǒng)計數(shù)據(jù)。
8.根據(jù)權(quán)利要求7所述的對高通量測序數(shù)據(jù)進(jìn)行統(tǒng)計的裝置,其特征在于,所述并行準(zhǔn)備模塊包括:
堿基質(zhì)量值轉(zhuǎn)換方式確定單元,用于根據(jù)所述高通量測序數(shù)據(jù)中的堿基質(zhì)量值確定堿基質(zhì)量值轉(zhuǎn)換方式;
數(shù)據(jù)切分單元:用于對已確定堿基質(zhì)量值轉(zhuǎn)換方式的高通量測序數(shù)據(jù)進(jìn)行切分;
執(zhí)行實(shí)體生成單元:用于生成對切分后的數(shù)據(jù)塊進(jìn)行并行計算的執(zhí)行實(shí)體。
9.根據(jù)權(quán)利要求8所述的對高通量測序數(shù)據(jù)進(jìn)行統(tǒng)計的裝置,其特征在于,所述數(shù)據(jù)切分單元具體用于:
將包含已確定堿基質(zhì)量值轉(zhuǎn)換方式的文件轉(zhuǎn)換為RDD;
將RDD切分為partition。
10.根據(jù)權(quán)利要求9所述的對高通量測序數(shù)據(jù)進(jìn)行統(tǒng)計的裝置,其特征在于,所述執(zhí)行實(shí)體生成單元具體用于:生成對partition進(jìn)行并行計算的執(zhí)行實(shí)體task。
11.根據(jù)權(quán)利要求8-10中任意一項(xiàng)所述的對高通量測序數(shù)據(jù)進(jìn)行統(tǒng)計的裝置,其特征在于,所述并行計算模塊具體用于:通過執(zhí)行實(shí)體并行地計算每個切分后的數(shù)據(jù)塊中與序列行相關(guān)的統(tǒng)計信息以及堿基質(zhì)量值。
12.根據(jù)權(quán)利要求11所述的對高通量測序數(shù)據(jù)進(jìn)行統(tǒng)計的裝置,其特征在于,所述結(jié)果匯總模塊具體用于:根據(jù)每個切分后的數(shù)據(jù)塊中與序列行相關(guān)的統(tǒng)計信息和堿基質(zhì)量值統(tǒng)計所述高通量測序數(shù)據(jù)中每一列的堿基質(zhì)量值分布。