亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基因組短序列映射的快速處理方法及系統(tǒng)的制作方法

文檔序號:576774閱讀:318來源:國知局
專利名稱:一種基因組短序列映射的快速處理方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明屬于基因工程技術(shù)領(lǐng)域,尤其涉及一種基因組短序列映射的快速處理方法
及系統(tǒng)。
背景技術(shù)
對大基因組的短序列進行組裝面臨內(nèi)存的挑戰(zhàn),為了降低構(gòu)建deBruijn圖的內(nèi) 存使用,組裝軟件可以不在內(nèi)存中記錄測序序列和序列片段重疊群(contig)之間的對應(yīng) 關(guān)系,而只在contig組裝完畢后,將正確的測序序列映射到contig上?,F(xiàn)有的短序列比對 多采用計算機軟件實現(xiàn),主要分兩類,一類使用了固定短串(kmer)的組合索引結(jié)構(gòu),另一 類使用的是后綴樹類樣的索引結(jié)構(gòu)?,F(xiàn)有短序列對比軟件可以在兩個錯配之內(nèi)將短序列映 射到contig上,但是在處理contig和短序列之間的比對時,處理時間長、效率低,不能很好 地滿足短序列組裝中的需求。

發(fā)明內(nèi)容
本發(fā)明一個目的在于提供一種基因組短序列映射的快速處理方法和系統(tǒng),旨在減 少contig和短序列之間的比對過程的處理時間、提高效率。 基于上述目的,本發(fā)明提供的一種基因組短序列的快速處理映射方法,所述方法 包括下述步驟 將測序序列按預(yù)設(shè)長度短串的堿基值排序; 將序列片段重疊群逐個堿基切割成所述預(yù)設(shè)長度的短串; 依次根據(jù)所述序列片段重疊群中所切割成的短串的堿基值在排序后的測序序列 中查找相應(yīng)的測序序列,建立映射關(guān)系。
基于上述目的,本發(fā)明提供的基因組短序列的快速處理映射系統(tǒng),所述系統(tǒng)包括
排序單元,用于將測序序列按預(yù)設(shè)長度短串的堿基值排序; 切割單元,用于將序列片段重疊群逐個堿基切割成所述預(yù)設(shè)長度的短串;以及
映射單元,用于依次根據(jù)所述序列片段重疊群中所切割成的短串的堿基值在排序 后的測序序列中查找相應(yīng)的測序序列,建立映射關(guān)系。 在本發(fā)明實施例中,通過將測序序列按預(yù)設(shè)長度短串的堿基值排序,并將contig 逐個堿基切割成預(yù)設(shè)長度的短串,依次根據(jù)contig中所切割成的短串的堿基值在排序后 的測序序列中查找相應(yīng)的測序序列,建立映射關(guān)系,本發(fā)明技術(shù)方案從contig和參與拼接 的序列之間的比對出發(fā),利用基于de Bruijn圖組裝出contig所具有的在定長的短串上不 存在重復(fù)的特點,實現(xiàn)了用于短序列組裝中的短序列映射,所需處理時間明顯縮短、效率大 幅提高。


圖1是本發(fā)明實施例提供的基因組短序列映射的快速處理方法的實現(xiàn)流程4
圖2是本發(fā)明實施例提供的基因組短序列映射的快速處理系統(tǒng)的結(jié)構(gòu)圖;
圖3是本發(fā)明另一實施例提供的基因組短序列映射的快速處理系統(tǒng)的結(jié)構(gòu)圖。
具體實施例方式
為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點更加清楚明白,以下結(jié)合附圖及實施例,對 本發(fā)明進行進一步詳細說明。應(yīng)當理解,此處所描述的具體實施例僅僅用以解釋本發(fā)明,并 不用于限定本發(fā)明。 在本發(fā)明實施例中,通過將測序序列按預(yù)設(shè)長度短串的堿基值排序,并將contig 逐個堿基切割成預(yù)設(shè)長度的短串,依次根據(jù)contig中所切割成的短串的堿基值在排序后 的測序序列中查找相應(yīng)的測序序列,建立映射關(guān)系。 圖1示出了本發(fā)明實施例提供的基因組短序列映射的快速處理方法的實現(xiàn)流程, 詳述如下 在步驟S101中,將測序序列按預(yù)設(shè)長度短串的堿基值排序。 在本發(fā)明實施例中,短串長度的選取嚴格等于在構(gòu)建de Bruijn圖時短串的長度, 即上述預(yù)設(shè)長度為構(gòu)建de Bruijn圖時短串的長度。將測序序列按短串的堿基值排序,可 以降低排序的復(fù)雜性。按預(yù)設(shè)長度切割各測序序列的短串,并從小到大按短串的堿基值排 序,生成一個短串數(shù)組,這個短串數(shù)組和各測序序列是一一對應(yīng)的。其中,所述按預(yù)設(shè)長度 切割各測序序列的短串的步驟可以采用如下方式在當前被切割的測序序列上滑動截取短 串,滑動的步長為l個堿基,截取的窗口為所述預(yù)設(shè)長度,即構(gòu)建de Bruiin圖時短串的長 度。 另外,本步驟中,優(yōu)選可以建立一個索引數(shù)組,用于記錄短串數(shù)組中短串與contig 的對應(yīng)關(guān)系。 在對短串進行排序時,可以使用桶排序方式對短串的堿基值進行排序。其中,每個
桶子存放短串上的4個堿基,這樣按4個堿基逐步完成排序。另外,在排序中使用另 一個前
綴數(shù)組記錄相鄰短串間共有前綴的堿基個數(shù),對前綴堿基個數(shù)的記錄可以在桶排序內(nèi)部完
成。當然,也可以采用其他方法對短串的堿基值進行排序。 在步驟S102中,將contig逐個堿基切割成所述預(yù)設(shè)長度的短串。 在本發(fā)明實施例中,本步驟可采用如下方式提取contig保存在內(nèi)存中,在
contig上滑動截取短串,滑動的步長為1個堿基,截取的窗口為所述預(yù)設(shè)長度,即構(gòu)建de
Bruijn圖時短串的長度。 由于構(gòu)建de Bruijn圖時短串是唯一的,所以按照構(gòu)建de Bruijn圖時短串的長 度將contig逐個堿基切割成的各個短串是唯一的。 在步驟S103中,依次根據(jù)contig中所切割成的短串的堿基值在排序后的測序序
列中查找相應(yīng)的測序序列,建立contig與測序序列的映射關(guān)系。 上述步驟S103具體包括 步驟Sl.依次取contig切割得到的短串; 步驟S2.在排序后的測序序列中查找短串的堿基值與contig中所取短串的堿基 值相等的所有測序序列; 步驟S3.通過查詢所述索引數(shù)組,在步驟S2查找到的測序序列與contig間建立映射關(guān)系。 在本發(fā)明實施例中,步驟S3具體包括利用索引數(shù)組保存的短串數(shù)組中短串與 contig的對應(yīng)關(guān)系,根據(jù)步驟S2中查找到的測序序列中的短串在所述索引數(shù)組中查詢對 應(yīng)的contig,建立短串對應(yīng)的測序序列與contig之間的映射關(guān)系。 在本發(fā)明實施例中,步驟S2中采用二分法在短串數(shù)組中查找與contig中所取短 串的堿基值相等的短串,實現(xiàn)短串間的比較,算法詳述如下 初始化將起始位置L置為0,結(jié)束位置R設(shè)為N-l,最小共有前綴數(shù)1、最大共有 前綴數(shù)r都置為0 ; 步驟1.判斷contig中所取短串W是否小于短串數(shù)組的短串A[O],如果是返回不 匹配的響應(yīng),否則進入步驟2 ; 步驟2.判斷contig中所取短串W是否大于短串數(shù)組的第N個短串A[N-1],如果 是則返回不匹配的響應(yīng),否則進入步驟3 ; 步驟3.判斷L+l是否小于結(jié)束位置R,如果是則進入步驟4,否則進入步驟8 ; 步驟4.查找中間位置M取為~^^堿基判斷位置m取最小共有前綴數(shù)1和最大
共有前綴數(shù)r 二者中的最小值;其中,m是L和R之間的最大共有前綴數(shù)。 步驟5.判斷短串W的第m個堿基值Wm是否小于或等于查找中間位置短序的第m
個堿基值A(chǔ)[M]m,如果是則進入步驟6,否則進入步驟7 ; 步驟6.結(jié)束位置R向前移動到查找中間位置M,用短串W與短序A[M]的共有前綴 數(shù)更新最大共有前綴數(shù)r,進入步驟3 ; 步驟7.起始位置L向后移動到查找中間位置M,用短串W與短序A[M]的共有前綴
數(shù)更新最大共有前綴數(shù)l,進入步驟3 ; 步驟8.將起始位置L賦值為結(jié)束位置R。 A[R]即為查找到的短串,結(jié)合已經(jīng)建立的前綴數(shù)組,找出A[R]前后堿基值均與其 相等的短串。再根據(jù)索引數(shù)組即可以得到這些短串對應(yīng)的測序序列,進一步建立得到的這 些測序序列與contig的映射。當然,也可以根據(jù)其他查詢方法在短串數(shù)組中查找與contig 中所取短串的堿基值相等的短串。 由于在生物學(xué)上,互補序列上的映射關(guān)系也是構(gòu)成該contig的序列的正確關(guān)系, 為了同時得到contig的互補序列與測序序列的映射,作為本發(fā)明的一個優(yōu)選實施例,在步 驟S101前進一步包括根據(jù)測序序列得到其互補測序序列的步驟。 此時,步驟S101改為將測序序列和得到的互補測序序列按預(yù)設(shè)長度短串的堿基 值排序;步驟S103改為依次根據(jù)contig中所切割成的短串的堿基值在排序后的測序序列 及其互補測序序列中查找相應(yīng)的測序序列和/或互補測序序列,建立映射關(guān)系。將測序序 列及其互補測序序列按短串的堿基值排序,實現(xiàn)contig與測序序列間的正、反相映射,減 少了比較搜索的次數(shù),處理速度加快。 為了同時得到互補contig與測序序列的映射,作為本發(fā)明的另一個優(yōu)選實施例, 在上述步驟S102之前進一步根據(jù)contig得到其互補contig。此時,步驟S102為將contig 和得到的互補contig逐個堿基切割成預(yù)設(shè)長度的短串,步驟S103為依次根據(jù)contig和 得到的互補contig中所切割成的短串的堿基值在排序后的測序序列中查找相應(yīng)的測序序
6
對比上述通過對contig逐個堿基在排序后的測序序列及其互補測序序列中查 找,實現(xiàn)contig與測序序列的正、反相映射的方式,這里通過對contig及其互補contig逐 個堿基執(zhí)行兩次切割、查找操作實現(xiàn)。 本發(fā)明上面兩個優(yōu)選實施例中所采取的這種正反向截取的方式,雖然使用了更多
的內(nèi)存,但是測序序列查詢時,只查詢一個方向就可以找出雙向的比對結(jié)果,速度得到了提
高。如果截取單向的話,在查詢時需要將測序序列正方向都查詢,才能得到結(jié)果。 本領(lǐng)域普通技術(shù)人員可以理解,實現(xiàn)上述實施例方法中的全部或部分步驟是可以
通過程序來指令相關(guān)的硬件來完成,所述的程序可以在存儲于一計算機可讀取存儲介質(zhì)
中,所述的存儲介質(zhì),如ROM/RAM、磁盤、光盤等,該程序用來執(zhí)行如下步驟 1.將測序序列按預(yù)設(shè)長度短串的堿基值排序; 2.將contig逐個堿基切割成預(yù)設(shè)長度的短串; 3.依次根據(jù)contig中所切割成的短串的堿基值在排序后的測序序列中查找相應(yīng) 的測序序列,建立映射關(guān)系。 圖2示出了本發(fā)明實施例提供的基因組短序列映射的快速處理系統(tǒng)的結(jié)構(gòu),為了 便于說明僅示出了與本發(fā)明實施例相關(guān)的部分,該系統(tǒng)可以用于短序列組裝中,其中
排序單元201,用于將測序序列按預(yù)設(shè)長度短串的堿基值排序,其實現(xiàn)方式可參見 上述步驟S101的內(nèi)容,不再贅述。 切割單元202,用于將contig逐個堿基切割成預(yù)設(shè)長度的短串,其實現(xiàn)方式可參 見上述步驟S102的內(nèi)容,不再贅述。 映射單元203,依次根據(jù)contig中所切割成的短串的堿基值在排序后的測序序列
中查找相應(yīng)的測序序列,建立映射關(guān)系。 其中,映射單元203包括 短串獲取模塊2031,用于依次取contig切割得到的短串。 查找模塊2032,在排序后的測序序列中查找短串的堿基值與短串獲取模塊2031
所取短串的堿基值相等的所有測序序列,其實現(xiàn)方式參見上述步驟S2,不再贅述。 關(guān)聯(lián)模塊2033,在查找到的測序序列與contig間建立映射關(guān)系,其實現(xiàn)方式參見
上述步驟S3,不再贅述。 為了同時得到contig與測序序列的反相映射,作為本發(fā)明的一個優(yōu)選實施例,短 序列映射系統(tǒng)還包括 第一互補計算單元204,根據(jù)測序序列得到其互補測序序列。 此時,排序單元201將測序序列和得到的互補測序序列按預(yù)設(shè)長度短串的堿基值 排序,映射單元203依次根據(jù)contig中所切割成的短串的堿基值在排序后的測序序列及其 互補測序序列中查找相應(yīng)的測序序列和/或互補測序序列,在查找到的測序序列和/或互 補測序序列與所述序列片段重疊群間建立映射關(guān)系。即查找相應(yīng)的測序序列,在查找到的 測序序列與所述contig間建立映射關(guān)系;或者查找相應(yīng)的互補測序序列,在查找到的互補 測序序列與所述contig間建立映射關(guān)系;或者查找相應(yīng)的測序序列,并查找相應(yīng)的互補測 序序列,查找到的測序序列與所述contig間建立映射關(guān)系,并同時在查找到的互補測序序 列與所述contig間建立映射關(guān)系。
為了同時得到互補contig與測序序列的映射,作為本發(fā)明的另一個優(yōu)選實施例, 如圖3所示,短序列映射系統(tǒng)還包括 第二互補計算單元205,根據(jù)contig得到其互補contig。 此時,切割單元202將contig和得到的互補contig逐個堿基切割成預(yù)設(shè)長度的 短串,映射單元203依次根據(jù)contig和得到的互補contig中所切割成的短串的堿基值在 排序后的測序序列中查找相應(yīng)的測序序列,建立映射關(guān)系。 在本發(fā)明實施例中,通過將測序序列按預(yù)設(shè)長度短串的堿基值排序,并將contig 逐個堿基切割成預(yù)設(shè)長度的短串,依次根據(jù)contig中所切割成的短串的堿基值在排序后 的測序序列中查找相應(yīng)的測序序列,建立映射關(guān)系,實現(xiàn)了用于短序組裝中的一種短序列 映射方法,處理時間短、效率高。 以上所述僅為本發(fā)明的較佳實施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精 神和原則之內(nèi)所作的任何修改、等同替換和改進等,均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。
權(quán)利要求
一種基因組短序列映射的快速處理方法,其特征在于,所述方法包括下述步驟將測序序列按預(yù)設(shè)長度短串的堿基值排序;將序列片段重疊群逐個堿基切割成所述預(yù)設(shè)長度的短串;依次根據(jù)所述序列片段重疊群中所切割成的短串的堿基值在排序后的測序序列中查找相應(yīng)的測序序列,在查找到的測序序列與所述序列片段重疊群間建立映射關(guān)系。
2. 如權(quán)利要求l所述的方法,其特征在于,所述預(yù)設(shè)長度為構(gòu)建de Bruijn圖時短串的長度。
3. 如權(quán)利要求2所述的方法,其特征在于,所述依次根據(jù)所述序列片段重疊群中所切 割成的短串的堿基值在排序后的測序序列中查找相應(yīng)的測序序列,在查找到的測序序列與 所述序列片段重疊群間建立映射關(guān)系的步驟具體為依次取所述序列片段重疊群切割得到的短串;在排序后的測序序列中查找短串的堿基值與序列片段重疊群中所取短串的堿基值相 等的所有測序序列;在查找到的測序序列與所述序列片段重疊群間建立映射關(guān)系。
4. 如權(quán)利要求3所述的方法,其特征在于,采用二分法在所述排序后的測序序列中查 找短串的堿基值與所述序列片段重疊群中所取短串的堿基值相等的測序序列。
5. 如權(quán)利要求1所述的方法,其特征在于,在所述將測序序列按預(yù)設(shè)長度短串的堿基 值排序的步驟前,所述方法還包括根據(jù)所述測序序列得到其互補測序序列; 所述將測序序列按預(yù)設(shè)長度短串的堿基值排序的步驟為 將測序序列和得到的互補測序序列按所述預(yù)設(shè)長度短串的堿基值排序; 所述依次根據(jù)所述序列片段重疊群中所切割成的短串的堿基值在排序后的測序序列中查找相應(yīng)的測序序列,在查找到的測序序列與所述序列片段重疊群間建立映射關(guān)系的步驟為依次根據(jù)所述序列片段重疊群中所切割成的短串的堿基值在排序后的測序序列及其 互補測序序列中查找相應(yīng)的測序序列和/或互補測序序列,在查找到的測序序列和/或互 補測序序列與所述序列片段重疊群間建立映射關(guān)系。
6. 如權(quán)利要求1所述的方法,其特征在于,在所述將序列片段重疊群逐個堿基切割成 所述預(yù)設(shè)長度的短串的步驟前,所述方法還包括根據(jù)所述序列片段重疊群得到其互補序列片段重疊群; 所述將序列片段重疊群逐個堿基切割成所述預(yù)設(shè)長度的短串的步驟為 將序列片段重疊群和得到的互補序列片段重疊群逐個堿基切割成所述預(yù)設(shè)長度的短串;所述依次根據(jù)所述序列片段重疊群中所切割成的短串的堿基值在排序后的測序序列 中查找相應(yīng)的測序序列,建立映射關(guān)系的步驟為依次根據(jù)所述序列片段重疊群和得到的互補序列片段重疊群中所切割成的短串的堿 基值在排序后的測序序列中查找相應(yīng)的測序序列,在查找到的測序序列與所述序列片段重 疊群間建立映射關(guān)系。
7. 如權(quán)利要求1所述的方法,其特征在于,所述將測序序列按預(yù)設(shè)長度短串的堿基值排序步驟為使用桶排序方式對短串的堿基值進行排序。
8. 如權(quán)利要求1所述的方法,其特征在于,所述將測序序列按預(yù)設(shè)長度短串的堿基值 排序過程中進一步包括建立一個索引數(shù)組,用于記錄短串數(shù)組中短串與所述序列片段重 疊群的對應(yīng)關(guān)系;在查找到的測序序列與所述序列片段重疊群間建立映射關(guān)系的步驟包括通過查詢所 述索引數(shù)組,在查找到的測序序列與所述序列片段重疊群間建立映射關(guān)系。
9. 一種基因組短序列映射的快速處理系統(tǒng),其特征在于,所述系統(tǒng)包括 排序單元,用于將測序序列按預(yù)設(shè)長度短串的堿基值排序;切割單元,用于將序列片段重疊群逐個堿基切割成所述預(yù)設(shè)長度的短串;以及 映射單元,用于依次根據(jù)所述序列片段重疊群中所切割成的短串的堿基值在排序后的測序序列中查找相應(yīng)的測序序列,在查找到的測序序列與所述序列片段重疊群間建立映射關(guān)系。
10. 如權(quán)利要求9所述的系統(tǒng),其特征在于,所述映射單元包括 短串獲取模塊,用于依次取所述序列片段重疊群切割得到的短串;查找模塊,用于在排序后的測序序列中查找短串的堿基值與所述短串獲取模塊所取短 串的堿基值相等的所有測序序列;以及關(guān)聯(lián)模塊,用于在查找到的測序序列與所述序列片段重疊群間建立映射關(guān)系。
11. 如權(quán)利要求9所述的系統(tǒng),其特征在于,所述短序列映射系統(tǒng)還包括 第一互補計算單元,用于根據(jù)所述測序序列得到其互補測序序列; 所述排序單元具體是用于將測序序列和得到的互補測序序列按所述預(yù)設(shè)長度短串的堿基值排序,所述映射單元具體是用于依次根據(jù)所述序列片段重疊群中所切割成的短串的 堿基值在排序后的測序序列及其互補測序序列中查找相應(yīng)的測序序列和/或互補測序序 列,在查找到的測序序列和/或互補測序序列與所述序列片段重疊群間建立映射關(guān)系。
12. 如權(quán)利要求9所述的系統(tǒng),其特征在于,所述短序列映射系統(tǒng)還包括 第二互補計算單元,用于根據(jù)所述序列片段重疊群得到其互補序列片段重疊群; 所述切割單元具體是用于將序列片段重疊群和得到的互補序列片段重疊群逐個堿基切割成所述預(yù)設(shè)長度的短串,所述映射單元具體是用于依次根據(jù)所述序列片段重疊群和得 到的互補序列片段重疊群中所切割成的短串的堿基值在排序后的測序序列中查找相應(yīng)的 測序序列,在查找到的測序序列與所述序列片段重疊群間建立映射關(guān)系。
全文摘要
本發(fā)明適用于基因工程技術(shù)領(lǐng)域,提供了一種基因組短序列映射的快速處理方法及系統(tǒng),所述方法包括下述步驟將測序序列按預(yù)設(shè)長度短串的堿基值排序;將序列片段重疊群逐個堿基切割成所述預(yù)設(shè)長度的短串;依次根據(jù)所述序列片段重疊群中所切割成的短串的堿基值在排序后的測序序列中查找相應(yīng)的測序序列,建立映射關(guān)系。在本發(fā)明中,通過將測序序列按預(yù)設(shè)長度短串的堿基值排序,并將序列片段重疊群逐個堿基切割成預(yù)設(shè)長度的短串,依次根據(jù)序列片段重疊群中所切割成的短串的堿基值在排序后的測序序列中查找相應(yīng)的測序序列,建立映射關(guān)系,實現(xiàn)了用于短序組裝中的一種短序列映射,處理時間短、效率高。
文檔編號C12Q1/68GK101751517SQ20091025246
公開日2010年6月23日 申請日期2009年12月11日 優(yōu)先權(quán)日2009年12月11日
發(fā)明者朱紅梅, 李瑞強, 楊煥明, 汪建, 王俊 申請人:深圳華大基因研究院
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1