亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

堿基序列重組系統(tǒng)及方法

文檔序號(hào):6508615閱讀:614來(lái)源:國(guó)知局
堿基序列重組系統(tǒng)及方法
【專利摘要】本發(fā)明公開一種堿基序列重組系統(tǒng)及方法。根據(jù)本發(fā)明的一個(gè)實(shí)施例的堿基序列重組系統(tǒng)包括:映射位置計(jì)算單元,從由短片段生成的多個(gè)種子序列中選擇一個(gè)種子序列,并計(jì)算選擇的種子序列在對(duì)象堿基序列中的映射位置;全局比對(duì)單元,從計(jì)算出的所述映射位置計(jì)算針對(duì)所述選擇的種子序列的重復(fù)判斷區(qū)域,并判斷在計(jì)算出的所述重復(fù)判斷區(qū)域中是否已執(zhí)行全局比對(duì),判斷結(jié)果如果沒有執(zhí)行,則在計(jì)算出的所述映射位置上執(zhí)行針對(duì)所述短片段的全局比對(duì)(Global?Alignment)。
【專利說(shuō)明】堿基序列重組系統(tǒng)及方法【技術(shù)領(lǐng)域】
[0001]本發(fā)明的實(shí)施例涉及一種用于分析基因組的堿基序列的技術(shù)。
【背景技術(shù)】
[0002]用于生產(chǎn)高容量短序列的第二代測(cè)序方式(NGS:Next Generation Sequencing)因其低廉的成本和迅速生成數(shù)據(jù)的能力而正在迅速地替代傳統(tǒng)的桑格(Sanger)測(cè)序方式。并且,開發(fā)出了多種聚焦于準(zhǔn)確度的NGS序列重組程序。然而,近來(lái)隨著第二代測(cè)序技術(shù)的發(fā)展,制作片段序列的費(fèi)用降低為過去的一半以下,隨之可用數(shù)據(jù)的量增加,因此需要開發(fā)一種能夠在短時(shí)間內(nèi)準(zhǔn)確地處理高容量短序列的技術(shù)。
[0003]序列重組的第一個(gè)步驟為通過堿基序列比對(duì)(alignment)算法而將短片段映射(mapping)于參考序列的正確位置上。其中的問題在于即使是同種個(gè)體,也可能因多種遺傳性變異而導(dǎo)致基因組序列上的差異。而且,測(cè)序過程中的誤差也可能導(dǎo)致堿基序列上的差異。因此,堿基序列比對(duì)算法必須有效考慮這種差異和變異而提高映射準(zhǔn)確度。
[0004]總而言之,為了對(duì)基因組信息進(jìn)行分析,需要盡量多而準(zhǔn)確的所有基因組信息數(shù)據(jù)。而且,為了達(dá)到這一目的,首先是要開發(fā)出具有很高的準(zhǔn)確度和較大處理量的堿基序列比對(duì)算法。然而,現(xiàn)有技術(shù)中的方法在滿足這些需求條件方面存在局限性。

【發(fā)明內(nèi)容】

[0005]本發(fā)明實(shí)施例的目的在于提供一種可在確保映射準(zhǔn)確度的同時(shí)通過改善映射時(shí)的復(fù)雜度而提高處理速度的堿基序列重組方案。
[0006]為了解決如上所述的技術(shù)問題,根據(jù)本發(fā)明一個(gè)實(shí)施例的堿基序列重組系統(tǒng)包括:映射位置計(jì)算單元,從由短片段生成的多個(gè)種子序列中選擇一個(gè)種子序列,并計(jì)算選擇的種子序列在對(duì)象堿基序列中的映射位置;全局比對(duì)單元,從計(jì)算出的所述映射位置計(jì)算針對(duì)所述選擇的種子序列的重復(fù)判斷區(qū)域,并判斷在計(jì)算出的所述重復(fù)判斷區(qū)域中是否已執(zhí)行全局比對(duì),判斷結(jié)果如果沒有執(zhí)行,則在計(jì)算出的所述映射位置上執(zhí)行針對(duì)所述短片段的全局比對(duì)(Global Alignment)。
[0007]另外,為了解決如上所述的技術(shù)問題,根據(jù)本發(fā)明一個(gè)實(shí)施例的堿基序列重組方法包括如下步驟:在映射位置計(jì)算單元中,從由短片段生成的多個(gè)種子序列中選擇一個(gè)種子序列,并計(jì)算選擇的種子序列在對(duì)象堿基序列中的映射位置;在全局比對(duì)單元中,從計(jì)算出的所述映射位置計(jì)算針對(duì)所述選擇的種子序列的重復(fù)判斷區(qū)域;在所述全局比對(duì)單元中,判斷在計(jì)算出的所述重復(fù)判斷區(qū)域中是否已執(zhí)行全局比對(duì),判斷結(jié)果如果沒有執(zhí)行,則在計(jì)算出的所述映射位置上執(zhí)行針對(duì)所述短片段的全局比對(duì)(Global Alignment)。
[0008]另外,根據(jù)本發(fā)明一個(gè)實(shí)施例的裝置包括:一個(gè)以上的處理器;存儲(chǔ)器;以及一個(gè)以上的程序,而且,構(gòu)成為所述一個(gè)以上的程序被存儲(chǔ)于所述存儲(chǔ)器中,并通過所述一個(gè)以上的處理器執(zhí)行,其中,所述程序中包括用于執(zhí)行如下步驟的命令:從由短片段生成的多個(gè)種子序列中選擇一個(gè)種子序列,并計(jì)算選擇的種子序列在對(duì)象堿基序列中的映射位置;從計(jì)算出的所述映射位置計(jì)算針對(duì)所述選擇的種子序列的重復(fù)判斷區(qū)域;判斷在計(jì)算出的所述重復(fù)判斷區(qū)域中是否已執(zhí)行全局比對(duì),判斷結(jié)果如果沒有執(zhí)行,則在計(jì)算出的所述映射位置上執(zhí)行針對(duì)所述短片段的全局比對(duì)。
[0009]根據(jù)本發(fā)明的實(shí)施例,由于在堿基序列比對(duì)時(shí)存儲(chǔ)已執(zhí)行全局比對(duì)的位置之后在對(duì)應(yīng)位置的周圍不去執(zhí)行全局比對(duì),因此可以減少在堿基序列比對(duì)過程中造成大量耗時(shí)的全局比對(duì)執(zhí)行次數(shù),并可以由此大幅減少堿基序列比對(duì)時(shí)間。
[0010]而且,通過將如上所述的不去重復(fù)執(zhí)行全局比對(duì)的重復(fù)區(qū)域的大小設(shè)定為與短片段的長(zhǎng)度成比例,從而不僅可以減少堿基序列比對(duì)時(shí)間,而且可以保持堿基序列比對(duì)的準(zhǔn)確度。
【專利附圖】

【附圖說(shuō)明】
[0011]圖1為用于說(shuō)明根據(jù)本發(fā)明一個(gè)實(shí)施例的堿基序列重組方法的圖。
[0012]圖2為用于舉例說(shuō)明根據(jù)本發(fā)明一個(gè)實(shí)施例的堿基序列比對(duì)方法的誤差個(gè)數(shù)計(jì)算過程的圖。
[0013]圖3為用于說(shuō)明根據(jù)本發(fā)明一個(gè)實(shí)施例的全局比對(duì)過程的順序圖。
[0014]圖4a至圖4e為用于舉例說(shuō)明根據(jù)本發(fā)明一個(gè)實(shí)施例的全局比對(duì)過程的圖。
[0015]圖5為示出根據(jù)本發(fā)明一個(gè)實(shí)施例的堿基序列重組系統(tǒng)的模塊圖。
[0016]符號(hào)說(shuō)明:
[0017]500:堿基序列重組系統(tǒng)502:種子序列生成單元
[0018]504:映射位置計(jì)算單元506:全局比對(duì)單元
【具體實(shí)施方式】
[0019]以下,參照【專利附圖】

【附圖說(shuō)明】本發(fā)明的【具體實(shí)施方式】。然而這僅僅是示例,本發(fā)明并不局限于此。
[0020]在對(duì)本發(fā)明進(jìn)行說(shuō)明時(shí),如果遇到對(duì)有關(guān)本發(fā)明的公知技術(shù)的具體說(shuō)明有可能不必要地干擾本發(fā)明的主旨的情況,則省略其詳細(xì)說(shuō)明。并且,后述的術(shù)語(yǔ)均為考慮本發(fā)明中的功能而進(jìn)行定義的,其可能因使用者、運(yùn)用人員的意圖或習(xí)慣等而有所不同。因此,要以整個(gè)說(shuō)明書的內(nèi)容為基礎(chǔ)對(duì)其進(jìn)行定義。
[0021]本發(fā)明的技術(shù)思想由權(quán)利要求書確定,以下的實(shí)施例只是為了將本發(fā)明的技術(shù)思想有效地傳遞給本發(fā)明所屬【技術(shù)領(lǐng)域】中具有普通知識(shí)的人員而采用的一種手段。
[0022]在對(duì)本發(fā)明的實(shí)施例進(jìn)行具體說(shuō)明之前,首先對(duì)本發(fā)明中使用的術(shù)語(yǔ)進(jìn)行如下說(shuō)明。
[0023]首先,“短片段(read)”是指基因組測(cè)序儀(genome sequencer)中輸出的長(zhǎng)度較短的堿基序列數(shù)據(jù)。短片段的長(zhǎng)度因基因組測(cè)序儀的種類而不同,通常構(gòu)成為35?500bp (base pair)范圍的多種長(zhǎng)度,在DNA堿基的情況下,通常用A、C、G、T等四個(gè)字母表
/Jn ο
[0024]“對(duì)象堿基序列”指可對(duì)利用所述短片段形成整個(gè)堿基序列提供參考的堿基序列(reference sequence)。在堿基序列分析中,通過將基因組測(cè)序儀所輸出的大量短片段映射于對(duì)象堿基序列而完成整個(gè)堿基序列。在本發(fā)明中,所述對(duì)象堿基序列既可以是堿基序列分析時(shí)預(yù)先設(shè)定的序列(例如人類的整個(gè)堿基序列等),或者也可以將基因組測(cè)序儀中產(chǎn)生的堿基序列使用為對(duì)象堿基序列。
[0025]“堿基(base)”為構(gòu)成對(duì)象堿基序列及短片段的最小單位。如前所述,構(gòu)成DNA的堿基可由A、C、G、T等四個(gè)字母表示的堿基構(gòu)成,將這些分別稱為堿基。換言之,對(duì)于DNA而言,可用四種堿基表示,短片段也是如此。
[0026]“種子序列(seed)”指為了短片段的映射而比較短片段與對(duì)象堿基序列時(shí)作為單位的序列(Sequence)。理論上講,為了將短片段映射于對(duì)象堿基序列,需要把整個(gè)短片段從對(duì)象堿基序列的最前端部分開始依次比較并計(jì)算短片段的映射位置。然而,由于這種方法在映射一個(gè)短片段時(shí)消耗過多的時(shí)間并要求過高的計(jì)算能力,因此實(shí)際上要先把作為由短片段的一部分所構(gòu)成的片的種子序列映射于對(duì)象堿基序列而找出整個(gè)短片段的映射候選位置,然后將整個(gè)短片段映射于對(duì)應(yīng)候選位置(全局比對(duì)=Global Alignment)。
[0027]圖1為用于說(shuō)明根據(jù)本發(fā)明一個(gè)實(shí)施例的堿基序列重組方法100的圖。在本發(fā)明的實(shí)施例中,堿基序列重組方法100指通過將基因組測(cè)序儀(genome sequencer)中輸出的短片段與對(duì)象堿基序列進(jìn)行比較而確定短片段在所述對(duì)象堿基序列中的映射(或比對(duì))位置,從而完成整個(gè)序列的一系列過程。
[0028]首先,如果從基因組測(cè)序儀(genome sequencer)接收到短片段(步驟102),則嘗試整個(gè)短片段與所述對(duì)象堿基序列之間的精確匹配(exact matching)(步驟104)。進(jìn)行所述嘗試的結(jié)果,如果針對(duì)整個(gè)短片段的精確匹配成功,則不執(zhí)行后續(xù)的比對(duì)步驟而判斷為比對(duì)成功(步驟106)。
[0029]將人類的堿基序列作為對(duì)象進(jìn)行實(shí)驗(yàn)的結(jié)果顯示,如果將基因組測(cè)序儀中輸出的100萬(wàn)個(gè)短片段精確匹配于人類的堿基序列,則在各短片段的長(zhǎng)度為755bp的情況下,在總共200萬(wàn)次的比對(duì)中(正向序列100萬(wàn)次,反向互補(bǔ)(reverse complement)方向序列100萬(wàn)次)出現(xiàn)231,564次的精確匹配。因此,執(zhí)行所述步驟104的結(jié)果可以減少約11.6%的比對(duì)量。
[0030]然而,如果與之相反,即在所述步驟106中判斷為對(duì)應(yīng)短片段并不精確匹配的情況下,則是計(jì)算將對(duì)應(yīng)短片段比對(duì)到所述對(duì)象堿基序列時(shí)可能出現(xiàn)的誤差(即不匹配)個(gè)數(shù)(步驟108)。
[0031]圖2為用于舉例表示所述步驟108中的所述誤差個(gè)數(shù)計(jì)算過程的圖。首先,如圖2的(a)所示,將誤差個(gè)數(shù)的初始值設(shè)定為O (mismatch=。),并從短片段的第一個(gè)堿基開始向右側(cè)逐個(gè)移動(dòng)而嘗試精確匹配。此時(shí),如圖2的(b)所示,假定在短片段的特定堿基(在圖中以箭頭表示)開始無(wú)法再實(shí)現(xiàn)精確匹配,則這種情況說(shuō)明從短片段的匹配起始位置到當(dāng)前位置之間的區(qū)間中的某處出現(xiàn)了誤差。因此,在這種情況下將誤差個(gè)數(shù)的值增加I(mismatch =0 — >1)之后在下一個(gè)位置上重新開始精確匹配(在圖中標(biāo)記為(C))。如果在以后又遇到判斷為無(wú)法精確匹配的情況,則是說(shuō)明從重新開始精確匹配的位置到當(dāng)前位置之間的區(qū)間某處又出現(xiàn)了誤差,因此又將誤差個(gè)數(shù)的值增加I Uismatch=I — >2)之后在下一個(gè)位置上重新開始精確匹配(在圖中標(biāo)記為(d))。通過這樣的過程,到達(dá)短片段末端時(shí)的誤差個(gè)數(shù)的值將成為對(duì)應(yīng)短片段的可能出現(xiàn)的誤差個(gè)數(shù)值。即,在圖示的實(shí)施例中短片段的誤差個(gè)數(shù)將是2。
[0032]若通過上述過程計(jì)算出了短片段的誤差個(gè)數(shù),則判斷計(jì)算出的誤差個(gè)數(shù)值是否超過預(yù)先設(shè)定的最大誤差允許值(maxError)(步驟110),判斷結(jié)果如果超過,則判斷為對(duì)應(yīng)短片段的比對(duì)失敗并終止比對(duì)。
[0033]在前述的將人類的堿基序列作為對(duì)象的實(shí)驗(yàn)中,將最大誤差允許值(maxError)設(shè)定為3而計(jì)算剩余短片段的誤差個(gè)數(shù)的結(jié)果顯示,共有844,891次實(shí)驗(yàn)的短片段超過所述最大誤差允許值。即,執(zhí)行所述步驟108的結(jié)果,能減少約42.2%的比對(duì)量。
[0034]相反地,如果在所述步驟110中判斷的結(jié)果,計(jì)算出的誤差個(gè)數(shù)值為所述最大誤差允許值以下,則將通過如下過程執(zhí)行對(duì)應(yīng)短片段的比對(duì)。
[0035]首先,由所述短片段生成多個(gè)種子序列(步驟112),并利用生成的所述多個(gè)種子序列而執(zhí)行針對(duì)所述短片段的全局比對(duì)(global alignment)(步驟114)。此時(shí),如果進(jìn)行所述全局比對(duì)的結(jié)果為短片段的誤差個(gè)數(shù)超過預(yù)先設(shè)定的最大誤差允許值(maxError),則判斷為比對(duì)失敗,否則判斷為比對(duì)成功。
[0036]以下便詳細(xì)說(shuō)明所述步驟112及步驟114的具體過程。
[0037]由短片段生成多個(gè)種子序列(步驟112)
[0038]本步驟是為了正式執(zhí)行短片段的比對(duì)而由短片段生成多個(gè)作為小片的種子序列的步驟。在本步驟中將通過考慮所述短片段的部分或整體而生成多個(gè)種子序列。例如,可通過將短片段的整體或特定區(qū)間分割為多個(gè)片或者將分割的片進(jìn)行組合而生成種子序列。這種情況下,生成的種子序列可以連續(xù)地相連,然而并非一定要如此,也可以用短片段內(nèi)分離的片的組合構(gòu)成種子序列。并且,生成的種子序列并非一定要具有相同的長(zhǎng)度,在一個(gè)短片段內(nèi)也可以生成多種長(zhǎng)度的種子序列??偠灾?本發(fā)明中的由短片段生成種子序列的方法并不受到特別的局限,從短片段的一部分或整體中提取種子序列的各種算法均可不受限制地使用。
[0039]全局比)(寸(Global Alignment) (/PM 114)
[0040]如果通過上述過程生成了種子序列,接著便利用生成的種子序列執(zhí)行所述短片段對(duì)所述對(duì)象堿基序列的全局比對(duì)。具體而言,在本步驟中通過利用所述步驟112中生成的種子序列而在所述對(duì)象堿基序列中的各種子序列映射位置上依次執(zhí)行全局比對(duì),從而將所述短片段映射于所述對(duì)象堿基序列。
[0041]圖3為用于說(shuō)明根據(jù)本發(fā)明一個(gè)實(shí)施例的全局比對(duì)過程114的順序圖。首先,從由短片段生成的多個(gè)種子序列中選擇一個(gè)種子序列(步驟302),并計(jì)算所選種子序列在對(duì)象堿基序列中的映射位置(步驟304)。在本發(fā)明的實(shí)施例中,如果不加特別限定而只記載為種子序列的“映射位置”,則是表示與對(duì)應(yīng)種子序列的第一個(gè)堿基相對(duì)應(yīng)的對(duì)象序列的位置,而種子序列的“第k個(gè)映射位置”表示與對(duì)應(yīng)種子序列的第k個(gè)堿基相對(duì)應(yīng)的對(duì)象序列的位置。
[0042]然后,從計(jì)算出的所述映射位置計(jì)算針對(duì)所選種子序列的重復(fù)判斷區(qū)域(步驟306)。例如,可將所述重復(fù)判斷區(qū)域設(shè)定為與所選種子序列的在所述對(duì)象堿基序列上的第k個(gè)映射位置(I ^ k ^ N, N為所選種子序列的長(zhǎng)度)之間的距離為設(shè)定基準(zhǔn)值以內(nèi)的區(qū)域。
[0043]并且,所述重復(fù)判斷區(qū)域還可以通過以下數(shù)學(xué)式I計(jì)算。
[0044][數(shù)學(xué)式I]
[0045]ma-V≤重復(fù)判斷區(qū)域≤mb+V
[0046](其中,ma為所選種子序列的第a個(gè)映射位置(I≤a≤N),mb為所選種子序列的第b個(gè)映射位置(I < b < N),N為所選種子序列的長(zhǎng)度,V為基準(zhǔn)值)
[0047]如果通過上述方法計(jì)算出了重復(fù)判斷區(qū)域,接著便判斷在計(jì)算出的所述重復(fù)判斷區(qū)域內(nèi)是否已執(zhí)行全局比對(duì)(步驟308)。此時(shí),可通過判斷先前步驟中進(jìn)行全局比對(duì)時(shí)的映射位置(即,執(zhí)行全局比對(duì)的種子序列的第一個(gè)映射位置)是否包含在所述重復(fù)判斷區(qū)域來(lái)判斷所述重復(fù)判斷區(qū)域中是否已執(zhí)行全局比對(duì)。進(jìn)行所述判斷的結(jié)果,如果在所述重復(fù)判斷區(qū)域內(nèi)已執(zhí)行全局比對(duì),則不去執(zhí)行針對(duì)在所述步驟302中所選種子序列的全局比對(duì),在這種情況下,判斷生成的所述種子序列中是否存在尚未執(zhí)行全局比對(duì)而剩余的種子序列(步驟314),判斷結(jié)果如果存在,則返回所述步驟302而對(duì)剩余種子序列中重新被選擇的種子序列再次進(jìn)行上述過程。此時(shí),如果在所述步驟314中判斷的結(jié)果為不存在剩余的種子序列,則針對(duì)所述短片段的比對(duì)被判斷為失敗。
[0048]另外,在所述步驟308中判斷的結(jié)果,如果在對(duì)應(yīng)區(qū)域中尚未執(zhí)行全局比對(duì),則通過在計(jì)算出的所述映射位置上執(zhí)行針對(duì)所述短片段的全局比對(duì)(步驟310),從而判斷計(jì)算出的誤差個(gè)數(shù)是否超過預(yù)先設(shè)定的最大誤差允許值(步驟312)。在所述步驟312中判斷的結(jié)果,在對(duì)應(yīng)的映射位置上的誤差個(gè)數(shù)為所述最大誤差允許值以內(nèi)的情況下,判斷為短片段的比對(duì)成功。但是,在所述誤差個(gè)數(shù)超過最大誤差允許值的情況下,將接著判斷是否存在剩余種子序列(步驟314),判斷結(jié)果如果存在,則返回所述步驟302而對(duì)剩余種子序列中重新被選擇的種子序列再次進(jìn)行上述過程。此時(shí),如果在所述步驟314中判斷的結(jié)果為不存在剩余的種子序列,則針對(duì)所述短片段的比對(duì)被判斷為失敗。
[0049]如果對(duì)所述步驟306及步驟308進(jìn)行更為詳細(xì)的說(shuō)明,則如圖4a至4e所示。在圖示的實(shí)施例中假定從短片段中提取了 3個(gè)種子序列SEED1、SEED2、SEED3,其在各對(duì)象堿基序列中的映射位置分別為2001bp、2101bp、2301bp,用于判斷各種子序列是否已全局比對(duì)的基準(zhǔn)值為128bp,各種子序列的長(zhǎng)度為30bp,且為了短片段的比對(duì)以SEED1、SEED2、SEED3的順序執(zhí)行全局比對(duì)。首先,由于對(duì)SEEDl而言不存在以前執(zhí)行過的全局比對(duì),因此正常地在對(duì)應(yīng)位置2001bp上將短片段全局比對(duì)于對(duì)象堿基序列。然而,對(duì)于下一個(gè)要被映射的SEED2而言,全局比對(duì)的執(zhí)行與否將根據(jù)從SEED2的映射位置計(jì)算出的重復(fù)判斷區(qū)域而決定。
[0050]首先,如圖4a所示,可將所述重復(fù)判斷區(qū)域定義為與種子序列的第一個(gè)映射位置之間的距離為基準(zhǔn)值以內(nèi)的區(qū)域。即,在圖示的實(shí)施例中,SEED2的重復(fù)判斷區(qū)域?yàn)橐許EED2的第一個(gè)映射位置2101bp為基準(zhǔn)向前后各有128bp長(zhǎng)度的區(qū)域(在圖中表示為灰色的區(qū)域)。在這種情況下,由于已在所述重復(fù)判斷區(qū)域內(nèi)執(zhí)行了針對(duì)SEEDl的全局比對(duì),因此不執(zhí)行SEED2的映射位置上的全局比對(duì)。
[0051]其次,如圖4b所示,可將所述重復(fù)判斷區(qū)域定義為與種子序列的最后一個(gè)映射位置之間的距離為基準(zhǔn)值以內(nèi)的區(qū)域。即,在圖示的實(shí)施例中,SEED2的重復(fù)判斷區(qū)域?yàn)橐許EED2的最后一個(gè)映射位置2130bp為基準(zhǔn)向前后各有128bp長(zhǎng)度的區(qū)域(在圖中表示為灰色的區(qū)域)。在這種情況下,由于已執(zhí)行全局比對(duì)的SEEDl的映射位置2001bp在所述重復(fù)判斷區(qū)域之外,因此在SEED2的映射位置上執(zhí)行全局比對(duì)。
[0052]圖4c對(duì)圖4a及圖4b所示實(shí)施例進(jìn)行了一般化,表示了將重復(fù)判斷區(qū)域設(shè)定為與種子序列的第k個(gè)映射位置(I < k < N,其中N為種子序列的長(zhǎng)度)之間的距離為基準(zhǔn)值以內(nèi)的區(qū)域的實(shí)施例。在這種情況下,SEED2的全局比對(duì)與否將根據(jù)所述k的值而改變。[0053]另外,如圖4d所示,也可將所述重復(fù)判斷區(qū)域構(gòu)成為包含從種子序列的第一個(gè)映射位置向?qū)ο髩A基序列的前方移動(dòng)相當(dāng)于基準(zhǔn)值的距離后的位置到從種子序列的最后一個(gè)映射位置向?qū)ο髩A基序列的后方移動(dòng)相當(dāng)于基準(zhǔn)值的距離后的位置之間的區(qū)域。即,在這種情況下,得到如同將圖4a及圖4b中的重復(fù)判斷區(qū)域合并的結(jié)果。圖4e表示將其一般化而根據(jù)前述數(shù)學(xué)式I設(shè)定重復(fù)判斷區(qū)域的實(shí)施例。
[0054]之所以如上所述地在對(duì)一個(gè)種子序列執(zhí)行了全局比對(duì)的情況下不執(zhí)行針對(duì)其周圍的全局比對(duì),是由于如下原因。由于成為全局比對(duì)候選對(duì)象的各種子序列是從一個(gè)短片段中獲得的,因此各種子序列在對(duì)象堿基序列中映射于相近的區(qū)間即意味著對(duì)應(yīng)短片段在對(duì)應(yīng)區(qū)間內(nèi)得到映射的可能性很高。因此在這種情況下即使只是對(duì)相應(yīng)區(qū)間內(nèi)得到映射的多個(gè)種子序列中的一個(gè)種子序列執(zhí)行全局比對(duì),也完全可以將短片段映射于對(duì)應(yīng)位置上。而且,反過來(lái)看,如果對(duì)映射于相近區(qū)間內(nèi)的多個(gè)種子序列中的一個(gè)種子序列進(jìn)行全局比對(duì)的結(jié)果沒有使短片段得到映射,則說(shuō)明其他種子序列也沒有映射于對(duì)應(yīng)區(qū)間的可能性較高。因此,在本發(fā)明的實(shí)施例中通過對(duì)各種子序列設(shè)定重復(fù)判斷區(qū)域,并在已在對(duì)應(yīng)區(qū)域內(nèi)執(zhí)行全局比對(duì)的情況下不去重復(fù)執(zhí)行全局比對(duì),從而可以有效地減少需要花費(fèi)非常多時(shí)間的全局比對(duì)次數(shù)。具體而言,使用本發(fā)明的全局比對(duì)方法的算法與未使用該方法的算法之間存在約30?35倍的速度差異。
[0055]另外,可將所述基準(zhǔn)值設(shè)定為與所述短片段的長(zhǎng)度成比例,具體而言,可將所述基準(zhǔn)值設(shè)定為所述短片段長(zhǎng)度的100%?170%。所述基準(zhǔn)值與短片段的長(zhǎng)度成比例是因?yàn)槿直葘?duì)為通過短片段而執(zhí)行。即,由于與映射位置之間的距離為短片段長(zhǎng)度以內(nèi)的區(qū)間已執(zhí)行全局比對(duì),因此沒有必要重復(fù)執(zhí)行全局比對(duì)。而且,所述基準(zhǔn)值被提高到短片段長(zhǎng)度的170%是因?yàn)閴A基序列的插入(insertion)或刪除(deletion)等可能導(dǎo)致短片段或?qū)ο髩A基序列產(chǎn)生誤差,因而要予以考慮。如上所述地使所述基準(zhǔn)值與短片段的長(zhǎng)度聯(lián)動(dòng)而變化的情況下,具有可以如前所述地提高堿基序列重組算法的速度的同時(shí)能夠保持映射準(zhǔn)確度的優(yōu)點(diǎn)。
[0056]圖5為根據(jù)本發(fā)明一個(gè)實(shí)施例的堿基序列重組系統(tǒng)500的模塊圖。根據(jù)本發(fā)明一個(gè)實(shí)施例的堿基序列重組系統(tǒng)500作為一種用于執(zhí)行前述的堿基序列重組方法的裝置,包括種子序列生成單元502、映射位置計(jì)算單元504、全局比對(duì)單元506。
[0057]種子序列生成單元502利用從基因組測(cè)序儀獲得的短片段生成多個(gè)種子序列。如前所述,在種子序列生成單元502中由短片段生成種子序列的方法并不受到特別的局限,由短片段的一部分或整體提取種子序列的多種算法均可不受限制地使用。
[0058]映射位置計(jì)算單元504從由種子序列生成單元502生成的多個(gè)種子序列中選擇一個(gè)種子序列,并計(jì)算針對(duì)所選種子序列的對(duì)象堿基序列中的映射位置。
[0059]全局比對(duì)單元506由映射位置計(jì)算單元504所計(jì)算出的所述映射位置計(jì)算針對(duì)所選種子序列的重復(fù)判斷區(qū)域,并判斷在計(jì)算出的所述重復(fù)判斷區(qū)域內(nèi)是否已執(zhí)行全局比對(duì),且在沒有執(zhí)行的情況下在計(jì)算出的所述映射位置上執(zhí)行針對(duì)所述短片段的全局比對(duì)(Global Alignment)。在這種情況下,由于已在前面詳述與計(jì)算所述重復(fù)判斷區(qū)域相關(guān)的具體內(nèi)容,因此在此處省略詳細(xì)說(shuō)明。
[0060]另外,本發(fā)明的實(shí)施例可以包括記錄有用于將本說(shuō)明書中記載的方法在計(jì)算機(jī)上執(zhí)行的程序的計(jì)算機(jī)可讀記錄介質(zhì)。所述計(jì)算機(jī)可讀記錄介質(zhì)可將程序命令、本地?cái)?shù)據(jù)文件、本地?cái)?shù)據(jù)結(jié)構(gòu)等單獨(dú)或組合而包括在內(nèi)。所述介質(zhì)既可以是為了本發(fā)明而特別設(shè)計(jì)并構(gòu)成的,也可以是計(jì)算機(jī)軟件領(lǐng)域中具有普通知識(shí)的人員所公知而能夠使用。計(jì)算機(jī)可讀記錄介質(zhì)的實(shí)例中包括硬盤、軟盤、磁帶等磁介質(zhì);只讀光盤(CD-ROM)、DVD等光記錄介質(zhì);軟盤等磁光介質(zhì);只讀存儲(chǔ)器、隨機(jī)存儲(chǔ)器、閃存等為了存儲(chǔ)并執(zhí)行程序命令而特意構(gòu)成的硬件裝置。程序命令的實(shí)例中不僅包括通過編譯器(Compiler)制作的機(jī)器語(yǔ)言代碼,而且還可以包括借助于解釋器(Interpreter)等而能夠在計(jì)算機(jī)上執(zhí)行的高級(jí)語(yǔ)言代碼。
[0061]以上通過代表性的實(shí)施例對(duì)本發(fā)明進(jìn)行了詳細(xì)說(shuō)明,然而本發(fā)明所屬【技術(shù)領(lǐng)域】中具有普通知識(shí)的人員即可明白在不脫離本發(fā)明范圍的條件下對(duì)上述實(shí)施例能夠進(jìn)行多種多樣的變形。
[0062]因此不能局限于上述實(shí)施例而確定本發(fā)明的權(quán)利范圍,本發(fā)明的范圍應(yīng)當(dāng)由權(quán)利要求書及其等價(jià)內(nèi)容確定。
【權(quán)利要求】
1.一種喊基序列重組系統(tǒng),包括: 映射位置計(jì)算單元,從由短片段生成的多個(gè)種子序列中選擇一個(gè)種子序列,并計(jì)算選擇的種子序列在對(duì)象堿基序列中的映射位置; 全局比對(duì)單元,從計(jì)算出的所述映射位置計(jì)算對(duì)應(yīng)于所述選擇的種子序列的重復(fù)判斷區(qū)域,并判斷在計(jì)算出的所述重復(fù)判斷區(qū)域中是否已執(zhí)行全局比對(duì),判斷結(jié)果如果沒有執(zhí)行所述全局比對(duì),則在計(jì)算出的所述映射位置上執(zhí)行針對(duì)所述短片段的全局比對(duì)。
2.如權(quán)利要求1所述的堿基序列重組系統(tǒng),其特征在于,所述重復(fù)判斷區(qū)域?yàn)榕c所述選擇的種子序列在所述對(duì)象堿基序列中的第k個(gè)映射位置之間的距離為設(shè)定基準(zhǔn)值以內(nèi)的區(qū)域,其中,I ^ k ^ N, N為所述選擇的種子序列的長(zhǎng)度。
3.如權(quán)利要求2所述的堿基序列重組系統(tǒng),其特征在于,所述基準(zhǔn)值被設(shè)定為與所述短片段的長(zhǎng)度成比例。
4.如權(quán)利要求3所述的堿基序列重組系統(tǒng),其特征在于,所述基準(zhǔn)值被設(shè)定為所述短片段的長(zhǎng)度的100%~170%。
5.如權(quán)利要求1所述的堿基序列重組系統(tǒng),其特征在于,所述重復(fù)判斷區(qū)域?yàn)楦鶕?jù)如下數(shù)學(xué)式進(jìn)行計(jì)算: Hia-V≤重復(fù)判斷區(qū)域≤mb+V, 其中,ma為所述選擇的種子序列的第a個(gè)映射位置,mb為所述選擇的種子序列的第b個(gè)映射位置,N為所述選擇的種子序列的長(zhǎng)度,V為基準(zhǔn)值,并且,I≤a≤N,I≤b≤N。
6.如權(quán)利要求5所述的堿基序列重組系統(tǒng),其特征在于,所述基準(zhǔn)值被設(shè)定為與所述短片段的長(zhǎng)度成比例。
7.如權(quán)利要求6所述的堿基序列重組系統(tǒng),其特征在于,所述基準(zhǔn)值被設(shè)定為所述短片段的長(zhǎng)度的100%~170%。
8.如權(quán)利要求1所述的堿基序列重組系統(tǒng),其特征在于,當(dāng)已執(zhí)行全局比對(duì)的種子序列的映射位置被包含于所述重復(fù)判斷區(qū)域內(nèi)時(shí),所述全局比對(duì)單元將判斷在所述重復(fù)判斷區(qū)域內(nèi)已執(zhí)行全局比對(duì)。
9.一種堿基序列重組方法,包括如下步驟: 在映射位置計(jì)算單元中,從由短片段生成的多個(gè)種子序列中選擇一個(gè)種子序列,并計(jì)算選擇的種子序列在對(duì)象堿基序列中的映射位置; 在全局比對(duì)單元中,從計(jì)算出的所述映射位置計(jì)算針對(duì)所述選擇的種子序列的重復(fù)判斷區(qū)域; 在所述全局比對(duì)單元中,判斷在計(jì)算出的所述重復(fù)判斷區(qū)域中是否已執(zhí)行全局比對(duì),判斷結(jié)果如果沒有執(zhí)行所述全局比對(duì),則在計(jì)算出的所述映射位置上執(zhí)行針對(duì)所述短片段的全局比對(duì)。
10.如權(quán)利要求9所述的堿基序列重組方法,其特征在于,所述重復(fù)判斷區(qū)域?yàn)榕c所述選擇的種子序列在所述對(duì)象堿基序列中的第k個(gè)映射位置之間的距離為設(shè)定基準(zhǔn)值以內(nèi)的區(qū)域,其中,I ^ k ^ N, N為所述選擇的種子序列的長(zhǎng)度。
11.如權(quán)利要求10所述的堿基序列重組方法,其特征在于,所述基準(zhǔn)值被設(shè)定為與所述短片段的長(zhǎng)度成比例。
12.如權(quán)利要求11所述的堿基序列重組方法,其特征在于,所述基準(zhǔn)值被設(shè)定為所述短片段的長(zhǎng)度的100%~170%。
13.如權(quán)利要求9所述的堿基序列重組方法,其特征在于,所述重復(fù)判斷區(qū)域?yàn)楦鶕?jù)如下數(shù)學(xué)式進(jìn)行計(jì)算: Hia-V≤重復(fù)判斷區(qū)域≤mb+V, 其中,ma為所述選擇的種子序列的第a個(gè)映射位置,mb為所述選擇的種子序列的第b個(gè)映射位置,N為所述選擇的種子序列的長(zhǎng)度,V為基準(zhǔn)值,并且,I≤a≤N,I≤b≤N。
14.如權(quán)利要求13所述的堿基序列重組方法,其特征在于,所述基準(zhǔn)值被設(shè)定為與所述短片段的長(zhǎng)度成比例。
15.如權(quán)利要求14所述的堿基序列重組方法,其特征在于,所述基準(zhǔn)值被設(shè)定為所述短片段的長(zhǎng)度的100%~170%。
16.如權(quán)利要求9所述的堿基序列重組方法,其特征在于,當(dāng)已執(zhí)行全局比對(duì)的種子序列的映射位置被包含于所述重復(fù)判斷區(qū)域內(nèi)時(shí),所述全局比對(duì)單元將判斷在所述重復(fù)判斷區(qū)域內(nèi)已執(zhí)行全局比對(duì)。
17.一種裝置,包括: 一個(gè)以上的處理器; 存儲(chǔ)器; 一個(gè)以上的程序, 而且,構(gòu)成為所述一個(gè)以上的程序被存儲(chǔ)于所述存儲(chǔ)器中,并通過所述一個(gè)以上的處理器執(zhí)行, 其中,所述程序中包括用于執(zhí)行如下步驟的命令: 從由短片段生成的多個(gè)種子序列中選擇一個(gè)種子序列,并計(jì)算選擇的種子序列在對(duì)象堿基序列中的映射位置; 從計(jì)算出的所述映射位置計(jì)算針對(duì)所述選擇的種子序列的重復(fù)判斷區(qū)域; 判斷在計(jì)算出的所述重復(fù)判斷區(qū)域中是否已執(zhí)行全局比對(duì),判斷結(jié)果如果沒有執(zhí)行所述全局比對(duì),則在計(jì)算出的所述映射位置上執(zhí)行針對(duì)所述短片段的全局比對(duì)。
【文檔編號(hào)】G06F19/18GK103793623SQ201310369701
【公開日】2014年5月14日 申請(qǐng)日期:2013年8月22日 優(yōu)先權(quán)日:2012年10月29日
【發(fā)明者】樸旻 申請(qǐng)人:三星Sds株式會(huì)社
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1