考慮整個短片段的堿基序列比對系統(tǒng)及方法
【專利摘要】本發(fā)明公開一種考慮整個短片段的堿基序列比對系統(tǒng)及方法。根據(jù)本發(fā)明一個實施例的堿基序列比對系統(tǒng)包括:片段序列生成單元,用于從短片段序列的整個區(qū)間生成一個以上的片段(fragment)序列;比對單元,利用生成的所述片段序列而執(zhí)行針對所述短片段序列的全局比對(global?alignment)。
【專利說明】考慮整個短片段的堿基序列比對系統(tǒng)及方法
【技術領域】
[0001]本發(fā)明的實施例涉及一種用于分析基因組的堿基序列的技術。
【背景技術】
[0002]用于生產(chǎn)高容量短序列的第二代測序方式(NGS:Next Generation Sequencing)因其低廉的成本和迅速生成數(shù)據(jù)的能力而正在迅速地替代傳統(tǒng)的桑格(Sanger)測序方式。并且,開發(fā)出了多種聚焦于準確度的NGS序列重組程序。然而,近來隨著第二代測序技術的發(fā)展,制作片段序列的費用降低為過去的一半以下,隨之可用數(shù)據(jù)的量增加,因此需要開發(fā)一種能夠在短時間內(nèi)準確地處理高容量短序列的技術。
[0003]序列重組的第一個步驟為通過堿基序列比對(alignment)算法而將短片段映射(mapping)于參考序列的正確位置上。其中的問題在于即使是同種個體,也可能因多種遺傳性變異而導致基因組序列上的差異。而且,測序過程中的誤差也可能導致堿基序列上的差異。因此,堿基序列比對算法必須有效考慮這種差異和變異而提高映射準確度。
[0004]總而言之,為了對基因組信息進行分析,需要盡量多而準確的所有基因組信息數(shù)據(jù)。而且,為了達到這一目的,首先是要開發(fā)出具有很高的準確度和較大處理量的堿基序列比對算法。然而,現(xiàn)有技術中的方法在滿足這些需求條件方面存在局限性。
【發(fā)明內(nèi)容】
[0005]本發(fā)明實施例的目的在于提供一種可在確保映射準確度的同時通過改善映射時的復雜度而提高處理速度的堿基序列比對方案。
[0006]為了解決如上所述的技術問題,根據(jù)本發(fā)明一個實施例的堿基序列比對(alignment)系統(tǒng)包括:片段序列生成單元,用于從短片段序列的整個區(qū)間生成一個以上的片段(fragment)序列;比對單元,利用生成的所述片段序列而執(zhí)行針對所述短片段序列的全局比對(global alignment)ο
[0007]另外,為了解決如上所述的技術問題,根據(jù)本發(fā)明一個實施例的用于將短片段(read)序列比對于參考序列的方法包括如下步驟:在片段序列生成單元中,從所述短片段序列的整個區(qū)間生成一個以上的片段(fragment)序列;在比對單元中,利用生成的所述片段序列而執(zhí)行針對所述短片段序列的全局比對(global alignment)。
[0008]根據(jù)本發(fā)明的實施例,由于在進行短片段序列的比對時不再只是考慮短片段的特定區(qū)域,而是通過考慮整個短片段而選擇種子序列(片段序列),因此與只考慮短片段的一部分的算法相比時,可以提高準確度。
【專利附圖】
【附圖說明】
[0009]圖1為用于說明根據(jù)本發(fā)明一個實施例的堿基序列比對方法的圖。
[0010]圖2為用于舉例表示根據(jù)本發(fā)明一個實施例的堿基序列比對方法中估計短片段序列的誤差個數(shù)的過程的圖。[0011]圖3為用于舉例表示根據(jù)本發(fā)明一個實施例的片段序列生成過程的圖。
[0012]圖4為用于舉例表示根據(jù)本發(fā)明另一實施例的片段序列生成過程的圖。
[0013]圖5為用于舉例表示根據(jù)本發(fā)明又一實施例的片段序列生成過程的圖。
[0014]圖6為根據(jù)本發(fā)明一個實施例的堿基序列比對系統(tǒng)的模塊圖。
[0015]符號說明:
[0016]600:堿基序列比對系統(tǒng)602:片段序列生成單元
[0017]604:比對單元606:篩選單元
[0018]608:誤差個數(shù)估計單元
【具體實施方式】
[0019]以下,參照【專利附圖】
【附圖說明】本發(fā)明的【具體實施方式】。然而這僅僅是示例,本發(fā)明并不局限于此。
[0020]在對本發(fā)明進行說明時,如果遇到對有關本發(fā)明的公知技術的具體說明有可能不必要的干擾本發(fā)明的主旨的情況,則省略其詳細說明。并且,后述的術語均為考慮本發(fā)明中的功能而進行定義的,其可能因使用者、運用人員的意圖或習慣等而有所不同。因此,要以整個說明書的內(nèi)容為基礎對其進行定義。
[0021]本發(fā)明的技術思想由權利要求書確定,以下的實施例只是為了將本發(fā)明的技術思想有效地傳遞給本發(fā)明所屬【技術領域】中具有普通知識的人員而采用的一種手段。
[0022]在對本發(fā)明的實施例進行具體說明之前,首先對本發(fā)明中使用的術語進行如下說明。
[0023]首先,“短片段序列(read sequence)"(或者簡稱為“短片段(read)”)是指基因組測序儀(genome sequencer)中輸出的短堿基序列數(shù)據(jù)。短片段序列的長度因基因組測序儀的種類而不同,通常構成為35~500bp (base pair)范圍的多種長度,在DNA堿基的情況下,通常用字母A、C、G、T表示。
[0024]“參考序列(reference sequence)"指可對利用所述短片段序列形成整個堿基序列提供參考的堿基序列。在堿基序列分析中,通過將基因組測序儀所輸出的大量短片段參照參考序列進行映射而完成整個堿基序列。在本發(fā)明中,所述參考序列既可以是堿基序列分析時預先設定的序列(例如人類的整個堿基序列等),或者也可以將基因組測序儀中產(chǎn)生的堿基序列使用為參考序列。
[0025]“堿基(base)”為構成參考序列及短片段的最小單位。如前所述,構成DNA的堿基可由A、C、G、T等四個字母表示,將這些分別稱為堿基。即,對于DNA而言,可用四種堿基表不,短片段序列也是如此。
[0026]“種子序列(seed)”是指為了短片段序列的映射而作為將短片段序列與參考序列進行比較時的單位的序列。從理論上講,為了將短片段映射于參考序列,需要把整個短片段從參考序列的最前端部分開始依次比較的同時計算短片段的映射位置。然而由于這種方法在映射一個短片段時消耗過多的時間并要求過高的計算能力,因此實際上要先把作為短片段的一部分所構成的片,即種子序列映射于參考序列而找出整個短片段序列的候選位置,然后將整個短片段序列映射于對應候選位置(Global Alignment)。
[0027]“片段序列”是指作為用于構成所述種子序列的候選對象的所述短片段的片段。即,在本發(fā)明的實施例中是從短片段中提取一個以上的片段序列,并從提取的片段序列中只收集與參考序列相匹配的片段序列來構成種子序列集合。此時,將包含于所述種子序列集合中的片段序列稱為種子序列。
[0028]圖1為用于說明根據(jù)本發(fā)明一個實施例的堿基序列比對方法100的圖。在本發(fā)明的實施例中,堿基序列比對方法100指通過將基因組測序儀(genome sequencer)中輸出的短片段序列與參考序列進行比較而確定短片段序列在所述參考序列中的映射(或比對)位置的一系列過程。
[0029]首先,如果從基因組測序儀(genome sequencer)接收到短片段序列(步驟102),則嘗試整個短片段序列與所述參考序列之間的精確匹配(exact matching)(步驟104)。執(zhí)行所述步驟104的結果,如果針對整個短片段的精確匹配成功,則不執(zhí)行后續(xù)的比對步驟而判斷為比對成功(步驟106)。將人類的堿基序列作為對象進行實驗的結果顯示,如果將基因組測序儀中輸出的100萬個短片段序列精確匹配于人類的堿基序列,則在總共200萬次的比對中(正向序列100萬次,反向互補(reverse complement)方向序列100萬次)出現(xiàn)231,564次的精確匹配。因此,執(zhí)行所述步驟104的結果約可以減少11.6%的比對工作量。
[0030]然而,如果與之相反,即在所述步驟106中判斷為對應短片段序列并不精確匹配的情況下,則是估計將對應短片段序列比對于所述參考序列時可能出現(xiàn)的誤差個數(shù)(步驟108)。
[0031]圖2為用于舉例表示所述步驟108中的誤差個數(shù)估計過程的圖。如圖2的(I)所示,首先將初始估計誤差個數(shù)設定為0,并從短片段序列的第一個堿基向短片段的末端方向以一個堿基為單位逐個移動的同時嘗試精確匹配。此時,如圖2的(2)所示,假定從短片段序列的特定堿基(圖中以第二個T標記的部分)開始無法再實現(xiàn)精確匹配,則這種情況說明從短片段序列的匹配起始位置到當前位置之間的區(qū)間中的某處出現(xiàn)了誤差。因此,在這種情況下將估計誤差個數(shù)增加I之后在下一個位置上重新開始精確匹配(在圖中標記為
(3))。如果以后在特定位置上又遇到判斷為無法精確匹配的情況,則是說明從重新開始精確匹配的位置到當前位置之間的區(qū)間某處又出現(xiàn)了誤差,因此又將估計誤差個數(shù)增加I之后在下一個位置上重新開始精確匹配(在圖中標記為(4))。通過這樣的過程,到達短片段末尾時的估計誤差個數(shù)將成為可能存在于對應短片段中的誤差個數(shù)。
[0032]若通過上述過程計算出了短片段序列的估計誤差個數(shù),則判斷計算出的估計誤差個數(shù)是否超過預先設定的最大誤差允許值(maxError)(步驟110),判斷結果如果超過,則判斷為對應短片段序列的比對失敗并終止比對。在前述的將人類的堿基序列作為對象的實驗中,將最大誤差允許值(maxEiror)設定為3而計算剩余短片段的估計誤差個數(shù)的結果顯示,共有844,891次實驗的短片段超過所述最大誤差允許值。即,執(zhí)行所述步驟108的結果,約能減少42.2%的比對工作量。
[0033]相反地,如果在所述步驟110中判斷的結果,估計誤差個數(shù)為所述最大誤差允許值以下,則將通過如下過程執(zhí)行對應短片段序列的比對。
[0034]首先,由所述短片段序列生成一個以上的片段(fragment)序列(步驟112),并組成只包含生成的所述一個以上的片段序列當中與所述參考序列相匹配的片段序列的片段序列集合,即種子序列集合(步驟114)。然后,利用包含于所述種子序列集合中的片段序列即種子序列來執(zhí)行針對所述短片段序列的全局比對(global alignment)(步驟116)。此時,如果進行所述全局比對的結果,短片段的誤差個數(shù)超過預先設定的最大誤差允許值(maxError),則判斷為比對失敗,否則判斷為比對成功(步驟118)。
[0035]以下便詳細說明所述步驟112及步驟114的具體過程。
[0036]由短片段序列生成片段序列(步驟112)
[0037]本步驟是為了正式執(zhí)行短片段序列的比對而由短片段序列生成一個以上的小片即片段序列的步驟。在本步驟中,通過考慮短片段序列的整個區(qū)間而生成一個以上的片段序列,而不是僅僅考慮所述短片段序列的一部分。
[0038]圖3至圖5為用于舉例說明如上所述的考慮短片段序列的整個區(qū)間的片段序列生成方法的圖。然而,本發(fā)明中說明的片段序列生成方法僅僅是示例性的,本發(fā)明并不局限于特定片段序列生成過程。換言之,并非僅僅考慮提取的短片段序列的一部分來生成片段序列而是通過考慮整個短片段序列來生成片段序列的算法均屬于本發(fā)明的權利范圍。
[0039]首先,圖3為用于舉例表示根據(jù)本發(fā)明一個實施例的片段序列生成過程的圖。如圖所示,在本實施例中可通過將整個短片段序列劃分為設定大小的片而生成片段序列。即,被劃分為預定長度的所述片即可成為本發(fā)明中的片段序列。在圖中是示出了將短片段序列劃分為6個片的實施例,然而片的個數(shù)及各片的長度卻并不特別受限,對此可通過恰當?shù)乜紤]參考序列的種類、短片段序列的長度、或短片段的最大誤差允許值等而進行調整。并且,在圖中只以短片段序列被劃分為彼此之間沒有重疊部分(overlap)的情形為例進行了圖示,然而也可以將短片段序列劃分為各片之間存在一些重疊部分。
[0040]圖4為用于舉例表示根據(jù)本發(fā)明另一實施例的片段序列生成過程的圖。如圖所示,在本實施例中可通過將整個短片段序列劃分為設定大小的片之后將被劃分的所述短片段序列的各片中的兩個以上的片進行組合而生成所述片段序列。例如,如果如圖所示地將短片段序列劃分為4個片(片I?片4)之后進行兩兩組合,則可以一共生成6個片段序列。與前述實施例相同,劃分的片個數(shù)、各片的長度、組合的片數(shù)等并不特別受限,對此可通過恰當?shù)乜紤]參考序列的種類、短片段序列的長度、或短片段的最大誤差允許值等而進行調難
iF.0
[0041]圖5為用于舉例表示根據(jù)本發(fā)明又一實施例的片段序列生成過程的圖。對于本實施例而言,從所述短片段序列的第一個堿基(base)開始每移動設定間距,便讀取設定大小的所述短片段序列的值,從而生成所述片段序列。圖中的實施例是短片段序列的長度為75bp (base pair)、短片段的最大誤差允許值為3bp、片段序列的大小(fragment size)為15bp、移動間距(shift size)為4bp的情況下的實施例。即,從短片段序列的第一個堿基開始每次向右移動4bp而生成片段序列。然而,圖示的實施例只是示例性的,例如所述移動間距、片段序列的大小等可通過考慮短片段序列的長度、短片段的最大誤差允許值等而恰當?shù)卮_定。換言之,本發(fā)明的權利范圍并不局限于特定的片段序列大小及移動間距。
[0042]另外,如前所述,在本發(fā)明的實施例中片段序列的長度并不特別受限,然而可以優(yōu)選將所述片段序列的長度設定為所述短片段序列長度的20%?30%。通常,片段序列的長度越短,對應片段序列在參考序列上的映射數(shù)越大;片段序列的長度越長,對應片段序列在參考序列上的映射數(shù)越小。通常而言,當考慮基因組測序儀中生產(chǎn)的短片段序列的長度時,如果使片段序列的長度為短片段序列長度的20%以下,則會使片段序列在參考序列上的映射數(shù)增加過多,因此會導致以后的全局比對過程中全局比對次數(shù)不必要地增加的問題。相反地,如果所述片段序列的長度為短片段序列長度的30%以上,則會使片段序列在參考序列上的映射數(shù)過少,于是將導致映射的準確度下降。因此,在本發(fā)明中對短片段序列的長度予以考慮而將片段序列的長度設定為所述短片段序列長度的20%~30%,從而可以保證映射質量的同時使映射過程中可能存在的復雜性最小化。
[0043]而且,如果所述參考序列為人類的堿基序列,則可將所述片段序列生成為具有15bp至30bp的長度。如前所述,通常為片段序列的長度越短,對應片段序列在參考序列上的映射數(shù)越大,而片段序列的長度越長,對應片段序列在參考序列上的映射數(shù)越小。尤其對人類的堿基序列而言,片段序列的長度為14以下的情況下,片段序列在參考序列中的映射位置個數(shù)將急劇增加。如下的表1表示基于片段序列長度的人類基因組內(nèi)的片段序列平均出現(xiàn)頻率。
[0044][表 I]
[0045]
【權利要求】
1.一種堿基序列比對系統(tǒng),包括: 片段序列生成單元,用于從短片段序列的整個區(qū)間生成一個以上的片段序列; 比對單元,利用生成的所述片段序列而執(zhí)行所述短片段序列對參考序列的全局比對。
2.如權利要求1所述的堿基序列比對系統(tǒng),其中,所述片段序列生成單元從所述短片段序列的第一個堿基開始每移動設定間距便讀取設定大小的所述短片段序列的值,從而生成所述片段序列。
3.如權利要求1所述的堿基序列比對系統(tǒng),其中,所述片段序列生成單元通過將所述短片段序列劃分為設定大小的多個片而生成所述片段序列。
4.如權利要求3所述的堿基序列比對系統(tǒng),其中,所述片段序列生成單元通過將被劃分的所述短片段序列的各片中的兩個以上的片進行組合而生成所述片段序列。
5.如權利要求1所述的堿基序列比對系統(tǒng),其中,所述片段序列生成單元將所述片段序列生成為所述片段序列的長度是所述短片段序列長度的20%~30%。
6.如權利要求1所述的堿基序列比對系統(tǒng),其中,所述片段序列生成單元將所述片段序列生成為使所述片段序列具有15bp~30bp的長度。
7.如權利要求1所述的堿基序列比對系統(tǒng),其中,所述堿基序列比對系統(tǒng)還包括用于構成只包含生成的所述一個以上的片段序列當中與參考序列相匹配的片段序列的種子序列集合的篩選單元,且所 述比對單元利用包含于生成的所述種子序列集合中的片段序列而執(zhí)行針對所述短片段序列的全局比對。
8.如權利要求7所述的堿基序列比對系統(tǒng),其中,與所述參考序列相匹配的片段序列是與所述參考序列進行精確匹配的結果不一致的堿基數(shù)為設定個數(shù)以下的片段序列。
9.如權利要求1所述的堿基序列比對系統(tǒng),其中,所述堿基序列比對系統(tǒng)還包括用于計算將所述短片段序列比對于所述參考序列時的估計誤差個數(shù)的誤差個數(shù)估計單元,且所述片段序列生成單元在所述估計誤差個數(shù)為設定的最大誤差允許值以下的情況下由所述短片段序列的整個區(qū)間生成一個以上的片段序列。
10.如權利要求9所述的堿基序列比對系統(tǒng),其中,所述誤差個數(shù)估計單元從所述短片段序列的第一個堿基開始以一個堿基為單位逐個移動而將所述短片段序列精確匹配于所述參考序列,且遇到在所述短片段序列的特定位置上無法實現(xiàn)精確匹配的情況時,從對應位置的下一個堿基開始以一個堿基為單位逐個移動而重新執(zhí)行精確匹配,并在到達所述短片段序列的最后一個堿基時,將判斷為無法精確匹配的位置的個數(shù)設定為所述短片段序列的估計誤差個數(shù)。
11.一種堿基序列比對方法,用于將短片段序列比對于參考序列,包括如下步驟: 在片段序列生成單元中,從所述短片段序列的整個區(qū)間生成一個以上的片段序列; 在比對單元中,利用生成的所述片段序列而執(zhí)行所述短片段序列對參考序列的全局比對。
12.如權利要求11所述的堿基序列比對方法,其中,在生成所述片段序列的步驟中,從所述短片段序列的第一個堿基開始每移動設定間距便讀取設定大小的所述短片段序列的值,從而生成所述片段序列。
13.如權利要求11所述的堿基序列比對方法,其中,在生成所述片段序列的步驟中,通過將所述短片段序列劃分為設定大小的多個片而生成所述片段序列。
14.如權利要求13所述的堿基序列比對方法,其中,在生成所述片段序列的步驟中,通過將被劃分的所述短片段序列的各片中的兩個以上的片進行組合而生成所述片段序列。
15.如權利要求11所述的堿基序列比對方法,其中,在生成所述片段序列的步驟中,將所述片段序列生成為所述片段序列的長度是所述短片段序列長度的20%~30%。
16.如權利要求11所述的堿基序列比對方法,其中,在生成所述片段序列的步驟中,將所述片段序列生成為使所述片段序列具有15bp~30bp的長度。
17.如權利要求11所述的堿基序列比對方法,其中,所述堿基序列比對方法還包括在執(zhí)行生成所述片段序列的步驟之后構成只包含生成的所述一個以上的片段序列當中與參考序列相匹配的片段序列的種子序列集合的步驟,且在執(zhí)行所述全局比對的步驟中,利用包含于構成的所述種子序列集合中的片段序列而執(zhí)行針對所述短片段序列的全局比對。
18.如權利要求17所述的堿基序列比對方法,其中,與所述參考序列相匹配的片段序列是與所述參考序列進行精確匹配的結果不一致的堿基數(shù)為設定個數(shù)以下的片段序列。
19.如權利要求11所述的堿基序列比對方法,其中,在執(zhí)行生成所述片段序列的步驟之前,還包括在誤差個數(shù)估計單元中計算將所述短片段序列比對于所述參考序列時的估計誤差個數(shù)的步驟,且在生成所述片段序列的步驟中,在所述估計誤差個數(shù)為設定的最大誤差允許值以下的情況下,由所述短片段序列的整個區(qū)間生成一個以上的片段序列。
20.如權利要求19所述的堿基序列比對方法,其中,在計算所述估計誤差個數(shù)的步驟中,從所述短片段序列的第一個堿基開始以一個堿基為單位逐個移動而將所述短片段序列精確匹配于所述參考序列,且遇到在所述短片段序列的特定位置上無法實現(xiàn)精確匹配的情況時,從對應位置的下一個堿基開始以一個堿基為單位逐個移動而重新執(zhí)行精確匹配,并在到達所述短片段序列的最后一個堿基時,將判斷為無法精確匹配的位置的個數(shù)設定為所述短片段序列的估計誤差個數(shù)。
【文檔編號】G06F19/22GK103793628SQ201310373446
【公開日】2014年5月14日 申請日期:2013年8月23日 優(yōu)先權日:2012年10月29日
【發(fā)明者】樸旻胥 申請人:三星Sds株式會社