考慮重復(fù)性的堿基序列重組系統(tǒng)及方法

文檔序號：6508763閱讀：343來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

考慮重復(fù)性的堿基序列重組系統(tǒng)及方法
【專利摘要】本發(fā)明公開一種考慮重復(fù)性的堿基序列重組系統(tǒng)及方法。根據(jù)本發(fā)明一個實施例的堿基序列重組系統(tǒng)包括：片段序列生成單元，用于由短片段（read）生成多個片段（fragment）序列；片段序列長度調(diào)整單元，從生成的所述多個片段序列當中選擇對象堿基序列上的映射重復(fù)數(shù)超過設(shè)定基準值的片段序列，并調(diào)整選擇的片段序列的長度，直到所述選擇的片段序列的映射重復(fù)數(shù)達到所述基準值以下；比對單元，利用長度得到調(diào)整的所述片段序列執(zhí)行全局比對（Global?alignment）。
【專利說明】考慮重復(fù)性的堿基序列重組系統(tǒng)及方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明的實施例涉及一種用于分析基因組的堿基序列的技術(shù)。
【背景技術(shù)】
[0002]用于生產(chǎn)高容量短序列的第二代測序方式(NGS:Next Generation Sequencing)因其低廉的成本和迅速生成數(shù)據(jù)的能力而正在迅速地替代傳統(tǒng)的桑格(Sanger)測序方式。并且，開發(fā)出了多種聚焦于準確度的NGS序列重組程序。然而，近來隨著第二代測序技術(shù)的發(fā)展，制作片段序列的費用降低為過去的一半以下，隨之可用數(shù)據(jù)的量增加，因此需要開發(fā)一種能夠在短時間內(nèi)準確地處理高容量短序列的技術(shù)。
[0003]序列重組的第一個步驟為通過堿基序列比對(alignment)算法而將短片段(read)映射(mapping)于參考序列的正確位置上。其中的問題在于即使是同種個體，也可能因多種遺傳性變異而導(dǎo)致基因組序列上的差異。而且，測序過程中的誤差也可能導(dǎo)致堿基序列上的差異。因此，喊基序列重組算法必須有效考慮這種差異和變異而提聞映射準確度。
[0004]總而言之，為了對基因組信息進行分析，需要盡量多而準確的所有基因組信息數(shù)據(jù)。而且，為了達到這一目的，首先是要開發(fā)出具有很高的準確度和較大處理量的堿基序列重組算法。然而，現(xiàn)有技術(shù)中的方法在滿足這些需求條件方面存在局限性。

【發(fā)明內(nèi)容】

[0005]本發(fā)明實施例的目的在于提供一種可在確保映射準確度的同時通過改善映射時的復(fù)雜度而提高處理速度的堿基序列重組方案。
[0006]根據(jù)本發(fā)明一個實施例的堿基序列重組系統(tǒng)包括:片段序列生成單元，用于由短片段生成多個片段(fragment)序列；片段序列長度調(diào)整單元，從生成的所述多個片段序列當中選擇對象堿基序列上的映射重復(fù)數(shù)超過設(shè)定基準值的片段序列，并調(diào)整選擇的片段序列的長度，直到所述選擇的片段序列的映射重復(fù)數(shù)達到所述基準值以下；比對單元，利用所述片段序列執(zhí)行全局比對(Global alignment)。
[0007]另外，根據(jù)本發(fā)明另一實施例的堿基序列重組系統(tǒng)包括:片段序列生成單元，用于由短片段生成多個片段(fragment)序列；篩選單元，用于從生成的所述多個片段序列中除去對象堿基序列上的映射重復(fù)數(shù)超過設(shè)定上限值的片段序列；比對單元，利用除了被除去的所述片段序列以外的其余片段序列而執(zhí)行全局比對(Global alignment)。
[0008]另外，根據(jù)本發(fā)明一個實施例的堿基序列重組方法包括如下步驟:在片段序列生成單元中，由短片段生成多個片段(fragment)序列；在片段序列長度調(diào)整單元中，從生成的所述多個片段序列當中選擇對象堿基序列上的映射重復(fù)數(shù)超過設(shè)定基準值的片段序列，并調(diào)整選擇的片段序列的長度，直到所述選擇的片段序列的映射重復(fù)數(shù)達到所述基準值以下；在比對單元中，利用所述片段序列執(zhí)行全局比對(Global alignment)。
[0009]另外，根據(jù)本發(fā)明另一實施例的堿基序列重組方法包括如下步驟:在片段序列生成單元中，由短片段生成多個片段(fragment)序列；在篩選單元中，從生成的所述多個片段序列中除去對象堿基序列上的映射重復(fù)數(shù)超過設(shè)定上限值的片段序列；在比對單元中，利用除了被除去的所述片段序列以外的其余片段序列而執(zhí)行全局比對(Globalalignment)。
[0010]根據(jù)本發(fā)明的實施例，并不固定由短片段生成的片段序列的長度，而是根據(jù)各片段序列在對象堿基序列內(nèi)的映射重復(fù)數(shù)而適當?shù)財U增其長度，或者除去重復(fù)數(shù)過多的片段序列，從而具有可以提聞映射準確度的同時也能提聞速度的效果。
【專利附圖】

【附圖說明】
[0011]圖1為用于說明根據(jù)本發(fā)明一個實施例的堿基序列重組方法的圖。
[0012]圖2為用于舉例表示根據(jù)本發(fā)明一個實施例的堿基序列重組方法中的最小誤差估計值(MEB)e計算過程的圖。
[0013]圖3為用于說明根據(jù)本發(fā)明一個實施例的堿基序列重組方法中的片段序列提取過程示例的圖。
[0014]圖4為根據(jù)本發(fā)明一個實施例的堿基序列重組系統(tǒng)400的模塊圖。
[0015]圖5為根據(jù)本發(fā)明另一實施例的堿基序列重組系統(tǒng)500的模塊圖。
[0016]符號說明:
[0017]400、500:堿基序列重組系統(tǒng) 402、502:片段序列生成單元
[0018]404:片段序列長度調(diào)整單元 406、506:比對單元
[0019]408、504:篩選單元
【具體實施方式】
[0020]以下，參照【專利附圖】

【附圖說明】本發(fā)明的【具體實施方式】。然而這僅僅是示例，本發(fā)明并不局限于此。
[0021]在對本發(fā)明進行說明時，如果遇到對有關(guān)本發(fā)明的公知技術(shù)的具體說明有可能不必要地干擾本發(fā)明的主旨的情況，則省略其詳細說明。并且，后述的術(shù)語均為考慮本發(fā)明中的功能而進行定義的，其可能因使用者、運用人員的意圖或習(xí)慣等而有所不同。因此，要以整個說明書的內(nèi)容為基礎(chǔ)對其進行定義。
[0022]本發(fā)明的技術(shù)思想由權(quán)利要求書確定，以下的實施例只是為了將本發(fā)明的技術(shù)思想有效地傳遞給本發(fā)明所屬【技術(shù)領(lǐng)域】中具有普通知識的人員而采用的一種手段。
[0023]在對本發(fā)明的實施例進行具體說明之前，首先對本發(fā)明中使用的術(shù)語進行如下說明。
[0024]首先，“短片段(read)序列”(或者簡稱為“短片段”)是指基因組測序儀(genomesequencer)中輸出的短堿基序列數(shù)據(jù)。短片段的長度因基因組測序儀的種類而不同，通常構(gòu)成為35?500bp(base pair)范圍的多種長度，在DNA堿基的情況下，通常用字母A、C、G、T表示。
[0025]“對象堿基序列”指可對利用所述短片段形成整個堿基序列提供參考的堿基序列(reference sequence)。在堿基序列分析中,通過參考對象堿基序列而將基因組測序儀所輸出的大量短片段進行映射來完成整個堿基序列。在本發(fā)明中，所述對象堿基序列既可以是堿基序列分析時預(yù)先設(shè)定的序列(例如人類的整個堿基序列等)，或者也可以將基因組測序儀中產(chǎn)生的堿基序列使用為對象堿基序列。
[0026]“堿基(base)”為構(gòu)成對象堿基序列及短片段的最小單位。如前所述，構(gòu)成DNA的堿基可由A、C、G、T等四個字母表示，將這些分別稱為堿基。換言之，對于DNA而言，可用四種喊基表不，短片段也是如此。
[0027]“片段(fragment)序列”(或者簡稱為“片段”)指為了短片段的映射而作為比較短片段與對象堿基序列時的單位的序列。從理論上講，為了將短片段映射于對象堿基序列，需要把整個短片段從對象堿基序列的最前端部分開始依次比較的同時計算短片段的映射位置。然而，由于這種方法在映射一個短片段時消耗過多的時間并要求過高的計算能力，因此實際上要先把短片段的一部分所構(gòu)成的片即片段序列映射于對象堿基序列而找出整個短片段的映射候選位置，然后將整個短片段映射于對應(yīng)候選位置(Global Alignment)。
[0028]圖1為用于說明根據(jù)本發(fā)明一個實施例的堿基序列重組方法100的圖。在本發(fā)明的實施例中，堿基序列重組方法100指通過將基因組測序儀(genome sequencer)中輸出的短片段與對象堿基序列進行比較而確定短片段在所述對象堿基序列中的映射(或比對)位置，從而完成整個序列的一系列過程。
[0029]首先,如果從基因組測序儀(genome sequencer)接收到短片段(步驟102),則嘗試整個短片段與所述對象堿基序列之間的精確匹配(exact matching)(步驟104)。進行所述嘗試的結(jié)果，如果針對整個短片段的精確匹配成功，則不執(zhí)行后續(xù)的比對步驟而判斷為比對成功(步驟106)。將人類的堿基序列作為對象進行實驗的結(jié)果顯示，如果將基因組測序儀中輸出的100萬個短片段精確匹配于人類的堿基序列，則在總共200萬次的比對中(正向序列100萬次,反向互補(reverse complement)方向序列100萬次)出現(xiàn)231，564次的精確匹配。因此，執(zhí)行所述步驟104的結(jié)果約可以減少11.6%的比對量。
[0030]然而，如果與之相反，即在所述步驟106中判斷為對應(yīng)短片段并不精確匹配的情況下，則是計算將對應(yīng)短片段比對于所述對象堿基序列時的最小誤差估計值(MEB:MinimumError Bound) e (步驟 108)。
[0031]圖2為用于舉例說明所述步驟108中的最小誤差估計值e計算過程的圖。如圖所示，首先將初始最小誤差估計值設(shè)定為O (e=0)，并從短片段的第一個堿基向右逐個移動的同時嘗試精確匹配。此時，假定從所述短片段的特定堿基(圖中的左側(cè)第一個箭頭處)開始無法再實現(xiàn)匹配，則這種情況說明從短片段的匹配起始位置到當前位置之間的區(qū)間中的某處出現(xiàn)了誤差。因此，在這種情況下將最小誤差估計值增加I (e=l)之后在下一個位置上重新開始精確匹配。如果在以后又遇到判斷為無法精確匹配的情況，則是說明從重新開始精確匹配的位置到當前位置之間的區(qū)間某處又出現(xiàn)了誤差，因此又將最小誤差估計值增加I (e=2)之后在下一個位置上重新開始精確匹配。通過這樣的過程，到達短片段末尾時的最小誤差估計值(圖中為e=3)將成為可能在對應(yīng)短片段中出現(xiàn)的誤差的個數(shù)。其中，之所以將所述e的值作為最小誤差估計值，是因為并沒有對短片段中可能出現(xiàn)誤差的所有誤差數(shù)量進行分析，而是通過如果在特定部分中出現(xiàn)誤差便從該部分以后起重新進行精確匹配的方式而只對對象序列的某一位置(position)進行了檢查。即，所述e值可以作為在對應(yīng)短片段中可能出現(xiàn)的誤差的最小值，而在對象序列的其他位置上可能出現(xiàn)更多的誤差。
[0032]若通過上述過程計算出了短片段的最小誤差估計值，則判斷計算出的最小誤差估計值是否超過預(yù)先設(shè)定的最大誤差允許值(maxError)(步驟110)，判斷結(jié)果如果超過，則判斷為對應(yīng)短片段的比對失敗并終止比對。在前述的將人類的堿基序列作為對象的實驗中，將最大誤差允許值(maxEiror)設(shè)定為3而計算剩余短片段的最小誤差估計值的結(jié)果顯示，共有844，891次實驗的短片段超過所述最大誤差允許值。即，執(zhí)行所述步驟108的結(jié)果，約能減少42.2%的比對工作量。
[0033]相反地，如果在所述步驟110中判斷的結(jié)果，計算出的最小誤差估計值為所述最大誤差允許值以下，則將通過如下過程執(zhí)行對應(yīng)短片段的比對。
[0034]首先，由所述短片段生成多個片段(fragment)序列(步驟112)，并執(zhí)行從生成的所述多個片段序列中除去在對象堿基序列上的映射重復(fù)數(shù)超過設(shè)定上限值的片段序列的篩選過程(步驟114)。然后，從片段序列中選擇在對象堿基序列上的映射重復(fù)數(shù)超過設(shè)定基準值的片段序列，并調(diào)整選擇的片段序列的長度，直到所述選擇的片段序列的映射重復(fù)數(shù)達到所述基準值以下(步驟116)。此時，所述步驟114和步驟116既可以共同執(zhí)行，也可以只執(zhí)行兩個中的一個。
[0035]然后，利用所述片段序列而執(zhí)行針對所述短片段的全局比對(global alignment)(步驟118)。此時，在所述步驟118中執(zhí)行全局比對的所述片段序列當中不僅包含已在所述步驟116中調(diào)整了長度的片段序列，而且還一并包含未經(jīng)調(diào)整長度的片段序列，即由于映射重復(fù)數(shù)在當初已是基準值以下而無需調(diào)整長度的片段序列。執(zhí)行所述全局比對的結(jié)果，當短片段的誤差個數(shù)超過預(yù)先設(shè)定的最大誤差允許值(maxError)時判定為比對失敗，否則判定為比對成功(步驟120)。
[0036]以下便詳細說明所述步驟112至步驟116的具體過程。
[0037]由短片段生成多個片段序列(步驟112)
[0038]本步驟是為了正式執(zhí)行短片段的比對而由短片段生成多個作為小片的片段序列的步驟。在本步驟中將通過考慮所述短片段的一部分或整體而生成多個片段序列。例如，可通過將短片段的整體或特定區(qū)間劃分為多個片而生成片段序列，或者可以將被劃分的片進行組合而生成片段序列。在這種情況下，生成的片段序列可以連續(xù)性地相連，然而并非一定要如此，也可以通過短片段內(nèi)相互分離的片的組合構(gòu)成片段序列。并且，生成的片段序列并非一定要具有相同的長度，也可以在一個短片段內(nèi)生成具有多種長度的片段序列?？偠灾?，本發(fā)明中的由短片段生成片段序列的方法并不特別受限，從短片段的一部分或整體中提取片段序列的各種算法均可不加限制地使用。
[0039]篩選生成的片段序列(步驟114)
[0040]若通過如上所述的過程生成了片段序列，接著便執(zhí)行計算生成的片段序列在對象堿基序列中的映射重復(fù)數(shù)并除去計算出的映射重復(fù)數(shù)超過預(yù)先設(shè)定的上限值的片段序列的篩選過程。其中，所述映射重復(fù)數(shù)是指將片段序列映射于對象堿基序列時發(fā)生精確匹配(exact matching)的次數(shù)。
[0041]通常，對象堿基序列(例如人類的基因組)包含多個重復(fù)序列(repeat sequence)。由于這種重復(fù)序列分布于對象堿基序列的多個位置上，且重復(fù)性地包含了相同的堿基序列，因此對于有些片段序列而言，在與對象堿基序列之間進行映射時將在多個位置上發(fā)生精確匹配，而在這種情況下，將對發(fā)生精確匹配的每一個位置執(zhí)行全局比對，從而確定準確的映射位置。然而在這樣的映射重復(fù)數(shù)過多的情況下，將發(fā)生很多不必要的全局比對，由此對整個序列重組算法的復(fù)雜度及準確度產(chǎn)生不利影響，因此在所述重復(fù)數(shù)超過預(yù)先設(shè)定的上限值時，通過除去有關(guān)片段序列而防止序列重組算法的執(zhí)行速度及復(fù)雜度過高。
[0042]此時，可通過考慮對象堿基序列的種類及片段序列的長度等而確定所述上限值，實驗結(jié)果顯示，在片段序列的長度為15bp時，將所述上限值設(shè)定為10，000是恰當?shù)?，會提高堿基序列重組的準確度及執(zhí)行速度。
[0043]調(diào)整片段序列的長度(步驟116)
[0044]另外，即使如前所述地將映射重復(fù)數(shù)過大(即超過上限值)的片段序列除去，與對象堿基序列之間的映射重復(fù)數(shù)相對較高的一些片段序列仍將對整個比對算法的復(fù)雜度及準確度產(chǎn)生不利影響。因此，有必要利用適當?shù)姆椒p少片段序列的映射重復(fù)數(shù)。
[0045]為此，在本步驟中從候選片段序列當中選擇在所述對象堿基序列上的映射位置的個數(shù)超過預(yù)先設(shè)定的基準值的片段序列，并針對選擇的片段序列調(diào)整(擴增)對應(yīng)片段序列的大小，直到所述映射位置的個數(shù)成為所述設(shè)定值以下。
[0046]具體而言，在本步驟中計算生成的所述候選片段序列各自在所述對象堿基序列上的映射位置的個數(shù)，并選擇計算出的所述映射位置的個數(shù)超過設(shè)定值的片段序列，然后擴增選擇的片段序列的大小，直到所述對象堿基序列上的映射位置的個數(shù)成為所述設(shè)定值以下。
[0047]此時，可通過在所述選擇的片段序列上附加構(gòu)成所述短片段的一部分的一個以上的堿基而實現(xiàn)所述選擇的片段序列的大小的擴增。此時，被擴增的堿基并非一定要與所述片段序列連接。例如，如圖3所示，為了擴增從短片段的5?19位置提取的片段序列，也可以增加從短片段的21?24位置提取的片。
[0048]并且，可通過在所述選擇的片段序列的起始端或末端上增加對應(yīng)于相應(yīng)位置的所述短片段上的堿基而實現(xiàn)所述選擇的片段序列的大小的擴增。對此舉例說明如下。例如，假定如下地由短片段生成了片段序列。
[0049]短片段:ATTGCCTCAGT
[0050]片段序列:TTGC (短片段中帶有下劃線的部分)
[0051]如果對所述片段序列執(zhí)行映射的結(jié)果，在對象堿基序列上的映射位置的個數(shù)為65個，且設(shè)定的基準值為50，則如下地以Ibp為單位逐步擴增所述片段序列的長度，直到所述映射位置的個數(shù)減少為基準值以下。
[0052]TTGC (映射位置65個)
[0053]TTGCC (映射位置54個)
[0054]TTGCCT (映射位置 27 個)
[0055]對于上面的示例而言，由于在參考短片段而增加兩個堿基的情況下映射位置的個數(shù)減少為基準值以下，因此最終片段序列將是相比于最初生成的值擴增了 2bp的TTGCCT。另外，如同前述的其他示例，所述基準值也是可以根據(jù)對象堿基序列、短片段、片段序列的特性等而適當設(shè)定的值，本發(fā)明的權(quán)利范圍并不局限于特定的設(shè)定值。
[0056]另外，在如上所述地擴增片段序列長度的過程中，如果擴增的片段序列未被映射于對象堿基序列，即，擴增的片段序列的映射位置個數(shù)為0，則對應(yīng)片段序列將被除去。例如，假定如下地擴增片段序列的長度。
[0057]ACGG (映射位置270個)[0058]ACGGl (映射位置55個)
[0059]ACGGTA (映射位置O個)
[0060]對于所述片段序列而言，在原片段序列(ACGG)上擴增一個堿基的片段序列在對象堿基序列上的映射位置的個數(shù)為超過基準值的55個，而如果擴增兩個堿基則根本不能被映射于對象堿基序列。即在這種情況下，如果只擴增一個堿基則會使映射位置過多，而如果擴增兩個堿基則不能與對象堿基序列之間發(fā)生映射，于是對應(yīng)片段序列在之后的全局比對過程中將被除去而不會被使用。
[0061]在以人類的堿基序列為對象的實驗中，在100萬個短片段中以15bp的片段序列長度、4bp的移動間距生成片段序列之后將生成的片段序列映射于對象堿基序列的情況下，如果將基準值設(shè)定為50，則顯示在一共15，547，856個片段序列中約有77%的片段序列具有50個以下的映射位置。即實驗結(jié)果顯示，在以50作為基準值的情況下，77%的片段序列可以直接利用，而其余23%的片段序列需要進行根據(jù)前述方法的片段序列的擴增。
[0062]圖4為根據(jù)本發(fā)明一個實施例的堿基序列重組系統(tǒng)400的模塊圖。根據(jù)本發(fā)明一個實施例的堿基序列重組系統(tǒng)400為用于執(zhí)行前述堿基序列重組方法的裝置，包括片段序列生成單元402、片段序列長度調(diào)整單元404、以及比對單元406，且可以根據(jù)需要而再包括篩選單元408。
[0063]片段序列生成單元402由通過基因組測序儀獲得的短片段生成多個片段(fragment)序列。
[0064]片段序列長度調(diào)整單元404從生成的所述多個片段序列中選擇在對象堿基序列上的映射重復(fù)數(shù)超過設(shè)定基準值的片段序列，并調(diào)整選擇的片段序列的長度，直到所述選擇的片段序列的映射重復(fù)數(shù)達到所述基準值以下。此時，片段序列長度調(diào)整單元404可通過在所述選擇的片段序列上附加構(gòu)成所述短片段的一部分的一個以上的堿基而調(diào)整所述選擇的片段序列的長度。并且，在這種情況下，片段序列長度調(diào)整單元404可通過在所述選擇的片段序列的起始端或末端上增加對應(yīng)于相應(yīng)位置的所述短片段上的堿基而調(diào)整所述選擇的片段序列的長度。
[0065]比對單元406利用所述片段序列而執(zhí)行所述短片段對所述對象堿基序列的全局比對(Global alignment)。此時,在比對單元406中執(zhí)行全局比對的所述片段序列當中不僅包含已在片段序列長度調(diào)整單元404中調(diào)整了長度的片段序列，而且還一并包含未經(jīng)調(diào)整長度的片段序列，即由于映射重復(fù)數(shù)在當初已是基準值以下而無需調(diào)整長度的片段序列。
[0066]篩選單元408在遇到由片段序列生成單元402生成的所述多個片段序列中存在對象堿基序列上的映射重復(fù)數(shù)超過設(shè)定上限值的片段序列的情況時，除去對應(yīng)片段序列。此時，所述上限值可以是如前所述的10，000。
[0067]圖5為根據(jù)本發(fā)明另一實施例的喊基序列重組系統(tǒng)500的|旲塊圖。如圖所不，根據(jù)本實施例的堿基序列重組系統(tǒng)500包括片段序列生成單元502、篩選單元504、以及比對單元506。
[0068]片段序列生成單元502由通過基因組測序儀獲得的短片段生成多個片段(fragment)序列。
[0069]篩選單元504在遇到由片段序列生成單元402生成的所述多個片段序列中存在對象堿基序列上的映射重復(fù)數(shù)超過設(shè)定上限值的片段序列的情況時，除去對應(yīng)片段序列。此時，所述上限值可以是如前所述的10，000。
[0070]比對單元506利用通過篩選單元504篩選過的片段序列執(zhí)行所述短片段對所述對象堿基序列的全局比對(Global alignment)。
[0071]另外，本發(fā)明的實施例中可以包括記錄有用于將本說明書中記載的方法在計算機上執(zhí)行的程序的計算機可讀記錄介質(zhì)。所述計算機可讀記錄介質(zhì)可將程序命令、本地數(shù)據(jù)文件、本地數(shù)據(jù)結(jié)構(gòu)等單獨或組合而包括在內(nèi)。所述介質(zhì)既可以是為了本發(fā)明而特別設(shè)計并構(gòu)成的，也可以是計算機軟件領(lǐng)域中具有普通知識的人員所公知和常用的。計算機可讀記錄介質(zhì)的實例中包括硬盤、軟盤、磁帶等磁介質(zhì)；只讀光盤(CD-ROM)、DVD等光記錄介質(zhì)；軟盤等磁光介質(zhì)；只讀存儲器、隨機存儲器、閃存等為了存儲并執(zhí)行程序命令而特意構(gòu)成的硬件裝置。程序命令的實例中不僅包括通過編譯器(Compiler)制作的機器語言代碼，而且還可以包括借助于解釋器(Interpreter)等而能夠在計算機上執(zhí)行的高級語言代碼。
[0072]以上通過代表性的實施例對本發(fā)明進行了詳細說明，然而本發(fā)明所屬【技術(shù)領(lǐng)域】中具有普通知識的人員即可明白在不脫離本發(fā)明范圍的條件下對上述實施例能夠進行多種多樣的變形。
[0073]因此不能局限于上述實施例而確定本發(fā)明的權(quán)利范圍，本發(fā)明的范圍應(yīng)當由權(quán)利要求書及其等價內(nèi)容確定。
【權(quán)利要求】
1.一種喊基序列重組系統(tǒng)，包括: 片段序列生成單元，用于由短片段生成多個片段序列；片段序列長度調(diào)整單元，從生成的所述多個片段序列當中選擇對象堿基序列上的映射重復(fù)數(shù)超過設(shè)定基準值的片段序列，并調(diào)整選擇的片段序列的長度，直到所述選擇的片段序列的映射重復(fù)數(shù)達到所述基準值以下；比對單元，利用所述片段序列執(zhí)行全局比對。
2.如權(quán)利要求1所述的堿基序列重組系統(tǒng)，其中，所述片段序列長度調(diào)整單元在所述選擇的片段序列上附加構(gòu)成所述短片段的一部分的一個以上的堿基。
3.如權(quán)利要求2所述的堿基序列重組系統(tǒng)，其中，所述片段序列長度調(diào)整單元在所述選擇的片段序列的起始端或末端上增加對應(yīng)于相應(yīng)位置的所述短片段上的堿基。
4.如權(quán)利要求1所述的堿基序列重組系統(tǒng)，其中，所述片段序列長度調(diào)整單元在長度得到調(diào)整的片段序列沒有被映射于所述對象堿基序列的情況下，除去所述長度得到調(diào)整的片段序列。
5.如權(quán)利要求1所述的堿基序列重組系統(tǒng)，還包括篩選單元，用于當生成的所述多個片段序列中存在對象堿基序列上的映射重復(fù)數(shù)超過設(shè)定上限值的片段序列時，除去對應(yīng)片段序列。
6.如權(quán)利要求5所述的堿基序列重組系統(tǒng)，其中，所述上限值為10000。
7.—種喊基序列重組系統(tǒng)，包括: 片段序列生成單元，用于由短片段生成多個片段序列；篩選單元，用于從生成的所述多`個片段序列中除去對象堿基序列上的映射重復(fù)數(shù)超過設(shè)定上限值的片段序列；比對單元，利用除了被除去的所述片段序列以外的其余片段序列而執(zhí)行全局比對。
8.如權(quán)利要求7所述的堿基序列重組系統(tǒng)，其中，所述上限值為10000。
9.一種堿基序列重組方法，包括如下步驟: 在片段序列生成單元中，由短片段生成多個片段序列；在片段序列長度調(diào)整單元中，從生成的所述多個片段序列當中選擇對象堿基序列上的映射重復(fù)數(shù)超過設(shè)定基準值的片段序列，并調(diào)整選擇的片段序列的長度，直到所述選擇的片段序列的映射重復(fù)數(shù)達到所述基準值以下；在比對單元中，利用所述片段序列執(zhí)行全局比對。
10.如權(quán)利要求9所述的堿基序列重組方法，其中，在調(diào)整所述片段序列的長度的步驟中，在所述選擇的片段序列上附加構(gòu)成所述短片段的一部分的一個以上的堿基。
11.如權(quán)利要求10所述的堿基序列重組方法，其中，在調(diào)整所述片段序列的長度的步驟中，在所述選擇的片段序列的起始端或末端上增加對應(yīng)于相應(yīng)位置的所述短片段上的堿基。
12.如權(quán)利要求9所述的堿基序列重組方法，其中，在調(diào)整所述片段序列的長度的步驟中，在長度得到調(diào)整的片段序列沒有被映射于所述對象堿基序列的情況下，除去所述長度得到調(diào)整的片段序列。
13.如權(quán)利要求9所述的堿基序列重組方法，其中在執(zhí)行生成所述片段序列的步驟之后還包括如下的篩選步驟:如果在生成的所述多個片段序列中存在對象堿基序列上的映射重復(fù)數(shù)超過設(shè)定上限值的片段序列，則除去對應(yīng)的片段序列。
14.如權(quán)利要求13所述的堿基序列重組方法，其中，所述上限值為10000。
15.一種堿基序列重組方法，包括如下步驟: 在片段序列生成單元中，由短片段生成多個片段序列；在篩選單元中，從生成的所述多個片段序列中除去對象堿基序列上的映射重復(fù)數(shù)超過設(shè)定上限值的片段序列；在比對單元中，利用除了被除去的所述片段序列以外的其余片段序列而執(zhí)行全局比對。
16.如權(quán)利要求15所述的堿基序列重組方法，其中，所述上限值為10000。
【文檔編號】G06F19/18GK103793624SQ201310373186
【公開日】2014年5月14日申請日期:2013年8月23日優(yōu)先權(quán)日:2012年10月29日
【發(fā)明者】樸旻胥申請人:三星Sds株式會社

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：樸旻胥
技術(shù)所有人：三星SDS株式會社
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

堿基序列相關(guān)技術(shù)

堿基序列翻譯成氨基酸相關(guān)技術(shù)

3flag標簽堿基序列相關(guān)技術(shù)

flag標簽堿基序列相關(guān)技術(shù)

堿基序列反向互補相關(guān)技術(shù)

限制酶識別堿基序列相關(guān)技術(shù)

flag堿基序列相關(guān)技術(shù)

rapd引物堿基序列相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

考慮重復(fù)性的堿基序列重組系統(tǒng)及方法