一種推斷寡核苷酸在基因組上結(jié)合位點的方法和系統(tǒng)的制作方法
【技術領域】
[0001] 本發(fā)明涉及一種推斷寡核苷酸結(jié)合位點的方法和系統(tǒng),尤其涉及一種推斷寡核苷 酸在基因組上結(jié)合位點的方法和系統(tǒng)。
【背景技術】
[0002] 寡核苷酸(oligonucleotide或oligo)是一類短鏈核苷酸的總稱,通過與其互補 序列匹配,常作為探針以確定目標基因的結(jié)構(gòu),或作為引物來有效擴增模板序列。目前基于 寡核苷酸雜交的分子生物技術(如芯片探針、PCR引物等)在二代測序、病原微生物檢測、 芯片雜交、臨床診斷等領域中廣泛應用并發(fā)揮重要作用。其根本原理是核酸分子雜交,即互 補的核苷酸序列在一定條件下(適宜的溫度及離子強度等)通過Watson-Crick堿基配對 形成非共價鍵,從而形成穩(wěn)定的雜合雙鏈分子的過程。
[0003] 由于這些分子生物學技術的穩(wěn)定性與敏感性強烈依賴于設計出的寡核苷酸(在 芯片中對應探針,在PCR中對應引物)的質(zhì)量,即設計出寡核苷酸自身需要具有高穩(wěn)定性, 同時能與目標序列的目標區(qū)域高特異性結(jié)合,而與其它區(qū)域不結(jié)合。如果設計不佳,以PCR 為例,非特異的引物會觸發(fā)非特異擴增,進而導致假陽性的檢測結(jié)果。所以設計合適的寡核 苷酸探針以及PCR引物至關重要,而通過預測設計的寡核苷酸在目標序列上結(jié)合位點,是 一種有效的判斷該寡核苷酸是否適用于該目標序列的方法。
[0004] 當前寡核苷酸設計軟件廣泛使用BLAST進行序列相似性分析來對設計的寡核苷 酸進行質(zhì)量控制,BLAST是一套在蛋白質(zhì)數(shù)據(jù)庫或核酸數(shù)據(jù)庫中進行序列相似性比較的局 部比對分析工具,通過序列相似性打分來說明序列之間的相似程度。所謂序列相似性又名 序列一致性,是序列相似程度的一種描述,值的大小取決于序列比對過程中檢測序列和目 標序列之間對應位置上相同字符的個數(shù),值越大,表示兩條序列越相似。由于BLAST具備較 快的比對速度和較高的比對精度,因此在常規(guī)序列比對分析中應用最為廣泛。例如目前流 行的PCR引物設計軟件PerlPrimer,芯片探針設計軟件Mprobe、oligoarray以及siRNA設 計軟件siRNA Target Finder等都使用了 BLAST序列比對的思想。
[0005] 然而,BLAST不能準確反映寡核苷酸結(jié)合的真實情況。BLAST的打分體制是根據(jù)序 列之間對應位置上的堿基相同(如AA、TT等)或不相同(如AT、GC等)賦予不同的分數(shù), 或者進一步對不相同的堿基根據(jù)不同的匹配度(嘌呤與嘌呤之間或嘧啶與嘧啶之間的轉(zhuǎn) 換如AG或者CT之間的匹配,嘌呤與嘧啶之間的顛換如AC、AT、GC、GT之間的匹配)給出不 同的打分,從而以各部分匹配分數(shù)的總和決定整體的相似程度,進而衡量結(jié)合效果。而寡核 苷酸雜交過程是一種生物化學反應,分子之間相互作用并非是匹配了多少個堿基,而依賴 于是否能夠在包含了溫度、鹽離子濃度、pH值等復雜的熱力學環(huán)境下形成穩(wěn)定的雙鏈結(jié)構(gòu)。 因此寡核苷酸結(jié)合的本質(zhì)是一個熱力學的穩(wěn)定性過程而不是序列比對。因此,BLAST中對 于AT、GC之間匹配賦予一致的打分就不能反應GC之間由于三個氫鍵的連接穩(wěn)定性高于AT 之間的兩個氫鍵的結(jié)合能力這一事實。并且某些錯配結(jié)構(gòu)在熱力學結(jié)合能力上表現(xiàn)穩(wěn)定, 而BLAST統(tǒng)一給予相同的罰分處理容易導致對這些結(jié)合位點喪失預測能力。
[0006] 同時寡核苷酸雜交狀態(tài)會呈現(xiàn)多種模式,除了最穩(wěn)定的狀態(tài)完美匹配之外,在多 數(shù)情況下,結(jié)合雙鏈中也會出現(xiàn)錯配、發(fā)卡結(jié)構(gòu)、內(nèi)環(huán)、膨脹環(huán)等復雜結(jié)構(gòu)。BLAST算法自身 的局限性使得只能對其中的一部分結(jié)構(gòu)進行預測,只允許序列中段少數(shù)幾個堿基的錯配, 致使相當一部分結(jié)構(gòu)的丟失,而對于末端錯配、loop、hairpin等復雜結(jié)構(gòu)束手無策。
[0007] 最近鄰模型(Nearest-Neighbor Model,簡稱NN model或最臨近法模型)是廣為 流行和應用的最可靠的熱力學計算方法,該模型指出一個給定的堿基對的穩(wěn)定性依賴于其 臨近堿基對的穩(wěn)定性,其主要思想是將DNA分子雜交反應過程的標準焓變和熵變計算轉(zhuǎn)化 為由組成DNA分子的4個堿基A、T、G、C所形成的10個二聚體(duplex)的標準焓變和熵 變的累加和。然而對設計的寡核苷酸序列與其結(jié)合序列雜交的熱力學穩(wěn)定性的計算,現(xiàn)有 技術中通常將該方法應用于從前至后逐一堿基的計算,即遍歷的思路,運算復雜,搜索過程 緩慢且效率較低。
[0008] 因此,需要一種高效的,能真正反映寡核苷酸結(jié)合熱力學性質(zhì)的方法和系統(tǒng),來確 定設計的寡核苷酸在目標序列上的結(jié)合位點以及結(jié)合穩(wěn)定性,進而判斷該寡核苷酸是否為 針對該目標序列的高質(zhì)量寡核苷酸。
【發(fā)明內(nèi)容】
[0009] 本發(fā)明提供一種推斷寡核苷酸在基因組上結(jié)合位點的方法。通過構(gòu)建任意7-mer 寡核苷酸的熱力學信息的索引表,利用所述索引表獲取待推斷寡核苷酸在熱力學上穩(wěn)定的 結(jié)合序列,并在基因組上定位該結(jié)合序列的位置,能高效地實現(xiàn)對待推斷寡核苷酸結(jié)合位 點的推斷,進而為判斷該寡核苷酸是否為針對該基因組中目標序列的高質(zhì)量寡核苷酸提供 依據(jù)。
[0010] 本發(fā)明還提供了一種推斷寡核苷酸在基因組上結(jié)合位點的系統(tǒng)。該系統(tǒng)利用上述 方法能高效地從熱力學性質(zhì)上反映寡核苷酸與基因組中目標序列結(jié)合的真實情況,能為待 推斷寡核苷酸質(zhì)量判斷提供準確依據(jù)。
[0011] 本發(fā)明提供的一種推斷寡核苷酸在基因組上結(jié)合位點的方法,包括:
[0012] 構(gòu)建任意7-mer寡核苷酸的熱力學信息的索引表,所述熱力學信息為所述寡核苷 酸與其所有結(jié)合序列兩兩雜交的信息,包括雜交結(jié)構(gòu)、雜交序列、焓、熵以及自由能;
[0013] 利用所述索引表獲取待推斷寡核苷酸的熱力學信息,并在獲得的熱力學信息基礎 上確定在熱力學上穩(wěn)定的結(jié)合序列;
[0014] 在基因組上尋找所述結(jié)合序列,并定位其在基因組上的位置。
[0015] 在本發(fā)明的方案中,所述基因組可以為從生物體中提取獲得的基因組。進一步的, 該基因組可以是經(jīng)本領域現(xiàn)有方法例如測序等獲知其序列的基因組。因此,本發(fā)明的方法 還可以包括從生物體中提取基因組,以及獲得該基因組序列的步驟。所述生物體例如可以 是動物、細菌、植物、真菌等。所述待推斷寡核苷酸例如可以是針對該基因組設計的探針或 引物,設計方法可以為本領域常規(guī)的探針或引物設計方法。
[0016] 在本發(fā)明的方案中,構(gòu)建任意7-mer寡核苷酸的熱力學信息索引表,目的在于快 速獲取待推斷寡核苷酸的熱力學信息;索引表中寡核苷酸長度取7,是通過比較不同長度 的寡核苷酸(從3~12),然后綜合考慮存儲空間和計算效率后確定的。任意7-mer寡核 苷酸包括4 7條寡核苷酸序列。對于各7-mer寡核苷酸,當其與結(jié)合序列雜交時,7-mer寡核 苷酸上的任一堿基(如A)都會在結(jié)合序列中遇到五種情況(1'4、6工、-;其中1'表示匹配, 其余三個堿基表示錯配,表示空位gap即沒有匹配上,從而產(chǎn)生環(huán)狀結(jié)構(gòu)),因此理論上 其應該具有57條結(jié)合序列,受可計算的熱力學參數(shù)限制,實際上進行熱力學評估的結(jié)合序 列要少于上述值。在構(gòu)建任意7-mer寡核苷酸的熱力學信息的索引表過程中,不限定雜交 雙鏈上最大錯配和未匹配的數(shù)目,利用最近鄰方法和實驗驗證的所有可靠的熱力學參數(shù)計 算出任意7-mer序列(純堿基組成,不含空位結(jié)構(gòu))與其所有結(jié)合序列(可能含有空位結(jié) 構(gòu))兩兩雜交的熱力學數(shù)據(jù)包括雜交結(jié)構(gòu)、雜交序列、焓、熵以及自由能。所述雜交結(jié)構(gòu)包 括完美匹配的二聚體結(jié)構(gòu)和非完美匹配結(jié)構(gòu)。
[0017] 在本發(fā)明的另一個【具體實施方式】中,利用所述索引表獲取待推斷寡核苷酸的熱力 學信息,并在獲得的熱力學信息基礎上確定在熱力學上穩(wěn)定的結(jié)合序列包括:
[0018] 將待推斷寡核苷酸以7-mer的長度自5'端方向至3'端進行分割,得到長度為 7-mer的寡核苷酸片段和/或長度小于7-mer的寡核苷酸片段;
[0019] 對于長度為7-mer的寡核苷酸片段,其熱力學信息通過查找上述索引表獲得,對 于長度小于7-mer的寡核苷酸片段,其熱力學信息通過重新構(gòu)建獲得;
[0020] 將各分割得到的寡核苷酸片段的熱力學信息進行組合,并將每個組合中的各項熱 力學信息進行加和,得到待推斷寡核苷酸的熱力學信息;
[0021] 根據(jù)待推斷寡核苷酸的熱力學信息中的自由能的大小,確定所述待推斷寡核苷酸 在熱力學上穩(wěn)定的結(jié)合序列。
[0022] 在本發(fā)明的方案中,熱力學上穩(wěn)定的結(jié)合序列,以-llkcal/mol作為雜交雙鏈呈 現(xiàn)穩(wěn)定狀態(tài)的默認閾值(這是根據(jù)以往研究經(jīng)驗以及文獻信息而得到的閾值,用戶可以 根據(jù)實際情況進行調(diào)整),與所述寡核苷酸雜交后自由能在-llkcal/mol (即絕對值大于 llkcal/mol)以下的結(jié)合序列認為是所述寡核苷酸在熱力學上穩(wěn)定的結(jié)合序列。
[0023] 在本發(fā)明的另一個【具體實施方式】中,在基因組上尋找所述結(jié)合序列,并定位它們 在基因組上的位置包括:
[0024] 根據(jù)已有的9-mer索引算法構(gòu)建基因組中任意9-mer序列,從5'端至3'端方向, 在正義鏈和反義鏈的位置信息,
[0025] 在基因組上定位已獲得的待推斷寡核苷酸在熱力學上穩(wěn)定的結(jié)合序列。