專利名稱:高通量檢測脊椎動物病原體基因芯片的探針設計方法
技術領域:
本發(fā)明涉及生物芯片探針的一種設計方法。尤其是基于此方法設計得到的探針用來對以脊椎動物為宿主的病毒、細菌、真菌、原生動物進行高通量檢測,本發(fā)明對不同類型的病原體分別采用了有針對性的設計流程。
背景技術:
傳染病是由各種病原體引起的能在人與人、動物與動物或人與動物之間相互傳播的一類疾病。每種傳染病都有其特異的病原體,包括病毒、細菌、真菌、原蟲、螺旋體、立克茨體等。傳染病與其他種類疾病相比,具有發(fā)病強度高、傳播速度快、波及范圍廣、地域性和季節(jié)性強等特點,傳染病產(chǎn)生的危害性極大,不但患者死亡率高,而且容易導致社會恐慌心理,產(chǎn)生的次級危害往往更大,直接影響社會的經(jīng)濟活動和人的正常生活秩序。雖然傳染病理論上分為人與人、動物與動物或人與動物專有傳染病,但是許多傳染性疾病,甚至包括流行病,都起于人畜共通的特性,要區(qū)分哪些疾病從感染動物逐步演化成可以感染人類并不簡單,但有證據(jù)顯示麻疹、天花、流行性感冒、白喉等皆是如此。而艾滋病、感冒和結(jié)核也都來自人類以外的物種。人畜通病在國際間引起密切關注,因為它們通常是過去未被發(fā)現(xiàn)的疾病,或是毒力在演化過程中增強,或偶然傳入不具對抗該疾病之免疫力的族群或物種。因此,對以脊椎動物為宿主的病原體進行系統(tǒng)地監(jiān)測,是有效進行傳染病防控的一個必要環(huán)節(jié)。在傳染病爆發(fā)過程中,人類由以前被動承受,到治療控制,再到提前預防控制,積累了大量和傳染病做斗爭的技術經(jīng)驗。特別是隨著現(xiàn)代醫(yī)學和分子生物學技術發(fā)展,人類已經(jīng)建立起了多種具體傳染病檢測方法,I)微生物培養(yǎng)法;2)血清學標記物檢測法;3)血液或分泌物中所含病毒和病原相關蛋白質(zhì)檢測,其中包括ELISA、膠體金等方法;4)通過傳染源核酸序列,進行特異性的熒光定量PCR檢測法;5)快速發(fā)展的生物芯片微陣列高通量方法。微生物培養(yǎng)法由于直觀方便等特點,還是最主要的傳染病診斷工具,但有些傳染原如病毒和鉤端螺旋體無法進行人工培養(yǎng),就只能借助其他診斷工具;血清學標記物檢測法,也是通過病原體感染機體后產(chǎn)生的特異性抗體進行檢測,通行的抗體檢測由于存在“血清學窗口期”,只能在感染2-4周后才能確診,而且該方法還需要和微生物培養(yǎng)法相互引證;基于血液或分泌物的病原蛋白質(zhì)檢測,如ELISA和膠體金法也是對血清學檢測方法的改進,也同樣存在以上弊端;新近涌現(xiàn)的針對病原體的RNA或DNA的熒光定量PCR檢測方法,有靈敏性高,準確率高,能夠有效縮短“病原窗口期”等特點。但該檢測方法也只能針對已知病原體設計特異的PCR引物和探針,不能實現(xiàn)高通量檢驗檢測,不能滿足新發(fā)與突發(fā)性傳染病的快速、準確、靈敏的診斷需求,是重大傳染性疾病的防疫防控與及時救治的主要技術瓶頸之一。生物芯片方法,在考慮了傳統(tǒng)和現(xiàn)有傳染病檢測方法的局限性基礎之上,結(jié)合現(xiàn)代分子生物學高通量技術優(yōu)勢,而建立起來的傳染病病原體診斷檢測方法。該方法主要技術優(yōu)點包括:1)高通量。一張芯片上的一個點陣可以對一份樣本同時分析成千上萬種的病原體,而一張芯片上有可以同時分析數(shù)十個臨床樣本;2)快速、準確和靈敏。單次檢測I天即可完成,加之高通量特異性,檢測效力明顯優(yōu)于現(xiàn)有的其他方法;由于檢測過程中采用全封閉的熒光自動化檢測系統(tǒng),集合特異性探針,檢測準確度高、靈敏度好;3)可檢測未知病原體。現(xiàn)有病原體檢測方法,只能對已知病原體進行確認,對于未知病原體檢測則無能為力,例如熒光定量PCR方法,有很多技術優(yōu)勢,但前提必須知道被檢病原體核酸序列,否則將無法檢測。而生物芯片檢測系統(tǒng),由于探針設計本身就具有兼容性,檢測序列發(fā)生突變將不會影響雜交檢測。大部分病原體新品種其實都是已知病原體在藥物和環(huán)境壓力下的突變體,序列具有很高同源性。由于生物芯片檢測技術本身技術優(yōu)點和臨床應用的潛在價值,使得國內(nèi)外眾多科技專家專注于生物芯片檢測技術在傳染病學中的研究。例如,美國加州大學舊金山分校DeRisi實驗室研發(fā)的能檢測多種病毒的Virochip芯片,美國哥倫比亞大學Lipkin實驗室研發(fā)的能同時檢測多種病毒、細菌、真菌和寄生蟲的GreeneChip芯片等。生物芯片探針設計的目的在于:經(jīng)過計算方法優(yōu)化后的探針能夠在檢測到更多的生物分子的同時,保證有較高的檢測可靠性,即同時兼顧覆蓋率和準確率兩個方面,對于高通量的病原體檢測這一點是至關重要的。通常的做法是首先查詢?nèi)鏓MBL和GenBank等國際公共數(shù)據(jù)庫,取得相應的DNA序列數(shù)據(jù)作為生物芯片探針設計的參照目標序列,然后從中選擇特異性很高的核苷酸片段來設計探針。特異性是指目標物種和非目標物種間的存在的差異,是檢測型生物芯片鑒別物種的核心依據(jù)。特異性探針的選擇是探針設計過程中的關鍵環(huán)節(jié),探針優(yōu)化設計算法研究已成為檢測型基因芯片信息處理中一個急需解決的問題。對于小規(guī)模物種的鑒別,主要是通過序列比對的結(jié)果依靠人工分析選擇,但是隨著對單個芯片檢測物種數(shù)量需求的快速增加,待分析的序列越來越多,再加上探針設計還要考慮很多其他方面的復雜因素,人工設計不僅費時費力,而且質(zhì)量難以保證,因此計算方法在探針設計方面得到了廣泛的應用。Waibhav提出了一套從病原體全基因組序列出發(fā)的探針設計流程,Satya在此流程基礎之上又進行了改進,除了有效地減少了計算時間以外,還使用了多套度量探針專一性的判據(jù)對探針質(zhì)量進行了理論評估。Jabado等人進行了針對于病毒檢測芯片的探針設計工作,他們認為在序列保守性分析方面,使用蛋白質(zhì)-蛋白質(zhì)比對相較于核酸序列之間的比對更有優(yōu)勢,因此他們提出了基于一套從病毒蛋白質(zhì)序列出發(fā)的探針設計流程。為了兼顧對探針高覆蓋率的要求,還補充了一些以非編碼區(qū)域為模板設計出來的探針。綜上所述,目前的生物芯片探針設計方法,更加科學、合理,所設計出的探針有著比較好的覆蓋率和準確率,能夠滿足高通量檢測的需求。但是這些設計方法也存在著兩方面的主要不足:1)計算耗時,設計效率較低。以Satya等人的TOF1-beta流程為例,在74個CPU上設計一個物種Brucella melitensis的檢測探針,就需要21個小時;2)很多的探針設計流程,由于序列資源的限制,只能在屬的層次上得到滿足條件檢測探針,難以做到更加精細的檢測。隨著序列資源的不斷豐富,檢測種或者亞種層次上的病原體都將成為可能,而現(xiàn)有的設計流程都缺少一個動態(tài)的數(shù)據(jù)管理更新系統(tǒng),不能做到與快速增長的序列數(shù)據(jù)庫做到同步更新
發(fā)明內(nèi)容
生物芯片是在現(xiàn)代分子生物學高通量技術的基礎之上,建立起來的可用于病原體診斷檢測方法。隨著序列資源的不斷豐富,檢測屬、種甚至于亞種層次上的病原體都將成為可能,各大醫(yī)療和公共衛(wèi)生機構(gòu)對單個芯片檢測物種數(shù)量需求也相應地在快速增加。傳統(tǒng)的探針設計方法主要集中于對小規(guī)模物種的鑒別,主要是通過序列比對的結(jié)果依靠人工分析選擇,設計效率較低,且質(zhì)量不高。本發(fā)明在整合了國際上最先進的探針設計方法的基礎之上,進行了有針對性的改進。對于細菌、病毒、真菌等不同類型的病原體,采用了不同的序列模板進行探針設計。在設計流程中,充分考慮了病原體序列的情況,盡量在從屬到種再到亞種,越來越精細的層次上設計檢測探針。同時兼顧了探針的覆蓋率和準確率,這對于高通量的病原體檢測是非常重要的。
圖1是針對檢測對象為細菌、真菌以及原生動物三類病原體的,以rRNA為模板的探針設計流程。圖2是針對檢測對象為病毒,以結(jié)構(gòu)蛋白編碼序列為模板的探針設計流程。圖3為細菌Brevibacterium epidermidis中四條序列進行多序列比對后的片段圖4是從進化樹的分支上尋找細菌Brevibacterium epidermidis最近鄰菌種的示意圖
具體實施例方式下面結(jié)合具體的實例及附圖對本方法作進一步說明。一、針對細菌、真菌以及原生動物的以rRNA為模板的設計流程我們將細菌Brevibacterium epidermidis作為目標物種,并以它為例介紹圖1所示的探針設計流程。首先,從Ribosomal Database Project (RDP)數(shù)據(jù)庫里得到目標物種的16S rRNA序列。根據(jù)這些16S rRNA序列,進行序列比對,從GenBank中抽提出該物種更多的16S rRNA序列,同時對序列的種屬描述信息進行校正,確保為目標物種的16S rRNA序列。對目標物種的多條16SrRNA進行多序列比對,抽提出種內(nèi)保守的序列區(qū)域。圖3所示為其中的一段保守序列片段。通過系統(tǒng)發(fā)生分析,對所研究額全部細菌菌種的代表性序列構(gòu)建進化樹,從進化樹的分支中可以找到目標物種的最近鄰物種,如圖4所示,細菌Brevibacteriumepidermidis的最近鄰菌種為Kineosporia aurantiaca。將兩個菌種進行序列比對,得到種間的保守區(qū)。從Brevibacterium epidermidis的種內(nèi)保守區(qū)域中去除這部分種間保守區(qū),即得到了目標菌種的特異性區(qū)域,作為備選序列進行下一步的探針設計。根據(jù)如下的幾類實驗條件,包括探針長度為60mer,所有探針的理論融解溫度在2度內(nèi)波動,GC含量在30% -70%的范圍內(nèi)等等,從備選序列中抽提出滿足條件的備選探針集合。構(gòu)建將脊椎動物序列和相應的病原體序列整合到一起的非目標物種序列庫,通過Blastn對備選探針進行同源性檢測。我們設置的特異性標準是備選探針對于非目標物種基因的連續(xù)互補片段長度小于15bp,總的互補長度應小于75%。通過篩選,去除掉可能與非目標物種序列產(chǎn)生交叉雜交的結(jié)果,得到高專一性的探針。
二、針對病毒以蛋白質(zhì)編碼序列為模板的設計流程圖2所示的探針設計流程為針對病毒的,并以蛋白質(zhì)編碼序列為模板的設計流程。首先,從European Molecular Biology Laboratory(EMBL)數(shù)據(jù)庫中下載病毒序列標準文件。從中抽提整理屬于目標病毒的序列,根據(jù)序列文件提供的信息,進一步抽提出編碼結(jié)構(gòu)蛋白的核酸序列以及所編碼的蛋白質(zhì)序列。將這些蛋白質(zhì)序列與Pfam proteinfamilies database中的種子序列進行比對,得到保守的序列區(qū)域,將其對應的核酸編碼區(qū)作為下一步設計的備選序列。對于那些不能夠通過與Pfam數(shù)據(jù)庫比對得到保守區(qū)的序列,直接將它們的核酸編碼區(qū)進行序列比對、聚類,得到保守區(qū)域,作為備選序列的另一個來源。從備選序列出發(fā)設計探針的步驟與以rRNA為模板的設計流程中后面的步驟是是一致的。
權利要求
1.一種針對細菌、真菌以及原生動物三類病原體的探針,其特征是一種基于16SrRNA或18S rRNA序列模板的設計方法為基礎的探針,包括:從RibosomalDatabaseProject(RDP)數(shù)據(jù)庫里得到目標物種的rRNA序列,抽提出物種內(nèi)部的保守的序列區(qū)域; (1)通過系統(tǒng)發(fā)生分析,對多個物種的代表性序列構(gòu)建進化樹,從進化樹的分支中找到目標物種的最近鄰物種; (2)將兩個物種進行序列比對得到種間的保守區(qū); (3)從目標物種的種內(nèi)保守區(qū)域中去除這部分種間保守區(qū),得到目標物種的特異性區(qū)域,作為備選序列; (4)針對該備選序列進行探針設計,對得到的備選探針進行特異性評估,去除那些可能產(chǎn)生交叉雜交的低質(zhì)量探針。
2.一種針對病毒的探針,其特征是一種基于結(jié)構(gòu)蛋白編碼序列的設計方法為基礎的探針,通過蛋白-蛋白比對獲取保守區(qū)域的信息,包括: (1)從EMBL數(shù)據(jù)庫中下載病毒序列標準文件,從中抽提出編碼結(jié)構(gòu)蛋白的核酸序列以及相應的蛋白質(zhì)序列; (2)將這些蛋白質(zhì)序列與Pfam數(shù)據(jù)庫中的種子序列進行比對,得到保守的序列區(qū)域,將與其對應的核酸編碼區(qū)作為下一步設計的備選序列; (3)按照權利要求1中所述的步驟(4),進行后續(xù)的探針設計。
全文摘要
本發(fā)明涉及一種生物芯片的探針設計方法,尤其是設計出用于對以脊椎動物為宿主的病毒、細菌、真菌等病原體進行高通量檢測的探針。本發(fā)明提供的方法,包括1)針對檢測對象為細菌、真菌以及原生動物三類病原體的,以rRNA為模板的探針設計方法;2)針對檢測對象為病毒,以結(jié)構(gòu)蛋白編碼序列為模板的探針設計方法。
文檔編號G06F19/20GK103093120SQ20111034875
公開日2013年5月8日 申請日期2011年11月8日 優(yōu)先權日2011年11月8日
發(fā)明者張鑫磊, 蔣小云, 肖琛 申請人:北京健數(shù)通生物計算技術有限公司