亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

關(guān)于基因表達(dá)的rna測序質(zhì)控方法及裝置的制作方法

文檔序號(hào):6606531閱讀:448來源:國知局
專利名稱:關(guān)于基因表達(dá)的rna測序質(zhì)控方法及裝置的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及生物技術(shù)領(lǐng)域,尤其涉及一種關(guān)于基因表達(dá)的核糖核酸(RNA, RiboNucleic Acid)測序質(zhì)控方法及裝置。
背景技術(shù)
基因表達(dá)是指基因片段脫氧核糖核酸(DNA,Deoxyribonucleic acid)轉(zhuǎn)錄成信 使核糖核酸(mRNA,Messenger RNA)及mRNA翻譯成蛋白質(zhì)的過程。隨著人類基因組計(jì)劃 (HGP, Human Genome Project)全部核苷酸測序的完成,人類基因組研究的重心逐漸進(jìn)入 后基因組時(shí)代(Postgenome Era)向基因的功能及基因的多樣性傾斜。通過對(duì)個(gè)體在不同 生長發(fā)育階段或不同生理狀態(tài)下大量基因表達(dá)的平行分析,研究相應(yīng)基因在生物體內(nèi)的功 能,闡明不同層次多基因協(xié)同作用的機(jī)理,進(jìn)而在人類重大疾病如癌癥、心血管疾病的發(fā)病 機(jī)理、診斷治療、藥物開發(fā)等方面的研究發(fā)揮巨大的作用。它將大大推動(dòng)人類結(jié)構(gòu)基因組及 功能基因組的各項(xiàng)基因組研究計(jì)劃。一直以來,基于分子雜交的方法對(duì)基因表達(dá)進(jìn)行分析,從經(jīng)典的核酸分子雜交方 法(southerrunorthern blotting)到目前的基因芯片技術(shù),都是應(yīng)用已知核酸序列作為探 針與互補(bǔ)的靶核苷酸序列雜交,通過隨后的信號(hào)檢測進(jìn)行定性與定量分析。新一代高通量測序技術(shù)的發(fā)明對(duì)生物學(xué)特別是基因組學(xué)的研究來說具有劃時(shí)代 的意義,它的高通量性使得對(duì)一個(gè)物種的轉(zhuǎn)錄本和基因組進(jìn)行細(xì)致全貌的分析成為可能。 隨著Solexa測序技術(shù)的出現(xiàn),使得高通量,低成本測序成為可能,并且與芯片技術(shù)的模擬 信號(hào)相比,基于Solexa測序技術(shù)的表達(dá)分析避免了芯片技術(shù)中的交叉雜交、分析模型復(fù)雜 以及靈敏度低等缺點(diǎn);但是,由于高通量測序讀長的限制,使其在對(duì)未知基因組進(jìn)行從頭測 序(de novo sequencing)的應(yīng)用受到限制,這部分工作仍然需要傳統(tǒng)測序手段(讀取長度 可達(dá)到850堿基)的協(xié)助。而這并不影響高通量測序技術(shù)在mRNA表達(dá)譜、microRNA表達(dá) 譜、轉(zhuǎn)錄組測序、染色體免疫共沉淀(ChlP-chip,Chromatin Immunoprecipitation)以及 DNA甲基化等方面的應(yīng)用。數(shù)字基因表達(dá)譜(DGE,Digital Gene Expression Profiling)和轉(zhuǎn)錄組分析 (RNA-Seq)是利用新一代高通量測序技術(shù)和高性能計(jì)算分析技術(shù)對(duì)某一物種特定組織和狀 態(tài)下的基因表達(dá)情況進(jìn)行序列捕捉和精確解析的新方法。隨著新一代測序技術(shù)的不斷發(fā) 展,對(duì)基因表達(dá)的研究也會(huì)更加深入,因此,需要對(duì)基因表達(dá)的分析手段進(jìn)行相關(guān)性評(píng)估, 從而排除由于分析手段自身的不準(zhǔn)確或不穩(wěn)定性所造成的分析誤差,從而選取具有較高可 靠性的基因表達(dá)分析手段,以便真實(shí)反映基因測序的準(zhǔn)確性,確保評(píng)估可靠,從而保證產(chǎn)業(yè) 可行性和生產(chǎn)的穩(wěn)定性。

發(fā)明內(nèi)容
本發(fā)明要解決的一個(gè)技術(shù)問題是提供一種關(guān)于基因表達(dá)的RNA測序質(zhì)控方法及 裝置,通過對(duì)基因表達(dá)的分析為基因測序提供質(zhì)量控制方案。
本發(fā)明的一個(gè)方面提供了 一種關(guān)于基因表達(dá)的RNA測序的質(zhì)控方法,該方法 包括對(duì)測序技術(shù)得到的測序片段分別進(jìn)行數(shù)字基因表達(dá)譜分析(DGE)和轉(zhuǎn)錄組分析 (RNA-Seq);數(shù)字基因表達(dá)譜分析的結(jié)果和轉(zhuǎn)錄組分析的結(jié)果分別與實(shí)時(shí)定量基因擴(kuò)增熒 Tfe^IlJ (qPCR, Real-time Quantitative PCR Detecting System ;PCR, Polymerase Chain Reaction,聚合酶鏈?zhǔn)椒磻?yīng))的結(jié)果進(jìn)行相關(guān)性分析;根據(jù)相關(guān)性分析結(jié)果,判斷 數(shù)字基因表達(dá)譜分析和轉(zhuǎn)錄組分析在基因表達(dá)定量上的差異,并從數(shù)字基因表達(dá)譜分析和 轉(zhuǎn)錄組分析中選取一種測序分析方式;從所選取的測序分析方式獲取的分析結(jié)果中選取 一百萬標(biāo)簽數(shù)據(jù)(1M reads),進(jìn)行基因表達(dá)的測序穩(wěn)定性分析。本發(fā)明提供的關(guān)于基因表達(dá)的RNA測序的質(zhì)控方法的一個(gè)實(shí)施例中,該方法還包 括采用高通量測序技術(shù)進(jìn)行關(guān)于基因表達(dá)的RNA測序;對(duì)數(shù)字基因表達(dá)譜分析的結(jié)果和 轉(zhuǎn)錄組分析的結(jié)果分別進(jìn)行去接頭序列和去低質(zhì)量序列的處理。本發(fā)明提供的關(guān)于基因表達(dá)的RNA測序的質(zhì)控方法的一個(gè)實(shí)施例中,通過高通量 測序技術(shù)對(duì)樣品片段的基因表達(dá)進(jìn)行多次測序,并對(duì)多次測序的數(shù)據(jù)取平均值以獲得實(shí)時(shí) 定量基因擴(kuò)增熒光檢測的結(jié)果。本發(fā)明提供的關(guān)于基因表達(dá)的RNA測序的質(zhì)控方法的一個(gè)實(shí)施例中,數(shù)字基因表 達(dá)譜分析的結(jié)果和轉(zhuǎn)錄組分析的結(jié)果分別與實(shí)時(shí)定量基因擴(kuò)增熒光檢測(qPCR)的結(jié)果進(jìn) 行相關(guān)性分析進(jìn)一步包括當(dāng)參考基因不全時(shí),將數(shù)字基因表達(dá)譜分析的結(jié)果和轉(zhuǎn)錄組分 析的結(jié)果分別與實(shí)時(shí)定量基因擴(kuò)增熒光檢測的結(jié)果進(jìn)行相關(guān)性分析;和/或在相同測序量 的情況下,比較數(shù)字基因表達(dá)譜分析的結(jié)果和轉(zhuǎn)錄組分析的結(jié)果檢測到的基因數(shù)。本發(fā)明提供的關(guān)于基因表達(dá)的RNA測序的質(zhì)控方法的一個(gè)實(shí)施例中,當(dāng)參考基因 不全時(shí),將數(shù)字基因表達(dá)譜分析的結(jié)果和轉(zhuǎn)錄組分析的結(jié)果分別與實(shí)時(shí)定量基因擴(kuò)增熒光 檢測的結(jié)果進(jìn)行相關(guān)性分析的步驟進(jìn)一步包括將參考基因從3’端到5’端平均切成三份; 對(duì)三份參考基因分別進(jìn)行數(shù)字基因表達(dá)譜分析和轉(zhuǎn)錄組分析;將所獲得的分析結(jié)果分別與 實(shí)時(shí)定量基因擴(kuò)增熒光檢測的結(jié)果進(jìn)行相關(guān)性分析。本發(fā)明提供的關(guān)于基因表達(dá)的RNA測序的質(zhì)控方法的一個(gè)實(shí)施例中,在相同測序 量的情況下,比較數(shù)字基因表達(dá)譜分析的結(jié)果和轉(zhuǎn)錄組分析的結(jié)果檢測到的基因數(shù)的步驟 進(jìn)一步包括從高通量測序得到的測序片段中取出三百萬標(biāo)簽數(shù)據(jù)(3M reads)分別進(jìn)行 數(shù)字基因表達(dá)譜分析和轉(zhuǎn)錄組分析;從高通量測序得到的測序片段中取出兩百萬標(biāo)簽數(shù)據(jù) (2M reads)分別進(jìn)行數(shù)字基因表達(dá)譜分析和轉(zhuǎn)錄組分析;和/或從高通量測序得到的測序 片段中取出一百萬標(biāo)簽數(shù)據(jù)(1M reads)分別進(jìn)行數(shù)字基因表達(dá)譜分析和轉(zhuǎn)錄組分析;在 相同測序量的情況下,分別比較數(shù)字基因表達(dá)譜分析和轉(zhuǎn)錄組分析方法能夠檢測到的基因 數(shù)。本發(fā)明提供的關(guān)于基因表達(dá)的RNA測序的質(zhì)控方法的一個(gè)實(shí)施例中,從所選取 的測序分析方式獲取的分析結(jié)果中選取一百萬標(biāo)簽數(shù)據(jù)(1M reads),進(jìn)行基因表達(dá)的 測序穩(wěn)定性分析的步驟進(jìn)一步包括從數(shù)字基因表達(dá)譜分析結(jié)果中取出一百萬標(biāo)簽數(shù)據(jù) (IMreads),并將其與全部的數(shù)字基因表達(dá)譜分析結(jié)果進(jìn)行相關(guān)性分析;和/或從轉(zhuǎn)錄組分 析結(jié)果中取出一百萬標(biāo)簽數(shù)據(jù)(1M reads),并將其與全部的轉(zhuǎn)錄組分析結(jié)果進(jìn)行相關(guān)性分 析。本發(fā)明的另一個(gè)方面提供了一種關(guān)于基因表達(dá)的RNA測序的質(zhì)控裝置,該裝置包括基因表達(dá)測算模塊,用于對(duì)測序技術(shù)得到的測序片段分別進(jìn)行數(shù)字基因表達(dá)譜分析 (DGE)和轉(zhuǎn)錄組分析(RNA-Seq);相關(guān)性分析模塊,用于將數(shù)字基因表達(dá)譜分析的結(jié)果和 轉(zhuǎn)錄組分析的結(jié)果分別與實(shí)時(shí)定量基因擴(kuò)增熒光檢測(qPCR)的結(jié)果進(jìn)行相關(guān)性分析;測 序分析方式選取模塊,用于根據(jù)相關(guān)性分析結(jié)果,判斷數(shù)字基因表達(dá)譜分析和轉(zhuǎn)錄組分析 在基因表達(dá)定量上的差異,并從數(shù)字基因表達(dá)譜分析和轉(zhuǎn)錄組分析中選取一種測序分析方 式;測序穩(wěn)定性分析模塊,用于從所選取的測序分析方式獲取的分析結(jié)果中選取一百萬標(biāo) 簽數(shù)據(jù)(1M reads),進(jìn)行基因表達(dá)的測序穩(wěn)定性分析。本發(fā)明提供的關(guān)于基因表達(dá)的RNA測序的質(zhì)控裝置的一個(gè)實(shí)施例中,相關(guān)性分析 模塊進(jìn)一步包括第一相關(guān)性分析子模塊,用于當(dāng)參考基因不全時(shí),將參考基因從3’端到 5’端平均切成三份;對(duì)三份參考基因分別進(jìn)行數(shù)字基因表達(dá)譜分析和轉(zhuǎn)錄組分析;將所獲 得的分析結(jié)果分別與實(shí)時(shí)定量基因擴(kuò)增熒光檢測的結(jié)果進(jìn)行相關(guān)性分析;第二相關(guān)性分析 子模塊,用于在相同測序量的情況下,從高通量測序得到的測序片段中取出三百萬標(biāo)簽數(shù) 據(jù)(3M reads)分別進(jìn)行數(shù)字基因表達(dá)譜分析和轉(zhuǎn)錄組分析,從高通量測序得到的測序片段 中取出兩百萬標(biāo)簽數(shù)據(jù)(2M reads)分別進(jìn)行數(shù)字基因表達(dá)譜分析和轉(zhuǎn)錄組分析;和/或從 高通量測序得到的測序片段中取出一百萬標(biāo)簽數(shù)據(jù)(1M reads)分別進(jìn)行數(shù)字基因表達(dá)譜 分析和轉(zhuǎn)錄組分析;以及在相同測序量的情況下,分別比較數(shù)字基因表達(dá)譜分析和轉(zhuǎn)錄組 分析方法能夠檢測到的基因數(shù)。本發(fā)明提供的關(guān)于基因表達(dá)的RNA測序的質(zhì)控裝置的一個(gè)實(shí)施例中,測序穩(wěn)定性 分析模塊進(jìn)一步包括第一測序穩(wěn)定性分析子模塊,用于從數(shù)字基因表達(dá)譜分析結(jié)果中取 出一百萬標(biāo)簽數(shù)據(jù)(IMreads),并將其與全部的數(shù)字基因表達(dá)譜分析結(jié)果進(jìn)行相關(guān)性分析; 第二測序穩(wěn)定性分析子模塊,用于從轉(zhuǎn)錄組分析結(jié)果中取出一百萬標(biāo)簽數(shù)據(jù)(1M reads), 并將其與全部的轉(zhuǎn)錄組分析結(jié)果進(jìn)行相關(guān)性分析。本發(fā)明提供了一種關(guān)于基因表達(dá)的RNA測序質(zhì)控方法及裝置,通過對(duì)基因表達(dá)的 分析手段進(jìn)行相關(guān)性分析和綜合性評(píng)估,從而選取具有較高可靠性的基因表達(dá)分析手段, 真實(shí)反映基因測序的準(zhǔn)確性,保證產(chǎn)業(yè)可行性,為生產(chǎn)的穩(wěn)定性提供質(zhì)量控制方案。


圖1示出本發(fā)明實(shí)施例提供的一種關(guān)于基因表達(dá)的RNA測序的質(zhì)控方法的流程 圖;圖2示出了本發(fā)明兩樣品的DGE分析的結(jié)果與qPCR結(jié)果的相關(guān)性分析結(jié)果的示 意圖,其中圖2(a)示出了樣品UHRR的DGE分析的結(jié)果與qPCR結(jié)果的分析結(jié)果示意圖,圖 2(b)示出了樣品HBRR的DGE分析的結(jié)果與qPCR結(jié)果的分析結(jié)果示意圖;圖3示出了本發(fā)明兩樣品的RNA-Seq分析的結(jié)果與qPCR結(jié)果的相關(guān)性分析結(jié)果 的示意圖,其中圖3 (a)示出了樣品UHRR的RNA-Seq分析的結(jié)果與qPCR結(jié)果的分析結(jié)果示 意圖,圖3(b)示出了樣品HBRR的RNA-Seq分析的結(jié)果與qPCR結(jié)果的分析結(jié)果示意圖;圖4示出本發(fā)明提供的關(guān)于基因表達(dá)的RNA測序的質(zhì)控方法的另一個(gè)實(shí)施例的流 程圖;圖5示出了本發(fā)明樣品UHRR三等分參考基因序列的DGE分析的結(jié)果與qPCR結(jié) 果的相關(guān)性分析結(jié)果的示意圖,其中圖5(a)示出了樣品UHRR第一段的DGE分析的結(jié)果與qPCR結(jié)果的分析結(jié)果示意圖,圖5 (b)示出了樣品UHRR第二段的DGE分析的結(jié)果與qPCR結(jié) 果的分析結(jié)果示意圖,圖5 (c)示出了樣品UHRR第三段的DGE分析的結(jié)果與qPCR結(jié)果的分 析結(jié)果示意圖;圖6示出了本發(fā)明樣品UHRR三等分參考基因序列的RNA-Seq分析的結(jié)果與qPCR 結(jié)果的相關(guān)性分析結(jié)果的示意圖,其中圖6(a)示出了樣品UHRR第一段的RNA-Seq分析的 結(jié)果與qPCR結(jié)果的分析結(jié)果示意圖,圖6 (b)示出了樣品UHRR第二段的RNA-Seq分析的結(jié) 果與qPCR結(jié)果的分析結(jié)果示意圖,圖6 (c)示出了樣品UHRR第三段的RNA-Seq分析的結(jié)果 與qPCR結(jié)果的分析結(jié)果示意圖;圖7是本發(fā)明樣品UHRR在相同測序量下,DGE和RNA-Seq檢測到的基因數(shù)的示意 圖;圖8示出本發(fā)明提供的關(guān)于基因表達(dá)的RNA測序的質(zhì)控方法的另一個(gè)實(shí)施例的流 程圖;圖9示出本發(fā)明實(shí)施例提供的一種關(guān)于基因表達(dá)的RNA測序的質(zhì)控裝置的結(jié)構(gòu)示 意圖;圖10示出本發(fā)明提供的關(guān)于基因表達(dá)的RNA測序的質(zhì)控裝置的另一個(gè)實(shí)施例的 結(jié)構(gòu)示意圖;圖11示出本發(fā)明提供的關(guān)于基因表達(dá)的RNA測序的質(zhì)控裝置的另一個(gè)實(shí)施例的 結(jié)構(gòu)示意圖。
具體實(shí)施例方式下面參照附圖用本發(fā)明的示例性實(shí)施例對(duì)本發(fā)明進(jìn)行更全面的描述及說明。圖1示出本發(fā)明實(shí)施例提供的一種關(guān)于基因表達(dá)的RNA測序的質(zhì)控方法的流程 圖。如圖1所示,關(guān)于基因表達(dá)的RNA測序的質(zhì)控方法100包括步驟102,對(duì)測序技術(shù) 得到的測序片段分別進(jìn)行數(shù)字基因表達(dá)譜分析(DGE)和轉(zhuǎn)錄組分析(RNA-Seq)。本發(fā)明 實(shí)施例中,測序方法可以采用高通量測序技術(shù),例如采用Illumina GA Solexa測序技術(shù); Solexa是一種基于邊合成邊測序技術(shù)(SBS,Sequencing-By-Synthesis)的新型測序方法, 通過利用單分子陣列實(shí)現(xiàn)在小型芯片(Flow Cell)上進(jìn)行橋式PCR反應(yīng)。新的可逆阻斷技 術(shù)可實(shí)現(xiàn)每次只合成一個(gè)堿基,不需要標(biāo)記熒光基團(tuán),再利用相應(yīng)的激光激發(fā)熒光基團(tuán)捕 獲激發(fā)光,從而讀取堿基信息。實(shí)驗(yàn)可以采用36Single End測序平臺(tái),對(duì)RNA標(biāo)準(zhǔn)品/實(shí) 驗(yàn)樣品分別進(jìn)行雙酶切測序和隨機(jī)打斷測序。步驟104,數(shù)字基因表達(dá)譜分析的結(jié)果和轉(zhuǎn)錄組分析的結(jié)果分別與實(shí)時(shí)定量基因 擴(kuò)增熒光檢測(qPCR)的結(jié)果進(jìn)行相關(guān)性分析。稍后對(duì)關(guān)于DGE和RNA-Seq分析的結(jié)果與 qPCR的結(jié)果的相關(guān)性分析方法做進(jìn)一步的詳細(xì)介紹。步驟106,根據(jù)相關(guān)性分析結(jié)果,判斷數(shù)字基因表達(dá)譜分析和轉(zhuǎn)錄組分析在基因表 達(dá)定量上的差異,并從數(shù)字基因表達(dá)譜分析和轉(zhuǎn)錄組分析中選取一種測序分析方式。例如, 綜合分析數(shù)字基因表達(dá)譜和RNA-Seq在基因表達(dá)定量(涉及基因數(shù)和基因表達(dá)量)上的 差異,具體來說,可以包括分析正常測序量時(shí)比較數(shù)字基因表達(dá)譜和RNA-Seq分析的結(jié)果 與qPCR結(jié)果的相關(guān)性,分析參考基因不全時(shí)比較數(shù)字基因表達(dá)譜和RNA-Seq分析的結(jié)果與qPCR結(jié)果的相關(guān)性,以及在相同測序量下比較數(shù)字基因表達(dá)譜和RNA-Seq能檢測到的基因 數(shù)中的至少任意一種方式。根據(jù)前述綜合分析結(jié)果,得出DGE和RNA-Seq在基因表達(dá)定量 上的差異,從而選取合適的測序分析方式。步驟108,從所選取的測序分析方式獲取的分析結(jié)果中選取一百萬標(biāo)簽數(shù)據(jù)(1M reads),進(jìn)行基因表達(dá)的測序穩(wěn)定性分析。例如,根據(jù)前述綜合分析,如果RNA-Seq分析方 式所獲取的基因表達(dá)定量更為準(zhǔn)確(即RNA-Seq得到的基因表達(dá)量更接近于qPCR得到的 基因表達(dá)量),則從RNA-Seq分析方式所獲取的分析結(jié)果中隨機(jī)選取lMreads,并將其與 全部的轉(zhuǎn)錄組分析結(jié)果進(jìn)行相關(guān)性分析;所述隨機(jī)的選取方式可以是將所有測序得到的 reads完全打亂,再從中任意取出IM的reads ;如果DGE和RNA-Seq分析方式所獲取的基因 表達(dá)定量相當(dāng),則可以從中任選一種,以所選取的方式所獲得的分析結(jié)果中選取IM reads, 并將其與全部的轉(zhuǎn)錄組分析結(jié)果進(jìn)行相關(guān)性分析;從而根據(jù)分析結(jié)果對(duì)生產(chǎn)測序的穩(wěn)定性 進(jìn)行檢測和評(píng)估以確保測序工作的準(zhǔn)確性(其中關(guān)于“檢測和評(píng)估”主要是通過分析測序 結(jié)果的重復(fù)性,由于IM reads的基因數(shù)目和表達(dá)量是確定的,如果某次測序與確定結(jié)果重 復(fù)性不好就說明該次測序不穩(wěn)定不正確)。數(shù)字基因表達(dá)譜分析(DGE)實(shí)驗(yàn)部分主要包括樣本制備實(shí)驗(yàn)和測序?qū)嶒?yàn)。 主要試劑耗材為 Illumina Gene Expression Sample Prep Kit 禾口 Solexa 測序芯片 (flowcell),主要儀器是 Illumina Cluster Station (IIlumina 公司)禾口 Illumina Genome Analyzer (I Ilumina公司)系統(tǒng)。具體實(shí)驗(yàn)流程提取6μ g總RNA,利用Oligo (dT)磁珠 吸附純化mRNA,并以O(shè)ligo(dT)引導(dǎo)反轉(zhuǎn)錄合成雙鏈cDNA。標(biāo)簽5’末端的產(chǎn)生可用兩種 內(nèi)切酶實(shí)現(xiàn)=NlaIII或者DpnII,通常我們使用Nlalll,它識(shí)別并切斷cDNA上的CATG位 點(diǎn),利用磁珠沉淀純化帶有cDNA3’端的片段,將其5’末端連接Illumina接頭1(即序列 ACAGGTTCAGAGTTCTACAGTCCGACATG)。Illumina 接頭 1 與 CATG 位點(diǎn)的結(jié)合處是 MmeI 的識(shí) 別位點(diǎn),MmeI是一種識(shí)別位點(diǎn)與酶切位點(diǎn)分離的內(nèi)切酶,酶切CATG位點(diǎn)下游17bp處,這樣 就產(chǎn)生了帶有接頭1的Tag。通過磁珠沉淀去除3’片段后,在Tag3’末端連接Illumina 接頭2 (即序列CAAGCAGAAGACGGCATACGANN),從而獲得兩端連有不同接頭序列的21bp標(biāo) 簽library。經(jīng)過15個(gè)循環(huán)的PCR線性擴(kuò)增后,通過6% TBE PAGE膠電泳純化85堿基條 帶,解鏈后,單鏈分子被加到Solexa測序芯片(flowcell)上并固定,每條分子經(jīng)過原位擴(kuò) 增成為一個(gè)單分子簇(cluster)測序模板,加入4色熒光標(biāo)記的4種核苷酸,采用邊合成邊 測序法(sequencing by synthesis, SBS)測序。每個(gè)通道將產(chǎn)生數(shù)百萬條原始Read,Read 的測序讀長為35bp。利用OligodT的beads富集總RNA中mRNA,并逆轉(zhuǎn)錄為雙鏈cDNA,采 用4堿基識(shí)別酶WaIII、酶切雙鏈cDNA,鏈接Illumina接頭1,利用MmeI酶切3,端CATG 下游17bp堿基,并在3,端鏈接Illumina接頭2。再加入Primer GXl和Primer GX2進(jìn)行 PCR擴(kuò)增。擴(kuò)增后樣本通過6% TBE PAGE膠回收85堿基條帶,純化后通過Illumina基因 表達(dá)測序法測序。轉(zhuǎn)錄組分析(RNA-Seq)實(shí)驗(yàn)部分測序基本過程包括提取樣品總RNA后, 用帶有Oligo (dT)的磁珠富集真核生物mRNA (若為原核生物,則用試劑盒去除rRNA后進(jìn)入 下一步)。加入fragmentation buffer將mRNA打斷成短片段,以mRNA為模板,用六堿基隨 機(jī)引物(random hexamers)合成第一條cDNA鏈,然后加入緩沖液、dNTPs、RNase H和DNA polymerase I合成第二條cDNA鏈,再經(jīng)過QiaQuick PCR試劑盒(Qiagen公司生產(chǎn))純化 并加EB緩沖液洗脫之后做末端修復(fù)并連接測序接頭,然后用瓊脂糖凝膠電泳進(jìn)行片段大小選擇,最后進(jìn)行PCR擴(kuò)增,使用建好的測序文庫進(jìn)行測序。接下來對(duì)DGE和RNA-Seq分析的結(jié)果與qPCR的結(jié)果的相關(guān)性分析方法做詳細(xì)介 紹數(shù)字基因表達(dá)譜分析(DGE)的結(jié)果與qPCR的結(jié)果的相關(guān)性分析,主要涉及DGE標(biāo) 準(zhǔn)分析中表達(dá)量TPM(Transcripts Per Million clean reads)的計(jì)算方式,具體來說TPM =每個(gè)基因包含的原始Clean Tags數(shù)/該樣本中總clean Tags數(shù)X 1,000,000 (參見De印 sequencing-based expression analysis shows major advances in robustness, resolution and inter-lab portability over five microarray platforms, Peter A. C. 't Hoen, Yavuz Ariyurek, et al. , Nucleic Acids Research,15 October 2008, Vol. 36,No. 21)。圖2示出了本發(fā)明兩樣品的DGE分析的結(jié)果與qPCR結(jié)果的相關(guān)性分析結(jié)果的示 意圖。通常來說,如DGE數(shù)據(jù)產(chǎn)量為3M reads,可以隨機(jī)從樣品測序數(shù)據(jù)中取3M reads來 進(jìn)行DGE結(jié)果準(zhǔn)確性的分析;所述隨機(jī)的選取方式可以是將所有測序得到的reads完全打 亂,再從中任意取出3M的reads。由于UHRR和HBRR是RNA標(biāo)準(zhǔn)樣品,能下載獲取的是該 RNA標(biāo)準(zhǔn)樣品的qPCR結(jié)果,而樣品測序數(shù)據(jù)是不能下載的,需要自行進(jìn)行測序。圖2 (a)示 出了樣品UHRR的DGE分析結(jié)果與qPCR結(jié)果的分析結(jié)果示意圖,圖2 (b)示出了樣品HBRR 的DGE分析結(jié)果與qPCR結(jié)果的分析結(jié)果示意圖;其中本發(fā)明使用的UHRR是Stratagene公 司的 Universal Human Reference RNA (UHRR)標(biāo)準(zhǔn)品,HBRR 是 Ambion 公司的 Human Brain Reference RNA(HBRR)標(biāo)準(zhǔn)品。如圖2(a)所示,樣品UHRR的DGE分析的結(jié)果與qPCR結(jié)果 的相關(guān)系數(shù)約為0. 3,如圖2 (b)所示,樣品HBRR的DGE分析的結(jié)果與qPCR結(jié)果的相關(guān)系數(shù) 約為0. 53 (其中UHRR和HBRR樣品在DGE分析中能檢測到的基因數(shù)都是716,UHRR和HBRR 樣品在qPCR中能檢測到的基因數(shù)都是687)。轉(zhuǎn)錄組分析(RNA-Seq)的結(jié)果與qPCR結(jié)果的相關(guān)性分析,主要涉及RNA-Seq標(biāo)準(zhǔn) 分析中表達(dá)量RPKM(Reads Per Kb per Million reads)的計(jì)算方式,具體來說RNA_Seq標(biāo) 準(zhǔn)分析中表達(dá)量RPKM的算法(參見Mapping and quantifying mammalian transcriptomes by RNA-Seq, Ali Mortazavi et al. ,30May 2008, Nature Methods|Advance Online Publication)如下所示其中,RPKM(A)是關(guān)于基因A的表達(dá)量,C為唯一比對(duì)到基因A的reads數(shù),N為唯 一比對(duì)到基因組的總reads數(shù),L為基因A編碼區(qū)的堿基數(shù)。圖3示出了本發(fā)明兩樣品的RNA-Seq分析的結(jié)果與qPCR結(jié)果的相關(guān)性分析結(jié)果 的示意圖。通常來說,如RNA-Seq數(shù)據(jù)產(chǎn)量為3Mreads,可以從樣品測序數(shù)據(jù)中隨機(jī)取3M reads來進(jìn)行DGE結(jié)果準(zhǔn)確性的分析,所述隨機(jī)的選取方式可以是將所有測序得到的reads 完全打亂,再從中任意取出3M的reads。圖3 (a)示出了樣品UHRR的RNA-Seq分析的結(jié)果 與qPCR結(jié)果的分析結(jié)果示意圖,圖3(b)示出了樣品HBRR的RNA-Seq分析的結(jié)果與qPCR 結(jié)果的分析結(jié)果示意圖;其中樣品UHRR的RNA-Seq分析的結(jié)果與qPCR結(jié)果的相關(guān)系數(shù)約 為0. 91,樣品HBRR的RNA-Seq分析的結(jié)果與qPCR結(jié)果的相關(guān)系數(shù)約為0. 86 (其中UHRR和 HBRR樣品在RNA-Seq分析中能檢測到的基因數(shù)都是872,UHRR和HBRR樣品在qPCR中能檢測到的基因數(shù)都是851)。此外,需要說明的是從樣品UHRR和HBRR中抽取3M reads進(jìn)行 RNA-Seq與qPCR相關(guān)性分析,與用全部數(shù)據(jù)計(jì)算得到的RNA-Seq和qPCR的相關(guān)系數(shù)相同, 都分別是0. 91和0. 86。由此可見,對(duì)于基因測序的數(shù)據(jù)量來說,其對(duì)RNA-Seq的定量分析 幾無影響或者說影響甚微。本發(fā)明提供的關(guān)于基因表達(dá)的RNA測序的質(zhì)控方法的一個(gè)實(shí)施例中,在對(duì)測序技 術(shù)得到的測序片段分別進(jìn)行DGE和RNA-Seq分析步驟之前,對(duì)數(shù)字基因表達(dá)譜分析的結(jié)果 和轉(zhuǎn)錄組分析的結(jié)果分別進(jìn)行去接頭序列;進(jìn)一步地,也可以對(duì)去接頭序列的結(jié)果再進(jìn)行 去低質(zhì)量序列的處理,從而獲取能夠用于標(biāo)簽的數(shù)據(jù)(clean tag)以進(jìn)行后續(xù)分析。本發(fā)明提供的關(guān)于基因表達(dá)的RNA測序的質(zhì)控方法的一個(gè)實(shí)施例中,通過高通量 測序技術(shù)對(duì)樣品片段的基因表達(dá)進(jìn)行多次測序,并對(duì)多次測序的數(shù)據(jù)取平均值以獲得實(shí)時(shí) 定量基因擴(kuò)增熒光檢測的結(jié)果。例如,UHRR和HBRR樣品的qPCR數(shù)據(jù)是從GEO (高通量基 因表達(dá),Gene Expression Omnibus)上下載的,具體來說其下載路徑http//www. ncbi. nlm. nih.gov/geo/query/acc. cgi ? acc = GSE5350,其中 UHRR 的 accession number 是 GSM129638,
公開日是 2006 年 9 月 8 日;HBRR 的 accession number 是 GSM129645,
公開日是 2006年9月8日。對(duì)UHRR和HBRR樣品分別進(jìn)行多次測序(如4次)的平行實(shí)驗(yàn),并對(duì)該 4次平行實(shí)驗(yàn)的關(guān)于基因數(shù)和基因表達(dá)量的結(jié)果取平均值以作為qPCR定量結(jié)果。本發(fā)明提供的關(guān)于基因表達(dá)的RNA測序的質(zhì)控方法,基于對(duì)測序片段進(jìn)行DGE和 RNA-Seq分析,并對(duì)DGE和RNA-Seq分析的結(jié)果與qPCR結(jié)果進(jìn)行相關(guān)性的綜合分析,從而選 取適宜的測序分析方式進(jìn)行基因表達(dá)的測序穩(wěn)定性分析。通過本發(fā)明提供的關(guān)于基因表達(dá) 的RNA測序的質(zhì)控方法的一個(gè)實(shí)施例,其能夠真實(shí)反映基因測序的準(zhǔn)確性,保證產(chǎn)業(yè)可行 性,為生產(chǎn)的穩(wěn)定性提供質(zhì)量控制方案。圖4示出本發(fā)明提供的關(guān)于基因表達(dá)的RNA測序的質(zhì)控方法的另一個(gè)實(shí)施例的流 程圖。如圖4所示,關(guān)于基因表達(dá)的RNA測序的質(zhì)控方法400包括步驟402、404、405、 406、408,其中步驟402、406和408可以分別執(zhí)行與可以分別執(zhí)行與圖1所示的步驟102、 106和108相同或相似的技術(shù)內(nèi)容,為簡潔起見,這里不再贅述其技術(shù)內(nèi)容。如圖4所示,在步驟402后,執(zhí)行步驟404,當(dāng)參考基因不全時(shí),將數(shù)字基因表達(dá) 譜分析的結(jié)果和轉(zhuǎn)錄組分析的結(jié)果分別與實(shí)時(shí)定量基因擴(kuò)增熒光檢測的結(jié)果進(jìn)行相關(guān)性 分析。參考基因都是現(xiàn)有數(shù)據(jù)庫中已經(jīng)拼接好的核酸序列(http://www.ncbi.nlm.nih. gov/),這些核酸序列有很多版本(由不同的研究機(jī)構(gòu),數(shù)據(jù)中心等等單位發(fā)布的),每個(gè)機(jī) 構(gòu)由于其技術(shù)水平的限制,所以發(fā)布的結(jié)果與基因的真實(shí)情況是有不同的,因此可能存在 參考基因不全或不完整的情形。例如,在用DGE分析的結(jié)果和RNA-Seq分析的結(jié)果分別與實(shí) 時(shí)定量基因擴(kuò)增熒光檢測(qPCR)的結(jié)果進(jìn)行相關(guān)性分析時(shí),當(dāng)參考基因不全/不完整時(shí), 可以采用如下方式進(jìn)行相關(guān)性的分析。具體來說,在非模式生物中,有理由懷疑參考基因序列的不全會(huì)造成DGE定量不 準(zhǔn)確;首先,將完整的參考基因序列(如NCBI中人的refseq基因)從3’端開始進(jìn)行三等 分,然后將三等分的基因序列當(dāng)作完整的參考基因序列,分別進(jìn)行DGE分析的結(jié)果與qPCR 結(jié)果的相關(guān)性分析。圖5示出了本發(fā)明樣品UHRR三等分參考基因序列的DGE分析的結(jié)果與 qPCR結(jié)果的相關(guān)性分析結(jié)果的示意圖,其中圖5(a)示出了樣品UHRR第一段的DGE分析的結(jié)果與qPCR結(jié)果的分析結(jié)果示意圖,圖5 (b)示出了樣品UHRR第二段的DGE分析的結(jié)果與 qPCR結(jié)果的分析結(jié)果示意圖,圖5 (c)示出了樣品UHRR第三段的DGE分析的結(jié)果與qPCR結(jié) 果的分析結(jié)果示意圖;分析發(fā)現(xiàn)樣品UHRR的這三部分序列,其DGE分析結(jié)果與qPCR結(jié)果的 相關(guān)系數(shù)分別約為0. 71,0. 39和0. 33(用完整基因序列作分析時(shí)DGE分析結(jié)果與qPCR結(jié)果 的相關(guān)系數(shù)為0. 76),其在DGE分析中能檢測到的基因數(shù)分別是774,596和435。同樣地, 對(duì)于采用RNA-Seq分析方式進(jìn)行基因序列表達(dá)的,也是先將完整的參考基因序列從3’端開 始進(jìn)行三等分,然后將三等分的基因序列當(dāng)作完整的參考基因序列,分別進(jìn)行RNA-Seq與 qPCR相關(guān)性分析。圖6示出了本發(fā)明樣品UHRR三等分參考基因序列的RNA-Seq分析的結(jié)果 與qPCR結(jié)果的相關(guān)性分析結(jié)果的示意圖,其中圖6(a)示出了樣品UHRR第一段的RNA-Seq 分析的結(jié)果與qPCR結(jié)果的分析結(jié)果示意圖,圖6 (b)示出了樣品UHRR第二段的RNA-Seq分 析的結(jié)果與qPCR結(jié)果的分析結(jié)果示意圖,圖6 (c)示出了樣品UHRR第三段的RNA-Seq分 析的結(jié)果與qPCR結(jié)果的分析結(jié)果示意圖;分析發(fā)現(xiàn)樣品UHRR的這三部分序列,其RNA-Seq 分析結(jié)果與qPCR結(jié)果的相關(guān)系數(shù)分別約為0. 85,0. 91和0. 84 (用完整基因序列作分析時(shí) RNA-Seq與qPCR的相關(guān)系數(shù)為0. 91),其在RNA-Seq分析中能檢測到的基因數(shù)分別是917、 911 和 896。DGE由于其自身的缺點(diǎn),它無法檢測出不含CATG (或GATC)位點(diǎn)的基因,傾向于得 到每條mRNA最靠近3’端的Tag作為該mRNA的標(biāo)簽,因此它對(duì)參考基因的要求比較嚴(yán)格, 參考基因序列不完整對(duì)DGE結(jié)果的影響很大;而RNA-Seq是對(duì)mRNA進(jìn)行隨機(jī)打斷,所以每 條mRNA能夠得到很多標(biāo)簽,對(duì)參考基因的依賴性不是很強(qiáng),在參考基因不完整的情況下也 能夠得到比較準(zhǔn)確的表達(dá)量信息。由此可見,基因序列不完整對(duì)DGE分析結(jié)果影響較大,而 對(duì)于RNA-Seq的分析結(jié)果影響不大;也就是說,對(duì)于參考基因不全時(shí),如果使用DGE進(jìn)行分 析,則優(yōu)選采用基因表達(dá)3’端開始的第一段;而進(jìn)一步地,優(yōu)選采用RNA-Seq分析方式對(duì)基 因片段進(jìn)行表達(dá)分析。步驟405,在相同測序量的情況下,比較數(shù)字基因表達(dá)譜分析的結(jié)果和轉(zhuǎn)錄組分析 的結(jié)果檢測到的基因數(shù)。例如,在相同測序量下,比較DGE和RNA-Seq兩種分析方式檢測到 的基因數(shù)具體可以包括從高通量測序得到的測序片段中隨機(jī)取出3M的reads數(shù)分別進(jìn) 行數(shù)字基因表達(dá)譜和RNA-Seq分析,從高通量測序得到的測序片段中隨機(jī)取出2M的reads 數(shù)分別進(jìn)行數(shù)字基因表達(dá)譜和RNA-Seq分析,從高通量測序得到的測序片段中隨機(jī)取出IM 的reads數(shù)分別進(jìn)行DGE和RNA-Seq分析;所述隨機(jī)的選取方式可以是將所有測序得到的 reads完全打亂,再從中任意取出對(duì)應(yīng)數(shù)量的reads。在相同測序量的情況下,可以從前述 三種方式中任選至少一種方式來分別比較數(shù)字基因表達(dá)譜和RNA-Seq能檢測到的基因數(shù)。 圖7是本發(fā)明樣品UHRR在相同測序量下,DGE和RNA-Seq檢測到的基因數(shù)的示意圖。如圖 7所示,在相同測序量時(shí)RNA-Seq能檢測到的基因比DGE多約1000個(gè)基因。圖8示出本發(fā)明提供的關(guān)于基因表達(dá)的RNA測序的質(zhì)控方法的另一個(gè)實(shí)施例的流 程圖。如圖8所示,關(guān)于基因表達(dá)的RNA測序的質(zhì)控方法800包括步驟802、804、806、 808、809,其中步驟802、804、806可以分別執(zhí)行與可以分別執(zhí)行與圖1所示的步驟102、104、 106相同或相似的技術(shù)內(nèi)容,為簡潔起見,這里不再贅述其技術(shù)內(nèi)容。如圖8所示,在步驟806后,執(zhí)行步驟808,從數(shù)字基因表達(dá)譜分析結(jié)果中隨機(jī)取出一百萬標(biāo)簽數(shù)據(jù)(1M reads),并將其與全部的數(shù)字基因表達(dá)譜分析結(jié)果進(jìn)行相關(guān)性分 析。所述隨機(jī)的選取方式可以是將所有測序得到的reads完全打亂,再從中任意取出IM的 reads ο步驟809,從轉(zhuǎn)錄組分析結(jié)果中隨機(jī)取出一百萬標(biāo)簽數(shù)據(jù)(1M reads),并將其與 全部的轉(zhuǎn)錄組分析結(jié)果進(jìn)行相關(guān)性分析。所述隨機(jī)的選取方式可以是將所有測序得到的 reads完全打亂,再從中任意取出IM的reads。關(guān)于步驟808和步驟809中的相關(guān)性分析方法,可以采用如下方式每個(gè)lane加 入一個(gè)已知庫(只測IM左右reads),通過比較已知庫的測序結(jié)果檢測測序穩(wěn)定性。例如, 本發(fā)明實(shí)施例中采用IM測序量標(biāo)準(zhǔn)品相關(guān)性分析方法,兩次IM測序量標(biāo)準(zhǔn)品UHRR與重復(fù) 實(shí)驗(yàn)樣品UHRR相關(guān)性對(duì)照表,如表1所示。 表IlM測序量標(biāo)準(zhǔn)品與重復(fù)實(shí)驗(yàn)的數(shù)據(jù)相關(guān)性對(duì)照表表1表明,對(duì)IM測序量標(biāo)準(zhǔn)品與重復(fù)實(shí)驗(yàn)的數(shù)據(jù)進(jìn)行分析比對(duì)發(fā)現(xiàn),Gene相關(guān)性 無論是Spearman相關(guān)系數(shù)還是Pearson相關(guān)系數(shù)都很高;由此可以說明測序結(jié)果是正常、 可信任的,使用標(biāo)準(zhǔn)品檢測測序穩(wěn)定性的方法具有可行性的,能夠通過對(duì)基因表達(dá)的分析 為基因測序提供質(zhì)量控制方案。用IM reads進(jìn)行基因表達(dá)質(zhì)控的方法在RNA測序中的應(yīng) 用能夠評(píng)估生產(chǎn)穩(wěn)定性。此外,需要說明的是,對(duì)于本發(fā)明的質(zhì)控方法和裝置而言,不論是從定量準(zhǔn)確性的 角度來說,還是從檢測到的基因數(shù)目來說,又或者對(duì)參考基因的依賴性等角度來比較,在質(zhì) 控方案中采用RNA-Seq分析方法具有比DGE更準(zhǔn)確地反映基因表達(dá)的優(yōu)勢。圖9示出本發(fā)明實(shí)施例提供的一種關(guān)于基因表達(dá)的RNA測序的質(zhì)控裝置的結(jié)構(gòu)示 意圖。如圖9所示,一種關(guān)于基因表達(dá)的RNA測序的質(zhì)控裝置900包括基因表達(dá)測算模 塊902、相關(guān)性分析模塊904、測序分析方式選取模塊906和測序穩(wěn)定性分析模塊908。其中,基因表達(dá)測算模塊902,用于對(duì)測序技術(shù)得到的測序片段分別進(jìn)行數(shù)字基因 表達(dá)譜分析(DGE)和轉(zhuǎn)錄組分析(RNA-Seq);相關(guān)性分析模塊904,用于將數(shù)字基因表達(dá)譜分析的結(jié)果和轉(zhuǎn)錄組分析的結(jié)果分 別與實(shí)時(shí)定量基因擴(kuò)增熒光檢測(qPCR)的結(jié)果進(jìn)行相關(guān)性分析。測序分析方式選取模塊906,用于根據(jù)相關(guān)性分析結(jié)果,判斷數(shù)字基因表達(dá)譜分析 和轉(zhuǎn)錄組分析在基因表達(dá)定量上的差異,并從數(shù)字基因表達(dá)譜分析和轉(zhuǎn)錄組分析中選取一 種測序分析方式。測序穩(wěn)定性分析模塊908,用于從所選取的測序分析方式獲取的分析結(jié)果中選取 一百萬標(biāo)簽數(shù)據(jù)(1M reads),進(jìn)行基因表達(dá)的測序穩(wěn)定性分析。圖10示出本發(fā)明提供的關(guān)于基因表達(dá)的RNA測序的質(zhì)控裝置的另一個(gè)實(shí)施例的
12結(jié)構(gòu)示意圖。如圖10所示,一種關(guān)于基因表達(dá)的RNA測序的質(zhì)控裝置1000包括基因表達(dá)測 算模塊1002、相關(guān)性分析模塊1004、測序分析方式選取模塊1006和測序穩(wěn)定性分析模塊 1008,其中基因表達(dá)測算模塊1002、測序分析方式選取模塊1006和測序穩(wěn)定性分析模塊 1008可以是與圖9所示基因表達(dá)測算模塊902、測序分析方式選取模塊906和測序穩(wěn)定性 分析模塊908相同或相似的功能模塊。為簡潔起見,這里不再贅述。如圖10所示,相關(guān)性分析模塊1004進(jìn)一步包括第一相關(guān)性分析子模塊和第二相 關(guān)性分析子模塊;其中第一相關(guān)性分析子模塊10041,用于當(dāng)參考基因不全時(shí),將參考基因從3’端到5’ 端平均切成三份;對(duì)三份參考基因分別進(jìn)行數(shù)字基因表達(dá)譜分析和轉(zhuǎn)錄組分析;將所獲得 的分析結(jié)果分別與實(shí)時(shí)定量基因擴(kuò)增熒光檢測的結(jié)果進(jìn)行相關(guān)性分析。第二相關(guān)性分析子模塊10042,用于在相同測序量的情況下,從高通量測序得到的 測序片段中隨機(jī)取出三百萬標(biāo)簽數(shù)據(jù)(3M reads)分別進(jìn)行數(shù)字基因表達(dá)譜分析和轉(zhuǎn)錄組 分析,從高通量測序得到的測序片段中隨機(jī)取出兩百萬標(biāo)簽數(shù)據(jù)(2M reads)分別進(jìn)行數(shù)字 基因表達(dá)譜分析和轉(zhuǎn)錄組分析;和/或從高通量測序得到的測序片段中隨機(jī)取出一百萬標(biāo) 簽數(shù)據(jù)(1M reads)分別進(jìn)行數(shù)字基因表達(dá)譜分析和轉(zhuǎn)錄組分析;所述隨機(jī)的選取方式可 以是將所有測序得到的reads完全打亂,再從中任意取出對(duì)應(yīng)數(shù)量的reads。以及在相同測 序量的情況下,分別比較數(shù)字基因表達(dá)譜分析和轉(zhuǎn)錄組分析方法能夠檢測到的基因數(shù)。圖11示出本發(fā)明提供的關(guān)于基因表達(dá)的RNA測序的質(zhì)控裝置的另一個(gè)實(shí)施例的 結(jié)構(gòu)示意圖。如圖11所示,一種關(guān)于基因表達(dá)的RNA測序的質(zhì)控裝置1100包括基因表達(dá)測 算模塊1102、相關(guān)性分析模塊1104、測序分析方式選取模塊1106和測序穩(wěn)定性分析模塊 1108。其中基因表達(dá)測算模塊1102、相關(guān)性分析模塊1104、測序分析方式選取模塊1106可 以是與圖9所示基因表達(dá)測算模塊902、相關(guān)性分析模塊904、測序分析方式選取模塊906 相同或相似的功能模塊。為簡潔起見,這里不再贅述。如圖11所示,測序穩(wěn)定性分析模塊1108進(jìn)一步包括第一測序穩(wěn)定性分析子模塊 11081和第二測序穩(wěn)定性分析子模塊11082,其中第一測序穩(wěn)定性分析子模塊11081,用于從數(shù)字基因表達(dá)譜分析結(jié)果中隨機(jī)取 出一百萬標(biāo)簽數(shù)據(jù)(1M reads),并將其與全部的數(shù)字基因表達(dá)譜分析結(jié)果進(jìn)行相關(guān)性分 析。所述隨機(jī)的選取方式可以是將所有測序得到的reads完全打亂,再從中任意取出IM的 reads ο第二測序穩(wěn)定性分析子模塊11082,用于從轉(zhuǎn)錄組分析結(jié)果中隨機(jī)取出一百萬標(biāo) 簽數(shù)據(jù)(1M reads),并將其與全部的轉(zhuǎn)錄組分析結(jié)果進(jìn)行相關(guān)性分析。所述隨機(jī)的選取方 式可以是將所有測序得到的reads完全打亂,再從中任意取出IM的reads。本發(fā)明提供的關(guān)于基因表達(dá)的RNA測序的質(zhì)控裝置,通過基因表達(dá)測算模塊對(duì)基 因片段進(jìn)行分析,并通過相關(guān)性分析模塊和測序分析方式選取模塊進(jìn)行相關(guān)性分析和綜合 性評(píng)估,從而選取具有較高可靠性的基因表達(dá)分析手段,真實(shí)反映基因測序的準(zhǔn)確性,為生 產(chǎn)的穩(wěn)定性提供質(zhì)量控制方案。參考前述本發(fā)明示例性的描述,本領(lǐng)域技術(shù)人員可以清楚的知曉本發(fā)明提供的關(guān)于基因表達(dá)的RNA測序的質(zhì)控方法及裝置所具有的前述優(yōu)點(diǎn),本發(fā)明提供的質(zhì)控方案適用 于高通量測序技術(shù),能夠有效地評(píng)估RNA測序的穩(wěn)定性,確保測序工作的準(zhǔn)確性。
本發(fā)明的描述是為了示例和描述起見而給出的,而并不是無遺漏的或者將本發(fā)明 限于所公開的形式。很多修改和變化對(duì)于本領(lǐng)域的普通技術(shù)人員而言是顯然的。本發(fā)明中 描述的功能模塊以及功能模塊的劃分方式僅為說明本發(fā)明的思想,本領(lǐng)域技術(shù)人員根據(jù)本 發(fā)明的教導(dǎo)以及實(shí)際應(yīng)用的需要可以自由改變功能模塊的劃分方式及其模塊構(gòu)造以實(shí)現(xiàn) 相同的功能;選擇和描述實(shí)施例是為了更好說明本發(fā)明的原理和實(shí)際應(yīng)用,并且使本領(lǐng)域 的普通技術(shù)人員能夠理解本發(fā)明從而設(shè)計(jì)適于特定用途的帶有各種修改的各種實(shí)施例。
權(quán)利要求
一種關(guān)于基因表達(dá)的RNA測序的質(zhì)控方法,其特征在于,所述方法包括對(duì)測序技術(shù)得到的測序片段分別進(jìn)行數(shù)字基因表達(dá)譜分析(DGE)和轉(zhuǎn)錄組分析(RNA Seq);所述數(shù)字基因表達(dá)譜分析的結(jié)果和所述轉(zhuǎn)錄組分析的結(jié)果分別與實(shí)時(shí)定量基因擴(kuò)增熒光檢測(qPCR)的結(jié)果進(jìn)行相關(guān)性分析;根據(jù)相關(guān)性分析結(jié)果,判斷數(shù)字基因表達(dá)譜分析和轉(zhuǎn)錄組分析在基因表達(dá)定量上的差異,并從所述數(shù)字基因表達(dá)譜分析和轉(zhuǎn)錄組分析中選取一種測序分析方式;從所選取的測序分析方式獲取的分析結(jié)果中選取一百萬標(biāo)簽數(shù)據(jù)(1M reads),進(jìn)行基因表達(dá)的測序穩(wěn)定性分析。
2.如權(quán)利要求1所述的方法,其特征在于,所述方法還包括 采用高通量測序技術(shù)進(jìn)行關(guān)于基因表達(dá)的RNA測序;對(duì)所述數(shù)字基因表達(dá)譜分析的結(jié)果和所述轉(zhuǎn)錄組分析的結(jié)果分別進(jìn)行去接頭序列和 去低質(zhì)量序列的處理。
3.如權(quán)利要求1所述的方法,其特征在于,通過高通量測序技術(shù)對(duì)樣品片段的基因表 達(dá)進(jìn)行多次測序,并對(duì)多次測序的數(shù)據(jù)取平均值以獲得所述實(shí)時(shí)定量基因擴(kuò)增熒光檢測的結(jié)果。
4.如權(quán)利要求1所述的方法,其特征在于,所述數(shù)字基因表達(dá)譜分析的結(jié)果和所述轉(zhuǎn) 錄組分析的結(jié)果分別與實(shí)時(shí)定量基因擴(kuò)增熒光檢測(qPCR)的結(jié)果進(jìn)行相關(guān)性分析進(jìn)一步 包括當(dāng)參考基因不全時(shí),將數(shù)字基因表達(dá)譜分析的結(jié)果和轉(zhuǎn)錄組分析的結(jié)果分別與實(shí)時(shí)定 量基因擴(kuò)增熒光檢測的結(jié)果進(jìn)行相關(guān)性分析;和/或在相同測序量的情況下,比較數(shù)字基因表達(dá)譜分析的結(jié)果和轉(zhuǎn)錄組分析的結(jié)果檢測到 的基因數(shù)。
5.如權(quán)利要求4所述的方法,其特征在于,所述當(dāng)參考基因不全時(shí),將數(shù)字基因表達(dá)譜 分析的結(jié)果和轉(zhuǎn)錄組分析的結(jié)果分別與實(shí)時(shí)定量基因擴(kuò)增熒光檢測的結(jié)果進(jìn)行相關(guān)性分 析的步驟進(jìn)一步包括將所述參考基因從3’端到5’端平均切成三份;對(duì)所述三份參考基因分別進(jìn)行數(shù)字基因表達(dá)譜分析和轉(zhuǎn)錄組分析;將所獲得的分析結(jié)果分別與實(shí)時(shí)定量基因擴(kuò)增熒光檢測的結(jié)果進(jìn)行相關(guān)性分析。
6.如權(quán)利要求4所述的方法,其特征在于,所述在相同測序量的情況下,比較數(shù)字基因 表達(dá)譜分析的結(jié)果和轉(zhuǎn)錄組分析的結(jié)果檢測到的基因數(shù)的步驟進(jìn)一步包括從高通量測序得到的測序片段中取出三百萬標(biāo)簽數(shù)據(jù)(3M reads)分別進(jìn)行數(shù)字基 因表達(dá)譜分析和轉(zhuǎn)錄組分析,從高通量測序得到的測序片段中取出兩百萬標(biāo)簽數(shù)據(jù)(2M reads)分別進(jìn)行數(shù)字基因表達(dá)譜分析和轉(zhuǎn)錄組分析;和/或從高通量測序得到的測序片段 中取出一百萬標(biāo)簽數(shù)據(jù)(1M reads)分別進(jìn)行數(shù)字基因表達(dá)譜分析和轉(zhuǎn)錄組分析;在相同測序量的情況下,分別比較數(shù)字基因表達(dá)譜分析和轉(zhuǎn)錄組分析方法能夠檢測到 的基因數(shù)。
7.如權(quán)利要求1所述的方法,其特征在于,所述從所選取的測序分析方式獲取的分析 結(jié)果中選取一百萬標(biāo)簽數(shù)據(jù)(1M reads),進(jìn)行基因表達(dá)的測序穩(wěn)定性分析的步驟進(jìn)一步包括從數(shù)字基因表達(dá)譜分析結(jié)果中取出一百萬標(biāo)簽數(shù)據(jù)(1M reads),并將其與全部的數(shù)字 基因表達(dá)譜分析結(jié)果進(jìn)行相關(guān)性分析;和/或從轉(zhuǎn)錄組分析結(jié)果中取出一百萬標(biāo)簽數(shù)據(jù)(1M reads),并將其與全部的轉(zhuǎn)錄組分析結(jié) 果進(jìn)行相關(guān)性分析。
8.一種關(guān)于基因表達(dá)的RNA測序的質(zhì)控裝置,其特征在于,所述裝置包括基因表達(dá)測算模塊,用于對(duì)測序技術(shù)得到的測序片段分別進(jìn)行數(shù)字基因表達(dá)譜分析 (DGE)和轉(zhuǎn)錄組分析(RNA-Seq);相關(guān)性分析模塊,用于將所述數(shù)字基因表達(dá)譜分析的結(jié)果和所述轉(zhuǎn)錄組分析的結(jié)果分 別與實(shí)時(shí)定量基因擴(kuò)增熒光檢測(qPCR)的結(jié)果進(jìn)行相關(guān)性分析;測序分析方式選取模塊,用于根據(jù)相關(guān)性分析結(jié)果,判斷數(shù)字基因表達(dá)譜分析和轉(zhuǎn)錄 組分析在基因表達(dá)定量上的差異,并從所述數(shù)字基因表達(dá)譜分析和轉(zhuǎn)錄組分析中選取一種 測序分析方式;測序穩(wěn)定性分析模塊,用于從所選取的測序分析方式獲取的分析結(jié)果中選取一百萬標(biāo) 簽數(shù)據(jù)(1M reads),進(jìn)行基因表達(dá)的測序穩(wěn)定性分析。
9.如權(quán)利要求8所述的裝置,其特征在于,所述相關(guān)性分析模塊進(jìn)一步包括第一相關(guān)性分析子模塊,用于當(dāng)參考基因不全時(shí),將所述參考基因從3’端到5’端平均切成三份;對(duì)所述三份參考基因分別進(jìn)行數(shù)字基因表達(dá)譜分析和轉(zhuǎn)錄組分析;將所獲得的 分析結(jié)果分別與實(shí)時(shí)定量基因擴(kuò)增熒光檢測的結(jié)果進(jìn)行相關(guān)性分析;第二相關(guān)性分析子模塊,用于在相同測序量的情況下,從高通量測序得到的測序片段 中取出三百萬標(biāo)簽數(shù)據(jù)(3M reads)分別進(jìn)行數(shù)字基因表達(dá)譜分析和轉(zhuǎn)錄組分析;從高通 量測序得到的測序片段中取出兩百萬標(biāo)簽數(shù)據(jù)(2M reads)分別進(jìn)行數(shù)字基因表達(dá)譜分析 和轉(zhuǎn)錄組分析;和/或從高通量測序得到的測序片段中取出一百萬標(biāo)簽數(shù)據(jù)(IMreads)分 別進(jìn)行數(shù)字基因表達(dá)譜分析和轉(zhuǎn)錄組分析;以及在相同測序量的情況下,分別比較數(shù)字基 因表達(dá)譜分析和轉(zhuǎn)錄組分析方法能夠檢測到的基因數(shù)。
10.如權(quán)利要求8所述的裝置,其特征在于,所述測序穩(wěn)定性分析模塊進(jìn)一步包括第一測序穩(wěn)定性分析子模塊,用于從數(shù)字基因表達(dá)譜分析結(jié)果中取出一百萬標(biāo)簽數(shù)據(jù) (1M reads),并將其與全部的數(shù)字基因表達(dá)譜分析結(jié)果進(jìn)行相關(guān)性分析;第二測序穩(wěn)定性分析子模塊,用于從轉(zhuǎn)錄組分析結(jié)果中取出一百萬標(biāo)簽數(shù)據(jù)(1M reads),并將其與全部的轉(zhuǎn)錄組分析結(jié)果進(jìn)行相關(guān)性分析。
全文摘要
本發(fā)明公開了一種關(guān)于基因表達(dá)的RNA測序的質(zhì)控方法及裝置,該方法包括對(duì)測序技術(shù)得到的測序片段分別進(jìn)行DGE和RNA-Seq分析;DGE分析的結(jié)果和轉(zhuǎn)錄組分析的結(jié)果分別與qPCR的結(jié)果進(jìn)行相關(guān)性分析;根據(jù)相關(guān)性分析結(jié)果,判斷DGE分析和轉(zhuǎn)錄組分析在基因表達(dá)定量上的差異,并從DGE分析和轉(zhuǎn)錄組分析中選取一種測序分析方式;從所選取的測序分析方式獲取的分析結(jié)果中選取一百萬標(biāo)簽數(shù)據(jù)(1M reads),進(jìn)行基因表達(dá)的測序穩(wěn)定性分析。本發(fā)明通過對(duì)基因片段進(jìn)行相關(guān)性分析和綜合性評(píng)估,從而選取具有較高可靠性的基因表達(dá)分析手段,確保測序工作的準(zhǔn)確性,為生產(chǎn)的穩(wěn)定性提供質(zhì)量控制方案。
文檔編號(hào)G06F19/00GK101914619SQ20101023617
公開日2010年12月15日 申請(qǐng)日期2010年7月22日 優(yōu)先權(quán)日2010年7月22日
發(fā)明者彭智宇, 韓祖晶 申請(qǐng)人:深圳華大基因科技有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1