利用參考基因組信息的半導體測序平臺的測序數(shù)據(jù)校正方法
【專利摘要】本發(fā)明提供的是一種利用參考基因組信息的半導體測序平臺的測序數(shù)據(jù)校正方法。1)利用半導體測序平臺測序數(shù)據(jù)中檢測堿基的解讀長度與參考基因組中對應堿基的長度一致時的測得電壓值,計算堿基長度已知時測得電壓值的先驗概率分布;2)當半導體測序平臺測序數(shù)據(jù)中檢測堿基的解讀長度與參考基因組中對應堿基的長度不一致時,對測序數(shù)據(jù)的堿基長度進行校正,利用下式計算測得電壓值已知時,假定堿基長度為l時的值Sl;取Sl最大時對應的堿基長度l,即為測得電壓值已知時被測堿基的堿基長度,完成測序數(shù)據(jù)校正。本發(fā)明創(chuàng)新性地提出測得電壓值解算堿基長度的過程中,在測得電壓值基礎上,引入?yún)⒖蓟蚪M信息,以實現(xiàn)對測序數(shù)據(jù)的校正。
【專利說明】
利用參考基因組信息的半導體測序平臺的測序數(shù)據(jù)校正方法
技術領域
[0001] 本發(fā)明涉及的是一種分子生物信息檢測方法。具體是針對新一代半導體測序平臺 的測序數(shù)據(jù)校正方法。
【背景技術】
[0002] 隨著生物檢測技術的迅猛發(fā)展,11111111;[1^的301613、1^€6 3(^611068的454和4131的 SOLiD等第二代測序平臺逐漸被新一代測序平臺所取代。這包括Illumina的MiSeq、 NextSeq、HiSeq系列,ABI的Ion Torrent、Ion Proton、Ion PGM系列,以及Oxford Nanopore Technologies的MinlON等。盡管新一代測序平臺的推出使得生物信息檢測的深度更深、成 本更低、效率更高,但由于檢測原理不同,原有高通量測序數(shù)據(jù)的解讀方法將不得不作出相 應改變。
[0003] 在新推出的新一代測序平臺中,ABI的Ion Torrent、Ion Proton、Ion PGM系列采 用了獨特的半導體測序技術。該技術利用半導體芯片進行測序,擺脫了傳統(tǒng)技術中光學成 像裝置的限制,極大的提高了測序速度,縮減了測序成本,并使測序技術應用于臨床成為可 能。
[0004] 半導體測序技術的測序原理是:在半導體芯片布滿油滴的微孔中放入富含待測序 堿基序列的微球,待測序堿基序列呈單鏈形態(tài)。一個檢測周期,向微孔中加入々、(:^^等四 種脫氧核糖核苷酸中的一種。當加入的脫氧核糖核苷酸與待測序的堿基序列相匹配并發(fā)生 結(jié)合反應時,釋放出氫離子,導致溶液PH值發(fā)生變化。半導體芯片后端的傳感器將PH值轉(zhuǎn)變 為電壓信號輸出。依據(jù)所加的脫氧核糖核苷酸類型和輸出電壓信號的幅值,解讀出此次檢 測周期測得的堿基類型和堿基長度。重復上述過程,即可完成整個測序。理論上,一個檢測 周期,被測堿基的堿基長度為n時,測序平臺應輸出n伏電壓。但實際上,輸出電壓的幅值不 會正好是n伏,因此,如何依據(jù)輸出的電壓值準確判定被測堿基的堿基長度是半導體測序平 臺的一個關鍵技術問題。
[0005] 在實際應用中,半導體測序平臺測序完成后,會自動生成SFF和BAM兩個文件。SFF 文件存儲的是原始測序數(shù)據(jù),包括若干條測序讀數(shù),一個測序讀數(shù)對應一個被測堿基序列。 每個測序讀數(shù)包含每次檢測周期檢測的堿基類型、測得電壓值、根據(jù)測得電壓值解算得到 的堿基長度,以及據(jù)此推算得到的測序序列。BAM文件是每個測序讀數(shù)的堿基序列在參考基 因組中的匹配映射結(jié)果。由于SFF文件中,測得電壓值解算堿基長度僅考慮了電壓值本身, 因此,存在一定的錯誤率。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明的目的在于提供一種能有效提高半導體測序平臺測序數(shù)據(jù)的準確性的利 用參考基因組信息的半導體測序平臺的測序數(shù)據(jù)校正方法。
[0007] 本發(fā)明的目的是這樣實現(xiàn)的:
[0008] (1)由半導體測序平臺產(chǎn)生的SFF原始測序文件,獲得每一個測序讀數(shù)在每一個檢 測周期中檢測堿基的種類和測得電壓值,以及該檢測周期的序號;
[0009] (2)由半導體測序平臺產(chǎn)生的BAM匹配映射文件,根據(jù)描述每一個測序讀數(shù)的堿基 序列在參考基因組上匹配映射結(jié)果的CIGAR字符串和MD標記信息,提取每一個測序讀數(shù)在 每一個檢測周期中檢測堿基的解讀長度,以及參考基因組中對應堿基的長度;
[0010] (3)測序數(shù)據(jù)校正
[0011] 1)利用半導體測序平臺測序數(shù)據(jù)中檢測堿基的解讀長度與參考基因組中對應堿 基的長度一致時的測得電壓值,計算堿基長度已知時測得電壓值的先驗概率分布;
[0012] 2)當半導體測序平臺測序數(shù)據(jù)中檢測堿基的解讀長度與參考基因組中對應堿基 的長度不一致時,對測序數(shù)據(jù)的堿基長度進行校正,利用下式計算測得電壓值已知時,假定 堿基長度為1時的值Si,
[0014] 式中,表示測得電壓值已知時、基于先驗概率分布、利用貝葉斯公式計算得到 的堿基類型為i、檢測周期序號為j、堿基長度為1的后驗概率,OSSwShSpm表示堿基長度 為1時、與參考基因組對應堿基長度不一致的懲罰值,不一致程度越大,懲罰值越大,0<S pe5n ;
[0015] 3)取51最大時對應的堿基長度1,即為測得電壓值已知時被測堿基的堿基長度,完 成測序數(shù)據(jù)校正。
[0016] 按不同的堿基長度、不同的檢測周期序號、不同的堿基類型分別計算測得電壓值 的先驗概率分布。
[0017] 由于相同物種不同個體的基因組之間的差異非常小,本發(fā)明創(chuàng)新性地提出測得電 壓值解算堿基長度的過程中,在測得電壓值基礎上,引入?yún)⒖蓟蚪M信息,以實現(xiàn)對測序數(shù) 據(jù)的校正。
[0018] 本發(fā)明的效果在于:利用參考基因組信息對半導體測序平臺的測序數(shù)據(jù)進行校 正,從而有效提高該類測序平臺測序數(shù)據(jù)的準確性。
【附圖說明】
[0019] 圖1為已知堿基長度的被測電壓值的先驗概率分布(堿基類型=A,檢測周期序號 =1-50)〇
[0020] 圖2為測序數(shù)據(jù)校正前后的錯誤率表。
[0021] 圖3為本發(fā)明的流程圖。
【具體實施方式】
[0022]下面舉例對本發(fā)明作進一步描述:
[0023]結(jié)合圖3本發(fā)明的主要步驟包括:
[0024] 1、由半導體測序平臺產(chǎn)生的SFF原始測序文件,獲得每一個測序讀數(shù)在每一個檢 測周期中檢測堿基的種類和測得電壓值,以及該檢測周期的序號。
[0025] 每個測序過程中,每個檢測周期加入的脫氧核糖核苷酸的種類是固定不變的,因 此,根據(jù)檢測周期的序號可以得到該檢測周期的檢測堿基種類,同時從文件中讀出該檢測 周期的測得電壓值。
[0026] 理論上,被測堿基的堿基長度為n時,測序平臺應輸出n伏電壓。但實際上,輸出電 壓的幅值不會正好是n伏。
[0027] 2、由半導體測序平臺產(chǎn)生的BAM匹配映射文件,根據(jù)描述每一個測序讀數(shù)的堿基 序列在參考基因組上匹配映射結(jié)果的CIGAR字符串和MD標記信息,提取每一個測序讀數(shù)在 每一個檢測周期中檢測堿基的解讀長度,以及參考基因組中對應堿基的長度。
[0028]具體來講,就是根據(jù)BAM文件中的CIGAR字符串和MD標記信息,對參考基因組堿基 序列進行還原。從該還原序列中提取每一個測序讀數(shù)在每一個檢測周期中檢測堿基的解讀 長度,以及參考基因組中對應堿基的長度。
[0029] 3、測序數(shù)據(jù)校正
[0030] 首先,利用半導體測序平臺測序數(shù)據(jù)中檢測堿基的解讀長度與參考基因組中對應 堿基的長度一致時的測得電壓值,計算堿基長度已知時測得電壓值的先驗概率分布。為了 保證分析精度,按不同的堿基長度、不同的檢測周期序號、不同的堿基類型分別計算測得電 壓值的先驗概率分布。
[0031] 然后,當半導體測序平臺測序數(shù)據(jù)中檢測堿基的解讀長度與參考基因組中對應堿 基的長度不一致時,對測序數(shù)據(jù)的堿基長度進行校正。利用下式計算測得電壓值已知時,假 定堿基長度為1時的值Si。
[0033]式中,表示測得電壓值已知時,基于先驗概率分布,利用貝葉斯公式計算得到 的堿基類型為i,檢測周期序號為j,堿基長度為1的后驗概率,OSSwShSpm表示堿基長度 為1時,與參考基因組對應堿基長度不一致的懲罰值,不一致程度越大,懲罰值越大,〇<S pe5n <1。取31最大時對應的堿基長度1,即為測得電壓值已知時被測堿基的堿基長度,從而完成 測序數(shù)據(jù)校正。
[0034] 4、實驗驗證
[0035] 針對一個生物樣本用Ion Proton測序平臺進行了測序。從平臺生成的SFF和BAM文 件中,提取了每一個測序讀數(shù)在每一個檢測周期中檢測堿基的種類和測得電壓值,檢測周 期的序號,檢測堿基的解讀長度,以及參考基因組中對應堿基的長度。
[0036] 隨后,利用檢測堿基的解讀長度與參考基因組中對應堿基的長度一致時的測得電 壓值,計算堿基長度已知時測得電壓值的先驗概率。為了保證分析精度,按不同的堿基長度 (2,3,4,5,6)、不同的檢測周期序號(1-50,51-100,101-150,151-200,200-249)、不同的堿 基類型(A,C,G,T)分別計算測得電壓值的100個先驗概率分布。圖1為堿基類型為A,檢測周 期序號為1-50,堿基長度分別為2,3,4,5,6時的先驗概率分布曲線。
[0037] 然后,當半導體測序平臺測序數(shù)據(jù)中檢測堿基的解讀長度與參考基因組中對應堿 基的長度不一致時,利用所提方法對測序數(shù)據(jù)的堿基長度進行校正。這里,S pen定義為:錯配 0.1,插入/刪除0.2*n,n為插入或刪除的堿基個數(shù),最大不超過5。
[0038] 最后,對同一個生物樣本用11 lumina測序平臺進行了測序,由于11 lumina測序平 臺一個檢測周期只檢測一個堿基,因此,可精確測定堿基長度。
[0039]以Illumina測序平臺的測序結(jié)果為依據(jù),利用本發(fā)明所提方法校正的測序數(shù)據(jù)的 錯誤率遠小于校正前測序數(shù)據(jù)的錯誤率。具體見圖2的測序數(shù)據(jù)校正前后的錯誤率表。
【主權項】
1. 一種利用參考基因組信息的半導體測序平臺的測序數(shù)據(jù)校正方法,其特征是: (1) 由半導體測序平臺產(chǎn)生的SFF原始測序文件,獲得每一個測序讀數(shù)在每一個檢測周 期中檢測堿基的種類和測得電壓值,以及該檢測周期的序號; (2) 由半導體測序平臺產(chǎn)生的BAM匹配映射文件,根據(jù)描述每一個測序讀數(shù)的堿基序列 在參考基因組上匹配映射結(jié)果的CIGAR字符串和MD標記信息,提取每一個測序讀數(shù)在每一 個檢測周期中檢測堿基的解讀長度,以及參考基因組中對應堿基的長度; (3) 測序數(shù)據(jù)校正 1) 利用半導體測序平臺測序數(shù)據(jù)中檢測堿基的解讀長度與參考基因組中對應堿基的 長度一致時的測得電壓值,計算堿基長度已知時測得電壓值的先驗概率分布; 2) 當半導體測序平臺測序數(shù)據(jù)中檢測堿基的解讀長度與參考基因組中對應堿基的長 度不一致時,對測序數(shù)據(jù)的堿基長度進行校正,利用下式計算測得電壓值已知時,假定堿基 長度為1時的值Si,式中,Sljl表示測得電壓值已知時、基于先驗概率分布、利用貝葉斯公式計算得到的堿 基類型為i、檢測周期序號為j、堿基長度為1的后驗概率,:心^表示堿基長度為1 時、與參考基因組對應堿基長度不一致的懲罰值,不一致程度越大,懲罰值越大,OSS pe3nS 1; 3) 取51最大時對應的堿基長度1,即為測得電壓值已知時被測堿基的堿基長度,完成測 序數(shù)據(jù)校正。2. 根據(jù)權利要求1所述的利用參考基因組信息的半導體測序平臺的測序數(shù)據(jù)校正方 法,其特征是:按不同的堿基長度、不同的檢測周期序號、不同的堿基類型分別計算測得電 壓值的先驗概率分布。
【文檔編號】G06F19/20GK105893788SQ201610265225
【公開日】2016年8月24日
【申請日】2016年4月26日
【發(fā)明人】馮偉興, 薛丁愷, 趙森, 陳多嬌, 賀波
【申請人】哈爾濱工程大學