一種利用|Δ(SNP-index)|進行性狀定位的QTL-seq方法及其應用
【專利摘要】一種利用|Δ(SNP?index)|進行性狀定位的QTL?seq方法及其應用,該方法以參考基因組代替親本之一的基因組作為參照計算子代池SNP?index,用Δ(SNP?index)的絕對值|Δ(SNP?index)|代替Δ(SNP?index)用于滑動窗口法性狀定位分析,通過對雙親具有相同表型的分離群體的極端表型池進行QTL?seq分析,并利用|Δ(SNP?index)|的分布進行目標性狀基因或主效QTL的定位預測,改變了常規(guī)QTL?seq方法只能應用于雙親純合且具有相對性狀的分離群體的狀況,使QTL?seq方法能夠應用于雙親具有相同性狀的分離群體,極大地拓展了QTL?seq方法的應用范圍,具有很好的應用前景。應用該方法對雙親均為紅皮東方梨的“滿天紅”ד紅香酥”雜交組合紅皮表型池和綠皮表型池進行分析,將東方梨紅皮/綠皮性狀位點定位在1.86Mb的區(qū)間內(nèi)。
【專利說明】
一種利用I Δ (SNP-1ndex) I進行性狀定位的QTL-seq方法及其應用
技術(shù)領(lǐng)域
[0001]本發(fā)明屬于生物信息學和基因組學領(lǐng)域,涉及一種利用IΔ (SNP-1ndex) I進行性狀定位的QTL-seq方法及其應用。
【背景技術(shù)】
[0002]QTL-seq是近年發(fā)展起來的采用高通量測序技術(shù)進行集群分離分析(BSA)定位數(shù)量性狀主效基因或質(zhì)量性狀基因的一種方法(Takagi et al.,2013),適用于雙親具有一對相對性狀的子代群體。該方法選擇常用作圖群體中20-50個表現(xiàn)極端表型的單株組成極端表型池進行全基因測序,以雙親之一的基因組為參照對兩個極端表型池進行分析,尋找兩個池中的SNP,計算每個SNP的SNP-1ndex,根據(jù)SNP-1ndex的分布進行QTL或基因預測。
[0003]多年生果樹大多基因組高度雜合,許多育種群體通常利用在目標性狀具有相同表型的材料作為親本配置雜交組合以獲得更大比例具有目標性狀表型的雜種后代。利用這樣的育種群體進行目標性狀的QTL-seq定位分析,需要對QTL-seq方法進行改進。
【發(fā)明內(nèi)容】
[0004]解決的技術(shù)問題
[0005]為了解決QTL-seq方法無法在雙親具有相同目標性狀表型的果樹分離群體中進行應用的問題,本發(fā)明提供了一種利用I Δ (SNP-1ndex) I進行性狀定位的QTL-seq方法及其應用。
[0006]技術(shù)方案
[0007]一種利用I Δ (SNP-1ndex) I進行性狀定位的QTL-seq方法,其中| Δ (SNP-1ndex)是Δ (SNP-1ndex)的絕對值,本發(fā)明方法以參考基因組作為參照,對雙親具有相同表型的分離群體的兩個相對表型極端表型池進行QTL-seq分析,并利用| △ (SNP-1ndex) |的分布進行目標性狀基因或主效QTL的定位預測。
[0008]進一步地,本發(fā)明方法利用IΔ (SNP-1ndex) |的分布進行目標性狀基因或主效QTL的定位預測時,I A (SNP-1ndex) I規(guī)避了用參考基因組代替親本基因組作為參照的情況下,SNP位點間連鎖關(guān)系不清導致的滑動窗口內(nèi)SNP位點的平均Δ (SNP-1ndex)為0,無法進行目標性狀基因或主效QTL定位預測的情況。
[0009]另一方面,本發(fā)明利用IΔ (SNP-1ndex) I進行性狀定位的QTL-seq方法在東方梨紅皮/綠皮性狀位點定位中的應用,利用本發(fā)明方法對雙親均為紅皮梨的“滿天紅” X “紅香醉”雜交組合紅皮池和綠皮池進行分析,能夠?qū)⑺觥皾M天紅” X “紅香酥”雜交組合的東方梨紅皮/綠皮性狀位點定位在1.86Mb的區(qū)間內(nèi)。
[0010]進一步地,上述“滿天紅”X “紅香酥”雜交組合的東方梨紅皮/綠皮性狀位點所在的1.86Mb的區(qū)間包括如下14個子區(qū)間:
[0011]Scaffold NW_008988041.I上3800001_3880001bp區(qū)間;
[0012]Scaffold NW_008988076.1上640001_660001bp區(qū)間;
[0013]Scaffold NW_008988091.I上l_140001bp區(qū)間;
[0014]Scaffold NW_008988126.1上560001_720001bp區(qū)間;
[0015]Scaffold NW_008988130.1上l_300001bp區(qū)間;
[0016]Scaffold NW_008988130.1上500001_580001bp區(qū)間;
[0017]Scaffold NW_008988130.1上760001_960001bp區(qū)間;
[0018]Scaffold NW_008988141.I上l_500001bp區(qū)間;
[0019]Scaffold NW_008988141.I上880001_940001bp區(qū)間;
[0020]Scaffold NW_008988461.I上240001_400001bp區(qū)間;
[0021]Scaffold NW_008988478.1上300001_400001bp區(qū)間;
[0022]Scaffold NW_008988581.I上300001_320001bp區(qū)間;
[0023]Scaffold NW_008989660.1上l_20001bp區(qū)間;
[0024]Scaffold NW_008989715.1上l_20001bp區(qū)間。
[0025]有益效果
[0026]“滿天紅”和“紅香醉”是中國農(nóng)業(yè)科學院鄭州果樹研究所選育的兩個著名的紅皮東方梨品種,在我國推廣應用面積較大。這兩個品種常被育種單位用作紅皮梨育種的親本,表現(xiàn)出良好的親本遺傳特點。本發(fā)明利用改進的QTL-seq方法對“滿天紅” X “紅香醉”雜交組合群體紅皮極端表型個體組成的紅皮表型池和綠皮極端表型個體組成的綠皮表型池進行分析,成功地將東方梨紅皮/綠皮性狀位點定位到I.86Mb的區(qū)間內(nèi),為進一步開發(fā)可以大幅提高紅皮梨育種選擇效率的實用分子標記奠定了堅實的基礎(chǔ)。
【附圖說明】
[0027]為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖,其中:
[0028]圖1是現(xiàn)有技術(shù)中SNP-1ndex計算原理圖(Takagi et al., 2013);
[0029]圖2-1表示Scaffold NW89880130.1 Δ (SNP-1ndex)曼哈頓圖(橫坐標是Scaffold物理位置,縱坐標是Δ (SNP-1ndex));以及
[0030]圖2-2 表示 Scaffold NW89880130.I | Δ (SNP-1ndex) | 曼哈頓圖(橫坐標是Scaffold物理位置,縱坐標是 I Δ (SNP-1ndex) | )。
【具體實施方式】
[0031]下面結(jié)合具體實施例對本發(fā)明做進一步的說明,但本發(fā)明不受以下實施例的限制。
[0032]根據(jù)本發(fā)明的示例性實施例,SNP-1ndex根據(jù)reads測序深度信息計算,利用測序reads對每個堿基位點的堿基進行統(tǒng)計,計算與作為參照的基因組不相同的reads條數(shù)占總條數(shù)的比例,即為該堿基位點的SNP-1ndex。完全與參照基因組相同的SNP位點其SNP-1ndex為0;完全與參照基因組不同的SNP-1ndex為I。Δ (SNP-1ndex)是兩個極端表型池中SNP位點的 SNP-1ndex 差值。
[0033]通常,在雙親純合且具有一對相對性狀的群體中,利用親本信息可以判斷子代SNP等位基因型的連鎖狀態(tài),A (SNP-1ndex)的分布是QTL-seq方法進行基因或主效QTL區(qū)間預測的最核心的指標,其符號的正負方向分別對應目標性狀的一對相對性狀。但若雙親雜合或不以親本基因組作為計算SNP-1ndex時的參照,則Δ (SNP-1ndex)符號的正負方向無法與目標性狀的一對相對性狀分別對應。因而在雙親具有相同表型,子代群體中出現(xiàn)性狀分離的情況下,一般也不建議以親本之一的基因組數(shù)據(jù)為參照進行QTL-seq分析。
[0034]實施例1
[0035]I材料來源
[0036]供試材料為中國農(nóng)業(yè)科學院鄭州果樹研究所新鄉(xiāng)試驗基地定植的“滿天紅”X “紅香醉”雜交組合群體極端表型單株中28個紅皮單株組成的紅皮池和27個綠皮單株組成的綠皮池。
[0037]2 方法
[0038]2.1建庫測序
[0039]對紅皮池DNA樣品和綠皮池DNA樣品分別由池中單株DNA等量混合而成。兩池各取1.5ug DNA通過Covaris破碎機隨機打斷成長度為350bp的片段,用于制備測序樣品文庫。測序文庫的制備米用Truseq Nano DNA HT Sample preparat1n Kit(Illumina USA)試劑盒,按照說明書進行DNA片段末端修復、加ployA尾、加測序接頭、純化、PCR擴增等步驟后完成整個文庫制備。文庫先用Qubit2.0初步定量并稀釋至lng/μ?,用Agilent 2100對文庫插入片段大小(insert size)進行檢測。插入片段大小符合預期后用Q-PCR方法對文庫的有效濃度進行準確定量,確保待測序文庫有效濃度>2nM,以保證文庫質(zhì)量。測序文庫利用11 lumina HiSeq2500測序平臺進行125bp雙端(paired-end)測序,測序讀長(reads)約350bpo
[0040]為了保證信息分析質(zhì)量,對fastq格式的原始測序數(shù)據(jù)進行過濾,包括去除帶接頭(adapter)的reads pair;去除單端測序read中未識別堿基(N)含量超過該條read長度比例10%的paired reads;以及去除單端測序read中低質(zhì)量(Q<5)堿基數(shù)超過該條read長度比例50%的paired reads等步驟。
[0041 ]有效測序數(shù)據(jù)通過BWA(Burrows_Wheeler Aligner)軟件(Li et al.,2009),比對到參考基因組(ftp://ftp.ncb1.nlm.nih.gov/genomes/Pyrus_x_bretschneideri/CHR_Un/),參數(shù)設(shè)置:mem-1 4_k 32-M。比對結(jié)果文件用SAMT00LS軟件(Li et al.,2009)轉(zhuǎn)換為BAM文件,參數(shù)設(shè)置:-bS-t,并利用SAMT00LS軟件的“rmdup”命令去除重復。如果多個readpairs具有相同的外部坐標,只保留比對質(zhì)量最高的read pair。
[0042]2.2 SNP/InDel檢測和注釋
[0043]米用GATK3.3軟件(McKenna et al.,2010)的Unif iedGenotyper模塊進行樣本SNP/InDel 的檢測,使用VariantFi ltrat 1n 進行 SNP 過濾的參數(shù)為一f ilterExpress1n"QD<4.0 FS>60.0 MQ<40.0//,-G-filter//GQ<20//,—clusterffindowSize 4。使用VariantFi ltrat 1n 進行 InDe I 過濾的參數(shù)為—f i IterExpress 1n〃QD〈4.0 | FS>200.0 |ReadPosRankSum<-20.0 | InbreedingCoeffX-0.S'SNP注釋用ANN0VAR軟件(Wang et al.,2010)基于參考基因組GFF3注釋文件進行(ftp://ftp.ncb1.nlm.nih.gov/genomes/Pyrus_x_bretschneideri/GFF/)。
[0044]2.3 SNP-1ndex計算
[0045]SNP-1ndex根據(jù)其reads測序深度信息計算(Takagi ,Abe et al.2013),利用測序reads對每個堿基位點的堿基進行統(tǒng)計,因為雙親在目標性狀上表現(xiàn)相同,均為紅皮,所以本研究以參考基因組(Wu et al.,2013)為參照,統(tǒng)計子代池(Red-Pool和Green-Pool)中和參考基因組在某一個堿基位點相同或者不相同的reads條數(shù),計算不相同reads條數(shù)占總條數(shù)的比例,即為該堿基位點的SNP-1ndex。完全與參考基因組相同的SNP-1ndex為O;完全與參考基因組不同的SNP-1ndex為I。其原理如附圖1所示。Δ (SNP-1ndex)是每個SNP在綠皮池中的SNP-1ndex減去紅皮池中的SNP-1ndex的差值。
[0046]為減少測序錯誤和比對錯誤造成的影響,我們將兩個子代池中SNP-1ndex都小于
0.3,并且SNP深度都小于7的位點,以及一個子代池SNP index缺失的位點,均予以過濾去除。
[0047]2.4曼哈頓圖繪制
[0048]QTL-seq策略適用來源于純合親本的子代群體,利用親本信息可以判斷子代SNP等位基因型的連鎖狀態(tài)。若子代群體來源于雜合親本,則相鄰SNP位點等位基因的連鎖狀態(tài)無法根據(jù)親本之一或參考基因組進行判斷,利用滑動窗口方法進行區(qū)間定位時可能會因為正鏈負鏈無法判斷的情況而導致錯誤(注:正鏈和負鏈分別指2條同源染色體),出現(xiàn)窗口 △(SNP-1ndex)趨向于O的“假交換效應”。
[0049]用滑動窗口法繪圖,每個窗口中所有SNP位點的Δ (SNP-1ndex)和| Δ (SNP-1ndex)的平均值即為該窗口的A (SNP-1ndex)和| Δ (SNP-1ndex) |。選擇200Kb為滑動窗口,20Kb
為步長,以Scaffold(梨尚未公開完整的染色體序列,以Scaffold代替)的物理位置為橫坐標,窗口 A (SNP-1ndex)和 I Δ (SNP-1ndex) I 為縱坐標繪圖。
[0050]2.5候選區(qū)間確定
[0051]按照大約1500cM的梨圖譜平均長度和性狀粗定位的要求,我們根據(jù)滑動窗口法繪制的I A (SNP-1ndex) I曼哈頓圖,以Top 0.5%作為閾值(此閾值之上SNP區(qū)間內(nèi)的Δ (SNP-1ndex)絕對值較大,數(shù)量占所有SNP數(shù)量的0.5% ),劃定候選基因區(qū)間,跨度大約為1500cMX 0.5 % = 7.5cM。該區(qū)間范圍內(nèi)的SNP作為候選SNP位點。
[0052]2.6候選區(qū)間驗證
[0053]在候選區(qū)間內(nèi)設(shè)計InDel和SSR引物,先在9個紅皮梨和7個綠皮梨中進行篩選,能較好地區(qū)分紅皮梨和綠皮梨的引物用于對“滿天紅” X “紅香酥”群體所有單株進行連鎖分析,以驗證區(qū)間定位的準確性。
[0054]3 結(jié)果
[0055]3.1測序結(jié)果
[0056]測序數(shù)據(jù)的Q20( % )和Q30( % )分別在93%和86%以上,紅皮池和綠皮池的平均測序深度分別為19.65X和22.98X,基因組覆蓋度分別為94.74% (IX)和95.15% (IX),84.38%(4X)和86.39%(4X)。
[0057]3.2 SNP檢測及注釋
[0058]共檢測注釋4,134,489個SNP,其中2 ,812 ,500個SNP突變屬于轉(zhuǎn)換,1,321,989個SNP突變屬于顛換,轉(zhuǎn)換和顛換的比例為2.127。4,134,489個SNP中,位于外顯子區(qū)的有556,583個SNP,包括使基因獲得終止子的2,749個SNP,使基因失去終止子的401個SNP,以及288,384個同義突變SNP和265,049個非同義突變SNP。
[0059]3.3 SNP-1ndex曼哈頓圖繪制
[0060]以ScaffoldNW89880130.I作為繪圖Scaffold來說明按 Δ (SNP-1ndex)繪圖和按Δ (SNP-1ndex) I繪圖的效果。未對Δ (SNP-1ndex)取絕對值繪制的附圖2-1和對△ (SNP-1ndex)取絕對值繪制的附圖2-2表現(xiàn)出明顯的不同,圖2_1中窗口 Δ (SNP-1ndex)均<0,從前往后總的趨勢是趨向于0,圖2-2因為是取了絕對值后再做的滑窗分析,所以窗口 I △(SNP-1ndex) | 均>0,在窗口 Δ (SNP-1ndex)趨向O的位置,窗口 | Δ (SNP-1ndex) | 反而距離O較遠,說明對窗口內(nèi)的A (SNP-1ndex)進行平均時出現(xiàn)了正負值相互抵消的情況,這種抵消效應很好地證明了正負鏈不清、標記間連鎖狀態(tài)不明造成的影響。
[0061 ] 3.4候選區(qū)間確定
[0062]以200Kb為窗口,20Kb為步長繪制I Δ (SNP-1ndex) |曼哈頓圖,設(shè)置Τορ0.5%為閾值線,該閾值線為I a (SNP-1ndex) | =0.33。在Δ (SNP-1ndex) | =0.33的閾值線之上劃定東方梨紅皮/綠皮性狀候選區(qū)間,共發(fā)現(xiàn)14個子區(qū)間,合計1.86Mb。14個子區(qū)間如下:
[0063]Scaffold NW_008988041.I上3800001_3880001bp區(qū)間;
[0064]Scaffold NW_008988076.1上640001_660001bp區(qū)間;
[0065]Scaffold NW_008988091.I上l_140001bp區(qū)間;
[0066]Scaffold NW_008988126.1上560001_720001bp區(qū)間;
[0067]Scaffold NW_008988130.1上l_300001bp區(qū)間;
[0068]Scaffold NW_008988130.1上500001_580001bp區(qū)間;
[0069]Scaffold NW_008988130.1上760001_960001bp區(qū)間;
[0070]Scaffold NW_008988141.I上l_500001bp區(qū)間;
[0071]Scaffold NW_008988141.I上880001_940001bp區(qū)間;
[0072]Scaffold NW_008988461.I上240001_400001bp區(qū)間;
[0073]Scaffold NW_008988478.1上300001_400001bp區(qū)間;
[0074]Scaffold NW_008988581.I上300001_320001bp區(qū)間;
[0075]Scaffold NW_008989660.1上l_20001bp區(qū)間;
[0076]Scaffold NW_008989715.1上l_20001bp區(qū)間。
[0077]顯然,圖2-2中的ScaffoldNW_008988130.I上l_300001bp區(qū)間、500001_580001bp區(qū)間和760001-960001bp區(qū)間均不能從利用Δ (SNP-1ndex)進行滑窗掃描的圖2-1中被定位出來。
[0078]3.5候選區(qū)間驗證
[0079]候選區(qū)間內(nèi)設(shè)計的InDel和SSR引物經(jīng)篩選后,對“滿天紅”X “紅香醉”群體所有單株進行連鎖分析,發(fā)現(xiàn)區(qū)間內(nèi)相關(guān)InDel和SSR引物與東方梨紅皮/綠皮性狀位點具有明顯的連鎖關(guān)系,其中位于ScaffoldNW_008988130.1 上的In2130-12、In2130-16、In2130-19和ZFRI130-16等標記與目標性狀位點遺傳距離均在2.6cM以內(nèi)。
[0080]連鎖分析驗證結(jié)果表明,以參考基因組代替親本基因組作為參照,計算SNP-1ndex,以I Δ (SNP-1ndex) I代替Δ (SNP-1ndex)進行滑動窗口掃描的改良QTL-seq方法在雙親均為紅皮梨(親本表型相同)的東方梨紅皮/綠皮性狀分離群體中定位的東方梨紅皮/綠皮性狀候選區(qū)間是準確的。而用A (SNP-1ndex)進行滑動窗口掃描的傳統(tǒng)QTL-seq方法則不能定位出相應區(qū)間。
[0081]以上所述,僅為本發(fā)明的優(yōu)選實施方式,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明披露的技術(shù)范圍內(nèi),對本發(fā)明技術(shù)方案進行的簡單變化或等效替換均落入本發(fā)明的保護范圍。
【主權(quán)項】
1.一種利用I Δ (SNP-1ndex) I進行性狀定位的QTL-seq方法,其特征在于:| Δ (SNP-1ndex) | 是 Δ (SNP-1ndex)的絕對值。2.如權(quán)利要求1所述的QTL-seq方法,其特征在于:所述方法用參考基因組作為參照,對雙親具有相同表型的分離群體的2個相對性狀極端表型池進行QTL-seq分析,并利用| Δ(SNP-1ndex) |的分布進行目標性狀基因或主效QTL的定位預測。3.如權(quán)利要求2所述的QTL-seq方法,其特征在于:利用|Δ (SNP-1ndex) |的分布進行目標性狀基因或主效QTL的定位預測時,I Δ (SNP-1ndex) I規(guī)避了用參考基因組作為參照的情況下,SNP位點間連鎖關(guān)系不清導致的滑動窗口內(nèi)SNP位點的平均Δ (SNP-1ndex)為O,無法進行目標性狀基因或主效QTL定位預測的情況。4.權(quán)利要求1所述的利用IA (SNP-1ndex) |進行性狀定位的QTL-seq方法在東方梨紅皮/綠皮性狀位點定位中的應用,其特征在于:應用該方法對雙親均為紅皮梨的“滿天紅” X“紅香醉”雜交組合紅皮池和綠皮池進行分析,能夠?qū)⑺觥皾M天紅” X “紅香醉”雜交組合的東方梨紅皮/綠皮性狀位點定位在1.86Mb的區(qū)間內(nèi)。5.如權(quán)利要求4所述的QTL-seq方法在東方梨紅皮/綠皮性狀位點定位中的應用,其特征在于:所述“滿天紅” X “紅香酥”雜交組合的東方梨紅皮/綠皮性狀位點所在的1.86Mb的區(qū)間包括如下14個子區(qū)間: Scaffold NW_008988041.1上3800001_3880001bp區(qū)間; Scaffold NW_008988076.1上640001_660001bp區(qū)間; Scaffold NW_008988091.I上l_140001bp區(qū)間; Scaffold NW_008988126.1上560001_720001bp區(qū)間; Scaffold NW_008988130.1上l_300001bp區(qū)間; Scaffold NW_008988130.1上500001_580001bp區(qū)間; Scaffold NW_008988130.1上760001_960001bp區(qū)間; Scaffold NW_008988141.1上l_500001bp區(qū)間; Scaffold NW_008988141.1上880001_940001bp區(qū)間; Scaffold NW_008988461.1上240001_400001bp區(qū)間; Scaffold NW_008988478.1上300001_400001bp區(qū)間; Scaffold NW_008988581.1上300001_320001bp區(qū)間; Scaffold NW_008989660.1上l_20001bp區(qū)間; Scaffold NW_008989715.1上l_20001bp區(qū)間。
【文檔編號】C12Q1/68GK105907860SQ201610291847
【公開日】2016年8月31日
【申請日】2016年5月4日
【發(fā)明人】薛華柏, 李秀根, 侍婷, 楊健, 王龍, 王蘇珂, 蘇艷麗, 張慧蓉
【申請人】中國農(nóng)業(yè)科學院鄭州果樹研究所