亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

染色質(zhì)免疫共沉淀高通量測(cè)序數(shù)據(jù)處理方法

文檔序號(hào):6520774閱讀:799來(lái)源:國(guó)知局
染色質(zhì)免疫共沉淀高通量測(cè)序數(shù)據(jù)處理方法
【專(zhuān)利摘要】本發(fā)明涉及一種染色質(zhì)免疫共沉淀高通量測(cè)序數(shù)據(jù)處理方法,屬于分子生物學(xué)【技術(shù)領(lǐng)域】。該方法首先剔除初始序列文件中的低質(zhì)量序列數(shù)據(jù),而后將經(jīng)篩選的序列數(shù)據(jù)對(duì)比到參考基因組中,根據(jù)參考基因組的分類(lèi)統(tǒng)計(jì)不同區(qū)域內(nèi)信號(hào)峰數(shù)量和密度分布,并確定每個(gè)信號(hào)峰的鄰近基因,進(jìn)行基因本體功能富集分析,最終生成基因本體功能富集結(jié)果文本文件和對(duì)應(yīng)的圖形化展示文件。該方法提供了一種高效的高通量數(shù)據(jù)分析流程,有效整合各個(gè)測(cè)序流程,幫助科研人員高效完成高通量數(shù)據(jù)的前期序列質(zhì)控、序列篩選、基于比對(duì)后的序列的數(shù)據(jù)統(tǒng)計(jì)反映出染色質(zhì)免疫共沉淀高通量測(cè)序?qū)嶒?yàn)的優(yōu)劣,并能夠體現(xiàn)序列在染色體上的分布特征,從而大幅提升了測(cè)序工作效率。
【專(zhuān)利說(shuō)明】染色質(zhì)免疫共沉淀高通量測(cè)序數(shù)據(jù)處理方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及分子生物學(xué)【技術(shù)領(lǐng)域】,特別涉及染色質(zhì)測(cè)序數(shù)據(jù)分析【技術(shù)領(lǐng)域】,具體是指一種染色質(zhì)免疫共沉淀高通量測(cè)序數(shù)據(jù)處理方法。
【背景技術(shù)】
[0002]新一代高通量測(cè)序技術(shù)的出現(xiàn)極大地豐富了人們利用分子生物學(xué)手段研究細(xì)胞內(nèi)變化規(guī)律的方案。目前諸如 ChlP-seq、RNA-seq、ChlRP-seq、High-C、MeDIP-seq、DNA-seq等在內(nèi)的眾多高通量測(cè)序技術(shù)都已被應(yīng)用在分子生物學(xué)和基礎(chǔ)醫(yī)學(xué)研究領(lǐng)域。其中,ChlP-seq技術(shù)是一種以研究蛋白質(zhì)與染色體DNA的相互作用為主要目的的高通量數(shù)據(jù)分析手段,其實(shí)驗(yàn)部分主要包含染色質(zhì)免疫共沉淀(ChIP)樣本制備和深度測(cè)序(DeepSequencing)兩個(gè)部分。為了避免實(shí)驗(yàn)制備和測(cè)序過(guò)程產(chǎn)生的原始序列(reads)質(zhì)量參差不齊并對(duì)之后的數(shù)據(jù)分析結(jié)果產(chǎn)生影響,目前許多許多實(shí)驗(yàn)室都是用一些自定義的腳本來(lái)進(jìn)行reads的質(zhì)控和篩選,其中包括fastqQC、fastx toolkit、PICARD等。但是,如何把這些小工具流程化地運(yùn)用到ChlP-seq數(shù)據(jù)的分析過(guò)程中,目前仍然沒(méi)有一個(gè)有效的解決方案供廣大技術(shù)從業(yè)人員參考。

【發(fā)明內(nèi)容】

[0003]本發(fā)明的目的是克服了上述現(xiàn)有技術(shù)中的缺點(diǎn),提供一種針對(duì)科研人員設(shè)計(jì)的高通量數(shù)據(jù)分析流程,有效整合各個(gè)測(cè)序流程,選取可以幫助科研人員迅速完成一套高通量數(shù)據(jù)的前期序列(reads)質(zhì)控、序列(reads)篩選、基于比對(duì)后的序列(reads)的數(shù)據(jù)統(tǒng)計(jì)反映出ChlP-seq實(shí)驗(yàn)的優(yōu)劣并能夠體現(xiàn)序列(reads)在染色體上的分布特征,從而優(yōu)化科研人員和數(shù)據(jù)分析專(zhuān)員對(duì)數(shù)據(jù)質(zhì)量評(píng)估的過(guò)程,有效提升工作效率的染色質(zhì)免疫共沉淀高通量測(cè)序數(shù)據(jù)處理方法。
[0004]為了實(shí)現(xiàn)上述的目的,本發(fā)明的染色質(zhì)免疫共沉淀高通量測(cè)序數(shù)據(jù)處理方法包括以下步驟:
[0005](I)系統(tǒng)獲取染色質(zhì)免疫共沉淀高通量測(cè)序初始序列文件;
[0006](2)系統(tǒng)從所述的染色質(zhì)免疫共沉淀高通量測(cè)序初始序列文件中剔除低質(zhì)量序列數(shù)據(jù),獲得經(jīng)篩選的序列數(shù)據(jù);
[0007](3)系統(tǒng)將所述的經(jīng)篩選的序列數(shù)據(jù)對(duì)比到參考基因組中,并根據(jù)對(duì)比結(jié)果保留在基因組上的比對(duì)位置唯一且堿基錯(cuò)配數(shù)不多于2的序列數(shù)據(jù);
[0008](4)系統(tǒng)對(duì)所述的保留的序列數(shù)據(jù)進(jìn)行序列信號(hào)峰值區(qū)域檢測(cè);
[0009](5)系統(tǒng)對(duì)所述的參考基因組進(jìn)行分類(lèi),劃分為間隔(Intergenic)區(qū)域、編碼(Coding)區(qū)域,進(jìn)一步將編碼(Coding)區(qū)域劃分為外顯子序列(Exon)區(qū)域、內(nèi)含子序列(Intron)區(qū)域、5'非翻譯(5' UTR)區(qū)域、3'非翻譯(3' UTR)區(qū)域;
[0010](6)系統(tǒng)統(tǒng)計(jì)不同類(lèi)型染色體區(qū)域內(nèi)染色質(zhì)免疫共沉淀測(cè)序序列信號(hào)峰的數(shù)量和密度分布;并統(tǒng)計(jì)不同類(lèi)型染色體區(qū)域內(nèi)染色質(zhì)免疫共沉淀高通量測(cè)序序列文件的測(cè)序深度和單位區(qū)間的覆蓋度;
[0011](7)系統(tǒng)對(duì)所述的染色質(zhì)免疫共沉淀測(cè)序序列信號(hào)峰周?chē)M(jìn)行檢測(cè),確定每個(gè)信號(hào)峰的鄰近基因,并以所述鄰近基因?yàn)榛A(chǔ)進(jìn)行基因本體功能富集分析,生成基因本體功能富集結(jié)果文本文件和對(duì)應(yīng)的圖形化展示文件,所述的基因本體功能富集結(jié)果文本文件和對(duì)應(yīng)的圖形化展示文件指示目標(biāo)蛋白在各個(gè)樣本中染色體上的定位信息、目標(biāo)蛋白所調(diào)控的潛在靶基因信息以及目標(biāo)蛋白在樣本中所起到的分子生物學(xué)功能。
[0012]該染色質(zhì)免疫共沉淀高通量測(cè)序數(shù)據(jù)處理方法中,所述的染色質(zhì)免疫共沉淀高通量測(cè)序初始序列文件包括具有多套重復(fù)實(shí)驗(yàn)數(shù)據(jù)的高通量序列數(shù)據(jù)集,則所述的方法在步驟(6)和(7)之間還包括以下步驟:
[0013](7-0)系統(tǒng)選取所述的高通量序列數(shù)據(jù)集未經(jīng)處理的一套數(shù)據(jù)根據(jù)所述步驟(2)至步驟(6)進(jìn)行處理,并將各套數(shù)據(jù)的處理結(jié)果進(jìn)行整合。
[0014]該染色質(zhì)免疫共沉淀高通量測(cè)序數(shù)據(jù)處理方法中,所述的步驟(2)具體包括以下步驟:
[0015](21)系統(tǒng)對(duì)所述的染色質(zhì)免疫共沉淀高通量測(cè)序初始序列文件根據(jù)設(shè)定的堿基測(cè)序質(zhì)量分值(phred-score)下限、低質(zhì)量堿基在單條序列中所占百分比上限以及測(cè)不準(zhǔn)堿基在單條序列中所占百分比上限,剔除低質(zhì)量序列數(shù)據(jù);
[0016](22)系統(tǒng)去除每條序列的3'端低質(zhì)量堿基,獲得經(jīng)篩選的序列數(shù)據(jù)。
[0017]該染色質(zhì)免疫共沉淀高通量測(cè)序數(shù)據(jù)處理方法中,所述的步驟(4)具體為:系統(tǒng)對(duì)保留的染色質(zhì)免疫共沉淀高通量序列數(shù)據(jù)正負(fù)鏈5'端間距進(jìn)行計(jì)算,并根據(jù)計(jì)算結(jié)果進(jìn)行序列信號(hào)峰值區(qū)域的檢測(cè)。
[0018]該染色質(zhì)免疫共沉淀高通量測(cè)序數(shù)據(jù)處理方法中,所述的基因本體功能富集結(jié)果文本文件和對(duì)應(yīng)的圖形化展示文件為生物工程(BP)、分子功能(MF)或細(xì)胞組分(CC)中任意一種基因本體功能富集結(jié)果文本文件及對(duì)應(yīng)的圖形化展示文件。
[0019]該染色質(zhì)免疫共沉淀高通量測(cè)序數(shù)據(jù)處理方法中,所述的染色質(zhì)免疫共沉淀高通量測(cè)序初始序列文件為fastq格式。
[0020]采用了該發(fā)明的染色質(zhì)免疫共沉淀高通量測(cè)序數(shù)據(jù)處理方法,其首先剔除初始序列文件中的低質(zhì)量序列數(shù)據(jù),而后將經(jīng)篩選的序列數(shù)據(jù)對(duì)比到參考基因組中,根據(jù)參考基因組的分類(lèi)統(tǒng)計(jì)不同類(lèi)型染色體區(qū)域內(nèi)信號(hào)峰的數(shù)量和密度分布,并確定每個(gè)信號(hào)峰的鄰近基因,以所述鄰近基因?yàn)榛A(chǔ)進(jìn)行基因本體功能富集分析,最終生成基因本體功能富集結(jié)果文本文件和對(duì)應(yīng)的圖形化展示文件。該方法提供了一種高效的高通量數(shù)據(jù)分析流程,有效整合各個(gè)測(cè)序流程,選取可以幫助科研人員迅速完成一套高通量數(shù)據(jù)的前期序列質(zhì)控、序列篩選、基于比對(duì)后的序列的數(shù)據(jù)統(tǒng)計(jì)反映出染色質(zhì)免疫共沉淀高通量測(cè)序?qū)嶒?yàn)的優(yōu)劣,并能夠體現(xiàn)序列在染色體上的分布特征,從而優(yōu)化科研人員和數(shù)據(jù)分析專(zhuān)員對(duì)數(shù)據(jù)質(zhì)量評(píng)估的過(guò)程,大幅提升了染色質(zhì)免疫共沉淀高通量測(cè)序的工作效率。
【專(zhuān)利附圖】

【附圖說(shuō)明】
[0021]圖1為本發(fā)明的染色質(zhì)免疫共沉淀高通量測(cè)序數(shù)據(jù)處理方法的步驟流程圖?!揪唧w實(shí)施方式】[0022]為了能夠更清楚地理解本發(fā)明的技術(shù)內(nèi)容,特舉以下實(shí)施例詳細(xì)說(shuō)明。
[0023]請(qǐng)參閱圖1所示,為本發(fā)明的染色質(zhì)免疫共沉淀高通量測(cè)序數(shù)據(jù)處理方法的步驟流程圖。
[0024]在一種實(shí)施方式中,該染色質(zhì)免疫共沉淀高通量測(cè)序數(shù)據(jù)處理方法,如圖1所示,包括以下步驟:
[0025](I)系統(tǒng)獲取fastq格式的染色質(zhì)免疫共沉淀高通量測(cè)序初始序列文件;
[0026](2)系統(tǒng)從所述的染色質(zhì)免疫共沉淀高通量測(cè)序初始序列文件中剔除低質(zhì)量序列數(shù)據(jù),獲得經(jīng)篩選的序列數(shù)據(jù);
[0027](3)系統(tǒng)將所述的經(jīng)篩選的序列數(shù)據(jù)對(duì)比到參考基因組中,并根據(jù)對(duì)比結(jié)果保留在基因組上的比對(duì)位置唯一且堿基錯(cuò)配數(shù)不多于2的序列數(shù)據(jù);
[0028](4)系統(tǒng)對(duì)所述的保留的序列數(shù)據(jù)進(jìn)行序列信號(hào)峰值區(qū)域檢測(cè);
[0029](5)系統(tǒng)對(duì)所述的參考基因組進(jìn)行分類(lèi),劃分為間隔(Intergenic)區(qū)域、編碼(Coding)區(qū)域,進(jìn)一步將編碼(Coding)區(qū)域劃分為外顯子序列(Exon)區(qū)域、內(nèi)含子序列(Intron)區(qū)域、5'非翻譯(5' UTR)區(qū)域、3'非翻譯(3' UTR)區(qū)域;
[0030](6)系統(tǒng)統(tǒng)計(jì)不同類(lèi)型染色體區(qū)域內(nèi)染色質(zhì)免疫共沉淀測(cè)序序列信號(hào)峰的數(shù)量和密度分布;并統(tǒng)計(jì)不同類(lèi)型染色體區(qū)域內(nèi)染色質(zhì)免疫共沉淀高通量測(cè)序序列文件的測(cè)序深度和單位區(qū)間的覆蓋度;
[0031](7)系統(tǒng)對(duì)所述的染色質(zhì)免疫共沉淀測(cè)序序列信號(hào)峰周?chē)M(jìn)行檢測(cè),確定每個(gè)信號(hào)峰的鄰近基因,并以所述鄰近基因?yàn)榛A(chǔ)進(jìn)行基因本體功能富集分析,生成基因本體功能富集結(jié)果文本文件和對(duì)應(yīng)的圖形化展示文件,所述的基因本體功能富集結(jié)果文本文件和對(duì)應(yīng)的圖形化展示文件指示目標(biāo)蛋白在各個(gè)樣本中染色體上的定位信息、目標(biāo)蛋白所調(diào)控的潛在靶基因信息以及目標(biāo)蛋白在樣本中所起到的分子生物學(xué)功能。
[0032]若所述的染色質(zhì)免疫共沉淀高通量測(cè)序初始序列文件包括具有多套重復(fù)實(shí)驗(yàn)數(shù)據(jù)的高通量序列數(shù)據(jù)集,則所述的方法在步驟(6)和(7)之間還包括以下步驟:
[0033](7-0)系統(tǒng)選取所述的高通量序列數(shù)據(jù)集未經(jīng)處理的一套數(shù)據(jù)根據(jù)所述步驟(2)至步驟(6)進(jìn)行處理,并將各套數(shù)據(jù)的處理結(jié)果進(jìn)行整合。
[0034]在較優(yōu)選的實(shí)施方式中,所述的步驟(2)具體包括以下步驟:
[0035](21)系統(tǒng)對(duì)所述的染色質(zhì)免疫共沉淀高通量測(cè)序初始序列文件根據(jù)設(shè)定的堿基測(cè)序質(zhì)量分值(phred-score)下限、低質(zhì)量堿基在單條序列中所占百分比上限以及測(cè)不準(zhǔn)堿基在單條序列中所占百分比上限,剔除低質(zhì)量序列數(shù)據(jù);
[0036](22)系統(tǒng)去除每條序列的3'端低質(zhì)量堿基,獲得經(jīng)篩選的序列數(shù)據(jù)。
[0037]在進(jìn)一步優(yōu)選的實(shí)施方式中,所述的步驟(4)具體為:系統(tǒng)對(duì)保留的染色質(zhì)免疫共沉淀高通量序列數(shù)據(jù)正負(fù)鏈5'端間距進(jìn)行計(jì)算,并根據(jù)計(jì)算結(jié)果進(jìn)行序列信號(hào)峰值區(qū)域的檢測(cè)。
[0038]在更優(yōu)選的實(shí)施方式中,所述的基因本體功能富集結(jié)果文本文件和對(duì)應(yīng)的圖形化展示文件為生物工程(BP)、分子功能(MF)或細(xì)胞組分(CC)中任意一種基因本體功能富集結(jié)果文本文件及對(duì)應(yīng)的圖形化展示文件。
[0039]在實(shí)際應(yīng)用中,本發(fā)明的方法的系統(tǒng)所采用的工具包共包含5個(gè)Python語(yǔ)言腳本和6個(gè)R語(yǔ)言腳本,各腳本的名稱(chēng)如下:[0040](I)PROGRAM_clean_reads_gen.py
[0041](2) PROGRAM_fastq_trimme;r.py
[0042](3) PROGRAM_genomic_bin_gen.py
[0043](4)PROGRAM_genomic_feature_gen.py
[0044](5)PROGRAM_identical_reads_collapser.py
[0045](6)PROGRAM_ChIPpeakAnno_GO_analysis_output_processing.r
[0046](7)PROGRAM_ChIP-seq_peak_annotation.r
[0047](8)PROGRAM_genomic_bin_seq_depth_breadth_stat.r
[0048](9)PROGRAM_merging_peak_from_two_samples.r
[0049](10)PROGRAM_peak_dens_in_diff_regions.r
[0050](11)PROGRAM_reads_dens_in_diff_region.r
[0051]上述的每個(gè)腳本既能夠獨(dú)立執(zhí)行,也可以嵌入到已有的數(shù)據(jù)分析流程中,使用非
常靈活。
[0052]上述腳本的代碼編寫(xiě)基于Python和R語(yǔ)言,可以在Linux和MacOS系統(tǒng)平臺(tái)下使用。代碼運(yùn)行過(guò)程中,耗費(fèi)系統(tǒng)資源少,能夠在任意一臺(tái)個(gè)人PC、工作站和或服務(wù)器上進(jìn)行使用。
[0053]利用上述的腳本實(shí)現(xiàn)本發(fā)明的方法所述的數(shù)據(jù)處理流程如下:
[0054]該工具的數(shù)據(jù)處理和分析流程以fastq格式的ChlP-seq的高通量數(shù)據(jù)文件作為最初的輸入文件。
[0055]第一步,使用PROGRAM_clean_reads_gen.py 對(duì)最初的 ChlP-seq 數(shù)據(jù) fastq 格式文件進(jìn)行篩選。通過(guò)堿基測(cè)序質(zhì)量分值(phred-score)下限、低質(zhì)量堿基在單條read中所占百分比以及測(cè)不準(zhǔn)堿基在單條reads中所占百分比上限的設(shè)置,剔除低質(zhì)量reads數(shù)據(jù)。使用PROGRAM_fastq_trimier.py去除每條reads的3'端低質(zhì)量堿基。使用PR0GRAM_identical_reads_collapser.py 去除 PCR duplicates 并保留符合篩選條件的 reads 用于后續(xù)分析。
[0056]第二步,整合bowtie開(kāi)源軟件把篩選后的reads比對(duì)到參考基因組中,并結(jié)合每條reads的比對(duì)結(jié)果,只保留在基因組上的比對(duì)位置唯一且堿基錯(cuò)配數(shù)不多于2的reads數(shù)據(jù)。整合SPP和MaSC開(kāi)源軟件對(duì)保留的ChlP-seq高通量reads數(shù)據(jù)正負(fù)鏈5'端間距進(jìn)行估計(jì),并將計(jì)算所得參數(shù)輸入MASC開(kāi)源軟件中進(jìn)行reads信號(hào)峰值區(qū)域的檢測(cè)。
[0057]第三步,使用PROGRAM_genomic_bin_gen.py 和 PROGRAM_genomic_feature_gen.py對(duì)參考基因組文件進(jìn)行區(qū)間劃分和類(lèi)型分類(lèi),結(jié)合refGene文件把參考基因組分為Intergenic區(qū)域、Coding區(qū)域,對(duì)于Coding區(qū)域單獨(dú)將其進(jìn)一步細(xì)分為Exon區(qū)域、Intron區(qū)域、5' UTR區(qū)域、3' UTR區(qū)域。處理好的結(jié)果將被用于后續(xù)的分析。
[0058]第四步,使用BEDTools處理第二、三步輸出的中間結(jié)果。對(duì)于BEDTools的處理結(jié)果使用PROGRAM_reads_dens_in_diff_regions.r統(tǒng)計(jì)不同類(lèi)型染色體區(qū)域內(nèi)ChlP-seq信號(hào)峰的數(shù)量和密度分布;使用PROGRAM_genomic_bin_seq_depth_breadth_stat.r統(tǒng)計(jì)不同類(lèi)型染色體區(qū)域內(nèi)ChlP-seq高通量測(cè)序reads文件的測(cè)序深度和單位區(qū)間的覆蓋度;使用PROGRAM_peak_dens_in_diff_regions.r統(tǒng)計(jì)不同類(lèi)型染色體區(qū)域內(nèi)ChlP-seq信號(hào)峰的數(shù)量和密度分布。[0059]第五步,對(duì)于有實(shí)驗(yàn)重復(fù)的ChlP-seq高通量reads數(shù)據(jù)集,先單獨(dú)對(duì)每套數(shù)據(jù)分別執(zhí)行第一?第四步處理步驟,之后使用PROGRAM_merging_peak_from_two_samples.r對(duì)所有數(shù)據(jù)進(jìn)行整合,并最終輸出到“Merged_peaks.bed”文件。
[0060]第六步,使用PROGRAM_ChIP_seq_peak_annotation.r 對(duì) ChlP-seq 信號(hào)峰周?chē)M(jìn)行檢測(cè),通過(guò)設(shè)置ChlP-seq數(shù)據(jù)來(lái)源物種名、相關(guān)物種基因注釋文件和單個(gè)基因TSS上下游搜索范圍,確定每個(gè)ChlP-seq信號(hào)峰的鄰近基因,并以這些基因?yàn)榛A(chǔ)進(jìn)行G0(基因本體,gene ontology)基因功能富集分析。之后使用 PROGRAM_ChIPpeakAnno_GO_analysis_output_processing.r對(duì)生成的結(jié)果進(jìn)行篩選和輸出,結(jié)合用戶(hù)提供輸入文件的不同,可以分別生成BP、MF、CC三個(gè)種類(lèi)的GO功能富集結(jié)果文本文件和對(duì)應(yīng)的圖形化展示文件。
[0061]最終,通過(guò)該ChlP-seq數(shù)據(jù)處理和分析流程,我們能夠獲取在目標(biāo)蛋白在各個(gè)樣本中染色體上的定位信息、目標(biāo)蛋白所調(diào)控的潛在靶基因信息以及目標(biāo)蛋白在樣本中所起到的分子生物學(xué)功能。
[0062]利用本發(fā)明的方法能夠幫助科研院所和醫(yī)學(xué)臨床對(duì)疾病相關(guān)轉(zhuǎn)錄因子的功能調(diào)控進(jìn)行分析,確定轉(zhuǎn)錄因子下游調(diào)控靶基因,系統(tǒng)性地認(rèn)識(shí)疾病發(fā)生的內(nèi)在分子機(jī)制;同時(shí)可以結(jié)合不同類(lèi)型染色質(zhì)免疫共沉淀實(shí)驗(yàn),研究生物體內(nèi)表觀遺傳調(diào)控對(duì)生物體發(fā)育、細(xì)胞分化和衰老等一系列前沿科研領(lǐng)域的研究。
[0063]采用了該發(fā)明的染色質(zhì)免疫共沉淀高通量測(cè)序數(shù)據(jù)處理方法,其首先剔除初始序列文件中的低質(zhì)量序列數(shù)據(jù),而后將經(jīng)篩選的序列數(shù)據(jù)對(duì)比到參考基因組中,根據(jù)參考基因組的分類(lèi)統(tǒng)計(jì)不同類(lèi)型染色體區(qū)域內(nèi)信號(hào)峰的數(shù)量和密度分布,并確定每個(gè)信號(hào)峰的鄰近基因,以所述鄰近基因?yàn)榛A(chǔ)進(jìn)行基因本體功能富集分析,最終生成基因本體功能富集結(jié)果文本文件和對(duì)應(yīng)的圖形化展示文件。該方法提供了一種高效的高通量數(shù)據(jù)分析流程,有效整合各個(gè)測(cè)序流程,選取可以幫助科研人員迅速完成一套高通量數(shù)據(jù)的前期序列質(zhì)控、序列篩選、基于比對(duì)后的序列的數(shù)據(jù)統(tǒng)計(jì)反映出染色質(zhì)免疫共沉淀高通量測(cè)序?qū)嶒?yàn)的優(yōu)劣,并能夠體現(xiàn)序列在染色體上的分布特征,從而優(yōu)化科研人員和數(shù)據(jù)分析專(zhuān)員對(duì)數(shù)據(jù)質(zhì)量評(píng)估的過(guò)程,大幅提升了染色質(zhì)免疫共沉淀高通量測(cè)序的工作效率。
[0064]在此說(shuō)明書(shū)中,本發(fā)明已參照其特定的實(shí)施例作了描述。但是,很顯然仍可以作出各種修改和變換而不背離本發(fā)明的精神和范圍。因此,說(shuō)明書(shū)和附圖應(yīng)被認(rèn)為是說(shuō)明性的而非限制性的。
【權(quán)利要求】
1.一種染色質(zhì)免疫共沉淀高通量測(cè)序數(shù)據(jù)處理方法,其特征在于,所述的方法包括以下步驟: (1)系統(tǒng)獲取染色質(zhì)免疫共沉淀高通量測(cè)序初始序列文件; (2)系統(tǒng)從所述的染色質(zhì)免疫共沉淀高通量測(cè)序初始序列文件中剔除低質(zhì)量序列數(shù)據(jù),獲得經(jīng)篩選的序列數(shù)據(jù); (3)系統(tǒng)將所述的經(jīng)篩選的序列數(shù)據(jù)對(duì)比到參考基因組中,并根據(jù)對(duì)比結(jié)果保留在基因組上的比對(duì)位置唯一且堿基錯(cuò)配數(shù)不多于2的序列數(shù)據(jù); (4)系統(tǒng)對(duì)所述的保留的序列數(shù)據(jù)進(jìn)行序列信號(hào)峰值區(qū)域檢測(cè); (5)系統(tǒng)對(duì)所述的參考基因組進(jìn)行分類(lèi),劃分為間隔區(qū)域、編碼區(qū)域,進(jìn)一步將編碼區(qū)域劃分為外顯子序列區(qū)域、內(nèi)含子序列區(qū)域、5'非翻譯區(qū)域、3'非翻譯區(qū)域; (6)系統(tǒng)統(tǒng)計(jì)不同類(lèi)型染色體區(qū)域內(nèi)染色質(zhì)免疫共沉淀測(cè)序序列信號(hào)峰的數(shù)量和密度分布;并統(tǒng)計(jì)不同類(lèi)型染色體區(qū)域內(nèi)染色質(zhì)免疫共沉淀高通量測(cè)序序列文件的測(cè)序深度和單位區(qū)間的覆蓋度; (7)系統(tǒng)對(duì)所述的染色質(zhì)免疫共沉淀測(cè)序序列信號(hào)峰周?chē)M(jìn)行檢測(cè),確定每個(gè)信號(hào)峰的鄰近基因,并以所述鄰近基因?yàn)榛A(chǔ)進(jìn)行基因本體功能富集分析,生成基因本體功能富集結(jié)果文本文件和對(duì)應(yīng)的圖形化展示文件,所述的基因本體功能富集結(jié)果文本文件和對(duì)應(yīng)的圖形化展示文件指示目標(biāo)蛋白在各個(gè)樣本中染色體上的定位信息、目標(biāo)蛋白所調(diào)控的潛在靶基因信息以及目標(biāo)蛋白在樣本中所起到的分子生物學(xué)功能。
2.根據(jù)權(quán)利要求1所述的染色質(zhì)免疫共沉淀高通量測(cè)序數(shù)據(jù)處理方法,其特征在于,所述的染色質(zhì)免疫共沉淀高通量測(cè)序初始序列文件包括具有多套重復(fù)實(shí)驗(yàn)數(shù)據(jù)的高通量序列數(shù)據(jù)集,則所述的方法在步驟(6)和(7)之間還包括以下步驟: (7-0)系統(tǒng)選取所述的高通量序列數(shù)據(jù)集未經(jīng)處理的一套數(shù)據(jù)根據(jù)所述步驟(2)至步驟(6)進(jìn)行處理,并將各套數(shù)據(jù)的處理結(jié)果進(jìn)行整合。
3.根據(jù)權(quán)利要求1或2所述的染色質(zhì)免疫共沉淀高通量測(cè)序數(shù)據(jù)處理方法,其特征在于,所述的步驟(2)具體包括以下步驟: (21)系統(tǒng)對(duì)所述的染色質(zhì)免疫共沉淀高通量測(cè)序初始序列文件根據(jù)設(shè)定的堿基測(cè)序質(zhì)量分值下限、低質(zhì)量堿基在單條序列中所占百分比上限以及測(cè)不準(zhǔn)堿基在單條序列中所占百分比上限,剔除低質(zhì)量序列數(shù)據(jù); (22)系統(tǒng)去除每條序列的3'端低質(zhì)量堿基,獲得經(jīng)篩選的序列數(shù)據(jù)。
4.根據(jù)權(quán)利要求1或2所述的染色質(zhì)免疫共沉淀高通量測(cè)序數(shù)據(jù)處理方法,其特征在于,所述的步驟(4)具體為: 系統(tǒng)對(duì)保留的染色質(zhì)免疫共沉淀高通量序列數(shù)據(jù)正負(fù)鏈5'端間距進(jìn)行計(jì)算,并根據(jù)計(jì)算結(jié)果進(jìn)行序列信號(hào)峰值區(qū)域的檢測(cè)。
5.根據(jù)權(quán)利要求1或2所述的染色質(zhì)免疫共沉淀高通量測(cè)序數(shù)據(jù)處理方法,其特征在于,所述的基因本體功能富集結(jié)果文本文件和對(duì)應(yīng)的圖形化展示文件為生物工程、分子功能或細(xì)胞組分中任意一種基因本體功能富集結(jié)果文本文件及對(duì)應(yīng)的圖形化展示文件。
6.根據(jù)權(quán)利要求1所述的染色質(zhì)免疫共沉淀高通量測(cè)序數(shù)據(jù)處理方法,其特征在于,所述的染色質(zhì)免疫共沉淀高通量測(cè)序初始序列文件為fastq格式。
【文檔編號(hào)】G06F19/18GK103853936SQ201310610854
【公開(kāi)日】2014年6月11日 申請(qǐng)日期:2013年11月27日 優(yōu)先權(quán)日:2013年11月27日
【發(fā)明者】王立山, 曹鑫愷, 臧衛(wèi)東, 王媛媛 申請(qǐng)人:上海豐核信息科技有限公司
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1