亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

高通量Miseq測(cè)序數(shù)據(jù)自動(dòng)化過(guò)濾方法與流程

文檔序號(hào):11156067閱讀:3540來(lái)源:國(guó)知局
高通量Miseq測(cè)序數(shù)據(jù)自動(dòng)化過(guò)濾方法與制造工藝

本發(fā)明涉及分子生物學(xué)技術(shù)領(lǐng)域,特別涉及Illumina Miseq測(cè)序數(shù)據(jù)分析技術(shù)領(lǐng)域,具體是指一種基于Linux跨服務(wù)器數(shù)據(jù)自動(dòng)傳送的能力,以提高測(cè)序數(shù)據(jù)的分組效率的高通量Miseq測(cè)序數(shù)據(jù)自動(dòng)化過(guò)濾方法,以減少人為因素對(duì)分析結(jié)果的影響。



背景技術(shù):

高通量測(cè)序技術(shù)為人們利用分子生物學(xué)手段研究自然界的規(guī)律提供了更多可行性方案。目前眾多高通量測(cè)序技術(shù)都有相關(guān)的分析方法或分析流程作為參考幫助科研人員進(jìn)行高通量數(shù)據(jù)處理。但是,目前常用Illumina Miseq數(shù)據(jù)過(guò)濾過(guò)程中容易出現(xiàn)人為錯(cuò)誤,因?yàn)檫^(guò)濾過(guò)程需要多個(gè)配置文件,各配置文件之間需要保持項(xiàng)目編號(hào)信息的一致性,如果是手動(dòng)一步步操作,不僅耗費(fèi)人力,還會(huì)出現(xiàn)數(shù)據(jù)和實(shí)際項(xiàng)目不匹配等人為錯(cuò)誤,導(dǎo)致后續(xù)的數(shù)據(jù)出現(xiàn)錯(cuò)誤。

常用Illumina Miseq數(shù)據(jù)過(guò)濾流程復(fù)雜,效率較低,當(dāng)項(xiàng)目多、數(shù)據(jù)量大時(shí)一個(gè)個(gè)過(guò)濾數(shù)據(jù)會(huì)耗費(fèi)大量時(shí)間。而且無(wú)法智能地處理不同批次數(shù)據(jù),實(shí)際操作過(guò)程中一個(gè)項(xiàng)目可能會(huì)多次上機(jī)測(cè)序,這樣就會(huì)得到不同批次的數(shù)據(jù),這些數(shù)據(jù)不能簡(jiǎn)單的合并到一起進(jìn)行處理,因?yàn)橐坏┢渲幸粋€(gè)批次的數(shù)據(jù)因?yàn)榫幪?hào)等問(wèn)題出現(xiàn)錯(cuò)誤都會(huì)導(dǎo)致后面所有的數(shù)據(jù)過(guò)濾都是徒勞。

現(xiàn)在宏基因組、轉(zhuǎn)錄組、基因組等項(xiàng)目類(lèi)型下機(jī)數(shù)據(jù)類(lèi)型不同,人為手動(dòng)操作時(shí)步驟復(fù)雜任務(wù)量繁重,只需要準(zhǔn)備好相應(yīng)的配置文件該自動(dòng)化流程即可以實(shí)現(xiàn)對(duì)不同類(lèi)型的項(xiàng)目下機(jī)數(shù)據(jù)進(jìn)行高效率處理。一個(gè)項(xiàng)目編號(hào)可能對(duì)應(yīng)多個(gè)子編號(hào),一個(gè)編號(hào)也會(huì)有不同批次的數(shù)據(jù),該自動(dòng)化流程可以實(shí)現(xiàn)對(duì)不同類(lèi)型數(shù)據(jù)的自動(dòng)化過(guò)濾及數(shù)據(jù)統(tǒng)計(jì)。提高服務(wù)器使用效率,減少分析人員的分析壓力,便于控制分析內(nèi)容。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明的目的是針對(duì)目前常用Illumina Miseq數(shù)據(jù)過(guò)濾過(guò)程中容易出現(xiàn)人為錯(cuò)誤等問(wèn)題而提供一種基于Linux shell的高通量Miseq測(cè)序數(shù)據(jù)自動(dòng)化過(guò)濾方法,該方法會(huì)自動(dòng)對(duì)數(shù)據(jù)進(jìn)行校驗(yàn),確保配置文件的一致性。

為了實(shí)現(xiàn)上述目的,本發(fā)明所采用的技術(shù)方案如下:

高通量Miseq測(cè)序數(shù)據(jù)自動(dòng)化過(guò)濾方法,具體包括如下步驟:

1)輸入要進(jìn)行分析的項(xiàng)目信息步驟

格式大致為一行表示一個(gè)項(xiàng)目的信息,前面幾列的元素分別為下機(jī)編號(hào),合同編號(hào),開(kāi)題單號(hào),測(cè)序平臺(tái),樣品名稱(chēng),其中間隔符設(shè)置為制表符;

2)高通量測(cè)序數(shù)據(jù)與項(xiàng)目信息的匹配步驟

進(jìn)入Linux環(huán)境,從存儲(chǔ)數(shù)據(jù)的服務(wù)器調(diào)取測(cè)序的下機(jī)數(shù)據(jù),與原來(lái)的不同是將數(shù)據(jù)的下機(jī)編號(hào)與項(xiàng)目信息匹配;

3)對(duì)相應(yīng)項(xiàng)目的數(shù)據(jù)進(jìn)行預(yù)處理步驟

包括對(duì)于樣品名字的處理,去除引物和barcode,去嵌合體,以及質(zhì)量過(guò)濾,隨后得到數(shù)據(jù)進(jìn)行下面的統(tǒng)計(jì)分析;

4)對(duì)數(shù)據(jù)進(jìn)行初步統(tǒng)計(jì)步驟

對(duì)得到的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)得到下機(jī)數(shù)據(jù)的基本信息,主要包括原始數(shù)據(jù)量大小、Reads的數(shù)量。

本發(fā)明的有益效果在于:

基于Linux shell的Illumina Miseq數(shù)據(jù)自動(dòng)化過(guò)濾流程,可進(jìn)行批量數(shù)據(jù)過(guò)濾,提高數(shù)據(jù)處理效率和服務(wù)器使用效率,同時(shí)降低人為錯(cuò)誤,便于判斷樣品數(shù)據(jù)量是否滿(mǎn)足分析要求。

附圖說(shuō)明

圖1為本發(fā)明的高通量Miseq測(cè)序數(shù)據(jù)自動(dòng)化過(guò)濾方法流程圖。

具體實(shí)施方式

為了能夠更清楚地理解本發(fā)明的技術(shù)內(nèi)容,特舉以下實(shí)施例詳細(xì)說(shuō)明。請(qǐng)參閱圖1所示,為本發(fā)明的高通量Miseq測(cè)序數(shù)據(jù)自動(dòng)化過(guò)濾方法流程圖。

在具體實(shí)施方式中,該方法如圖1所示包括以下步驟:

(1)輸入需要過(guò)濾的項(xiàng)目信息文件;

(2)檢測(cè)文件信息是否滿(mǎn)足條件(格式是否正確);

(3)格式正確后,將對(duì)應(yīng)項(xiàng)目數(shù)據(jù)進(jìn)行任務(wù)分配;

(4)查找項(xiàng)目的對(duì)應(yīng)的數(shù)據(jù),判斷是否存在,如果存在,傳送數(shù)據(jù)到對(duì)應(yīng)的工作目錄進(jìn)行下一步,如果不存在,相應(yīng)信息會(huì)輸出在屏幕上,該項(xiàng)目對(duì)應(yīng)的任務(wù)退出;

(5)如果上述判斷未出現(xiàn)問(wèn)題,開(kāi)始進(jìn)行數(shù)據(jù)流程分析,如果流程中局部出現(xiàn)問(wèn)題,也會(huì)輸出相應(yīng)信息,方便檢查。

在實(shí)際應(yīng)用中,本發(fā)明的方法所利用的工具包共包含1個(gè)Perl腳本代碼,腳本名稱(chēng)如下:

(1)MiSeq_DataFilter.pl

這個(gè)腳本的代碼編寫(xiě)基于Perl語(yǔ)言,可以在Linux、MacOS等多種類(lèi)Unix系統(tǒng)平臺(tái)下使用。代碼運(yùn)行過(guò)程中,耗費(fèi)系統(tǒng)資源少,能夠在任意一臺(tái)個(gè)人PC、工作站和或服務(wù)器上進(jìn)行使用。

MiSeq_DataFilter.pl,主程序,以特定格式文件(第一列為下機(jī)編號(hào),第二列為合同編號(hào),第三列為開(kāi)題單號(hào),第四列為測(cè)序平臺(tái),第五列為樣品名稱(chēng))作為輸入數(shù)據(jù),通過(guò)調(diào)用其他的shell腳本以及自身的判斷,進(jìn)行流程圖所示的過(guò)程。

在應(yīng)用過(guò)程中,上述腳本會(huì)返回一系列詳細(xì)的參數(shù)設(shè)置和對(duì)應(yīng)的參數(shù)說(shuō)明,指導(dǎo)數(shù)據(jù)分析人員正確使用這些方法。其中,參數(shù)分為兩種類(lèi)型:必要參數(shù)和可選參數(shù)。必要參數(shù)要求由數(shù)據(jù)分析人員提供輸入值,無(wú)默認(rèn)值。可選參數(shù)的默認(rèn)值有預(yù)設(shè)值,分析人員也可以結(jié)合實(shí)際需求進(jìn)行調(diào)整,具有靈活性。

在此說(shuō)明書(shū)中,本發(fā)明已參照其特定的實(shí)施例作了描述。但是,很顯然仍可以作出各種修改和變換而不背離本發(fā)明的精神和范圍。因此,說(shuō)明書(shū)和附圖應(yīng)被認(rèn)為是說(shuō)明性的而非限制性的。

當(dāng)前第1頁(yè)1 2 3 
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1