一種生物信息學(xué)數(shù)據(jù)庫系統(tǒng)和數(shù)據(jù)處理方法
【專利摘要】本發(fā)明公開了一種生物信息學(xué)數(shù)據(jù)庫系統(tǒng)和數(shù)據(jù)處理方法,能夠?qū)崿F(xiàn)生物信息學(xué)數(shù)據(jù)的統(tǒng)一管理。所述系統(tǒng)包括樣品模塊、項目模塊和實驗?zāi)K。所述方法包括:樣品模塊為樣品設(shè)置標(biāo)識,并將樣品導(dǎo)入樣品庫;項目模塊創(chuàng)建項目,從樣品庫中添加樣品到項目,并將樣品與項目相關(guān)聯(lián);實驗?zāi)K在項目中創(chuàng)建實驗,從項目關(guān)聯(lián)的樣品中添加樣品到該實驗,將樣品與實驗相關(guān)聯(lián),制定實驗類型,進(jìn)行高性能計算處理,輸出實驗結(jié)果。采用本發(fā)明所述系統(tǒng)和方法,可以將所有環(huán)節(jié)系統(tǒng)性的連接在一起,實現(xiàn)統(tǒng)一管理,滿足生物信息學(xué)中信息化管理需求,提高工作效率。
【專利說明】一種生物信息學(xué)數(shù)據(jù)庫系統(tǒng)和數(shù)據(jù)處理方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計算機(jī)領(lǐng)域,具體涉及一種生物信息學(xué)數(shù)據(jù)庫系統(tǒng)和數(shù)據(jù)處理方法?!颈尘凹夹g(shù)】
[0002]隨著生命科學(xué)領(lǐng)域?qū)嶒灱夹g(shù)的快速發(fā)展,科學(xué)儀器的自動化、智能化水平日益提高,數(shù)據(jù)產(chǎn)出能力有了質(zhì)的飛躍。同時,生命科學(xué)研究對分析測試的要求無論在樣品數(shù)量、分析周期、分析項目和數(shù)據(jù)準(zhǔn)確性等方面都提出了更高的標(biāo)準(zhǔn)和要求,生物實驗室產(chǎn)出的信息呈幾何級數(shù)增長。在傳統(tǒng)的生物實驗室中,由于數(shù)據(jù)類型多樣、格式不一,數(shù)據(jù)的保存、交換、查詢、分析、維護(hù)都很不方便,嚴(yán)重阻礙了研究人員之間的信息提交。在生物信息學(xué)中涉及到的多種實驗流程,如DNA文庫構(gòu)建,基因組測序,數(shù)據(jù)處理,結(jié)果分析,成果產(chǎn)出,數(shù)據(jù)共享等多個環(huán)節(jié),每個環(huán)節(jié)有不同的技術(shù)人員參與,因此在各個環(huán)節(jié)傳遞或是承接中會出現(xiàn)信息丟失或是效率低下等等問題。尤其在生物信息學(xué)中的測序,高性能計算環(huán)節(jié),專業(yè)測序?qū)嶒炇倚枰邮艽罅康臏y序訂單項目、安排測序?qū)嶒?、及時處理高速產(chǎn)出的測序結(jié)果。日益增長的測序需求和高速產(chǎn)出的數(shù)據(jù)給測序?qū)嶒炇业臄?shù)據(jù)管理帶來了巨大的挑戰(zhàn)。對于這樣高速產(chǎn)出的數(shù)據(jù),僅使用計算機(jī)文件系統(tǒng)來進(jìn)行管理是很困難的。測序?qū)嶒炇乙话悴捎秒娮颖砀窈图堎|(zhì)文檔保存數(shù)據(jù)。而這些方式都是以分散的形式存在,難以集中起來統(tǒng)一管理。在數(shù)據(jù)搜集過程中如何合作和追蹤各實驗數(shù)據(jù),是實驗室管理工作面臨的挑戰(zhàn)。
【發(fā)明內(nèi)容】
[0003]本發(fā)明要解決的技術(shù)問題是提供一種生物信息學(xué)數(shù)據(jù)庫系統(tǒng)和數(shù)據(jù)處理方法,能夠?qū)崿F(xiàn)生物信息學(xué)數(shù)據(jù)的統(tǒng)一管理。
[0004]為解決上述技術(shù)問題,本發(fā)明提供了一種生物信息學(xué)數(shù)據(jù)庫系統(tǒng),包括:樣品模塊、項目模塊和實驗?zāi)K,其中:
[0005]所述樣品模塊,用于為樣品設(shè)置標(biāo)識,將樣品導(dǎo)入樣品庫;
[0006]所述項目模塊,用于創(chuàng)建項目,從樣品庫中添加樣品到項目,將樣品與項目相關(guān)聯(lián);
[0007]所述實驗?zāi)K,用于在項目中創(chuàng)建實驗,從項目關(guān)聯(lián)的樣品中添加樣品到該實驗,將樣品與實驗相關(guān)聯(lián),制定實驗類型,進(jìn)行高性能計算,輸出實驗結(jié)果。
[0008]進(jìn)一步地,所述實驗?zāi)K進(jìn)行高性能計算處理,包括:實驗?zāi)K進(jìn)行以下處理中的一種或多種:序列比對、序列拼接、序列注釋、序列功能分析、序列數(shù)據(jù)庫構(gòu)建、序列數(shù)據(jù)共享。
[0009]進(jìn)一步地,所述項目模塊還用于執(zhí)行以下操作中的一種或多種:分配資源、管理客戶信息、查詢項目數(shù)據(jù)、進(jìn)行項目成果的匯總和結(jié)項。
[0010]進(jìn)一步地,所述實驗?zāi)K還用于管理實驗數(shù)據(jù)和/或跟蹤實驗進(jìn)度。
[0011]進(jìn)一步地,所述系統(tǒng)還包括用戶權(quán)限管理模塊,用于審核注冊者的資格,為注冊用戶分配權(quán)限。[0012]為解決上述技術(shù)問題,本發(fā)明還提供了一種數(shù)據(jù)處理方法,適用于如前所述的生物信息學(xué)數(shù)據(jù)庫系統(tǒng),所述方法包括:
[0013]樣品模塊為樣品設(shè)置標(biāo)識,并將樣品導(dǎo)入樣品庫;
[0014]項目模塊創(chuàng)建項目,從樣品庫中添加樣品到項目,并將樣品與項目相關(guān)聯(lián);
[0015]實驗?zāi)K在項目中創(chuàng)建實驗,從項目關(guān)聯(lián)的樣品中添加樣品到該實驗,將樣品與實驗相關(guān)聯(lián),制定實驗類型,進(jìn)行高性能計算處理,輸出實驗結(jié)果。
[0016]進(jìn)一步地,所述高性能計算處理,包括以下處理中的一種或多種:序列比對、序列拼接、序列注釋、序列功能分析、序列數(shù)據(jù)庫構(gòu)建、序列數(shù)據(jù)共享。
[0017]進(jìn)一步地,所述方法還包括:所述實驗?zāi)K輸出實驗結(jié)果后,進(jìn)行數(shù)據(jù)歸檔或數(shù)據(jù)刪除。
[0018]本發(fā)明實施例包括DNA文庫構(gòu)建、基因組測序、數(shù)據(jù)處理、成果產(chǎn)出等環(huán)節(jié),其中DNA文庫構(gòu)建的輸入為不同樣本,輸出可供測序的數(shù)據(jù);基因組測序產(chǎn)生DNA序列文件;數(shù)據(jù)處理階段對數(shù)據(jù)進(jìn)行比對、拼接分析,產(chǎn)生可讀或是可識別的具有生物學(xué)意義的結(jié)果。采用本發(fā)明所述系統(tǒng)和方法,既能保存所有課題組的相關(guān)數(shù)據(jù),又能搜集、存儲、整合、關(guān)聯(lián)、分析不同實驗樣品和結(jié)果,可以將所有環(huán)節(jié)系統(tǒng)性的連接在一起,實現(xiàn)統(tǒng)一管理,滿足生物信息學(xué)中信息化管理需求,另外還可以規(guī)范生物信息學(xué)中實驗階段和計算階段的流程管理,提高工作效率。尤其適用于生物信息學(xué)高性能計算平臺的信息化管理。
【專利附圖】
【附圖說明】
[0019]圖1為本發(fā)明實施例1系統(tǒng)結(jié)構(gòu)示意圖;
[0020]圖2為本發(fā)明實施例2數(shù)據(jù)處理流程圖。
【具體實施方式】
[0021]為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚明白,下文中將結(jié)合附圖對本發(fā)明的實施例進(jìn)行詳細(xì)說明。需要說明的是,在不沖突的情況下,本申請中的實施例及實施例中的特征可以相互任意組合。
[0022]實施例1
[0023]本實施例介紹生物信息學(xué)數(shù)據(jù)庫系統(tǒng),如圖1所示,包括:樣品模塊101、項目模塊102和實驗?zāi)K103,其中:
[0024]所述樣品模塊101,用于為樣品設(shè)置標(biāo)識,將樣品導(dǎo)入樣品庫;
[0025]所述項目模塊102,用于創(chuàng)建項目,從樣品庫中添加樣品到項目,將樣品與項目相關(guān)聯(lián);
[0026]該項目模塊102創(chuàng)建的項目可以是一級項目或者是一級項目中的二級項目(子項目)。
[0027]所述實驗?zāi)K103,用于在項目中創(chuàng)建實驗,從項目關(guān)聯(lián)的樣品中添加樣品到該實驗,將樣品與實驗相關(guān)聯(lián),制定實驗類型,進(jìn)行高性能計算,輸出實驗結(jié)果。
[0028]所述高性能計算處理,包括以下處理中的一種或多種:序列比對、序列拼接、序列注釋、序列功能分析、序列數(shù)據(jù)庫構(gòu)建、序列數(shù)據(jù)共享。
[0029]在一個優(yōu)選實施例中,樣品模塊101還用于查詢樣品信息;[0030]在一個優(yōu)選實施例中,項目模塊102還用于執(zhí)行以下操作中的一種或多種:分配資源(包括樣品、人員等實驗室資源)、管理客戶信息、查詢項目數(shù)據(jù)(包括與項目有關(guān)的所有數(shù)據(jù))、進(jìn)行項目成果的匯總和結(jié)項(上報項目結(jié)束報告);
[0031]在一個優(yōu)選實施例中,實驗?zāi)K103還用于管理實驗數(shù)據(jù)(包括存儲和刪除),和/或跟蹤實驗進(jìn)度(或狀態(tài));
[0032]下面對各個模塊進(jìn)行具體說明:
[0033]>樣品模塊:
[0034]測序?qū)嶒灥膶嶒瀸ο鬄闃悠?,對實驗室樣品的管理在實驗室信息管理中非常重要,而又是容易被忽視的一個環(huán)節(jié)。實驗人員往往更關(guān)注實驗中產(chǎn)生的數(shù)據(jù),但是在測序?qū)嶒炛?,需要把每條測序數(shù)據(jù)回溯關(guān)聯(lián)到樣品上。一旦測序數(shù)據(jù)出現(xiàn)異常,需要能找到相關(guān)樣品重新進(jìn)行測序。因此為了加強(qiáng)樣品管理環(huán)節(jié),項目的樣品首先要添加入樣品庫中,并且在系統(tǒng)中與相應(yīng)的項目關(guān)聯(lián)起來后,才可以開始創(chuàng)建實驗。
[0035]片項目模塊:
[0036]課題項目是實驗室運作的核心,所有實驗的操作流程和數(shù)據(jù)都以項目為中心進(jìn)行組織的,樣品、人員等實驗室資源,也按項目劃分,因此絕大多數(shù)數(shù)據(jù)存儲部分都和項目的編號關(guān)聯(lián)。系統(tǒng)為每個項目提供一系列配套功能,如選擇樣品、人員和分配權(quán)限,查看所屬項目的實驗等,實現(xiàn)項目管理,明確項目的具體資源,以便根據(jù)情況再分配資源。大型的生物實驗室往往都擁有許多個項目。一個大型項目可能還包含多個子項目。不同項目之問有些數(shù)據(jù)需要保密,不對外部公開。針對這種情況,本項目模塊被設(shè)計成為項目組及子項目二級結(jié)構(gòu)管理模式。即一個項目組包含多個不同的子項目,有不同的權(quán)限設(shè)置。在項目里可以查看本項目下正在進(jìn)行的測序?qū)嶒灹骱透鱾€實驗的進(jìn)行狀態(tài)。這一設(shè)計針對大型實驗室人員多、項目多,需要進(jìn)行分類管理的實際情況而產(chǎn)生。在這種設(shè)計下,可以更有效的管理大量不同類型的測序?qū)嶒?,也可以提高實驗?shù)據(jù)導(dǎo)入及查看的效率。
[0037]>實驗?zāi)K:
[0038]實驗?zāi)K用于控制實驗室的實驗流程,管理每個實驗產(chǎn)生的數(shù)據(jù),并保證所有數(shù)據(jù)的可回溯性。實驗?zāi)K具備任務(wù)分配(即向?qū)嶒炛刑砑訕悠?,信息通訊(包括實驗進(jìn)度或?qū)嶒灲Y(jié)果的反饋以及實驗間的數(shù)據(jù)交流),實驗數(shù)據(jù)存儲等功能。在實驗?zāi)K設(shè)計中還引入了實驗流的概念,每個項目可以包括多個實驗流。一個實驗流是由前后順序排列的多個實驗組成,一個實驗完成后,由實驗人員根據(jù)具體要求制定并建立下一個實驗,以保證實驗流程不會混亂,并且實驗數(shù)據(jù)能夠關(guān)聯(lián)起來。前次實驗產(chǎn)生的數(shù)據(jù)或是樣本可以作為下次實驗的輸入。信息的傳遞例如構(gòu)建DNA文庫的數(shù)據(jù)、數(shù)據(jù)產(chǎn)生量大小、數(shù)據(jù)存儲路徑等數(shù)據(jù)的傳遞。實驗流中每個實驗可以有未確認(rèn)、已建立、已完成狀態(tài),通過實驗?zāi)K可以跟蹤實驗流中每個實驗的狀態(tài)。為了跟蹤一個樣品從進(jìn)入實驗流到得出最終測序結(jié)果這個過程,并進(jìn)行有效的數(shù)據(jù)關(guān)聯(lián)與整合,實驗數(shù)據(jù)的命名最好有統(tǒng)一的格式規(guī)范。
[0039]在一個優(yōu)選實施例中,該系統(tǒng)還包括用戶權(quán)限管理模塊104,該模塊用于審核注冊者的資格,為注冊用戶分配權(quán)限。用戶權(quán)限管理模塊對實驗室信息管理系統(tǒng)(LIMS)中保存數(shù)據(jù)的安全性負(fù)責(zé)。為了滿足數(shù)據(jù)安全性方面的需求,用戶權(quán)限管理模塊要求系統(tǒng)使用者必須經(jīng)過注冊并經(jīng)過審核確認(rèn)才能夠使用本系統(tǒng),每個注冊用戶(通過審核后的注冊者)根據(jù)其工作職權(quán)被授予相應(yīng)的角色。[0040]本實施例將生物信息學(xué)中各個環(huán)節(jié)按照模塊劃分,各個模塊相互獨立,彼此間又緊密聯(lián)系,共同完成整體功能。
[0041]實施例2
[0042]本實施例介紹采用上述數(shù)據(jù)庫系統(tǒng)實現(xiàn)數(shù)據(jù)處理的流程,如圖2所示,包括以下步驟:
[0043]步驟1,將樣品導(dǎo)入樣品模塊,樣品模塊為每個導(dǎo)入的樣品設(shè)置唯一標(biāo)識;
[0044]樣品導(dǎo)入樣品模塊即將樣品信息錄入生物信息學(xué)數(shù)據(jù)庫系統(tǒng),樣品信息包括可以錄入的各種樣品數(shù)據(jù)。
[0045]步驟2,項目模塊創(chuàng)建項目;
[0046]步驟3,項目模塊從樣品模塊中添加樣品到該項目,并將添加的樣品與該項目相關(guān)聯(lián);
[0047]關(guān)聯(lián)方式可以采用數(shù)據(jù)庫中常用的關(guān)聯(lián)方式。
[0048]步驟4,實驗?zāi)K在項目中創(chuàng)建實驗;
[0049]步驟5,實驗?zāi)K從項目關(guān)聯(lián)的樣品中添加樣品到該實驗,將樣品與該實驗相關(guān)聯(lián);
[0050]步驟6,確定實驗的類型;
[0051]實驗類型包括:建庫實驗、模板實驗、測序?qū)嶒灥?。實驗流可以是建庫實驗?gt;模板實驗一> 測序?qū)嶒?,也可以是建庫實驗?gt; 測序?qū)嶒?,或者是模板實驗?gt; 測序?qū)嶒灐嶒炓部蓛H包括測序?qū)嶒?。實驗具體類型可根據(jù)具體的業(yè)務(wù)情況,在上一個實驗完成后再選擇下一步要進(jìn)行的實驗。
[0052]步驟7,實驗?zāi)K在測序?qū)嶒炿A段發(fā)起數(shù)據(jù)質(zhì)檢;
[0053]數(shù)據(jù)質(zhì)檢也可以在測序?qū)嶒灲Y(jié)束后進(jìn)行。
[0054]步驟8,測序成功后,實驗?zāi)K進(jìn)行高性能計算處理;
[0055]本實施例中高性能計算處理即數(shù)據(jù)處理分析,包括以下處理中的一種或多種:序列比對、序列拼接、序列注釋、序列功能分析、序列數(shù)據(jù)庫構(gòu)建、序列數(shù)據(jù)共享。
[0056]步驟9,實驗?zāi)K輸出高性能計算成果,即產(chǎn)生可讀或是可識別的具有生物學(xué)意義的結(jié)果。
[0057]優(yōu)選地,在輸出計算結(jié)果后,進(jìn)行數(shù)據(jù)歸檔(存儲)或數(shù)據(jù)刪除。數(shù)據(jù)刪除是指:實驗?zāi)K刪除高性能計算部分計算機(jī)運行程序所產(chǎn)生的數(shù)據(jù)。由于生物信息中高性能計算部分?jǐn)?shù)據(jù)量龐大,如果進(jìn)行手動遷移或是刪除等占用大量時間,通過自動化遷移、刪除數(shù)據(jù),可以提聞處理效率。
[0058]生物信息學(xué)研究領(lǐng)域較多,涉及不同的實驗方法、數(shù)據(jù)處理方法,通過綜合分析, 申請人:發(fā)現(xiàn)各實驗都涉及到測序環(huán)節(jié)、數(shù)據(jù)處理環(huán)節(jié),在這些環(huán)節(jié)使用的實驗方法或是數(shù)據(jù)分析方法類似,因此本實施例將測序和高性能計算作為數(shù)據(jù)處理方法的通用步驟。
[0059]本領(lǐng)域普通技術(shù)人員可以理解上述方法中的全部或部分步驟可通過程序來指令相關(guān)硬件完成,所述程序可以存儲于計算機(jī)可讀存儲介質(zhì)中,如只讀存儲器、磁盤或光盤等??蛇x地,上述實施例的全部或部分步驟也可以使用一個或多個集成電路來實現(xiàn)。相應(yīng)地,上述實施例中的各模塊/單元可以采用硬件的形式實現(xiàn),也可以采用軟件功能模塊的形式實現(xiàn)。本發(fā)明不限制于任何特定形式的硬件和軟件的結(jié)合。[0060]當(dāng)然,本發(fā)明還可有其他多種實施例,在不背離本發(fā)明精神及其實質(zhì)的情況下,熟悉本領(lǐng)域的技術(shù)人員當(dāng)可根據(jù)本發(fā)明作出各種相應(yīng)的改變和變形,但這些相應(yīng)的改變和變形都應(yīng)屬于本發(fā)明所附的權(quán)利要求的保護(hù)范圍。
【權(quán)利要求】
1.一種生物信息學(xué)數(shù)據(jù)庫系統(tǒng),其特征在于,包括:樣品模塊、項目模塊和實驗?zāi)K,其中: 所述樣品模塊,用于為樣品設(shè)置標(biāo)識,將樣品導(dǎo)入樣品庫; 所述項目模塊,用于創(chuàng)建項目,從樣品庫中添加樣品到項目,將樣品與項目相關(guān)聯(lián); 所述實驗?zāi)K,用于在項目中創(chuàng)建實驗,從項目關(guān)聯(lián)的樣品中添加樣品到該實驗,將樣品與實驗相關(guān)聯(lián),制定實驗類型,進(jìn)行高性能計算,輸出實驗結(jié)果。
2.如權(quán)利要求1所述的系統(tǒng),其特征在于, 所述實驗?zāi)K進(jìn)行高性能計算處理,包括:實驗?zāi)K進(jìn)行以下處理中的一種或多種:序列比對、序列拼接、序列注釋、序列功能分析、序列數(shù)據(jù)庫構(gòu)建、序列數(shù)據(jù)共享。
3.如權(quán)利要求1或2所述的系統(tǒng),其特征在于, 所述項目模塊還用于執(zhí)行以下操作中的一種或多種:分配資源、管理客戶信息、查詢項目數(shù)據(jù)、進(jìn)行項目成果的匯總和結(jié)項。
4.如權(quán)利要求1或2所述的系統(tǒng),其特征在于, 所述實驗?zāi)K還用于管理實驗數(shù)據(jù)和/或跟蹤實驗進(jìn)度。
5.如權(quán)利要求1或2所述的系統(tǒng),其特征在于, 所述系統(tǒng)還包括用戶權(quán)限管理模塊,用于審核注冊者的資格,為注冊用戶分配權(quán)限。
6.一種數(shù)據(jù)處理方法,適用于如權(quán)利要求1所述的生物信息學(xué)數(shù)據(jù)庫系統(tǒng),其特征在于,所述方法包括: 樣品模塊為樣品設(shè)置標(biāo)識,并將樣品導(dǎo)入樣品庫; 項目模塊創(chuàng)建項目,從樣品庫中添加樣品到項目,并將樣品與項目相關(guān)聯(lián); 實驗?zāi)K在項目中創(chuàng)建實驗,從項目關(guān)聯(lián)的樣品中添加樣品到該實驗,將樣品與實驗相關(guān)聯(lián),制定實驗類型,進(jìn)行高性能計算處理,輸出實驗結(jié)果。
7.如權(quán)利要求6所述的方法,其特征在于, 所述高性能計算處理,包括以下處理中的一種或多種:序列比對、序列拼接、序列注釋、序列功能分析、序列數(shù)據(jù)庫構(gòu)建、序列數(shù)據(jù)共享。
8.如權(quán)利要求6或7所述的方法,其特征在于, 所述方法還包括:所述實驗?zāi)K輸出實驗結(jié)果后,進(jìn)行數(shù)據(jù)歸檔或數(shù)據(jù)刪除。
【文檔編號】G06F19/10GK103714180SQ201410009130
【公開日】2014年4月9日 申請日期:2014年1月8日 優(yōu)先權(quán)日:2014年1月8日
【發(fā)明者】金蓮 申請人:浪潮(北京)電子信息產(chǎn)業(yè)有限公司