專利名稱:一種基因大腸桿菌表達(dá)譜芯片的基因網(wǎng)絡(luò)構(gòu)建方法
技術(shù)領(lǐng)域:
本發(fā)明屬于生物技術(shù)領(lǐng)域,涉及一種基于大腸桿菌表達(dá)譜芯片的基因網(wǎng)路構(gòu)建及進(jìn)行基因之間相互作用關(guān)系研究的方法。
背景技術(shù):
基因芯片的原理是雜交測序方法,即通過與一組已知序列的核酸探針雜交進(jìn)行核酸序列測定的方法。在一塊基片表面固定了序列已知的八核苷酸的探針。當(dāng)溶液中帶有熒光標(biāo)記的核酸序列TATGCAATCTAG,與基因芯片上對應(yīng)位置的核酸探針產(chǎn)生互補匹配時,通過確定熒光強度最強的探針位置,獲得一組序列完全互補的探針序列。據(jù)此可重組出靶核酸的序列。基因是編碼蛋白質(zhì)或RNA(核糖核酸)等具有特定功能產(chǎn)物的遺傳信息的基本單位,是染色體或基因組的一段DNA (脫氧核糖核酸)序列,對以RNA作為遺傳信息載體的RNA病毒而言,基因則是RNA序列。包括編碼序列(外顯子)、編碼區(qū)前后對于基因表達(dá)具有調(diào)控功能的序列和單個編碼序列間的間隔序列(內(nèi)含子)。從生物進(jìn)化的角度來講,基因又稱為遺傳因子,它是生物遺傳變異的物質(zhì)基礎(chǔ),是DNA (或RNA)分子上具有遺傳信息的特定核苷酸序列的總稱,是具有遺傳效應(yīng)的DNA (或RNA)分子片段?;蛲ㄟ^復(fù)制把遺傳信息傳遞給下一代,使后代出現(xiàn)與親代相似的性狀。人類大約有幾萬個基因,儲存著生命孕育生長、凋亡過程的全部信息,通過復(fù)制、表達(dá)、修復(fù),完成生命繁衍、細(xì)胞分裂和蛋白質(zhì)合成等重要生理過程?;蚴巧拿艽a,記錄和傳遞著遺傳信息。生物體的生、長、病、老、死等一切生命現(xiàn)象都與基因有關(guān)。它同時也決定著人體健康的內(nèi)在因素,與人類的健康密切相關(guān)?;虼嬖谟谏矬w內(nèi)的功能之一便是翻譯蛋白質(zhì),通過蛋白質(zhì)活性的表現(xiàn),決定生物體的表型。換而言之,生物的各種性狀幾乎都是基因之間相互作用、調(diào)控各個基因表達(dá)的結(jié)果。所謂基因之間的相互作用,是指不同基因之間存在的表達(dá)調(diào)控關(guān)系,一般都是一個基因的表達(dá)產(chǎn)物作用于另一個基因,影響另一個基因的轉(zhuǎn)錄、翻譯等過程。為研究基因之間相互作用關(guān)系,本發(fā)明所述方法引入了一種基于大腸桿菌表達(dá)譜芯片的數(shù)據(jù)分析處理,通過對大腸桿菌基因芯片的數(shù)據(jù)分析處理,找到了一種構(gòu)建基因網(wǎng)絡(luò)間的構(gòu)建方法,通過對芯片產(chǎn)出數(shù)據(jù)的分析處理及對差異表達(dá)基因的網(wǎng)絡(luò)構(gòu)建,可了解基因間的相互作用關(guān)系。
發(fā)明內(nèi)容
本發(fā)明所述的方法的一大特點便是將大腸桿菌的表達(dá)譜基因芯片的數(shù)據(jù)進(jìn)行統(tǒng)計學(xué)分析處理進(jìn)行網(wǎng)絡(luò)構(gòu)建,用于研究基因之間的相互作用關(guān)系,該方法實施的基本流程為:步驟1、待檢測樣品進(jìn)行大腸桿菌表達(dá)譜芯片檢測獲得原始數(shù)據(jù)。步驟2、對原始數(shù)據(jù)進(jìn)行預(yù)處理及統(tǒng)計學(xué)分析并篩查差異表達(dá)的基因。步驟3、文檔搜索及格式化。
步驟4、將文檔分離成單個句子,作為后續(xù)分析基本單位。步驟5、基因描述的定位。步驟6、統(tǒng)一基因描述中使用的基因符號。步驟7、建立基因互作動詞詞典。步驟8、生成需要研究基因的同義詞字典,并從上述句子中提取出基因的描述。步驟9、統(tǒng)計分析基因名、基因互作動詞和需要研究的基因同時出現(xiàn)的句子,整理成列表。步驟10、構(gòu)建相互作用關(guān)系網(wǎng)絡(luò)。
圖1、本發(fā)明所述方法的實施流程圖實施方式本發(fā)明將以大腸桿菌的表達(dá)譜芯片數(shù)據(jù)分析處理為例,對篩查出的差異表達(dá)基因進(jìn)行基因的相互作用關(guān)系網(wǎng)絡(luò)構(gòu)建,介紹本發(fā)明所述方法的具體實施步驟。步驟1、利用關(guān)鍵詞從Pubmed數(shù)據(jù)庫(http://www.ncb1.nlm.nih.gov/pubmed)中搜索相關(guān)文獻(xiàn),下載到本地,并整理成XML格式。
步驟2、下載基于 java 環(huán)境的 Lingpipe 工具包(http://alias_1.com/lingpipe/),利用它的Sentence tokenlization工具將搜索到的摘要文本分離成單個句子,整理成文檔保存,作為后續(xù)分析的基本單位。步驟3、應(yīng)用ABNER軟件進(jìn)行人類基因的描述的定位,并提取出基因,對于提取的基因的描述中,多個基因縮寫到一起的將被分離,如“STAT3/5 gene”將被解析成STAT3gene 和 STAT5 gene。步驟4、因為搜索到的文獻(xiàn)中對于基因名字的書寫格式大多不同,為了分析的方便和準(zhǔn)確,需要將文獻(xiàn)中的基因符號統(tǒng)一為官方的基因符號,這里我們以NCBI (www.ncb1.nlm.nih.gov/)的 Entrez gene 數(shù)據(jù)庫為準(zhǔn)。步驟5、建立一個基因互作的動詞詞典,包含如repress, regulate, inhibit,interact, phosphorylate, downregulate, upregulate 等所有動詞及其變型。詞典取材自BioNLP 項目(http://bionlp.sourceforge.net/),然后利用 Lingpipe 工具包分離句子中基因互作的動詞。步驟6、利用NCBI的Entrez gene數(shù)據(jù)庫(http://www.ncb1.nlm.nih.gov/sites/entrez db = gene)生成 MAPK 的同義詞字典,然后利用Lingpipe工具包分離句子中基因的描述。步驟7、對處理好的文獻(xiàn)數(shù)據(jù)進(jìn)行搜索,統(tǒng)計分析基因名、基因互作動詞以及MAPK基因描述同時出現(xiàn)的句子,計算句子出現(xiàn)的頻率,整理出基因關(guān)系列表,統(tǒng)計處與具有相互作用關(guān)系的基因。步驟8、使用 Cytoscape (http://www.cytoscape.0rg/)軟件,依據(jù)上述關(guān)系列表,構(gòu)建相互作用關(guān)系網(wǎng)絡(luò)以上是對本發(fā)明的描述而非限定,基于本發(fā)明思想的其它實施方式,均在本發(fā)明的保護(hù)范圍之中。
權(quán)利要求
1.本發(fā)明專利所述的一種基于大腸桿菌表達(dá)譜芯片的基因網(wǎng)路構(gòu)建及進(jìn)行基因之間相互作用關(guān)系研究的方法,其主要特征如下: 步驟1、待檢測樣品進(jìn)行大腸桿菌表達(dá)譜芯片檢測獲得原始數(shù)據(jù); 步驟2、對原始數(shù)據(jù)進(jìn)行預(yù)處理及統(tǒng)計學(xué)分析并篩查差異表達(dá)的基因; 步驟3、文檔搜索及格式化; 步驟4、將文檔分離成單個句子,作為后續(xù)分析基本單位; 步驟5、基因描述的定位; 步驟6、統(tǒng)一基因描述中使用的基因符號; 步驟7、建立基因互作動詞詞典; 步驟8、生成需要研究基因的同義詞字典,并從上述句子中提取出基因的描述; 步驟9、統(tǒng)計分析基因名、基因互作動詞和需要研究的基因同時出現(xiàn)的句子,整理成列表; 步驟10、構(gòu)建相互作用關(guān)系網(wǎng)絡(luò)。
全文摘要
本發(fā)明所述的方法的一大特點便是將大腸桿菌的表達(dá)譜基因芯片的數(shù)據(jù)進(jìn)行統(tǒng)計學(xué)分析處理進(jìn)行網(wǎng)絡(luò)構(gòu)建,用于研究基因之間的相互作用關(guān)系,該方法實施的基本流程為步驟1、待檢測樣品進(jìn)行大腸桿菌表達(dá)譜芯片檢測獲得原始數(shù)據(jù)。步驟2、對原始數(shù)據(jù)進(jìn)行預(yù)處理及統(tǒng)計學(xué)分析并篩查差異表達(dá)的基因。步驟3、文檔搜索及格式化。步驟4、將文檔分離成單個句子,作為后續(xù)分析基本單位。步驟5、基因描述的定位。步驟6、統(tǒng)一基因描述中使用的基因符號。步驟7、建立基因互作動詞詞典。步驟8、生成需要研究基因的同義詞字典,并從上述句子中提取出基因的描述。步驟9、統(tǒng)計分析基因名、基因互作動詞和需要研究的基因同時出現(xiàn)的句子,整理成列表。步驟10、構(gòu)建相互作用關(guān)系網(wǎng)絡(luò)。
文檔編號G06F19/24GK103164634SQ201110407359
公開日2013年6月19日 申請日期2011年12月9日 優(yōu)先權(quán)日2011年12月9日
發(fā)明者曾華宗 申請人:上海聚類生物科技有限公司