一種基于語(yǔ)義密度的蛋白質(zhì)網(wǎng)絡(luò)復(fù)合物識(shí)別方法

文檔序號(hào)：9274824閱讀：226來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于語(yǔ)義密度的蛋白質(zhì)網(wǎng)絡(luò)復(fù)合物識(shí)別方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于數(shù)據(jù)挖掘方法技術(shù)領(lǐng)域，涉及一種基于語(yǔ)義密度的蛋白質(zhì)網(wǎng)絡(luò)復(fù)合物識(shí)別方法。
【背景技術(shù)】
[0002] 關(guān)于復(fù)雜網(wǎng)絡(luò)的實(shí)證研宄以及理論模擬已經(jīng)有很長(zhǎng)的歷史，已提出了許多源于統(tǒng) 計(jì)物理學(xué)以及應(yīng)用數(shù)學(xué)的相關(guān)技術(shù)和方法。系統(tǒng)網(wǎng)絡(luò)化的理念也已成功地應(yīng)用于分子生物學(xué)的相關(guān)研宄。在生物系統(tǒng)中的蛋白質(zhì)彼此之間相互作用以實(shí)現(xiàn)各種各樣的分子生物功能，這些相互作用被簡(jiǎn)稱(chēng)為PPIs(Protein-ProteinInteractions)。一個(gè)由蛋白質(zhì)以及相互作用組成的生物系統(tǒng)可以形式化地描繪為一個(gè)無(wú)向圖，也就是蛋白質(zhì)相互作用網(wǎng)絡(luò)（PPI networks)，簡(jiǎn)稱(chēng)蛋白質(zhì)網(wǎng)絡(luò)。在蛋白質(zhì)網(wǎng)絡(luò)中，每個(gè)節(jié)點(diǎn)代表一個(gè)蛋白質(zhì)，邊代表蛋白質(zhì)之間的相互作用。通過(guò)對(duì)蛋白質(zhì)網(wǎng)絡(luò)的分析，研宄人員可以進(jìn)一步了解分子生物系統(tǒng)的結(jié)構(gòu) 和特性。例如，蛋白質(zhì)復(fù)合物的識(shí)別和蛋白質(zhì)關(guān)鍵性的評(píng)估。
[0003] 在特定的時(shí)間、地點(diǎn)具有相同分子功能的蛋白質(zhì)，如果它們之間存在著較多的相互作用，則可以認(rèn)為這些蛋白質(zhì)組成了一個(gè)生物分子，即蛋白質(zhì)復(fù)合物（Protein Complex)。過(guò)去，蛋白質(zhì)復(fù)合物的發(fā)現(xiàn)主要是依靠生物化學(xué)實(shí)驗(yàn)，例如親和純化后的質(zhì)譜分析（AffinityPurificationfollowedbyMassSpectrometry，AP/MS)。然而，大部分實(shí) 驗(yàn)方法不是十分可靠的，而且效率較低。近幾年來(lái)，許多基于聚類(lèi)技術(shù)的數(shù)據(jù)挖掘方法被提出并成功地應(yīng)用于蛋白質(zhì)復(fù)合物的識(shí)別。這些方法可以在蛋白質(zhì)相互作用網(wǎng)絡(luò)中識(shí)別出眾多以往通過(guò)實(shí)驗(yàn)才能發(fā)現(xiàn)的蛋白質(zhì)復(fù)合物。根據(jù)不同的特性，這些聚類(lèi)方法可以分為：層次聚類(lèi)（HierarchicalClustering)，目標(biāo)函數(shù)聚類(lèi)（ObjectiveFunctionClustering)以及密度聚類(lèi) ?ensity-basedClustering) 〇
[0004] 層次級(jí)聚類(lèi)技術(shù)已被廣泛地應(yīng)用于分析各種類(lèi)型的復(fù)雜網(wǎng)絡(luò)，例如在線社會(huì)網(wǎng) 絡(luò)和蛋白質(zhì)相互作用網(wǎng)絡(luò)。這類(lèi)方法的主要思想是依據(jù)網(wǎng)絡(luò)中相連節(jié)點(diǎn)之間的相似性將網(wǎng)絡(luò)分為若干個(gè)子網(wǎng)絡(luò)。層次聚類(lèi)可以進(jìn)一步分為：凝聚型（agglomerative)和分裂型 (divisive)。最著名的分裂類(lèi)方法是GN算法，而最具代表性的凝聚類(lèi)方法是CNM算法。
[0005] 目標(biāo)函數(shù)聚類(lèi)方法和密度聚類(lèi)方法都是基于圖劃分的技術(shù)（graphical partitions)。前者通過(guò)優(yōu)化目標(biāo)函數(shù)對(duì)圖進(jìn)行劃分，后者基于網(wǎng)絡(luò)的拓?fù)涮匦源_定密度最大的子圖，例如派系（clique)。著名的RNSC算法就是通過(guò)最優(yōu)化一個(gè)特定的費(fèi)用函數(shù)來(lái) 識(shí)別蛋白質(zhì)相互作用網(wǎng)絡(luò)中的復(fù)合物。近年來(lái)，許多類(lèi)似的多目標(biāo)方法也已經(jīng)被提出，它們大多用進(jìn)化計(jì)算的方法解決多目標(biāo)優(yōu)化的問(wèn)題，例如遺傳算法和螢火蟲(chóng)算法。RANCoC是一種共聚類(lèi)方法用于在蛋白質(zhì)相互作用網(wǎng)絡(luò)中搜索稠密子圖。給定一個(gè)蛋白質(zhì)相互作用網(wǎng)絡(luò) 對(duì)應(yīng)的無(wú)權(quán)重圖，一個(gè)稠密子圖被定義為一個(gè)具有較高質(zhì)量的子矩陣。RANCoC本質(zhì)上是通過(guò)質(zhì)量函數(shù)的最優(yōu)化來(lái)發(fā)現(xiàn)稠密子圖，這需要滿足若干條件。此外，一種新的啟發(fā)式方法被 RANCoC應(yīng)用于防止局部最優(yōu)化。
[0006] 一般認(rèn)為，一個(gè)稠密子圖應(yīng)該具有較為稠密的內(nèi)部連接邊，即子圖內(nèi)部大部分節(jié) 點(diǎn)之間都有連接邊。一個(gè)子圖越稠密，越有可能是社會(huì)網(wǎng)絡(luò)中的一個(gè)社團(tuán)或者蛋白質(zhì)相互作用網(wǎng)絡(luò)中的復(fù)合物?；诿芏鹊姆椒ǖ哪繕?biāo)就是發(fā)現(xiàn)圖中稠密的區(qū)域，并將連通的稠密區(qū)域作為稠密子圖。為了定量地計(jì)算稠密的程度，各種方法對(duì)于稠密有著不同的定義。經(jīng)典的MCODE算法采用k-核心（k-core)和核心聚集系數(shù)來(lái)發(fā)現(xiàn)復(fù)合物。k-核心是一個(gè)子圖，其中每一個(gè)節(jié)點(diǎn)的度都大于或者等于k。k最大的k-核心就被認(rèn)為是密度最大的子圖。另一個(gè)著名的稠密子圖的定義是派系（clique)。在一個(gè)派系中所有節(jié)點(diǎn)彼此之間都有邊相連。兩個(gè)有k個(gè)節(jié)點(diǎn)的派系可以被認(rèn)為是彼此鄰接的，如果它們包含有k-1個(gè)共同節(jié)點(diǎn)。一個(gè)k 派系社團(tuán)就是有多個(gè)鄰接的k派系組成的集合。DME算法采用的偽派系（PseudoCliques) 是對(duì)派系的延伸，通過(guò)從派系中移除一定數(shù)量的邊而得到的。一個(gè)偽派系是一個(gè)子圖，其中邊的數(shù)量略少于一個(gè)節(jié)點(diǎn)數(shù)相同的派系，比例應(yīng)大于一個(gè)給定的閾值。此外，還有許多其他類(lèi)型的方法用于發(fā)現(xiàn)稠密子圖，例如MCL算法采用的流仿真（flowsimulation)。
[0007] 層次聚類(lèi)方法和基于目標(biāo)函數(shù)的聚類(lèi)方法都需要對(duì)一個(gè)或多個(gè)函數(shù)進(jìn)行優(yōu)化。然而，對(duì)于網(wǎng)絡(luò)結(jié)構(gòu)的評(píng)價(jià)函數(shù)往往會(huì)存在一定局限，例如層次方法采用的模塊度就具有分解極限的問(wèn)題。而且對(duì)于全局優(yōu)化函數(shù)的計(jì)算可能會(huì)增加算法的時(shí)間復(fù)雜度。多目標(biāo)函數(shù) 優(yōu)化問(wèn)題也是算法研宄的難點(diǎn)?；诿芏鹊姆椒ú⒉恍枰獙?duì)多個(gè)函數(shù)進(jìn)行優(yōu)化，時(shí)間復(fù)雜度也較低。綜合評(píng)價(jià)，基于密度的方法要優(yōu)于前兩種方法。

【發(fā)明內(nèi)容】

[0008] 本發(fā)明的目的是提供一種基于語(yǔ)義密度的蛋白質(zhì)網(wǎng)絡(luò)復(fù)合物識(shí)別方法，能夠從蛋白質(zhì)相互作用網(wǎng)絡(luò)中識(shí)別出蛋白質(zhì)復(fù)合物，且識(shí)別準(zhǔn)確度較高、時(shí)間復(fù)雜度較低。
[0009] 本發(fā)明所采用的技術(shù)方案是，一種基于語(yǔ)義密度的蛋白質(zhì)網(wǎng)絡(luò)復(fù)合物識(shí)別方法，具體按照以下步驟實(shí)施：
[0010] 步驟1，對(duì)一個(gè)無(wú)權(quán)重的蛋白質(zhì)相互作用網(wǎng)絡(luò)數(shù)據(jù)集，在基因本體庫(kù)GO中查找網(wǎng) 絡(luò)數(shù)據(jù)集中所有蛋白質(zhì)的屬性；
[0011] 步驟2,基于步驟1中的查找結(jié)果，采用基于基因本體的語(yǔ)義相似度計(jì)算方法來(lái)計(jì) 算步驟1的網(wǎng)絡(luò)數(shù)據(jù)集中存在連接的蛋白質(zhì)之間的相似性；
[0012] 步驟3,依據(jù)步驟2得到的相似性結(jié)果，將步驟1中給定的蛋白質(zhì)相互作用網(wǎng)絡(luò)數(shù) 據(jù)集轉(zhuǎn)化為一個(gè)有權(quán)、無(wú)向網(wǎng)絡(luò)數(shù)據(jù)集，其中節(jié)點(diǎn)代表蛋白質(zhì)，邊表示蛋白質(zhì)之間的相互作用，蛋白質(zhì)之間的相似度為邊的權(quán)重；
[0013] 步驟4,采用基于密度的圖劃分算法從步驟3中得到的有權(quán)、無(wú)向圖中發(fā)現(xiàn)稠密子圖，該圖劃分算法稱(chēng)作DBGPWN，得到的稠密子圖即為基于語(yǔ)義密度識(shí)別出的蛋白質(zhì)網(wǎng)絡(luò)復(fù) 合物。
[0014] 本發(fā)明的特點(diǎn)還在于，
[0015] 其中步驟2中基于基因本體的語(yǔ)義相似度計(jì)算方法的具體步驟為，
[0016] 步驟2. 1，設(shè)定蛋白質(zhì)A和蛋白質(zhì)B作為分析對(duì)象，蛋白質(zhì)A、蛋白質(zhì)B分別采用生物過(guò)程P、分子功能F、細(xì)胞組件C這三類(lèi)GO屬性構(gòu)建三個(gè)聯(lián)合DAG，分別計(jì)算每個(gè)蛋白質(zhì)中三個(gè)聯(lián)合DAG的屬性對(duì)于相應(yīng)蛋白質(zhì)的語(yǔ)義貢獻(xiàn)S-value;
[0017] 步驟2. 2,根據(jù)步驟2. 1得出的S-value分別計(jì)算蛋白質(zhì)A與蛋白質(zhì)B各自采用的三類(lèi)GO屬性中相同類(lèi)別的屬性之間的相似度，即分別求出Simp (a，b)、Simf (a，b)、 Simc(a,b)；
[0018] 步驟2. 3,求取步驟2. 2得到相似度計(jì)算結(jié)果的均方值，依據(jù)求出的均方值即得出所述步驟1的網(wǎng)絡(luò)數(shù)據(jù)集中存在連接的蛋白質(zhì)之間的相似性。
[0019] 其中步驟2. 1的具體過(guò)程為，通過(guò)如下公式（1)求得蛋白質(zhì)A中的三個(gè)聯(lián)合DAG 的屬性對(duì)于蛋白質(zhì)A的語(yǔ)義貢獻(xiàn)S-value、蛋白質(zhì)B中的三個(gè)聯(lián)合DAG的屬性對(duì)于蛋白質(zhì)B 的語(yǔ)義貢獻(xiàn)S-value，
[0020]
[0021] 其中，we表示邊e的語(yǔ)義遺傳權(quán)重，eGE。e連接著屬性t及其子屬性t'。
[0022]其中步驟2. 2的具體過(guò)程為，依據(jù)如下公式⑵求得Simp (a，b)、Simf (a，b)、 Simc(a,h') ?
[0023]
[0024] 其中，sA(t)和sB(t)表示屬性t對(duì)于A和B的S-value。
[0025] 其中步驟2. 3的具體過(guò)程為，
[0026] 通過(guò)如下公式（4)求取所述均方值：
[0027]
[0028] 其中步驟4中基于密度的圖劃分算法的具體過(guò)程為，
[0029] 步驟4. 1，計(jì)算步驟3得到的有權(quán)、無(wú)向網(wǎng)絡(luò)數(shù)據(jù)集中所有有邊相連蛋白質(zhì)之間的語(yǔ)義聚集系數(shù)；
[0030] 步驟4. 2,將步驟3得到的有權(quán)、無(wú)向網(wǎng)絡(luò)數(shù)據(jù)集中的所有蛋白質(zhì)標(biāo)記為'未聚類(lèi)'；
[0031] 步驟4. 3,從步驟4. 2的標(biāo)記結(jié)果中選擇一個(gè)的蛋白質(zhì)p，依據(jù)步驟4. 1的計(jì)算結(jié) 果從步驟3得到的有權(quán)、無(wú)向網(wǎng)絡(luò)中選出所有與蛋白質(zhì)p密度可連接的蛋白質(zhì)，將選出的蛋白質(zhì)與蛋白質(zhì)P作為1個(gè)簇C，簇C中的蛋白質(zhì)標(biāo)記為'已聚類(lèi)'；
[0032] 步驟4. 4,重復(fù)進(jìn)行步驟4. 3,直到所有符合聚類(lèi)要求的蛋白質(zhì)都被標(biāo)記為'已聚類(lèi)'，將不滿足聚類(lèi)要求的蛋白質(zhì)的簇作為噪聲點(diǎn)從有權(quán)、無(wú)向網(wǎng)絡(luò)中刪除，已聚類(lèi)的簇即為DBGPWN算法發(fā)現(xiàn)的稠密子圖。
[0033] 其中步驟4. 1的具體過(guò)程為，其中語(yǔ)義聚集系數(shù)通過(guò)如下公式（3)得出：
[0

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2 3 4

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：周紅芳;段文聰;郭杰;王心怡;何馨依;劉杰;李錦;
技術(shù)所有人：西安理工大學(xué);
我是此專(zhuān)利的發(fā)明人

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

蛋白質(zhì)復(fù)合物相關(guān)技術(shù)

低密度蛋白質(zhì)相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于語(yǔ)義密度的蛋白質(zhì)網(wǎng)絡(luò)復(fù)合物識(shí)別方法