亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種dna序列數(shù)據(jù)壓縮系統(tǒng)的制作方法

文檔序號:6352700閱讀:309來源:國知局
專利名稱:一種dna序列數(shù)據(jù)壓縮系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)壓縮領(lǐng)域,特別涉及一種基于文化基因近似重復(fù)矢量模型的DNA 序列數(shù)據(jù)無損壓縮系統(tǒng)。
背景技術(shù)
DNA是物種細(xì)胞內(nèi)用于存儲遺傳指令信息的雙鏈狀聚合物,是生物生存、延續(xù)與發(fā) 展的重要物質(zhì)基礎(chǔ)。DNA序列數(shù)據(jù)是DNA物質(zhì)在生物信息學(xué)(Bioinformatics)上的抽象 模型,包含了完整的遺傳信息,具有重要的科研價(jià)值與社會(huì)意義。為獲得各種生物的遺傳信 息,各種DNA測序工程陸續(xù)展開,產(chǎn)生了海量的DNA序列數(shù)據(jù),為現(xiàn)有數(shù)據(jù)存儲與傳輸資源 帶來巨大壓力。因而需要對DNA序列數(shù)據(jù)進(jìn)行壓縮處理。目前學(xué)術(shù)界尚未完全了解DNA內(nèi) 包含的所有信息,故只能使用無損的壓縮編碼方法。另一方面,由于DNA序列具有獨(dú)特的生 物數(shù)據(jù)特點(diǎn),傳統(tǒng)的通用壓縮算法無法對其進(jìn)行有效編碼,從而催生了專門針對DNA序列 數(shù)據(jù)的壓縮方法?,F(xiàn)有較為典型的DNA序列數(shù)據(jù)壓縮方法為BioCompress-2系統(tǒng)。BioCompress-2 是首個(gè)具有實(shí)用意義的DNA序列數(shù)據(jù)壓縮系統(tǒng),也是后續(xù)改進(jìn)系統(tǒng)的基礎(chǔ)。DNA 序列具有由 A (Adenine,腺嘌呤)、T (Thymine,胸腺嘧啶)、C (Cytosine,胞 嘧啶)、G (Guanine,鳥嘌呤)四種堿基符號構(gòu)成一維長字符串的數(shù)據(jù)形式。若不考慮其生 物學(xué)含義,可視作普通文本數(shù)據(jù)進(jìn)行壓縮編碼。在BioCompress-2中,引入通用的LZ壓縮 算法對輸入數(shù)據(jù)進(jìn)行編碼處理。LZ算法可有效消除一般文本數(shù)據(jù)中的冗余。但DNA序列具 有特殊數(shù)據(jù)構(gòu)成,僅使用LZ算法對其進(jìn)行壓縮常常會(huì)導(dǎo)致編碼后數(shù)據(jù)量反而有所增加。為 解決這一問題,BioCompress-2系統(tǒng)引入對比編碼前后數(shù)據(jù)量的處理方法。僅當(dāng)使用LZ算 法壓縮后數(shù)據(jù)體積實(shí)際有所減小時(shí),才對輸入的DNA序列數(shù)據(jù)進(jìn)行編碼操作,否則將維持 數(shù)據(jù)原狀。此外,BioCompress-2系統(tǒng)在壓縮編碼時(shí),不僅搜索直接重復(fù)的片段,也同樣尋 找最長的回文重復(fù)序列(Palindrome)。通過使用滑動(dòng)窗范圍內(nèi)的直接重復(fù)模型與回文重 復(fù)模型概括輸入數(shù)據(jù)中的冗余信息,BioCompress-2算法可有效提升在DNA序列上的壓縮 性能。BioCompress-2系統(tǒng)及以其為基礎(chǔ)的改進(jìn)DNA序列數(shù)據(jù)壓縮系統(tǒng),常包含三個(gè)主 要缺陷
第一,系統(tǒng)僅使用直接重復(fù)模型與回文重復(fù)模型描述DNA序列的冗余,并不足以涵蓋 序列數(shù)據(jù)的所有特點(diǎn)。從而在壓縮時(shí),仍有很大部分的重復(fù)片段因其模式未被考慮而無法 進(jìn)行編碼處理。影響了壓縮效果。第二,BioCompress-2系統(tǒng)在匹配時(shí)僅考慮了精確重復(fù)的數(shù)據(jù)。而DNA序列 來源于生物細(xì)胞內(nèi)的實(shí)際遺傳物質(zhì),其在復(fù)制、雜交及演化過程中會(huì)出現(xiàn)大量的堿基符號 變異(Mutation)與損壞(Damage)。因此DNA序列中的重復(fù)更多地以近似重復(fù)的形式存 在。壓縮系統(tǒng)僅對精確重復(fù)片段進(jìn)行搜索,將遺漏大量近似重復(fù)的數(shù)據(jù)冗余。第三,使用LZ算法進(jìn)行壓縮編碼時(shí),其搜索范圍僅為滑動(dòng)窗緩沖區(qū)內(nèi)的部分序列。而源于生物實(shí)際物質(zhì)的DNA序列數(shù)據(jù)與普通的文本數(shù)據(jù)有所不同,其大規(guī)模重復(fù)更可 能出現(xiàn)于相距較遠(yuǎn)的位置,超越了一般LZ算法滑動(dòng)窗的覆蓋范圍。從而在搜索時(shí),LZ算法 僅能找到小規(guī)模的片段重復(fù),導(dǎo)致其編碼后數(shù)據(jù)量往往反而有所膨脹。這也在很大程度上 限制了 BioCompress-2系統(tǒng)的壓縮性能。因此,現(xiàn)有技術(shù)還有待于改進(jìn)和發(fā)展。

發(fā)明內(nèi)容
鑒于上述現(xiàn)有技術(shù)的不足,本發(fā)明的目的在于提供一種DNA序列數(shù)據(jù)壓縮系統(tǒng), 旨在解決現(xiàn)有技術(shù)中所存在的問題。本發(fā)明的技術(shù)方案如下
一種DNA序列數(shù)據(jù)壓縮系統(tǒng),其中,所述DNA序列數(shù)據(jù)壓縮系統(tǒng)包括 MA-ARV碼本設(shè)計(jì)模塊,用于構(gòu)造針對當(dāng)前輸入DNA序列數(shù)據(jù)的壓縮碼本; DNA序列數(shù)據(jù)壓縮模塊,用于根據(jù)MA-ARV碼本對輸入數(shù)據(jù)進(jìn)行無損壓縮編碼; DNA序列數(shù)據(jù)解壓模塊,用于對壓縮后的數(shù)據(jù)文件進(jìn)行解壓恢復(fù)操作。所述的DNA序列數(shù)據(jù)壓縮系統(tǒng),其中,所述DNA序列數(shù)據(jù)壓縮系統(tǒng)還包括輸入模 塊、檢測模塊和輸出模塊;
所述輸入模塊、檢測模塊、DNA序列數(shù)據(jù)壓縮模塊與輸出模塊依次相連,所述檢測模塊 還分別與MA-ARV碼本設(shè)計(jì)模塊、DNA序列數(shù)據(jù)解壓模塊相連,所述MA-ARV碼本設(shè)計(jì)模塊與 DNA序列數(shù)據(jù)壓縮模塊相連。所述的DNA序列數(shù)據(jù)壓縮系統(tǒng),其中,所述MA-ARV碼本設(shè)計(jì)模塊將當(dāng)前輸入DNA 序列數(shù)據(jù)表示為MA-ARV矢量^其直接重復(fù)模式冗余片段表示為相同矢量^鏡像重復(fù)片
段為矢量一;根據(jù)堿基配對原則,對于配對重復(fù)片段有矢量/,對于反轉(zhuǎn)重復(fù)片段有矢量
-1* V O所述的DNA序列數(shù)據(jù)壓縮系統(tǒng),其中,所述DNA序列數(shù)據(jù)壓縮系統(tǒng)在壓縮數(shù)據(jù)時(shí), 使用編碼格式為[id, repeat type, {et/ii error}},其中ii/為對應(yīng)MA-ARV碼矢量編號, repeat ipe為重復(fù)模式,et/ii error為編輯誤差信息序列。所述的DNA序列數(shù)據(jù)壓縮系統(tǒng),其中,所述編輯誤差信息序列用{offset, edit type, symbol}的格式進(jìn)行編碼;其中為編輯操作堿基的位置,ei/iiij^e為操作類 型符號A表示替換、々表示刪除、/表示插入,SJT^W為操作的堿基符號。一種DNA序列數(shù)據(jù)壓縮方法,其中,包括以下步驟 S100、數(shù)據(jù)輸入;
S200、檢測輸入的數(shù)據(jù)是否為原始DNA序列數(shù)據(jù),如果是,執(zhí)行S300,如果否,執(zhí)行 S400 ;
S300、檢測輸入的數(shù)據(jù)是否包含MA-ARV碼本,如果是,執(zhí)行S311,如果否,執(zhí)行S321 ;
5311、進(jìn)入DNA序列數(shù)據(jù)壓縮模塊,根據(jù)MA-ARV碼本對輸入數(shù)據(jù)進(jìn)行無損壓縮編碼;
5312、最后輸出壓縮后的DNA序列數(shù)據(jù);
S321、進(jìn)入MA-ARV碼本設(shè)計(jì)模塊,構(gòu)造針對當(dāng)前輸入DNA序列數(shù)據(jù)的壓縮碼本,然后執(zhí) 行 S311 ;
S400、進(jìn)入DNA序列數(shù)據(jù)解壓模塊,對壓縮后的數(shù)據(jù)文件進(jìn)行解壓恢復(fù)操作;S4lo、最后輸出解壓恢復(fù)的原始I)NA序列數(shù)據(jù)。
有益效果本發(fā)明提出的一種基于MA—ARV碼本的I)NA序列數(shù)據(jù)無損壓縮系統(tǒng),可在全序列上搜索MA—ARV碼矢量的近似重復(fù)片段,并使用文化基因啟發(fā)式優(yōu)化算法(MA)對壓縮碼本的構(gòu)造過程進(jìn)行優(yōu)化,從而更全面地利用I)NA序列數(shù)據(jù)的重復(fù)特性,有效消除冗余,提升整體壓縮率。


圖l為I)NA序列中的直接重復(fù)模式的示意圖。
圖2為I)NA序列中的鏡像重復(fù)模式的示意圖。
圖3為I)NA序列中的配對重復(fù)模式的示意圖。
圖4為I)NA序列中的反轉(zhuǎn)重復(fù)模式的示意圖。
圖5為MA—ARV矢量模型曠的示意圖。
圖6為MA—ARV矢量模型曠的直接重復(fù)模式曠的示意圖。
圖7為MA—ARV矢量模型曠的鏡像重復(fù)模式曠一/的示意圖。
圖8為MA—ARV矢量模型曠的配對重復(fù)模式曠*的示意圖。
圖9為MA—ARV矢量模型曠的反轉(zhuǎn)重復(fù)模式曠“的示意圖。
圖lo為MA—ARV中的編輯誤差編碼的示意圖。
圖11為I)NA序列數(shù)據(jù)壓縮系統(tǒng)的系統(tǒng)框圖。
圖12為基于MA—ARV的])NA序列數(shù)據(jù)壓縮系統(tǒng)流程圖。
圖13為基于字典的I)NA序列數(shù)據(jù)壓縮編碼圖。
具體實(shí)施方式
與普通文本字符串相比,I)NA序列數(shù)據(jù)具有以下三個(gè)主要顯著特點(diǎn)第一,I)NA序列數(shù)據(jù)存在著大量的相似冗余。其中既有簡單的片段重復(fù),也有大規(guī)模的基因序列復(fù)制。I)NA序列數(shù)據(jù)的高度相似性是其壓縮算法的根本依據(jù)。理論上若能使用涵蓋能力足夠好的數(shù)據(jù)模型描述I)NA序列數(shù)據(jù)中的冗余,便能取得較高的壓縮比例。
第二,I)NA序列數(shù)據(jù)中的重復(fù)具有多種特有模式。如圖l…圖4所示,I)NA序列中的近似片段既有常見的直接重復(fù) (DireCt Repeat)模式,亦有獨(dú)特的鏡像重復(fù)(Mirr。rRepeat)、配對重復(fù)(Pairing Repeat)和反轉(zhuǎn)重復(fù)(工nVerted Repeat)等模式。其中反轉(zhuǎn)重復(fù)亦即Bi。C。mpreSS一2算法中使用的回文重復(fù)。直接重復(fù)模式在一般字符串?dāng)?shù)據(jù)中普遍存在,而鏡像重復(fù)則較少見,后兩種模式更是I)NA序列數(shù)據(jù)所獨(dú)有的,僅因?yàn)镮)NA特有的雙鏈結(jié)構(gòu)及堿基配對原則才會(huì)產(chǎn)生。
第三,I)NA序列中的重復(fù)更多地表示為近似重復(fù)形式,即可視作各種模式的精確重復(fù)片段,通過一定數(shù)量的堿基插入(工nSerti。n) 、刪減(Deleti。n) 和替換(SubStituti。n) 的編輯操作而獲得。這種近似重復(fù)的特點(diǎn)是I)NA物質(zhì)的生物屬性所決定的。
由上述分析可見,BioCompress-2等傳統(tǒng)壓縮系統(tǒng)僅使用了這些獨(dú)有數(shù)據(jù)特點(diǎn)中 的很小一部分,限制了其壓縮能力的提升。為解決這一問題,本發(fā)明DNA序列數(shù)據(jù)壓縮系統(tǒng)將DNA序列數(shù)據(jù)的重復(fù)特點(diǎn)歸 納總結(jié),提出了基于文化基因的近似重復(fù)矢量(Memetic Algorithm Based Approximate Repeat Vector, MA-ARV)冗余描述模型,用于統(tǒng)一涵蓋處理DNA序列的相似片段。MA-ARV是指基于文化基因算法(Memetic Algorithm,ΜΑ)的具有四種重復(fù)模式 的有向序列子串。如圖5 圖9所示,對于DNA序列數(shù)據(jù)的MA-ARV矢量ts其直接重復(fù)模式 冗余片段可表示為相同矢量^鏡像重復(fù)片段為矢量vJ ;根據(jù)堿基配對原則,對于配對重復(fù) 片段有矢量/,對于反轉(zhuǎn)重復(fù)片段有矢量一“。此處上標(biāo)“_1”表示堿基符號順序的反轉(zhuǎn), 上標(biāo)“*”表示堿基的互補(bǔ)配對。從而在搜索過程中,DNA序列數(shù)據(jù)的4種重復(fù)模式片段可 統(tǒng)一使用相同的MA-ARV模型進(jìn)行描述。而在壓縮編碼時(shí),4種重復(fù)片段亦只需記錄其對應(yīng) 的單一 MA-ARV序列即可。在壓縮時(shí),MA-ARV序列的重復(fù)片段可使用格式repeat type)進(jìn)行編碼。其 中id為重復(fù)片段對應(yīng)的MA-ARV序列編號,r印mi type為重復(fù)模式類型-.D表示直接重復(fù) (Direct Repeat)(Mirror Repeat) ^^^KX^SS; (Pairing Repeat), /代表反轉(zhuǎn)重復(fù)(Inverted R印eat)。對于近似的DNA重復(fù)片段,MA-ARV將對其堿基編輯誤差信息進(jìn)行單獨(dú)編碼。如圖 10所示,對于已知MA-ARV序列^其近似重復(fù)片段中的編輯誤差可以[offset, edit type, symbol]的格式進(jìn)行編碼。其中為編輯操作堿基的位置,ij^e為操作類型符 號A表示替換(Substitution)、々表示刪除(Deletion)、/表示插入(Insertion)。式中 symbol為操作的堿基符號。例如,圖10中有MA-ARV序列 ν = ‘‘ CCAGT,,
則對于重復(fù)片段Fragment 1,可視為由MA-ARV矢量ν將第3個(gè)符號“Α”替換為堿基 “C”而成,亦即其誤差可編碼為{3,& “C”}。其余兩個(gè)片段Fragment 2及Fragment 3亦 可類似編碼為{3,4及{3,I, “C”}。其中ν轉(zhuǎn)換為Fragment 2時(shí)的第3個(gè)符號“A” 為需刪除的冗余堿基,因此僅記錄刪除操作符々即可。MA-ARV模型涵蓋了 DNA重復(fù)片段的三個(gè)主要數(shù)據(jù)特點(diǎn),可更全面地描述序列數(shù)據(jù) 中的冗余信息。本發(fā)明DNA序列數(shù)據(jù)壓縮系統(tǒng)使用了基于字典的壓縮方法,并將MA-ARV模型引入 了 DNA序列數(shù)據(jù)的編碼過程。本發(fā)明DNA序列數(shù)據(jù)壓縮系統(tǒng)主要包含三個(gè)功能模塊(1) MA-ARV碼本設(shè)計(jì)模塊,主要用于構(gòu)造針對當(dāng)前輸入DNA序列數(shù)據(jù)的壓縮碼本;(2) DNA序列 數(shù)據(jù)壓縮模塊,主要用于根據(jù)MA-ARV碼本對輸入數(shù)據(jù)進(jìn)行無損壓縮編碼;(3) DNA序列數(shù) 據(jù)解壓模塊,用于對壓縮后的數(shù)據(jù)文件進(jìn)行解壓恢復(fù)操作。本發(fā)明DNA序列數(shù)據(jù)壓縮系統(tǒng)還包括輸入模塊、檢測模塊和輸出模塊;所述輸 入模塊、檢測模塊、DNA序列數(shù)據(jù)壓縮模塊與輸出模塊依次相連,所述檢測模塊還分別與 MA-ARV碼本設(shè)計(jì)模塊、DNA序列數(shù)據(jù)解壓模塊相連,所述MA-ARV碼本設(shè)計(jì)模塊與DNA序列 數(shù)據(jù)壓縮模塊相連。所述輸入模塊用于輸入DNA序列數(shù)據(jù),所述檢測模塊用于檢測輸入是否為原始DNA序列數(shù)據(jù)和檢測輸入數(shù)據(jù)是否包含MA-ARV碼本,所述輸出模塊用于輸出壓縮后的DNA 序列數(shù)據(jù)或解壓恢復(fù)的原始DNA序列數(shù)據(jù)。本發(fā)明基于字典的DNA序列數(shù)據(jù)壓縮編碼的方法如圖12所示 S100、數(shù)據(jù)輸入;
S200、檢測輸入是否為原始DNA序列數(shù)據(jù),如果是,執(zhí)行S300,如果否,執(zhí)行S400 ; S300、檢測輸入數(shù)據(jù)是否包含MA-ARV碼本,如果是,執(zhí)行S311,如果否,執(zhí)行S321 ;
5311、進(jìn)入DNA序列數(shù)據(jù)壓縮模塊,根據(jù)MA-ARV碼本對輸入數(shù)據(jù)進(jìn)行無損壓縮編碼;
5312、最后輸出壓縮后的DNA序列數(shù)據(jù);
S321、進(jìn)入MA-ARV碼本設(shè)計(jì)模塊,構(gòu)造針對當(dāng)前輸入DNA序列數(shù)據(jù)的壓縮碼本,然后執(zhí) 行 S311 ;
S400、進(jìn)入DNA序列數(shù)據(jù)解壓模塊,對壓縮后的數(shù)據(jù)文件進(jìn)行解壓恢復(fù)操作; S410、最后輸出解壓恢復(fù)的原始DNA序列數(shù)據(jù)。本發(fā)明DNA序列數(shù)據(jù)壓縮系統(tǒng)的壓縮原理如圖13所示,設(shè)原始DNA序列數(shù)據(jù)中包 含一組MA-ARV的近似重復(fù)片段,包括全部4種重復(fù)模式。則MA-ARV碼本設(shè)計(jì)模塊將在全 序列中搜索所有重復(fù)片段的位置、模式及編輯誤差信息。通過將這組MA-ARM序列作為編碼 矢量(Code Vector)并構(gòu)造壓縮碼本(Codebook),算法使用重復(fù)片段的對應(yīng)碼矢量序號 及其編輯誤差信息替換原有序列片段,以達(dá)到消除數(shù)據(jù)冗余的目的。本發(fā)明系統(tǒng)使用MA啟 發(fā)式優(yōu)化算法對MA-ARV壓縮碼本的構(gòu)造設(shè)計(jì)過程進(jìn)行優(yōu)化。在壓縮數(shù)據(jù)時(shí),本發(fā)明系統(tǒng)使用編碼格式為{ii/,re/^ai ij^e,[edit error}}, 其中ii/為對應(yīng)MA-ARV碼矢量編號,r印eat type為重復(fù)模式,et/ii error為編輯誤差信息 序列。例如,壓縮碼本中位于序號i的MA-ARV碼矢量為
Vi= “ CCAGT,,
在原始DNA序列數(shù)據(jù)中有片段 “…TTCTGACTCAA …” 可知其包含序列 I = ”TGACTC”
為MA-ARV矢量vi的近似重復(fù)片段,則此部分可編碼為 “…TTC{i, M, {2,I, “T,,}} AA…,,
從而表示編碼部分為編號i的MA-ARV碼矢量&的鏡像重復(fù)片段,可通過編輯操作對 碼矢量第2個(gè)堿基處插入符號“T”獲得。由于MA-ARV模型有效描述了 DNA序列數(shù)據(jù)的冗余,而基于字典的壓縮算法可搜索 所有位置上的MA-ARV碼矢量重復(fù)片段,因此本方法涵蓋了 DNA序列的主要相似性數(shù)據(jù)特 點(diǎn),可獲得比傳統(tǒng)方法更高的壓縮能力。在解壓縮時(shí),只需根據(jù)壓縮碼本及編輯誤差信息,替換恢復(fù)出原始的DNA序列數(shù) 據(jù)即可。本發(fā)明DNA序列數(shù)據(jù)壓縮系統(tǒng)可產(chǎn)生的優(yōu)點(diǎn)主要包括
第一,在總結(jié)歸納DNA序列獨(dú)特?cái)?shù)據(jù)重復(fù)特性的基礎(chǔ)上,提出了概括能力更強(qiáng)的 MA-ARV數(shù)據(jù)模型,用于描述序列的冗余信息。通過將其應(yīng)用于DNA序列數(shù)據(jù)的壓縮編碼處 理,可完整涵蓋DNA序列的獨(dú)有數(shù)據(jù)特點(diǎn),搜索匹配更多重復(fù)片段,并使用統(tǒng)一的MA-ARV碼矢量進(jìn)行紀(jì)錄,從而有效提升壓縮性能。第二,提出了一種基于MA-ARV碼本的DNA序列數(shù)據(jù)無損壓縮系統(tǒng),可在全序列上 搜索MA-ARV碼矢量的近似重復(fù)片段,并使用文化基因啟發(fā)式優(yōu)化算法(MA)對壓縮碼本的 構(gòu)造過程進(jìn)行優(yōu)化,從而更全面地利用DNA序列數(shù)據(jù)的重復(fù)特性,有效消除冗余,提升壓縮率。應(yīng)當(dāng)理解的是,本發(fā)明的應(yīng)用不限于上述的舉例,對本領(lǐng)域普通技術(shù)人員來說,可 以根據(jù)上述說明加以改進(jìn)或變換,所有這些改進(jìn)和變換都應(yīng)屬于本發(fā)明所附權(quán)利要求的保 護(hù)范圍。
權(quán)利要求
1.一種DNA序列數(shù)據(jù)壓縮系統(tǒng),其特征在于,所述DNA序列數(shù)據(jù)壓縮系統(tǒng)包括MA-ARV碼本設(shè)計(jì)模塊,用于構(gòu)造針對當(dāng)前輸入DNA序列數(shù)據(jù)的壓縮碼本;DNA序列數(shù)據(jù)壓縮模塊,用于根據(jù)MA-ARV碼本對輸入數(shù)據(jù)進(jìn)行無損壓縮編碼;DNA序列數(shù)據(jù)解壓模塊,用于對壓縮后的數(shù)據(jù)文件進(jìn)行解壓恢復(fù)操作。
2.根據(jù)權(quán)利要求1所述的DNA序列數(shù)據(jù)壓縮系統(tǒng),其特征在于,所述DNA序列數(shù)據(jù)壓縮 系統(tǒng)還包括輸入模塊、檢測模塊和輸出模塊;所述輸入模塊、檢測模塊、DNA序列數(shù)據(jù)壓縮模塊與輸出模塊依次相連,所述檢測模塊 還分別與MA-ARV碼本設(shè)計(jì)模塊、DNA序列數(shù)據(jù)解壓模塊相連,所述MA-ARV碼本設(shè)計(jì)模塊與 DNA序列數(shù)據(jù)壓縮模塊相連。
3.根據(jù)權(quán)利要求1所述的DNA序列數(shù)據(jù)壓縮系統(tǒng),其特征在于,所述MA-ARV碼本設(shè)計(jì) 模塊將當(dāng)前輸入DNA序列數(shù)據(jù)表示為MA-ARV矢量^其直接重復(fù)模式冗余片段表示為相同 矢量^鏡像重復(fù)片段為矢量Vj ;根據(jù)堿基配對原則,對于配對重復(fù)片段有矢量/,對于反 轉(zhuǎn)重復(fù)片段有矢量ν1*。
4.根據(jù)權(quán)利要求1所述的DNA序列數(shù)據(jù)壓縮系統(tǒng),其特征在于,所述DNA序列數(shù)據(jù)壓縮 系統(tǒng)在壓縮數(shù)據(jù)時(shí),使用編碼格式為\id, repeat type,error}},其中ii/為對應(yīng) MA-ARV碼矢量編號,re/^ai ij^e為重復(fù)模式,et/ii error為編輯誤差信息序列。
5.根據(jù)權(quán)利要求4所述的DNA序列數(shù)據(jù)壓縮系統(tǒng),其特征在于,所述編輯誤差信息序列 用{0//》對,edit type, symbol、的格式進(jìn)行編碼;其中o/Z^ei為編輯操作堿基的位置, edit type為操作類型符號A表示替換、々表示刪除、/表示插入,SjT^W為操作的堿基符 號。
6.一種DNA序列數(shù)據(jù)壓縮方法,其特征在于,包括以下步驟S100、數(shù)據(jù)輸入;S200、檢測輸入的數(shù)據(jù)是否為原始DNA序列數(shù)據(jù),如果是,執(zhí)行S300,如果否,執(zhí)行 S400 ;S300、檢測輸入的數(shù)據(jù)是否包含MA-ARV碼本,如果是,執(zhí)行S311,如果否,執(zhí)行S321 ; S311、進(jìn)入DNA序列數(shù)據(jù)壓縮模塊,根據(jù)MA-ARV碼本對輸入數(shù)據(jù)進(jìn)行無損壓縮編碼; S3 12、最后輸出壓縮后的DNA序列數(shù)據(jù); S321、進(jìn)入MA-ARV碼本設(shè)計(jì)模塊,構(gòu)造針對當(dāng)前輸入DNA序列數(shù)據(jù)的壓縮碼本,然后執(zhí) 行 S311 ; S400、進(jìn)入DNA序列數(shù)據(jù)解壓模塊,對壓縮后的數(shù)據(jù)文件進(jìn)行解壓恢復(fù)操作;S410、最后輸出解壓恢復(fù)的原始DNA序列數(shù)據(jù)。
全文摘要
本發(fā)明公開了一種DNA序列數(shù)據(jù)壓縮系統(tǒng),是一種基于MA-ARV碼本的DNA序列數(shù)據(jù)無損壓縮系統(tǒng),可在全序列上搜索MA-ARV碼矢量的近似重復(fù)片段,并使用文化基因啟發(fā)式優(yōu)化算法(MA)對壓縮碼本的構(gòu)造過程進(jìn)行優(yōu)化,從而更全面地利用DNA序列數(shù)據(jù)的重復(fù)特性,有效消除冗余。
文檔編號G06F19/10GK102081707SQ20111000260
公開日2011年6月1日 申請日期2011年1月7日 優(yōu)先權(quán)日2011年1月7日
發(fā)明者儲穎, 周家銳, 朱澤軒, 紀(jì)震 申請人:深圳大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
1