基因序列片段的目標(biāo)信息作為Value部分建立鍵值對,將基因序列片段采用哈希函數(shù) 映射確定數(shù)據(jù)庫中的目標(biāo)存儲位置,用鍵值對的搜索代替比對算法,快速獲得序列片段的 比對結(jié)果(即是否比對上,如果比對上則可以獲取其目標(biāo)信息),鍵值對搜索具有最低的時 間復(fù)雜度,與現(xiàn)有序列比對方法相比,具有最快的比對定位速度,具有時間復(fù)雜度低、比對 定位速度快、定位效率高的優(yōu)點。
[0035] 2、本發(fā)明針對參考基因組上的每一個基因序列片段,以基因序列片段作為key部 分、基因序列片段的目標(biāo)信息作為Value部分建立鍵值對,將基因序列片段采用哈希函數(shù) 映射確定數(shù)據(jù)庫中的目標(biāo)存儲位置,因此可以通過將多個基因組的唯一獨特序列片段放在 一起的方式,同時搜索比對多個基因組,可以將不同物種基因組上的唯一比對區(qū)域放到一 起,同時在多物種基因組上比對定位序列片段,適合跨物種的混合快速分析。
[0036] 3、對于大多數(shù)物種的參考基因組來說,其上的大部分區(qū)域里的片段都是獨一無二 的,正因為如此,本發(fā)明能夠顯著加速那些不關(guān)注非唯一比對序列片段的分析流程。
[0037] 4、本發(fā)明以基因序列片段作為key部分、基因序列片段的目標(biāo)信息作為Value部 分建立鍵值對,基于目標(biāo)信息的具體內(nèi)容不同,能夠應(yīng)用于各類基因序列片段快速比對定 位的基因分析應(yīng)用中,例如CNV分析、菌種檢定等,具有應(yīng)用范圍廣的優(yōu)點。
【附圖說明】
[0038] 圖1為本發(fā)明實施例一中快速比對定位方法的基本流程示意圖。
[0039] 圖2為本發(fā)明實施例一CNV分析得到的CNV分析結(jié)果示意圖。
【具體實施方式】
[0040] 實施例一:
[0041] 下文以通過快速序列比對進行CNV分析(CopyNumberVariation分析/拷貝數(shù) 變異分析)為例,對本發(fā)明參考基因組上基因序列片段的快速比對定位方法進行進一步的 說明。
[0042] 如圖1所示,本實施例參考基因組上基因序列片段的快速比對定位方法的步驟包 括:
[0043] 1)從參考基因組上提取基因序列片段;
[0044] 2)針對參考基因組上的每一個基因序列片段,以基因序列片段作為key部分、基 因序列片段的目標(biāo)信息作為Value部分建立鍵值對,將基因序列片段采用哈希函數(shù)映射 確定數(shù)據(jù)庫中的目標(biāo)存儲位置,并將鍵值對寫入目標(biāo)存儲位置,最終完成參考基因組的建 庫;
[0045] 3)當(dāng)需要對待匹配基因序列片段進行快速比對定位時,將所述待匹配基因序列片 段采用哈希函數(shù)映射查找數(shù)據(jù)庫中的目標(biāo)存儲位置,如果查找成功,則從目標(biāo)存儲位置讀 取匹配基因序列片段對應(yīng)鍵值對的基因序列片段的目標(biāo)信息;否則返回查找失敗信息。
[0046] 本實施例中,參考基因組來自在UCSC網(wǎng)站的人類基因組(版本hgl9)36bp唯一基 因序列片段的位置信息來自網(wǎng)址:
[0047] http://hgdownload.cse.ucsc.edu/goldenPath/hgl9/encodeDCC/wgEncodeMapability/wgEncodeCrgMapabilityAlign36mer.bigffig
[0048] 該文件為人類基因組(版本hgl9)36mermappability文件,將上述文件下載后使 用工具bigWigToBedGraph將bigWig文件轉(zhuǎn)換為BED格式文件,BED格式文件包括四列,第 1列為染色體編號,第2列為染色體起始位置(以0開始計算),第3列為染色體終止位置 (以1開始計算),第4列為染色體起始位置至染色體終止位置(不包括終止位置)區(qū)間中 每個位置開始計算的36bp序列的mappability值,mappabilit為1表示基因序列片段在 基因組上唯一,本實施例中在BED格式文件中選取mappability為1的記錄,并根據(jù)BED文 件提供的位置信息提取出hgl9參考基因組上的唯一基因序列片段,提取出的目標(biāo)基因序 列片段集合將作為構(gòu)建數(shù)據(jù)庫所使用Key的集合,各個染色體上的唯一覆蓋度如表1所示。
[0049] 表1 :各個染色體上的唯一覆蓋度數(shù)據(jù)表。
[0050]
[0051] 參見表1,第一列為染色體編號,第二列為每個染色體包含的堿基數(shù)目,第三列為 唯一基因序列片段所包含的堿基數(shù)目,第四列為唯一基因序列片段所包含的堿基數(shù)目占每 個染色體堿基數(shù)目的比例,本實施例中,36bp的唯一基因序列片段總計2, 176, 351,405,堿 基總數(shù)占參考基因組的70. 3%,染色體的平均覆蓋度為67. 1%。
[0052] 本實施例中,步驟1)的詳細步驟包括:
[0053] 1. 1)設(shè)定基因序列片段的長度L;本實施例中,基因序列片段的長度L為36 ;
[0054] 1. 2)計算參考基因組上唯一的基因序列片段的位置和目標(biāo)信息;
[0055] 1. 3)根據(jù)基因序列片段的位置分別提取基因序列片段及其目標(biāo)信息。
[0056] 本實施例中,步驟1. 2)中唯一的基因序列片段具體是指任意兩個基因序列片段 之間的編輯距離大于等于設(shè)定的閾值n,閾值η具體取值為2,此外也可以根據(jù)需要設(shè)置為 其他值。
[0057] 需要說明的是,目標(biāo)信息具體和基因序列片段的快速比對定位應(yīng)用相關(guān),目標(biāo)信 息可以包括染色體、染色體位置、GC含量、物種分類中的至少一種。本實施例中,目標(biāo)信息 具體包括:(1)基因序列片段的染色體編號{1,2, ...,22,X,Υ} ; (2)基因序列片段在染色體 上的起始位置(從〇開始計算);(3)基因序列片段的GC含量(即基因序列片段中堿基G、 堿基C的總數(shù)目)。
[0058] 本實施例中,步驟2)的詳細步驟包括:
[0059] 2. 1)從提取得到的所有基因序列片段中取出一個基因序列片段作為當(dāng)前基因序 列片段;
[0060] 2. 2)以當(dāng)前基因序列片段作為key部分、當(dāng)前基因序列片段的目標(biāo)信息作為 Value部分建立鍵值對(Key,Value)以描述當(dāng)前基因序列片段及其目標(biāo)信息之間的映射關(guān) 系;
[0061] 2. 3)將當(dāng)前基因序列片段的鍵值對(Key,Value)中的Key部分和Value部 分進行編碼,選用指定的哈希函數(shù)將當(dāng)前基因序列片段映射到d個數(shù)據(jù)庫中的數(shù)據(jù)庫 i(1 <i<d)中;
[0062] 2. 4)將當(dāng)前基因序列片段采用哈希函數(shù)映射確定其在數(shù)據(jù)庫i中的目標(biāo)存儲位 置,并將編碼后的鍵值對(Key,Value)寫入數(shù)據(jù)庫i的目標(biāo)存儲位置;
[0063] 2. 5)判斷提取得到的所有基因序列片段是否已經(jīng)處理完畢,如果已經(jīng)處理完畢, 則跳轉(zhuǎn)執(zhí)行步驟2. 1);否則,判定已經(jīng)完成參考基因組的建庫。
[0064] 本實施例中,步驟2. 3)中將當(dāng)前基因序列片段映射到d個數(shù)據(jù)庫中的數(shù)據(jù)庫i中 的詳細步驟包括:
[0065] 2. 3. 1)設(shè)定數(shù)據(jù)庫個數(shù)d ;本實施例中數(shù)據(jù)庫個數(shù)d具體取值為12 ;
[0066] 2. 3. 2)取當(dāng)前基因序列片段Key部分長度為m的前綴子串,選用指定的哈希函數(shù) 并采用如式(1)所示函數(shù)式計算當(dāng)前基因序列片段在d個數(shù)據(jù)庫中對應(yīng)的數(shù)據(jù)庫編號i,從 而將當(dāng)前基因序列片段映射