一種樣本文件分析方法及裝置制造方法
【專(zhuān)利摘要】本發(fā)明提供一種樣本文件分析方法及裝置,其中,方法包括:獲得二進(jìn)制格式的樣本文件;將所述二進(jìn)制格式的樣本文件映射到內(nèi)存;對(duì)映射到內(nèi)存的所述二進(jìn)制格式的樣本文件進(jìn)行全文字符串過(guò)濾分析,得到過(guò)濾后的二進(jìn)制格式的樣本文件;輸出所述過(guò)濾后的二進(jìn)制格式的樣本文件。本發(fā)明的方案可以從二進(jìn)制格式的樣本文件中提取可見(jiàn)字符串,作為判斷文件是否是病毒的依據(jù),并加以對(duì)可見(jiàn)字符串的有效性過(guò)濾,有效減小樣本文件的分析結(jié)果集合,大大提升病毒查殺效率。
【專(zhuān)利說(shuō)明】一種樣本文件分析方法及裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計(jì)算機(jī)安全【技術(shù)領(lǐng)域】,特別是指一種樣本文件分析方法及裝置。
【背景技術(shù)】
[0002]在反病毒領(lǐng)域,每日樣本增量都是海量的,通過(guò)人工方式進(jìn)行識(shí)別將浪費(fèi)大量時(shí)間,因此,樣本文件的自動(dòng)分析成了反病毒領(lǐng)域的一個(gè)核心問(wèn)題。
[0003]目前已有的樣本文件自動(dòng)分析技術(shù)可以分為兩類(lèi):
[0004](I)靜態(tài)自動(dòng)分析,即通過(guò)反匯編代碼分析、文件靜態(tài)內(nèi)容比對(duì)以及一系列啟發(fā)式規(guī)則對(duì)比來(lái)給文件定性;這種做法的優(yōu)點(diǎn)是:快速、吞吐量高,可以應(yīng)對(duì)每日的海量文件,并給出分析結(jié)果;但缺點(diǎn)是:精準(zhǔn)度一般,無(wú)法給出樣本的惡意行為,對(duì)加密處理過(guò)的樣本存在較多的誤報(bào)和漏報(bào)。
[0005](2)動(dòng)態(tài)自動(dòng)分析,即通過(guò)動(dòng)態(tài)執(zhí)行樣本并記錄運(yùn)行過(guò)程,進(jìn)行動(dòng)態(tài)行為分析,利用分析結(jié)果對(duì)樣本文件進(jìn)行定性;這種做法的優(yōu)點(diǎn)是:精準(zhǔn)度非常高,可以明確指出樣本惡意行為并可以精確對(duì)其定性;但缺點(diǎn)是:低速,吞吐量低,若想應(yīng)對(duì)海量的樣本文件,需要大量硬件資源投入。
【發(fā)明內(nèi)容】
[0006]本發(fā)明要解決的技術(shù)問(wèn)題是提供一種樣本文件分析方法及裝置,從二進(jìn)制格式的樣本文件中提取可見(jiàn)字符串,作為判斷文件是否是病毒的依據(jù),并加以對(duì)可見(jiàn)字符串的有效性過(guò)濾,有效減小樣本文件的分析結(jié)果集合,大大提升病毒查殺效率。
[0007]為解決上述技術(shù)問(wèn)題,本發(fā)明的實(shí)施例提供一種樣本文件分析方法,包括:
[0008]獲得二進(jìn)制格式的樣本文件;
[0009]將所述二進(jìn)制格式的樣本文件映射到內(nèi)存;
[0010]對(duì)映射到內(nèi)存的所述二進(jìn)制格式的樣本文件進(jìn)行全文字符串過(guò)濾分析,得到過(guò)濾后的二進(jìn)制格式的樣本文件;
[0011]輸出所述過(guò)濾后的二進(jìn)制格式的樣本文件。
[0012]其中,所述對(duì)映射到內(nèi)存的所述二進(jìn)制格式的樣本文件進(jìn)行全文字符串過(guò)濾分析,得到過(guò)濾后的二進(jìn)制格式的樣本文件的步驟包括:
[0013]根據(jù)字符編碼集和病毒家族庫(kù)的特征串,對(duì)映射到內(nèi)存的所述二進(jìn)制格式的樣本文件進(jìn)行全文字符串匹配,獲得匹配不成功的字符串;
[0014]過(guò)濾掉所述匹配不成功的字符串,得到過(guò)濾后的二進(jìn)制格式的樣本文件。
[0015]其中,所述根據(jù)字符編碼集和病毒家族庫(kù)的特征串,對(duì)映射到內(nèi)存的所述二進(jìn)制格式的樣本文件進(jìn)行全文字符串匹配的步驟包括:
[0016]對(duì)映射到內(nèi)存的所述二進(jìn)制格式的樣本文件與所述字符編碼集中的字符串相匹配,獲得匹配不成功的無(wú)意義的字符串以及匹配成功的字符串對(duì)應(yīng)的樣本文件;
[0017]對(duì)所述匹配成功的字符串對(duì)應(yīng)的樣本文件與所述病毒家族庫(kù)中的特征串進(jìn)行匹配,獲得匹配不成功的待過(guò)濾串。
[0018]其中,對(duì)所述匹配成功的字符串組成的樣本文件與所述病毒家族庫(kù)中的特征串進(jìn)行匹配,獲得匹配不成功的待過(guò)濾串的步驟包括:
[0019]計(jì)算所述匹配成功的字符串對(duì)應(yīng)的樣本文件中的字符串的哈希值;
[0020]計(jì)算所述病毒家族庫(kù)中的特征串的哈希值;
[0021]將所述二進(jìn)制格式的樣本文件中的字符串的哈希值與所述病毒家族庫(kù)中的特征串的哈希值進(jìn)行比較,若不相等,認(rèn)為相比較的兩個(gè)字符串匹配不成功,并獲得匹配不成功的待過(guò)濾串,否則認(rèn)為匹配成功。
[0022]其中,將所述二進(jìn)制格式的樣本文件中的字符串的哈希值與所述病毒家族庫(kù)中的特征串的哈希值進(jìn)行比較的步驟包括:
[0023]采用一條處理器指令將所述二進(jìn)制格式的樣本文件中的字符串的哈希值與所述病毒家族庫(kù)中的特征串的哈希值進(jìn)行比較。
[0024]其中,所述過(guò)濾掉所述匹配不成功的字符串,得到過(guò)濾后的二進(jìn)制格式的樣本文件的步驟包括:
[0025]過(guò)濾掉所述匹配不成功的無(wú)意義的字符串以及所述匹配不成功的待過(guò)濾串,得到過(guò)濾后的二進(jìn)制格式的樣本文件。
[0026]其中,所述字符編碼集包括:UNIC0DE,UFT-8,GBK, GB2312和/或MBCS字符編碼。
[0027]本發(fā)明的實(shí)施例還提供一種樣本文件分析裝置,包括:
[0028]獲得模塊,用于獲得二進(jìn)制格式的樣本文件;
[0029]映射模塊,用于將所述二進(jìn)制格式的樣本文件映射到內(nèi)存;
[0030]分析模塊,用于對(duì)映射到內(nèi)存的所述二進(jìn)制格式的樣本文件進(jìn)行全文字符串過(guò)濾分析,得到過(guò)濾后的二進(jìn)制格式的樣本文件;
[0031 ] 輸出模塊,用于輸出所述過(guò)濾后的二進(jìn)制格式的樣本文件。
[0032]其中,所述分析模塊包括:
[0033]第一分析子模塊,用于根據(jù)字符編碼集和病毒家族庫(kù)的特征串,對(duì)映射到內(nèi)存的所述二進(jìn)制格式的樣本文件進(jìn)行全文字符串匹配,獲得匹配不成功的字符串;
[0034]第二分析子模塊,用于過(guò)濾掉所述匹配不成功的字符串,得到過(guò)濾后的二進(jìn)制格式的樣本文件。
[0035]其中,所述第一分析子模塊包括:
[0036]第一匹配模塊,用于對(duì)映射到內(nèi)存的所述二進(jìn)制格式的樣本文件與所述字符編碼集中的字符串相匹配,獲得匹配不成功的無(wú)意義的字符串以及匹配成功的字符串組成的樣本文件;
[0037]第二匹配模塊,用于對(duì)所述匹配成功的字符串組成的樣本文件與所述病毒家族庫(kù)中的特征串進(jìn)行匹配,獲得匹配不成功的待過(guò)濾串。
[0038]其中,所述第二匹配模塊包括:
[0039]第一計(jì)算模塊,用于計(jì)算所述匹配成功的字符串組成的樣本文件中的字符串的哈希值;
[0040]第二計(jì)算模塊,用于計(jì)算所述病毒家族庫(kù)中的特征串的哈希值;
[0041]匹配子模塊,用于將所述二進(jìn)制格式的樣本文件中的字符串的哈希值與所述病毒家族庫(kù)中的特征串的哈希值進(jìn)行比較,若不相等,認(rèn)為相比較的兩個(gè)字符串匹配不成功,并獲得匹配不成功的待過(guò)濾串,否則認(rèn)為匹配成功。
[0042]其中,所述第二分析子模塊具體用于:過(guò)濾掉所述匹配不成功的無(wú)意義的字符串以及所述匹配不成功的待過(guò)濾串,得到過(guò)濾后的二進(jìn)制格式的樣本文件。
[0043]本發(fā)明的上述技術(shù)方案的有益效果如下:
[0044]上述方案中,通過(guò)將獲得的二進(jìn)制格式的樣本文件映射到內(nèi)存,并對(duì)該二進(jìn)制格式的樣本文件進(jìn)行全文字符串過(guò)濾分析,從而過(guò)濾掉匹配不成功的字符串,提取有效串,有效減小樣本文件的分析結(jié)果集合,大大提升病毒查殺效率。
【專(zhuān)利附圖】
【附圖說(shuō)明】
[0045]圖1為本發(fā)明的樣本文件分析方法流程圖;
[0046]圖2為本發(fā)明的樣本文件分析裝置的結(jié)構(gòu)框示意圖。
【具體實(shí)施方式】
[0047]為使本發(fā)明要解決的技術(shù)問(wèn)題、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合附圖及具體實(shí)施例進(jìn)行詳細(xì)描述。
[0048]如圖1所示,本發(fā)明的實(shí)施例提供一種樣本文件分析方法,包括:
[0049]步驟11,獲得二進(jìn)制格式的樣本文件;
[0050]步驟12,將所述二進(jìn)制格式的樣本文件映射到內(nèi)存;
[0051]步驟13,對(duì)映射到內(nèi)存的所述二進(jìn)制格式的樣本文件進(jìn)行全文字符串過(guò)濾,得到過(guò)濾后的二進(jìn)制格式的樣本文件;
[0052]步驟14,輸出所述過(guò)濾后的二進(jìn)制格式的樣本文件。
[0053]本發(fā)明的該實(shí)施例通過(guò)將獲得的二進(jìn)制格式的樣本文件映射到內(nèi)存,并對(duì)該二進(jìn)制格式的樣本文件進(jìn)行全文字符串過(guò)濾分析,有效減小樣本文件的分析結(jié)果集合,大大提升病毒查殺效率。
[0054]在本發(fā)明的另一實(shí)施例中,包括上述步驟11 - 14的基礎(chǔ)上,上述步驟13包括:
[0055]步驟131,根據(jù)字符編碼集和病毒家族庫(kù)的特征串,對(duì)映射到內(nèi)存的所述二進(jìn)制格式的樣本文件進(jìn)行全文字符串匹配,獲得匹配不成功的字符串;
[0056]步驟132,過(guò)濾掉所述匹配不成功的字符串,得到過(guò)濾后的二進(jìn)制格式的樣本文件。
[0057]其中,字符編碼集包括UNICODE,UFT-8, GBK, GB2312, MBCS等所有常用的字符編碼集,病毒家族庫(kù)包括已確定的某一類(lèi)型或者多種類(lèi)型病毒對(duì)應(yīng)的特征串形成的特征串集
口 ο
[0058]在本發(fā)明的另一實(shí)施例中,包括上述步驟11 - 14的基礎(chǔ)上,上述步驟131包括:
[0059]步驟1311,對(duì)映射到內(nèi)存的所述二進(jìn)制格式的樣本文件與所述字符編碼集中的字符串相匹配,獲得匹配不成功的無(wú)意義的字符串以及匹配成功的字符串對(duì)應(yīng)的樣本文件;
[0060]步驟1312,對(duì)所述匹配成功的字符串對(duì)應(yīng)的樣本文件與所述病毒家族庫(kù)中的特征串進(jìn)行匹配,獲得匹配不成功的待過(guò)濾串。
[0061]該實(shí)施例中,通過(guò)對(duì)映射到內(nèi)存的二進(jìn)制格式的樣本文件與字符編碼集中的字符串相匹配,獲得匹配不成功的無(wú)意義的字符串,這里采用常用字過(guò)濾的方法,排除掉明顯無(wú)意義的字符串,如:〃犒嗣S莪撒嗖燙燙燙燙",得到匹配成功的字符串對(duì)應(yīng)的樣本文件,從而縮小二進(jìn)制格式的樣本文件的數(shù)量,可大幅提升病毒的查殺效率。
[0062]進(jìn)一步地,在本發(fā)明的另一實(shí)施例中,步驟1312可以包括:
[0063]步驟13121,計(jì)算所述匹配成功的字符串對(duì)應(yīng)的樣本文件中的字符串的哈希(Hash)值;
[0064]步驟13122,計(jì)算所述病毒家族庫(kù)中的特征串的Hash值;
[0065]步驟13123,將所述二進(jìn)制格式的樣本文件中的字符串的Hash值與所述病毒家族庫(kù)中的特征串的Hash值進(jìn)行比較,若不相等,認(rèn)為相比較的兩個(gè)字符串匹配不成功,并獲得匹配不成功的待過(guò)濾串,否則認(rèn)為匹配成功。
[0066]該實(shí)施例中,字符串的Hash值或者特征串的Hash值均是采用CRC32算法生成的一個(gè)DWORD (雙字節(jié)的值),在字符串匹配時(shí),根據(jù)生成的該CRC32值,只需要一條處理器指令,如,(Cmp,eRX,eRX)就可判斷兩個(gè)字符串的CRC32值是否相等,即兩個(gè)字符串是否匹配,這樣極大提升了分析效率。具體地,上述步驟13123中,所述將所述二進(jìn)制格式的樣本文件中的字符串的Hash值與所述家族庫(kù)中的特征串的Hash值進(jìn)行比較的步驟包括:采用一條處理器指令將所述二進(jìn)制格式的樣本文件中的字符串的Hash值與所述家族庫(kù)中的特征串的Hash值進(jìn)行比較。其中,在得到匹配不成功的待過(guò)濾串后,可以對(duì)這些匹配不成功的待過(guò)濾串進(jìn)行排序,如采用快速排序方法進(jìn)行排序,從而強(qiáng)制過(guò)濾掉這些待過(guò)濾串。
[0067]相應(yīng)地,上述實(shí)施例中,步驟132可以包括:過(guò)濾掉所述匹配不成功的無(wú)意義的字符串以及所述匹配不成功的待過(guò)濾串,得到過(guò)濾后的二進(jìn)制格式的樣本文件。
[0068]其中,上述實(shí)施例中,所述字符編碼集包括:UNIC0DE,UFT-8, GBK, GB2312, MBCS字符編碼。其中,可以根據(jù)常用的3500個(gè)漢字,英文,符號(hào)等來(lái)當(dāng)作有效字符集進(jìn)行匹配,從而排除掉無(wú)效字符。
[0069]本發(fā)明的上述實(shí)施列中,對(duì)二進(jìn)制格式的樣本文件映射到內(nèi)存,并采用包括所有字符編碼集的有效字符集進(jìn)行匹配,排除掉明顯無(wú)意義的字符串,縮小二進(jìn)制格式的樣本文件的數(shù)量,即減小分析的樣本數(shù)量,從而可大幅提升病毒查殺效率,進(jìn)一步對(duì)排除掉無(wú)意義的字符串后的樣本文件(即提取出的可見(jiàn)串)與病毒家族庫(kù)的特征串進(jìn)行匹配,從而過(guò)濾掉匹配不成功的字符串,從而有效減小分析結(jié)果集合,提升病毒查殺效率。
[0070]如圖2所示,本發(fā)明的實(shí)施例還提供一種樣本文件分析裝置,包括:
[0071]獲得模塊21,用于獲得二進(jìn)制格式的樣本文件;
[0072]映射模塊22,用于將所述二進(jìn)制格式的樣本文件映射到內(nèi)存;
[0073]分析模塊23,用于對(duì)映射到內(nèi)存的所述二進(jìn)制格式的樣本文件進(jìn)行全文字符串過(guò)濾分析,得到過(guò)濾后的二進(jìn)制格式的樣本文件;
[0074]輸出模塊24,用于輸出所述過(guò)濾后的二進(jìn)制格式的樣本文件。
[0075]本發(fā)明的該裝置實(shí)施例同樣通過(guò)將獲得的二進(jìn)制格式的樣本文件映射到內(nèi)存,并對(duì)該二進(jìn)制格式的樣本文件進(jìn)行全文字符串過(guò)濾分析,有效減小樣本文件的分析結(jié)果集合,大大提升病毒查殺效率。
[0076]其中,所述分析模塊包括:
[0077]第一分析子模塊,用于根據(jù)字符編碼集和病毒家族庫(kù)的特征串,對(duì)映射到內(nèi)存的所述二進(jìn)制格式的樣本文件進(jìn)行全文字符串匹配,獲得匹配不成功的字符串;
[0078]第二分析子模塊,用于過(guò)濾掉所述匹配不成功的字符串,得到過(guò)濾后的二進(jìn)制格式的樣本文件。
[0079]其中,字符編碼集包括UNICODE,UFT-8, GBK, GB2312, MBCS等所有常用的字符編碼集,病毒家族庫(kù)包括已確定的某一類(lèi)型或者多種類(lèi)型病毒對(duì)應(yīng)的特征串形成的特征串集
口 ο
[0080]其中,所述第一分析子模塊包括:
[0081]第一匹配模塊,用于對(duì)映射到內(nèi)存的所述二進(jìn)制格式的樣本文件與所述字符編碼集中的字符串相匹配,獲得匹配不成功的無(wú)意義的字符串以及匹配成功的字符串組成的樣本文件;
[0082]第二匹配模塊,用于對(duì)所述匹配成功的字符串組成的樣本文件與所述病毒家族庫(kù)中的特征串進(jìn)行匹配,獲得匹配不成功的待過(guò)濾串。
[0083]其中,所述第二匹配模塊包括:
[0084]第一計(jì)算模塊,用于計(jì)算所述匹配成功的字符串組成的樣本文件中的字符串的哈希值;
[0085]第二計(jì)算模塊,用于計(jì)算所述病毒家族庫(kù)中的特征串的哈希值;
[0086]匹配子模塊,用于將所述二進(jìn)制格式的樣本文件中的字符串的哈希值與所述病毒家族庫(kù)中的特征串的哈希值進(jìn)行比較,若不相等,認(rèn)為相比較的兩個(gè)字符串匹配不成功,并獲得匹配不成功的待過(guò)濾串,否則認(rèn)為匹配成功。
[0087]該實(shí)施例中,通過(guò)對(duì)映射到內(nèi)存的二進(jìn)制格式的樣本文件與字符編碼集中的字符串相匹配,獲得匹配不成功的無(wú)意義的字符串,這里采用常用字過(guò)濾的方法,排除掉明顯無(wú)意義的字符串,如犒嗣S莪撒嗖燙燙燙燙",得到匹配成功的字符串對(duì)應(yīng)的樣本文件,從而縮小二進(jìn)制格式的樣本文件的數(shù)量,可大幅提升病毒的查殺效率。
[0088]其中,所述第二分析子模塊具體用于:過(guò)濾掉所述匹配不成功的無(wú)意義的字符串以及所述匹配不成功的待過(guò)濾串,得到過(guò)濾后的二進(jìn)制格式的樣本文件。
[0089]本發(fā)明的該裝置實(shí)施例同樣通過(guò)對(duì)二進(jìn)制格式的樣本文件映射到內(nèi)存,并采用包括所有字符編碼集的有效字符集進(jìn)行匹配,排除掉明顯無(wú)意義的字符串,縮小二進(jìn)制格式的樣本文件的數(shù)量,即減小分析的樣本數(shù)量,從而可大幅提升病毒查殺效率,進(jìn)一步對(duì)排除掉無(wú)意義的字符串后的樣本文件(即提取出的可見(jiàn)串)與病毒家族庫(kù)的特征串進(jìn)行匹配,從而過(guò)濾掉匹配不成功的字符串,從而有效減小分析結(jié)果集合,提升病毒查殺效率。
[0090]以上所述是本發(fā)明的優(yōu)選實(shí)施方式,應(yīng)當(dāng)指出,對(duì)于本【技術(shù)領(lǐng)域】的普通技術(shù)人員來(lái)說(shuō),在不脫離本發(fā)明所述原理的前提下,還可以作出若干改進(jìn)和潤(rùn)飾,這些改進(jìn)和潤(rùn)飾也應(yīng)視為本發(fā)明的保護(hù)范圍。
【權(quán)利要求】
1.一種樣本文件分析方法,其特征在于,包括:獲得二進(jìn)制格式的樣本文件;將所述二進(jìn)制格式的樣本文件映射到內(nèi)存;對(duì)映射到內(nèi)存的所述二進(jìn)制格式的樣本文件進(jìn)行全文字符串過(guò)濾分析,得到過(guò)濾后的二進(jìn)制格式的樣本文件;輸出所述過(guò)濾后的二進(jìn)制格式的樣本文件。
2.根據(jù)權(quán)利要求1所述的樣本文件分析方法,其特征在于,所述對(duì)映射到內(nèi)存的所述二進(jìn)制格式的樣本文件進(jìn)行全文字符串過(guò)濾分析,得到過(guò)濾后的二進(jìn)制格式的樣本文件的步驟包括:根據(jù)字符編碼集和病毒家族庫(kù)的特征串,對(duì)映射到內(nèi)存的所述二進(jìn)制格式的樣本文件進(jìn)行全文字符串匹配,獲得匹配不成功的字符串;過(guò)濾掉所述匹配不成功的字符串,得到過(guò)濾后的二進(jìn)制格式的樣本文件。
3.根據(jù)權(quán)利要求2所述的樣本文件分析方法,其特征在于,所述根據(jù)字符編碼集和病毒家族庫(kù)的特征串,對(duì)映射到內(nèi)存的所述二進(jìn)制格式的樣本文件進(jìn)行全文字符串匹配的步驟包括:對(duì)映射到內(nèi)存的所述二進(jìn)制格式的樣本文件與所述字符編碼集中的字符串相匹配,獲得匹配不成功的無(wú)意義的字符串以及匹配成功的字符串對(duì)應(yīng)的樣本文件;對(duì)所述匹配成功的字符串對(duì)應(yīng)的樣本文件與所述病毒家族庫(kù)中的特征串進(jìn)行匹配,獲得匹配不成功的待過(guò)濾串。
4.根據(jù)權(quán)利要求3所述的樣本文件分析方法,其特征在于,對(duì)所述匹配成功的字符串組成的樣本文件與所述病毒家族庫(kù)中的特征串進(jìn)行匹配,獲得匹配不成功的待過(guò)濾串的步驟包括:計(jì)算所述匹配成功的字符串對(duì)應(yīng)的樣本文件中的字符串的哈希值;計(jì)算所述病毒家族庫(kù)中的特征串的哈希值;將所述二進(jìn)制格式的樣本文件中的字符串的哈希值與所述病毒家族庫(kù)中的特征串的哈希值進(jìn)行比較,若不相等,認(rèn)為相比較的兩個(gè)字符串匹配不成功,并獲得匹配不成功的待過(guò)濾串,否則認(rèn)為匹配成功。
5.根據(jù)權(quán)利要求4所述的樣本文件分析方法,其特征在于,將所述二進(jìn)制格式的樣本文件中的字符串的哈希值與所述病毒家族庫(kù)中的特征串的哈希值進(jìn)行比較的步驟包括:采用一條處理器指令將所述二進(jìn)制格式的樣本文件中的字符串的哈希值與所述病毒家族庫(kù)中的特征串的哈希值進(jìn)行比較。
6.根據(jù)權(quán)利要求3或4所述的樣本文件分析方法,其特征在于,所述過(guò)濾掉所述匹配不成功的字符串,得到過(guò)濾后的二進(jìn)制格式的樣本文件的步驟包括:過(guò)濾掉所述匹配不成功的無(wú)意義的字符串以及所述匹配不成功的待過(guò)濾串,得到過(guò)濾后的二進(jìn)制格式的樣本文件。
7.根據(jù)權(quán)利要求2所述的樣本文件分析方法,其特征在于,所述字符編碼集包括:UNICODE, UFT-8, GBK, GB2312 和 / 或 MBCS 字符編碼。
8.—種樣本文件分析裝置,其特征在于,包括:獲得模塊,用于獲得二進(jìn)制格式的樣本文件;映射模塊,用于將所述二進(jìn)制格式的樣本文件映射到內(nèi)存;分析模塊,用于對(duì)映射到內(nèi)存的所述二進(jìn)制格式的樣本文件進(jìn)行全文字符串過(guò)濾分析,得到過(guò)濾后的二進(jìn)制格式的樣本文件;輸出模塊,用于輸出所述過(guò)濾后的二進(jìn)制格式的樣本文件。
9.根據(jù)權(quán)利要求8所述的樣本文件分析裝置,其特征在于,所述分析模塊包括:第一分析子模塊,用于根據(jù)字符編碼集和病毒家族庫(kù)的特征串,對(duì)映射到內(nèi)存的所述二進(jìn)制格式的樣本文件進(jìn)行全文字符串匹配,獲得匹配不成功的字符串;第二分析子模塊,用于過(guò)濾掉所述匹配不成功的字符串,得到過(guò)濾后的二進(jìn)制格式的樣本文件。
10.根據(jù)權(quán)利要求9所述的樣本文件分析裝置,其特征在于,所述第一分析子模塊包括:第一匹配模塊,用于對(duì)映射到內(nèi)存的所述二進(jìn)制格式的樣本文件與所述字符編碼集中的字符串相匹配,獲得匹配不成功的無(wú)意義的字符串以及匹配成功的字符串組成的樣本文件;第二匹配模塊,用于 對(duì)所述匹配成功的字符串組成的樣本文件與所述病毒家族庫(kù)中的特征串進(jìn)行匹配,獲得匹配不成功的待過(guò)濾串。
11.根據(jù)權(quán)利要求10所述的樣本文件分析裝置,其特征在于,所述第二匹配模塊包括:第一計(jì)算模塊,用于計(jì)算所述匹配成功的字符串組成的樣本文件中的字符串的哈希值;第二計(jì)算模塊,用于計(jì)算所述病毒家族庫(kù)中的特征串的哈希值;匹配子模塊,用于將所述二進(jìn)制格式的樣本文件中的字符串的哈希值與所述病毒家族庫(kù)中的特征串的哈希值進(jìn)行比較,若不相等,認(rèn)為相比較的兩個(gè)字符串匹配不成功,并獲得匹配不成功的待過(guò)濾串,否則認(rèn)為匹配成功。
12.根據(jù)權(quán)利要求11所述的樣本文件分析裝置,其特征在于,所述第二分析子模塊具體用于:過(guò)濾掉所述匹配不成功的無(wú)意義的字符串以及所述匹配不成功的待過(guò)濾串,得到過(guò)濾后的二進(jìn)制格式的樣本文件。
【文檔編號(hào)】G06F17/30GK103455753SQ201210174885
【公開(kāi)日】2013年12月18日 申請(qǐng)日期:2012年5月30日 優(yōu)先權(quán)日:2012年5月30日
【發(fā)明者】蘇海峰, 徐鳴, 張楠 申請(qǐng)人:北京金山安全軟件有限公司, 可牛網(wǎng)絡(luò)技術(shù)(北京)有限公司, 貝殼網(wǎng)際(北京)安全技術(shù)有限公司