一種文件安全性的識別方法和系統(tǒng)的制作方法
【專利摘要】本發(fā)明提供了一種文件安全性的識別方法和系統(tǒng)。方法包括:獲得待檢測文件的特征組合;根據所述特征組合所對應的誤報率、能夠表示的文件數(shù)量、對應的熱度、以及對應的廣度中的至少2個指標,確定所述特征組合的可使用情況;根據所述特征組合的可使用情況,確定所述待檢測文件的安全性。系統(tǒng)包括服務器和客戶端。通過多個指標來評價待檢測文件的特征組合的可使用情況,并利用最能夠代表待檢測文件的特征組合來評價待檢測文件的安全性,權威而有效的評價待檢測文件的安全性,為用戶的信息安全、終端安全等提供了保證。
【專利說明】一種文件安全性的識別方法和系統(tǒng)
【技術領域】
[0001]本發(fā)明涉及安全【技術領域】,尤其涉及一種文件安全性的識別方法和系統(tǒng)。
【背景技術】
[0002]互聯(lián)網技術進入了飛速發(fā)展的時代,隨之而來的計算機病毒也呈現(xiàn)了爆炸式的增長。目前的計算機殺毒軟件,通常會基于已知的病毒文件的二進制數(shù)據,提取病毒特征,并在對未知文件進行病毒掃描時,將未知文件的一些特定特征與病毒特征相匹配,來識別未知文件是否為病毒文件的?,F(xiàn)有技術中存在如下尚需解決:如何驗證所提取的病毒特征是合適的特征,換言之,如何驗證未知文件中所提取的特征是合適的特征?
【發(fā)明內容】
[0003]本發(fā)明的目的在于提供一種文件安全性的識別方法和系統(tǒng),有效識別危險文件,防止了危險文件對智能終端的危害。
[0004]為達到上述目的,一方面,本發(fā)明提供了一種文件安全性的識別方法,包括:
[0005]在待檢測文件中獲得特征組合;
[0006]根據所述特征組合所對應的誤報率、能夠表示的文件數(shù)量、對應的熱度、以及對應的廣度中的至少2個指標,確定所述特征組合的可使用情況;
[0007]根據所述特征組合的可使用情況,確定所述待檢測文件的安全性。
[0008]另一方面,本發(fā)明提供了一種文件安全性的識別系統(tǒng),包括:客戶端和服務器;
[0009]所述客戶端包括:
[0010]獲得模塊,用于在待檢測文件中獲得特征組合;
[0011]發(fā)送模塊,用于將所述特征組合發(fā)送給所述服務器;
[0012]接收模塊,用于接收所述服務器返回的所述待檢測文件的安全性結果;
[0013]所述服務器包括:
[0014]接收模塊,用于接收所述客戶端發(fā)送的所述特征組合;
[0015]評價模塊,用于根據所述客戶端發(fā)送的特征組合所對應的誤報率、能夠表示的文件數(shù)量、對應的熱度、以及對應的廣度中的至少2個指標,確定所述特征組合的可使用情況;
[0016]確定模塊,用于根據所述特征組合的可使用情況,確定所述待檢測文件的安全性;
[0017]發(fā)送模塊,用于將所述待檢測文件的安全性結果發(fā)送給所述客戶端。
[0018]本發(fā)明提供的方案,通過對特征組合所對應的誤報率、能夠表示的文件數(shù)量、對應的熱度、以及對應的廣度中的至少2個指標來確定未知文件的特征組合的可使用情況,并根據特征組合的可使用情況來確定待檢測的未知文件的安全性。通過多個指標來評價待檢測文件的特征組合的可使用情況,并利用最能夠代表待檢測文件的特征組合來評價待檢測文件的安全性,權威而有效的評價待檢測文件的安全性,為用戶的信息安全、終端安全等提供了保證。
【專利附圖】
【附圖說明】
[0019]通過閱讀參照以下附圖所作的對非限制性實施例所作的詳細描述,本發(fā)明的其它特征、目的和優(yōu)點將會變得更明顯:
[0020]圖1為本發(fā)明實施例提供的文件安全性的識別方法的流程圖;
[0021]圖2為本發(fā)明實施例提供的文件安全性的識別系統(tǒng)結構示意圖。
【具體實施方式】
[0022]為使本發(fā)明的目的、技術方案和優(yōu)點更加清楚,下面將結合附圖對本發(fā)明的實施例作詳細描述。
[0023]下面詳細描述本發(fā)明的實施例,所述實施例的示例在附圖中示出,其中自始至終相同或類似的標號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實施例是示例性的,僅用于解釋本發(fā)明,而不能理解為對本發(fā)明的限制。相反,本發(fā)明的實施例包括落入所附加權利要求書的精神和內涵范圍內的所有變化、修改和等同物。
[0024]在本發(fā)明的描述中,需要理解的是,術語“第一”、“第二”等僅用于描述目的,而不能理解為指示或暗示相對重要性。在本發(fā)明的描述中,需要說明的是,除非另有明確的規(guī)定和限定,術語“相連”、“連接”應做廣義理解,例如,可以是固定連接,也可以是可拆卸連接,或一體地連接;可以是機械連接,也可以是電連接;可以是直接相連,也可以通過中間媒介間接相連。對于本領域的普通技術人員而言,可以具體情況理解上述術語在本發(fā)明中的具體含義。此外,在本發(fā)明的描述中,除非另有說明,“多個”的含義是兩個或兩個以上。
[0025]流程圖中或在此以其他方式描述的任何過程或方法描述可以被理解為,表示包括一個或更多個用于實現(xiàn)特定邏輯功能或過程的步驟的可執(zhí)行指令的代碼的模塊、片段或部分,并且本發(fā)明的優(yōu)選實施方式的范圍包括另外的實現(xiàn),其中可以不按所示出或討論的順序,包括根據所涉及的功能按基本同時的方式或按相反的順序,來執(zhí)行功能,這應被本發(fā)明的實施例所屬【技術領域】的技術人員所理解。
[0026]圖1為本發(fā)明實施例提供的文件安全性的識別方法的流程圖,如圖1所示,該方法包括:
[0027]101、獲得待檢測文件的特征組合。
[0028]獲得特征組合的方式有很多,現(xiàn)有技術中比較常用的方式包括:在待檢測文件中選取N個位置,N為大于等于2的自然數(shù),這N個位置通常是對危險文件的認知和經驗而得到的病毒特征代碼經常出現(xiàn)的位置。例如:PE文件頭、區(qū)塊表、入口點、入口點區(qū)段、導入表等等。在N個位置中選取M個位置上的數(shù)據分別計算特征值(如哈希值、CRC32值等等),M為小于等于N且大于等于2的自然數(shù),將這M個特征值組合起來即為特征組合。
[0029]不同的待檢測文件可以有不同的提取方式,例如,當待檢測文件是安裝包,則N可以為5 ;當待檢測文件是.net文件,則N可以為14 ;當代檢測文件不是.net文件,則N可以為9。上述取值皆為選擇性結論,并不限制本發(fā)明的保護范圍。
[0030]102、根據特征組合所對應的誤報率、能夠表示的文件數(shù)量、對應的熱度、以及對應的廣度中的至少2個指標,確定該特征組合的可使用情況。
[0031]具體的,可以選擇特征組合所對應的誤報率、能夠表示的文件數(shù)量、對應的熱度、以及對應的廣度中的至少2個指標;對所選擇的指標進行加權計算,將加權計算的數(shù)值作為特征組合的可使用情況。
[0032]還需要說明的是,根據所述特征組合所對應的誤報率、能夠表示的文件數(shù)量、對應的熱度、以及對應的廣度中的至少2個指標,確定所述特征組合的可使用情況,可以是已經訓練好的模型。例如,任意選擇其中2個指標的情況下,如何分配2個指標之間的加權權重;任意選擇其中3個指標的情況下,如何分配3個指標之間的加權權重;4個指標全部使用的情況,如何分配4個指標之間的加權權重。進而對所選擇的指標進行加權計算得到加權計算的數(shù)值。而102可以直接利用已訓練好的模型來確定特征組合的可使用情況。
[0033]進一步的,還可以根據實際情況對已訓練好的模型進行再訓練或者重新訓練,以保持模型的準確性、有效性。
[0034]103、根據特征組合的使用情況,確定該待檢測文件的安全性。
[0035]如果加權計算的數(shù)值處于安全數(shù)值范圍內,該待檢測文件為安全文件;如果加權計算的數(shù)值處于危險數(shù)值范圍內,該待檢測文件為危險文件。
[0036]在上述實施方式的基礎上,101之后,該方法還可以包括:
[0037]如果特征組合所對應的誤報率超過第一閥值,則重新執(zhí)行101,這一次執(zhí)行101所獲得的特征組合為與上一次執(zhí)行101不同的特征組合。
[0038]誤報率這一指標是非常敏感的,如果一特征組合所對應的誤報率超過甚至等于預先設定的容忍值(也即第一閥值),這一特征組合是有問題的,不能夠最好的代表某一待檢測文件。因此,一旦特征組合所對應的誤報率超過第一閥值,就需要重新選擇特征組合。
[0039]誤報率超過第一閥值的特征組合會依據具體情況做無效處理,也即這一特征組合無法代表某一類安全/危險文件,因此需要做無效處理。而該特征組合所對應的全部文件都需要重新做特征訓練,以保證本發(fā)明提供方案的準確性和有效性。
[0040]本發(fā)明實施例提供了一種文件安全性的識別方法,通過對特征組合所對應的誤報率、能夠表示的文件數(shù)量、對應的熱度、以及對應的廣度中的至少2個指標來確定未知文件的特征組合的可使用情況,并根據特征組合的可使用情況來確定待檢測的未知文件的安全性。通過多個指標來評價待檢測文件的特征組合的可使用情況,并利用最能夠代表待檢測文件的特征組合來評價待檢測文件的安全性,權威而有效的評價待檢測文件的安全性,為用戶的信息安全、終端安全等提供了保證。
[0041]還需要說明的是,本發(fā)明提供的方法可以實施為計算機程序軟件,例如根據本發(fā)明的實施例可以是一種計算機程序產品,運行該程序產品使計算機執(zhí)行用于所示范的方法。所述計算機程序產品包括計算機可讀存儲介質,該介質上包含計算機程序邏輯或代碼部分,用于實現(xiàn)所述移動終端的消息的內容的處理方法。所述計算機可讀存儲介質可以是被安裝在計算機中的內置介質或者可從計算機主體拆卸的可移動介質(例如熱拔插技術存儲設備)。所述內置介質包括但不限于可重寫的非易失性存儲器,例如RAM、ROM、快閃存儲器和硬盤。所述可移動介質包括但不限于:光存儲媒體(例如⑶-ROM和DVD)、磁光存儲媒體(例如MO)、磁存儲媒體(例如盒帶或移動硬盤)、具有內置的可重寫的非易失性存儲器的媒體(例如存儲卡)和具有內置ROM的媒體(例如ROM盒)。[0042]圖2為本發(fā)明實施例提供的文件安全性的識別系統(tǒng)結構示意圖,該系統(tǒng)為執(zhí)行上述方法步驟的主體,因此步驟信息不再詳述,可參考上述方法實施例。如圖2所示,該系統(tǒng)包括:客戶端201和服務器202。該服務器202可以位于云端,依托云端強大的計算能力和信息獲取能力,為客戶端的文件安全性識別提供強有力的后盾??蛻舳?01包括:獲得模塊、發(fā)送模塊和接收模塊。服務器202包括:接收模塊、評價模塊、確定模塊和發(fā)送模塊。
[0043]其中,客戶端201的獲得模塊用于獲得待檢測文件的特征組合;客戶端201的發(fā)送模塊用于將獲得模塊獲得的特征組合發(fā)送給服務器202 ;客戶端201的接收模塊用于接收服務器202返回的待檢測文件的安全性結果。
[0044]服務器202的接收模塊用于接收客戶端201發(fā)送的特征組合;服務器202的評價模塊用于根據特征組合所對應的誤報率、能夠表示的文件數(shù)量、對應的熱度、以及對應的廣度中的至少2個指標,確定特征組合的可使用情況;服務器202的確定模塊用于根據特征組合的可使用情況,確定待檢測文件的安全性;服務器202的發(fā)送模塊用于將待檢測文件的安全性結果發(fā)送給客戶端201。
[0045]這里需要說明的是,客戶端201的發(fā)送模塊可以發(fā)送單個待檢測文件的特征組合,也可以發(fā)送多個待檢測文件的特征組合;服務器202的發(fā)送模塊可以發(fā)送單個待檢測文件的安全性結果,也可以發(fā)送多個待檢測文件的安全性結果??梢酝ㄟ^不同的標識等信息來區(qū)分不同的客戶端、不同的待檢測文件的安全性結果。
[0046]—種實施方式下,客戶端201的獲得模塊具體可以包括:提取單元、選擇單元和組成單元。其中的提取單元用于在待檢測文件中提取N段特征;選擇單元用于在N段特征中選擇M段特征;組成單元用于將M段特征組成特征組合。其中的N、M均為自然數(shù),且N SM >2。
[0047]又一種實施方式下,客服務器202的評價模塊具體可以包括:選擇單元和計算單元。其中的選擇單元用于選擇所述特征組合所對應的誤報率、能夠表示的文件數(shù)量、對應的熱度、以及對應的廣度中的至少2個指標;計算單元用于對所選擇的指標進行加權計算,將加權計算的數(shù)值作為所述特征組合的可使用情況。
[0048]基于上述實施方式,服務器202的確定模塊具體可以包括:第一單元和第二單元。其中的第一單元用于如果所述加權計算的數(shù)值處于安全數(shù)值范圍內,所述待檢測文件為安全文件;第二單元用于如果所述加權計算的數(shù)值處于危險數(shù)值范圍內,所述待檢測文件為危險文件。
[0049]在上述任一實施方式的基礎上,客戶端201的獲得模塊還可以用于:如果所述特征組合所對應的誤報率超過第一閥值,則在待檢測文件中重新提取特征組合。
[0050]本發(fā)明提供的文件安全性的識別系統(tǒng),通過對特征組合所對應的誤報率、能夠表示的文件數(shù)量、對應的熱度、以及對應的廣度中的至少2個指標來確定未知文件的特征組合的可使用情況,并根據特征組合的可使用情況來確定待檢測的未知文件的安全性。通過多個指標來評價待檢測文件的特征組合的可使用情況,并利用最能夠代表待檢測文件的特征組合來評價待檢測文件的安全性,權威而有效的評價待檢測文件的安全性,為用戶的信息安全、終端安全等提供了保證。
[0051]本領域技術人員應當理解,任何具有適當編程裝置的計算機系統(tǒng)都將能夠執(zhí)行包含在程序產品中的本發(fā)明的方法的諸步驟。盡管本說明書中描述的多數(shù)【具體實施方式】都側重于軟件程序,但是作為固件和硬件實現(xiàn)本發(fā)明提供的方法的替代實施例同樣在本發(fā)明要求保護的范圍之內。
[0052]以上所揭露的僅為本發(fā)明的一些較佳實施例而已,當然不能以此來限定本發(fā)明之權利范圍,因此依本發(fā)明權利要求所作的等同變化,仍屬本發(fā)明所涵蓋的范圍。
【權利要求】
1.一種文件安全性的識別方法,其特征在于,包括: 獲得待檢測文件的特征組合; 根據所述特征組合所對應的誤報率、能夠表示的文件數(shù)量、對應的熱度、以及對應的廣度中的至少2個指標,確定所述特征組合的可使用情況; 根據所述特征組合的可使用情況,確定所述待檢測文件的安全性。
2.根據權利要求1所述的方法,其特征在于,所述獲得待檢測文件的特征組合,包括: 在待檢測文件中選取N個位置; 在所述N個位置中選取M個位置的數(shù)據分布計算特征值; 將所述M個特征值組合成特征組合; 其中,N、M均為自然數(shù),且,NSM≥2。
3.根據權利要求1所述的方法,其特征在于,所述根據所述特征組合所對應的誤報率、能夠表示的文件數(shù)量、對應的熱度、以及對應的廣度中的至少2個指標,確定所述特征組合的可使用情況,包括: 選擇所述特征組合所對應的誤報率、能夠表示的文件數(shù)量、對應的熱度、以及對應的廣度中的至少2個指標; 對所選擇的指標進行加權計算,將加權計算的數(shù)值作為所述特征組合的可使用情況。
4.根據權利要求3所述的方法,其特征在于,所述根據所述特征組合的可使用情況,確定所述待檢測文件的安全性,包括: 如果所述加權計算的數(shù)值處于安全數(shù)值范圍內,所述待檢測文件為安全文件; 如果所述加權計算的數(shù)值處于危險數(shù)值范圍內,所述待檢測文件為危險文件。
5.根據權利要求1至4中任一項所述的方法,其特征在于,所述方法還包括: 如果所述特征組合所對應的誤報率超過第一閥值,則重新執(zhí)行所述獲得待檢測文件的特征組合的步驟。
6.一種文件安全性的識別系統(tǒng),其特征在于,包括:客戶端和服務器; 所述客戶端包括: 獲得模塊,用于獲得待檢測文件的特征組合; 發(fā)送模塊,用于將所述特征組合發(fā)送給所述服務器; 接收模塊,用于接收所述服務器返回的所述待檢測文件的安全性結果; 所述服務器包括: 接收模塊,用于接收所述客戶端發(fā)送的所述特征組合; 評價模塊,用于根據所述客戶端發(fā)送的特征組合所對應的誤報率、能夠表示的文件數(shù)量、對應的熱度、以及對應的廣度中的至少2個指標,確定所述特征組合的可使用情況; 確定模塊,用于根據所述特征組合的可使用情況,確定所述待檢測文件的安全性; 發(fā)送模塊,用于將所述待檢測文件的安全性結果發(fā)送給所述客戶端。
7.根據權利要求6所述的系統(tǒng),其特征在于,所述客戶端的獲得模塊具體包括: 提取單元,用于在待檢測文件中提取N段特征; 選擇單元,用于在所述N段特征中選擇M段特征; 組成單元,用于將所述M段特征組成特征組合; 其中,N、M均為自然數(shù),且,N≥M≥2。
8.根據權利要求6所述的系統(tǒng),其特征在于,所述服務器的評價模塊具體包括: 選擇單元,用于選擇所述特征組合所對應的誤報率、能夠表示的文件數(shù)量、對應的熱度、以及對應的廣度中的至少2個指標; 計算單元,用于對所選擇的指標進行加權計算,將加權計算的數(shù)值作為所述特征組合的可使用情況。
9.根據權利要求8所述的系統(tǒng),其特征在于,所述服務器的確定模塊具體包括: 第一單元,用于如果所述加權計算的數(shù)值處于安全數(shù)值范圍內,所述待檢測文件為安全文件; 第二單元,用于如果所述加權計算的數(shù)值處于危險數(shù)值范圍內,所述待檢測文件為危險文件。
10.根據權利要求6至9中任一項所述的系統(tǒng),其特征在于,所述客戶端的獲得模塊還用于:如果所述特征組合所對應的誤報率超過第一閥值,則在待檢測文件中重新提取特征組合。`
【文檔編號】G06F21/55GK103729593SQ201310752550
【公開日】2014年4月16日 申請日期:2013年12月31日 優(yōu)先權日:2013年12月31日
【發(fā)明者】馮偵探, 曹德強, 陶天一 申請人:安一恒通(北京)科技有限公司