亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于深度學(xué)習(xí)特征的人臉樣本清洗方法及系統(tǒng)與流程

文檔序號:11143386閱讀:336來源:國知局
一種基于深度學(xué)習(xí)特征的人臉樣本清洗方法及系統(tǒng)與制造工藝

本發(fā)明屬于數(shù)據(jù)挖掘及樣本清洗領(lǐng)域,所使用的技術(shù)基于圖像處理和機(jī)器學(xué)習(xí),尤其涉及一種基于深度學(xué)習(xí)特征的人臉樣本清洗方法及系統(tǒng)。



背景技術(shù):

深度學(xué)習(xí)提取人臉特征: 深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個分支,它基于試圖使用包含復(fù)雜結(jié)構(gòu)或由多重非線性變換構(gòu)成的多個處理層對數(shù)據(jù)進(jìn)行高層抽象的一系列算法。一個觀測值(例如一幅圖像)可以使用多種方式來表示,如每個像素強(qiáng)度值的向量,或者更抽象地表示成一系列邊、特定形狀的區(qū)域等。而使用某些特定的表示方法更加容易地從實(shí)例中學(xué)習(xí)任務(wù)(例如,人臉識別或面部表情識別)。

DBSCAN(Density-Based Spatial Clustering of Applications with Noise)聚類算法:是一個比較有代表性的基于密度的非監(jiān)督式聚類算法。與劃分和層次聚類方法不同,它將簇定義為密度相連的點(diǎn)的最大集合,能夠把具有足夠高密度的區(qū)域劃分為簇,并可在噪聲的空間數(shù)據(jù)庫中發(fā)現(xiàn)任意形狀的聚類。

多進(jìn)程并行運(yùn)算:當(dāng)用戶敲入命令執(zhí)行一個程序的時候,對系統(tǒng)而言,它將啟動一個進(jìn)程。但和程序不同的是,在這個進(jìn)程中,系統(tǒng)可能需要再啟動一個或多個進(jìn)程來完成獨(dú)立的多個任務(wù)。多進(jìn)程編程的主要內(nèi)容包括進(jìn)程控制和進(jìn)程間通信,利用多進(jìn)程能夠?qū)⒁粋€大型的任務(wù)拆分成多個小任務(wù)交給多個進(jìn)程同時處理,從而成倍地提高運(yùn)算速度。

現(xiàn)有技術(shù)方案:a). 特征提取:

i. 方向梯度直方圖(Histogram of Oriented Gradient, HOG)特征: 是一種在計(jì)算機(jī)視覺和圖像處理中用來進(jìn)行物體檢測的特征描述子。它通過計(jì)算和統(tǒng)計(jì)圖像局部區(qū)域的梯度方向直方圖來構(gòu)成特征。

ii. Gabor特征提?。篏abor 濾波器定義為:其脈沖響應(yīng)為一個諧波函數(shù)(即下式中的余弦函數(shù))和一個高斯函數(shù)的乘積。根據(jù)信號與系統(tǒng)理論,時頻域的卷積和乘積互為傅里葉變換。Gabor濾波器的傅里葉變換為諧波和高斯函數(shù)各自傅里葉變換的卷積。它的小波特性說明了Gabor濾波結(jié)果是描述圖像局部灰度分布的有力工具, 因此, 可以使用Gabor濾波來抽取圖像的紋理信息。

b). 人臉分類方法:

i. 支持向量機(jī)SVM (Support Vector Machine): 是一個有監(jiān)督的學(xué)習(xí)模型,通常用來進(jìn)行模式識別、分類、以及回歸分析。SVM的主要思想可以概括為兩點(diǎn):⑴它是針對線性可分情況進(jìn)行分析,對于線性不可分的情況,通過使用非線性映射算法將低維輸入空間線性不可分的樣本轉(zhuǎn)化為高維特征空間使其線性可分,從而使得高維特征空間采用線性算法對樣本的非線性特征進(jìn)行線性分析成為可能;⑵它基于結(jié)構(gòu)風(fēng)險最小化理論之上在特征空間中建構(gòu)最優(yōu)分割超平面,使得學(xué)習(xí)器得到全局最優(yōu)化,并且在整個樣本空間的期望風(fēng)險以某個概率滿足一定上界。

ii. KNNK最鄰近結(jié)點(diǎn)算法(k-Nearest Neighbor algorithm):該算法的基本思路是:在給定新圖像后,考慮在訓(xùn)練圖像集中與該新圖像距離最近(最相似)的 K 個圖像,根據(jù)這 K 個圖像所屬的類別判定新圖像所屬的類別。

由于特征提取方法受噪聲等干擾,且分類模型的效果往往跟人工調(diào)教參數(shù)的準(zhǔn)確性存在很大關(guān)聯(lián)性,因此使得最終的精確度較低,區(qū)分不同人臉的效果不好。2. 由于特征維度高及使用串行運(yùn)算設(shè)計(jì)等原因,使得整個過程效率低,耗時長,隨著圖像數(shù)量上升,耗費(fèi)的時間往往呈指數(shù)增長。3. 在建立初期模型時,往往需要人工對部分?jǐn)?shù)據(jù)進(jìn)行標(biāo)記。由于需要人工參與該部分工作,因此使得效率進(jìn)一步降低,且模型的好壞跟人工標(biāo)記的樣本情況及樣本數(shù)量存在很大關(guān)系,不具有普適性。另一方面,分類模型的建立跟訓(xùn)練樣本的分布情況存在關(guān)聯(lián)性,由于不可能人工挑選出太多的樣本,因此基于小樣本訓(xùn)練的模型往往容易出現(xiàn)過擬合的情況,導(dǎo)致當(dāng)新的未在訓(xùn)練樣本中出現(xiàn)過的測試樣本出現(xiàn)時,模型無法給出正確的分類。

在現(xiàn)有技術(shù)中,首先在人臉圖像特征提取這一部分,通常采用基于傳統(tǒng)圖像處理的方法,包括LBP、HOG、SIFT、SURF和Gabor等方法,這些基于圖像全局和局部特征進(jìn)行描述的方法在表現(xiàn)力上有一定的局限性,且較易受光照、姿勢、表情等因素影響,其次這些方法提取出的特征維度都較高,導(dǎo)致后期需要處理的數(shù)據(jù)量較大。本發(fā)明就現(xiàn)有人臉特征提取存在的特征表達(dá)能力欠佳、維度較高等問題進(jìn)行解決。

現(xiàn)有技術(shù)對人臉樣本進(jìn)行清洗,通常需要大量人力進(jìn)行人工篩選,然后基于人工篩選后的樣本建立分類模型,人工篩選的缺點(diǎn)也非常明顯,首先是效率低下,其次是存在較多錯誤。本發(fā)明要實(shí)現(xiàn)全自動化,即整個過程中不需要人工的參與。

現(xiàn)有技術(shù)中,部分實(shí)現(xiàn)方法除了圖像本身外,往往需要結(jié)合人名等非圖像的信息對人臉進(jìn)行分類,即需要引入除圖像本身外的其他數(shù)據(jù),這一步即降低了效率,也無法保證了通用性。本發(fā)明要實(shí)現(xiàn)完全基于圖像信息即可對大規(guī)模人臉進(jìn)行分類的效果。

基于現(xiàn)有技術(shù)中存在的上述缺點(diǎn)以及單線程等其他原因,現(xiàn)有技術(shù)的實(shí)現(xiàn)方法通常都精確度較低,且耗時長。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明的目的在于提供一種基于深度學(xué)習(xí)特征的人臉樣本清洗方法,旨在解決上述的技術(shù)問題。

本發(fā)明是這樣實(shí)現(xiàn)的,一種基于深度學(xué)習(xí)特征的人臉樣本清洗方法,所述人臉樣本清洗方法包括以下步驟:

A、利用深度學(xué)習(xí)技術(shù)對人臉圖像特征進(jìn)行提取;

B、根據(jù)給定的進(jìn)程數(shù)對需要進(jìn)行處理的樣本進(jìn)行劃分,并分配至每個進(jìn)程;

C、對每個進(jìn)程中相應(yīng)的人臉特征進(jìn)行聚類處理;

D、在每個聚類結(jié)果中選取圖像數(shù)量最多的類作為主類;

E、將主類特征對應(yīng)的圖像拷貝至目標(biāo)目錄并保留原有文件結(jié)構(gòu)。

本發(fā)明的進(jìn)一步技術(shù)方案是:所述步驟C中還包括以下步驟:

C1、運(yùn)用多進(jìn)程對人臉特征樣本進(jìn)行清洗。

本發(fā)明的進(jìn)一步技術(shù)方案是:所述步驟C中的聚類處理為DBSCAN聚類,所述DBSCAN聚類依據(jù)的數(shù)據(jù)來自其所對應(yīng)的人臉圖像特征。

本發(fā)明的進(jìn)一步技術(shù)方案是:所述步驟B中在進(jìn)行切片處理中將大的存有所有圖像特征的文件夾切片為多個小的存有部分圖像特征的文件夾。

本發(fā)明的進(jìn)一步技術(shù)方案是:所述步驟B中的進(jìn)程數(shù)的多少是根據(jù)硬件系統(tǒng)設(shè)備的情況進(jìn)行選擇的。

本發(fā)明的另一目的在于提供一種基于深度學(xué)習(xí)特征的人臉樣本清洗系統(tǒng),所述人臉樣本清洗系統(tǒng)包括:

圖像特征提取模塊,用于利用深度學(xué)習(xí)技術(shù)對人臉圖像特征進(jìn)行提?。?/p>

特征文件切片模塊,用于根據(jù)給定的進(jìn)程數(shù)對需要進(jìn)行處理的樣本進(jìn)行劃分,并分配至每個進(jìn)程;

聚類處理模塊,用于對每個進(jìn)程中相應(yīng)的人臉特征進(jìn)行聚類處理;

主類選取模塊,用于在每個聚類結(jié)果中選取圖像數(shù)量最多的類作為主類;

拷貝保留模塊,用于將主類特征對應(yīng)的圖像拷貝至目標(biāo)目錄并保留原有文件結(jié)構(gòu)。

本發(fā)明的進(jìn)一步技術(shù)方案是:所述聚類處理模塊中還包括:

清洗單元,用于運(yùn)用多進(jìn)程對人臉特征樣本進(jìn)行清洗。

本發(fā)明的進(jìn)一步技術(shù)方案是:所述聚類處理模塊中的聚類處理為DBSCAN聚類,所述DBSCAN聚類依據(jù)的數(shù)據(jù)來自其所對應(yīng)的人臉圖像特征。

本發(fā)明的進(jìn)一步技術(shù)方案是:所述特征文件切片模塊中在進(jìn)行切片處理中將大的存有所有圖像特征的文件夾切片為多個小的存有部分圖像特征的文件夾。

本發(fā)明的進(jìn)一步技術(shù)方案是:所述特征文件切片模塊中的進(jìn)程數(shù)的多少是根據(jù)硬件系統(tǒng)設(shè)備的情況進(jìn)行選擇的。

本發(fā)明的有益效果是:深度學(xué)習(xí)提取的人臉特征維度低而且具有非常好的鑒別能力,一方面可以提高樣本的清洗精度,另一方面也可以節(jié)約清洗時間;多進(jìn)程并行設(shè)計(jì),能夠充分利用硬件運(yùn)算能力,從而提高整個運(yùn)算的效率,降低耗時;使用DBCAN聚類算法對人臉樣本進(jìn)行聚類,實(shí)現(xiàn)了非監(jiān)督式的人臉分類,同時基于DBSCAN密度聚類的原理,加上同一人臉在不同情況下保持相似的事實(shí),也提高了人臉分類的精確度,另一方面也能夠避免了需要人工干預(yù)導(dǎo)致的效率和精確度下降。

附圖說明

圖1是本發(fā)明實(shí)施例提供的基于深度學(xué)習(xí)特征的人臉樣本清洗方法的流程圖。

圖2是本發(fā)明實(shí)施例提供的基于深度學(xué)習(xí)特征的人臉樣本清洗系統(tǒng)的結(jié)構(gòu)框圖。

具體實(shí)施方式

圖1示出了本發(fā)明提供的基于深度學(xué)習(xí)特征的人臉樣本清洗方法,其詳述如下:

步驟S1,利用深度學(xué)習(xí)技術(shù)對人臉圖像特征進(jìn)行提??;在深度學(xué)習(xí)的過程中,對人類的臉部圖像進(jìn)行特征的提??;其中在深度學(xué)習(xí)提取人臉特征從數(shù)據(jù)面上就降低了維度,也就是降低了數(shù)據(jù)量。

步驟S2,根據(jù)給定的進(jìn)程數(shù)對需要進(jìn)行處理的樣本進(jìn)行劃分,并分配至每個進(jìn)程;系統(tǒng)會根據(jù)硬件設(shè)備本身的情況選擇相適應(yīng)的進(jìn)程數(shù),將提取的人臉特征文件按照進(jìn)程數(shù)進(jìn)行切片,在切片的過程中,將一個大的存有所有人臉圖像特征的文件切片為多個小的存有部分人臉圖像特征的文件。

步驟S3,對每個進(jìn)程中相應(yīng)的人臉特征進(jìn)行聚類處理;運(yùn)行多進(jìn)程人臉樣本清洗腳本,對每個進(jìn)程中的每個文件夾中的人臉進(jìn)行DBSCAN聚類處理,DBSCAN聚類依據(jù)的數(shù)據(jù)來自對應(yīng)的圖像特征;DBSCAN人臉圖像聚類由于其算法特點(diǎn),只需要統(tǒng)計(jì)某個數(shù)據(jù)點(diǎn)給定半徑范圍內(nèi)的其他數(shù)據(jù)點(diǎn)數(shù)量,可利用比較判斷,而不需要完全計(jì)算每一個數(shù)據(jù)點(diǎn)之間的距離,減少了計(jì)算量從而提升了效率,且由于其非監(jiān)督式的特點(diǎn),實(shí)現(xiàn)了整個算法全自動化的功能。而多進(jìn)程并行設(shè)計(jì)使得處理大規(guī)模的人臉樣本成為可能,通過分割特征文件減少內(nèi)存的占用,并利用多進(jìn)程調(diào)用盡可能多的硬件資源,進(jìn)一步提升了效率。其中,多進(jìn)程并行設(shè)計(jì)應(yīng)作為技術(shù)亮點(diǎn),多進(jìn)程并行設(shè)計(jì)除了利用多進(jìn)程運(yùn)算本身,還應(yīng)包括為了適合多進(jìn)程運(yùn)算所做的數(shù)據(jù)預(yù)處理過程。

步驟S4,在每個聚類結(jié)果中選取圖像數(shù)量最多的類作為主類;在每個文件夾的聚類結(jié)果中,選取圖像數(shù)量最多的類作為主類(main cluster)。

步驟S5,將主類特征對應(yīng)的圖像拷貝至目標(biāo)目錄并保留原有文件結(jié)構(gòu);將main cluster特征圖像拷貝至目標(biāo)目錄并保留原有文件結(jié)構(gòu);從原始圖像中選取主類中所對應(yīng)的圖像,即為清洗后的可用圖像,拷貝至結(jié)果保存的目錄中,保留原有的文件結(jié)構(gòu)。

深度學(xué)習(xí)提取人臉特征部分:

本發(fā)明采用深度學(xué)習(xí)提取的特征,能夠得到較低維度數(shù)目的特征值(在目前應(yīng)用中為128維),相比傳統(tǒng)方法提取的特征(從256至1000維等),能夠有效的降低數(shù)據(jù)維度,從而大大減少了在后續(xù)的清洗過程中分類算法的運(yùn)算量,也避免了“維度災(zāi)難”對算法效果的影響。同時,由于深度學(xué)習(xí)自身的特性,使得它所提取出的低維特征能夠表征比傳統(tǒng)特征提取算法更多的人臉信息。

DBSCAN聚類算法:

由于DBSCAN是基于數(shù)據(jù)密度的聚類算法,具有可伸縮性,能夠找出在噪聲中存在的高密度區(qū)域,放到人臉圖像的聚類中,同一個人的人臉圖像是有明顯的相似性的,因此他的特征在特征空間中也就是靠近的,基于這些特點(diǎn),DBSCAN就能夠很好地將同一個人的人臉圖像聚到同一個類中。且由于該算法的核心是統(tǒng)計(jì)某個數(shù)據(jù)點(diǎn)的給定半徑范圍內(nèi)是否有其他數(shù)據(jù)點(diǎn),因此不需要計(jì)算具體的距離,大大減少了運(yùn)算量,提高了整體效率。

多進(jìn)程并行設(shè)計(jì):

利用多進(jìn)程能夠?qū)⒁粋€大型的任務(wù)拆分成多個小任務(wù)交給多個進(jìn)程同時處理,從而成倍地提高運(yùn)算速度。并且由于本發(fā)明將特征文件按照進(jìn)程數(shù)進(jìn)行了切分,使得進(jìn)程之間不需要調(diào)用相同的數(shù)據(jù),不會存在數(shù)據(jù)的重復(fù)存放導(dǎo)致浪費(fèi)內(nèi)存空間的問題。從而避免了多進(jìn)程最重要的內(nèi)存占用問題。而根據(jù)算法所運(yùn)行的硬件情況去設(shè)置進(jìn)程數(shù),能夠充分利用硬件資源又不至于出現(xiàn)內(nèi)存溢出等問題。

在提取人臉特征部分,本發(fā)明使用的是深度學(xué)習(xí)方法,而在傳統(tǒng)的特征提取方法中,也有一些方法能夠提取較低維度的特征,例如Gabor小波特征提取方法等,但是都無法像深度學(xué)習(xí)一樣能夠?qū)θ四槇D像有明確的針對性,即無法保證提取出來的特征能夠表征足夠多的人臉信息。

而在DBSCAN聚類算法部分,在進(jìn)行本發(fā)明時,也試驗(yàn)了MeanShift聚類算法,雖然跟DBSCAN算法得到的效果非常接近,但是由于MeanShift算法本身需要進(jìn)行向量計(jì)算,因此在同樣的數(shù)據(jù)情況下,運(yùn)算耗時大約是DBSCAN算法的10倍。另外有一些其他的聚類算法例如k-means等也能夠部分的完成發(fā)明目的,但綜合聚類效果和效率來看,DBSCAN仍然是最合適本發(fā)明的算法。

在多進(jìn)程并行設(shè)計(jì)部分,在現(xiàn)有的大部分并行運(yùn)算設(shè)計(jì)中,常常用到的是多線程設(shè)計(jì),由于多線程能夠調(diào)用同一塊內(nèi)存空間,因此可以很大程度上地節(jié)約內(nèi)存資源,但是正是由于這個問題,也使得在多線程設(shè)計(jì)中很容易出現(xiàn)內(nèi)存調(diào)用錯誤的問題,即在調(diào)用同一個數(shù)據(jù)時進(jìn)行了修改,但是沒有做好鎖止設(shè)計(jì)。另一方面,由于本發(fā)明在利用多進(jìn)程前,已經(jīng)將需要處理的數(shù)據(jù)進(jìn)行了切片,即不存在需要共享的數(shù)據(jù),也就不存在傳統(tǒng)多進(jìn)程設(shè)計(jì)中由于需要將所有任務(wù)數(shù)據(jù)拷貝至每一個進(jìn)程導(dǎo)致內(nèi)存占用的問題。最后,由于本發(fā)明在聚類時使用的是DBSCAN算法,其運(yùn)算量較小,而圖像結(jié)果的保存過程相對更長,使得適合IO密集型的多進(jìn)程設(shè)計(jì)更適合本發(fā)明。

圖2示出了本發(fā)明的另一目的在于提供一種基于深度學(xué)習(xí)特征的人臉樣本清洗系統(tǒng),所述人臉樣本清洗系統(tǒng)包括:

圖像特征提取模塊,用于利用深度學(xué)習(xí)技術(shù)對人臉圖像特征進(jìn)行提取;

特征文件切片模塊,用于根據(jù)給定的進(jìn)程數(shù)對需要進(jìn)行處理的樣本進(jìn)行劃分,并分配至每個進(jìn)程;

聚類處理模塊,用于對每個進(jìn)程中相應(yīng)的人臉特征進(jìn)行聚類處理;

主類選取模塊,用于在每個聚類結(jié)果中選取圖像數(shù)量最多的類作為主類;

拷貝保留模塊,用于將主類特征對應(yīng)的圖像拷貝至目標(biāo)目錄并保留原有文件結(jié)構(gòu)。

所述聚類處理模塊中還包括:

清洗單元,用于運(yùn)用多進(jìn)程對人臉特征樣本進(jìn)行清洗。

所述聚類處理模塊中的聚類處理為DBSCAN聚類,所述DBSCAN聚類依據(jù)的數(shù)據(jù)來自其所對應(yīng)的人臉圖像特征。

所述特征文件切片模塊中在進(jìn)行切片處理中將大的存有所有圖像特征的文件夾切片為多個小的存有部分圖像特征的文件夾。

所述特征文件切片模塊中的進(jìn)程數(shù)的多少是根據(jù)硬件系統(tǒng)設(shè)備的情況進(jìn)行選擇的。

深度學(xué)習(xí)提取的人臉特征維度低而且具有非常好的鑒別能力,一方面可以提高樣本的清洗精度,另一方面也可以節(jié)約清洗時間;多進(jìn)程并行設(shè)計(jì),能夠充分利用硬件運(yùn)算能力,從而提高整個運(yùn)算的效率,降低耗時;使用DBCAN聚類算法對人臉樣本進(jìn)行聚類,實(shí)現(xiàn)了非監(jiān)督式的人臉分類,同時基于DBSCAN密度聚類的原理,加上同一人臉在不同情況下保持相似的事實(shí),也提高了人臉分類的精確度,另一方面也能夠避免了需要人工干預(yù)導(dǎo)致的效率和精確度下降。

以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換和改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1