專利名稱:基于識別模型的多神經(jīng)網(wǎng)絡(luò)結(jié)合的睜眼檢測方法
技術(shù)領(lǐng)域:
本發(fā)明涉及的是一種圖像處理技術(shù)領(lǐng)域的方法,具體的說,涉及的是一種基于識別模型的多神經(jīng)網(wǎng)絡(luò)結(jié)合的睜眼檢測方法。
背景技術(shù):
本發(fā)明提出的方法解決的問題是在得到人臉圖像后,如何識別其眼睛是否睜開。識別人是否睜眼的狀態(tài),可以廣泛應(yīng)用于各類智能交互系統(tǒng),如網(wǎng)絡(luò)遠(yuǎn)程教學(xué)中對學(xué)生注意力的檢測,汽車駕駛中對駕駛員注意力的檢測。然而光照、尺寸、姿態(tài)、眼鏡、眉毛等諸多因素的影響,使該項識別工作成為了一個極具挑戰(zhàn)性的任務(wù)。目前與眼睛相關(guān)的工作主要集中在對眼睛的定位上,即找出睜開或閉合眼睛的位置,主要方法是利用眼睛的先驗知識,如顏色信息、形狀信息、分布信息等,進(jìn)行特征提取,用訓(xùn)練樣本得到特征后,通過匹配特征進(jìn)而識別眼睛,完成定位工作。
經(jīng)對現(xiàn)有技術(shù)的文獻(xiàn)檢索發(fā)現(xiàn),文章Eye detection using color cues andprojection functions in Proc.2002Int.Conf.on Image Processing,2002,vol.3(采用顏色信息和投影函數(shù)的眼睛檢測方法,圖象處理2002年國際會議)提出先利用顏色信息找出皮膚區(qū)域,再在皮膚區(qū)域及其附近尋找眼睛,但是這種方法容易受到光照的影響。文章Detecting and tracking eye by using theirphysiological properties,dynamics and appearance in Proc.Of IEEE Conf.on Computer Vision and Pattern Recognition,2000,vol.1(利用生理特性的眼睛檢測和跟蹤方法,計算機視覺和模式識別2000年IEEE會議)說明了一種采用紅外照明的眼睛檢測方法,但是系統(tǒng)依賴于對外界其他物體紅外反射的限制。文章Robust eye extraction using deformable template and featuretracking ability in Proc.of the Joint Conf.of the Fourth Int.Conf.on Information,Communications and Signal Processing,and the FourthPacific Rim Conf.on Multimedia,2003,vol.3(采用可變模板和特征跟蹤的眼睛分割方法,第四屆信息、通信和信號處理和環(huán)太平洋多媒體聯(lián)合會議)將模板匹配應(yīng)用于眼睛檢測,然而模板匹配不但計算耗時長,而且與眼睛模板的選擇密切相關(guān)。由于真實世界的多樣性和多變性,即使是大量的訓(xùn)練樣本也無法涵蓋所有的情形。
發(fā)明內(nèi)容
本發(fā)明針對現(xiàn)有技術(shù)的不足,在借鑒人識別過程的基礎(chǔ)上,提出了一種識別模型,并在該模型基礎(chǔ)上,提供了一種基于識別模型的多神經(jīng)網(wǎng)絡(luò)結(jié)合的睜眼檢測方法,進(jìn)行有監(jiān)督的學(xué)習(xí),而無須大量的初始訓(xùn)練樣本,可以實現(xiàn)實時的睜眼檢測,并隨著不斷地學(xué)習(xí),檢測性能能得到持續(xù)提高。
本發(fā)明通過以下技術(shù)方案實現(xiàn)的,包括以下步驟A、人臉彩色圖像,通過二值化處理后,對連通區(qū)域進(jìn)行標(biāo)記,在人眼二值圖幾何模型的指導(dǎo)下,篩選連通的區(qū)域,得到可能的人眼區(qū)域。
B、對可能的人眼區(qū)域,進(jìn)行歸一化,再基于識別模型設(shè)計如下多神經(jīng)網(wǎng)絡(luò)結(jié)合的檢測器進(jìn)行檢測。即對可能的人眼區(qū)域,將其歸一化后的二值圖用訓(xùn)練過的徑向基神經(jīng)網(wǎng)絡(luò)(RBF)進(jìn)行識別,若識別到人眼則認(rèn)為檢測到睜眼。若沒有識別到人眼,則進(jìn)行下一步。
C、對可能的人眼區(qū)域,將其歸一化后的灰度圖用訓(xùn)練過的反向神經(jīng)網(wǎng)絡(luò)(BP)進(jìn)行識別,若沒有識別到人眼,則累計連續(xù)沒有檢測到睜眼的次數(shù),若沒有檢測到睜眼的次數(shù)大于6,則認(rèn)為沒有檢測到睜眼。若識別到人眼,則進(jìn)行下一步。
D、若未設(shè)置為有監(jiān)督學(xué)習(xí)狀態(tài),則認(rèn)為檢測到睜眼。若設(shè)置為有監(jiān)督學(xué)習(xí)狀態(tài),則與教師交互,詢問該區(qū)域是否是人眼。若回答是,則保存該人眼二值圖,重新訓(xùn)練徑向基神經(jīng)網(wǎng)絡(luò)。若回答否,則保存該人眼灰度圖,重新訓(xùn)練反向神經(jīng)網(wǎng)絡(luò)。
所述的在人眼二值圖幾何模型的指導(dǎo)下,篩選連通的區(qū)域,得到可能的人眼區(qū)域,是指利用人眼二值圖幾何模型的四類模式上下、左右、斜對和單獨模式,對所有的連通區(qū)域進(jìn)行篩選,留下符合四類模式之一的連通區(qū)域。
所述的識別模型,即輸入待識別物體,首先根據(jù)累積的記憶知識,判斷見過與否,若判斷見過則認(rèn)為識別,若未見過,則再根據(jù)累積的推理知識,判斷是否識別,若判斷不能識別,則認(rèn)為無法識別,若判斷識別,則進(jìn)行咨詢,得到是的回答后,則認(rèn)為識別,并更新記憶知識,得到否的回答后,則認(rèn)為無法識別,并更新推理知識。
所述的多神經(jīng)網(wǎng)絡(luò)結(jié)合,是指對可能的人眼區(qū)域,將其歸一化后的二值圖用訓(xùn)練過的徑向基神經(jīng)網(wǎng)絡(luò)進(jìn)行識別,若輸出與{0,1}的歐式距離大于0.06,則將可能人眼區(qū)域的灰度圖歸一化后,用訓(xùn)練過的反向神經(jīng)網(wǎng)絡(luò)進(jìn)行識別。
所述的徑向基神經(jīng)網(wǎng)絡(luò),是指由徑向基神經(jīng)元層和輸出層組成,輸入矢量通過徑向基神經(jīng)元計算后,再通過BP神經(jīng)元計算,得到最后的輸出。
所述的將其歸一化后的二值圖用訓(xùn)練過的徑向基神經(jīng)網(wǎng)絡(luò)進(jìn)行識別,是指對可能的人眼區(qū)域的二值圖做歸一化處理。將歸一化后的二值圖作為輸入,由徑向基神經(jīng)網(wǎng)絡(luò)的輸出判斷該區(qū)域是否睜開的人眼。
所述的將其歸一化后的灰度圖用訓(xùn)練過的反向神經(jīng)網(wǎng)絡(luò)進(jìn)行識別,是指對可能的人眼區(qū)域的灰度圖做歸一化處理。將歸一化后的灰度圖作為輸入,由反向神經(jīng)網(wǎng)絡(luò)的輸出判斷該區(qū)域是否睜開的人眼。
所述的有監(jiān)督學(xué)習(xí),即在識別過程中,與教師交互,詢問該區(qū)域是否是人眼,若回答是,則保存該人眼二值圖,自動重新訓(xùn)練徑向基神經(jīng)網(wǎng)絡(luò),若回答否,則保存該人眼灰度圖,自動重新訓(xùn)練反向神經(jīng)網(wǎng)絡(luò)。
本發(fā)明在所提出的識別模型基礎(chǔ)上,提出結(jié)合多神經(jīng)網(wǎng)絡(luò)的睜眼檢測方法,發(fā)揮了徑向基神經(jīng)網(wǎng)絡(luò)的“記憶”功能和反向神經(jīng)網(wǎng)絡(luò)的“推理”功能,無須大量的初始訓(xùn)練樣本,并隨著不斷地有監(jiān)督學(xué)習(xí),檢測性能可以得到持續(xù)提高。
圖1是本發(fā)明的邏輯結(jié)構(gòu)圖。
圖2是本發(fā)明中人眼二值圖幾何模型的示意圖。
其中,(a)為上下模式;(b)為左右模式;(c-1)、(c-2)為斜對模式;(d-1)、(d-2)為單獨模式。
圖3是本發(fā)明中識別模型的示意圖。
圖4是本發(fā)明中徑向基神經(jīng)網(wǎng)絡(luò)的示意圖。
圖5是本發(fā)明中反向神經(jīng)網(wǎng)絡(luò)的示意圖。
圖6是本發(fā)明中訓(xùn)練神經(jīng)網(wǎng)絡(luò)部分初始訓(xùn)練樣本的示意圖。
其中,(a-1)、(a-2)為徑向基神經(jīng)網(wǎng)絡(luò)的部分初始訓(xùn)練樣本;(b-1)、(b-2)為反向神經(jīng)網(wǎng)絡(luò)的部分初始訓(xùn)練樣本。
圖7是本發(fā)明實施例的一些睜眼檢測結(jié)果的示例圖。
具體實施例方式
以下結(jié)合附圖以及本發(fā)明技術(shù)方案提供實施例如圖1所示,人臉彩色圖像,首先進(jìn)行二值化處理,即通過最大類間方差法(OSTU)將圖像灰度值范圍改變?yōu)?和1。對連通區(qū)域進(jìn)行標(biāo)記,即將圖像中彼此左右、上下或斜向相鄰的灰度值為1的像素點,標(biāo)記為同一連通區(qū)域,從而得到一組備選區(qū)域。在人眼二值圖幾何模型如圖2的指導(dǎo)下,篩選備選區(qū)域,留下符合四類模式之一的連通區(qū)域,得到可能的人眼區(qū)域。再對可能的人眼區(qū)域,根據(jù)識別模型如圖3,設(shè)計如下多神經(jīng)網(wǎng)絡(luò)結(jié)合的檢測器進(jìn)行檢測。即對可能的人眼區(qū)域,將其歸一化后的二值圖用訓(xùn)練過的徑向基神經(jīng)網(wǎng)絡(luò)如圖4,進(jìn)行識別。歸一化即采用線性插值方法將圖像在尺寸上變化到寬36像素,高20像素的固定大小。若徑向基神經(jīng)網(wǎng)絡(luò)輸出與{0,1}的歐式距離小于0.06,則認(rèn)為該區(qū)域是睜開的人眼。若輸出與{0,1}的歐式距離大于0.06,則將可能人眼區(qū)域的灰度圖歸一化后,用訓(xùn)練過的反向神經(jīng)網(wǎng)絡(luò)如圖5,進(jìn)行識別?;叶葓D像素點的灰度值由彩色圖像對應(yīng)像素點計算得到0.299*紅+0.587*綠+0.114藍(lán)。若反向神經(jīng)網(wǎng)絡(luò)輸出與{0,1}的歐式距離大于0.01,則累計連續(xù)沒有檢測到睜眼的次數(shù),若沒有檢測到睜眼的次數(shù)大于6,則認(rèn)為沒有檢測到睜眼。若反向神經(jīng)網(wǎng)絡(luò)輸出與{0,1}的歐式距離小于0.01,且未設(shè)置有監(jiān)督學(xué)習(xí)狀態(tài),則認(rèn)為該區(qū)域是睜開的人眼。若反向神經(jīng)網(wǎng)絡(luò)輸出與{0,1}的歐式距離小于0.01,且設(shè)置了有監(jiān)督學(xué)習(xí)狀態(tài),則詢問教師,該可能的人眼區(qū)域是否是睜眼。若回答是,則將該區(qū)域的二值圖保存為學(xué)習(xí)樣本,自動重新訓(xùn)練徑向基神經(jīng)網(wǎng)絡(luò)。若回答否,則將該區(qū)域的灰度圖保存為學(xué)習(xí)樣本,自動重新訓(xùn)練反向神經(jīng)網(wǎng)絡(luò)。
如圖2所示,人眼二值圖幾何模型的四類模式上下、左右、斜對和單獨模式。上下模式,即兩個連通區(qū)域中心的水平距離小于其水平寬度和的二分之一,同時垂直距離大于其垂直高度和的二分之一,且小于其垂直高度和的二分之三。左右模式,即兩個連通區(qū)域中心的垂直距離小于其垂直高度和,同時水平距離大于其水平寬度和的二分之一,且小于其水平寬度和的四倍。斜對模式,即兩個連通區(qū)域中心的水平距離大于其水平寬度和的二分之一,且小于其水平寬度和的三倍,同時垂直距離大于其垂直高度和的二分之一,且小于其垂直高度和。單獨模式,即距離某連通區(qū)域中心的水平距離為1.4倍其水平寬度的位置,存在與該連通區(qū)域類似的區(qū)域。與該連通區(qū)域類似的區(qū)域,即區(qū)域中灰度值為1的對應(yīng)像素點占該連通區(qū)域中所有灰度值為1的像素點的比例大于90%。
如圖3所示,輸入待識別物體,首先根據(jù)累積的記憶知識,判斷見過與否,若判斷見過則認(rèn)為可以識別。若未見過,則再根據(jù)累積的推理知識,判斷是否可以識別,若判斷不能識別,則認(rèn)為無法識別。若判斷可以識別,則進(jìn)行咨詢,得到是的回答后,則認(rèn)為可以識別,并更新記憶知識。得到否的回答后,則認(rèn)為無法識別,并更新推理知識。
如圖4所示,徑向基神經(jīng)網(wǎng)絡(luò)由徑向基神經(jīng)元層和輸出層組成。輸入矢量通過徑向基神經(jīng)元計算后,再通過BP神經(jīng)元計算,得到最后的輸出。徑向基神經(jīng)網(wǎng)絡(luò)的輸出設(shè)計為代表未檢測到睜眼的{1,0}和代表檢測到睜眼的{0,1}。學(xué)習(xí)參數(shù)為0.8,學(xué)習(xí)閾值為0.06。
如圖5所示,反向神經(jīng)網(wǎng)絡(luò)由隱層和輸出層組成。輸入矢量通過隱層的BP神經(jīng)元計算后,再通過輸出層的BP神經(jīng)元計算,得到最后的輸出。反向神經(jīng)網(wǎng)絡(luò)的輸出設(shè)計為代表未檢測到睜眼的{1,0}和代表檢測到睜眼的{0,1}。隱層神經(jīng)元數(shù)目為60,學(xué)習(xí)參數(shù)為0.8,學(xué)習(xí)閾值為0.01。
如圖6所示,訓(xùn)練徑向基神經(jīng)網(wǎng)絡(luò)和反向神經(jīng)網(wǎng)絡(luò)的部分初始訓(xùn)練樣本。(a-1)為徑向基神經(jīng)網(wǎng)絡(luò)部分初始的人眼訓(xùn)練樣本;(a-2)為徑向基神經(jīng)網(wǎng)絡(luò)部分初始的非人眼訓(xùn)練樣本。(b-1)為反向神經(jīng)網(wǎng)絡(luò)部分初始的人眼訓(xùn)練樣本;(b-2)為反向神經(jīng)網(wǎng)絡(luò)部分初始的非人眼訓(xùn)練樣本。
如圖7所示,本發(fā)明實施例的一些睜眼檢測結(jié)果示例。檢測到睜眼后,用紅色的矩形框表示睜眼所在的區(qū)域。
由以上實施例可知本發(fā)明無須大量的初始訓(xùn)練樣本,可以實現(xiàn)實時的睜眼檢測,并隨著不斷地學(xué)習(xí),檢測性能能得到持續(xù)提高。
權(quán)利要求
1.一種基于識別模型的多神經(jīng)網(wǎng)絡(luò)結(jié)合的睜眼檢測方法,其特征在于,包括以下步驟A、人臉彩色圖像,通過二值化處理后,對連通區(qū)域進(jìn)行標(biāo)記,在人眼二值圖幾何模型的指導(dǎo)下,篩選連通的區(qū)域,得到可能的人眼區(qū)域;B、對可能的人眼區(qū)域,基于識別模型設(shè)計多神經(jīng)網(wǎng)絡(luò)結(jié)合的檢測器進(jìn)行檢測,即對可能的人眼區(qū)域,將其歸一化后的二值圖用訓(xùn)練過的徑向基神經(jīng)網(wǎng)絡(luò)進(jìn)行識別,若識別到人眼則認(rèn)為檢測到睜眼,若沒有識別到人眼,則進(jìn)行下一步;C、對可能的人眼區(qū)域,將其歸一化后的灰度圖用訓(xùn)練過的反向神經(jīng)網(wǎng)絡(luò)進(jìn)行識別,若沒有識別到人眼,則累計連續(xù)沒有檢測到睜眼的次數(shù),若沒有檢測到睜眼的次數(shù)大于6,則認(rèn)為沒有檢測到睜眼,若識別到人眼,則進(jìn)行下一步;D、若未設(shè)置為有監(jiān)督學(xué)習(xí)狀態(tài),則認(rèn)為檢測到睜眼,若設(shè)置為有監(jiān)督學(xué)習(xí)狀態(tài),則與教師交互,進(jìn)行有監(jiān)督學(xué)習(xí)。
2.根據(jù)權(quán)利要求1所述的基于識別模型的多神經(jīng)網(wǎng)絡(luò)結(jié)合的人眼檢測方法,其特征是,所述的在人眼二值圖幾何模型的指導(dǎo)下,篩選連通的區(qū)域,得到可能的人眼區(qū)域,是指利用人眼二值圖幾何模型的四類模式上下、左右、斜對和單獨模式,對所有的連通區(qū)域進(jìn)行篩選,留下符合四類模式之一的連通區(qū)域。
3.根據(jù)權(quán)利要求2所述的基于識別模型的多神經(jīng)網(wǎng)絡(luò)結(jié)合的人眼檢測方法,其特征是,所述的人眼二值圖幾何模型的四類模式上下、左右、斜對和單獨模式,具體為上下模式,即兩個連通區(qū)域中心的水平距離小于其水平寬度和的二分之一,同時垂直距離大于其垂直高度和的二分之一,且小于其垂直高度和的二分之三;左右模式,即兩個連通區(qū)域中心的垂直距離小于其垂直高度和,同時水平距離大于其水平寬度和的二分之一,且小于其水平寬度和的四倍;斜對模式,即兩個連通區(qū)域中心的水平距離大于其水平寬度和的二分之一,且小于其水平寬度和的三倍,同時垂直距離大于其垂直高度和的二分之一,且小于其垂直高度和;單獨模式,即距離某連通區(qū)域中心的水平距離為1.4倍其水平寬度的位置,存在與該連通區(qū)域類似的區(qū)域;與該連通區(qū)域類似的區(qū)域,即區(qū)域中灰度值為1的對應(yīng)像素點占該連通區(qū)域中所有灰度值為1的像素點的比例大于90%。
4.根據(jù)權(quán)利要求1所述的基于識別模型的多神經(jīng)網(wǎng)絡(luò)結(jié)合的人眼檢測方法,其特征是,所述的將其歸一化后的二值圖用訓(xùn)練過的徑向基神經(jīng)網(wǎng)絡(luò)進(jìn)行識別,是指對可能的人眼區(qū)域的二值圖做歸一化處理,將歸一化后的二值圖作為輸入,由徑向基神經(jīng)網(wǎng)絡(luò)的輸出判斷該區(qū)域是否睜開的人眼。
5.根據(jù)權(quán)利要求1所述的基于識別模型的多神經(jīng)網(wǎng)絡(luò)結(jié)合的人眼檢測方法,其特征是,所述的將其歸一化后的灰度圖用訓(xùn)練過的反向神經(jīng)網(wǎng)絡(luò)進(jìn)行識別,是指對可能的人眼區(qū)域的灰度圖做歸一化處理,將歸一化后的灰度圖作為輸入,由反向神經(jīng)網(wǎng)絡(luò)的輸出判斷該區(qū)域是否睜開的人眼。
6.根據(jù)權(quán)利要求1所述的基于識別模型的多神經(jīng)網(wǎng)絡(luò)結(jié)合的人眼檢測方法,其特征是,所述的識別模型,即輸入待識別物體,首先根據(jù)累積的記憶知識,判斷見過與否,若判斷見過則認(rèn)為識別,若未見過,則再根據(jù)累積的推理知識,判斷是否識別,若判斷不能識別,則認(rèn)為無法識別,若判斷識別,則進(jìn)行咨詢,得到是的回答后,則認(rèn)為識別,并更新記憶知識,得到否的回答后,則認(rèn)為無法識別,并更新推理知識。
7.根據(jù)權(quán)利要求1所述的基于識別模型的多神經(jīng)網(wǎng)絡(luò)結(jié)合的人眼檢測方法,其特征是,所述的多神經(jīng)網(wǎng)絡(luò)結(jié)合,是指對可能的人眼區(qū)域,將其歸一化后的二值圖用訓(xùn)練過的徑向基神經(jīng)網(wǎng)絡(luò)進(jìn)行識別,若輸出與{0,1}的歐式距離大于0.06,則將可能人眼區(qū)域的灰度圖歸一化后,用訓(xùn)練過的反向神經(jīng)網(wǎng)絡(luò)進(jìn)行識別。
8.根據(jù)權(quán)利要求1或者7所述的基于識別模型的多神經(jīng)網(wǎng)絡(luò)結(jié)合的人眼檢測方法,其特征是,所述的徑向基神經(jīng)網(wǎng)絡(luò),是指由徑向基神經(jīng)元層和輸出層組成,輸入矢量通過徑向基神經(jīng)元計算后,再通過BP神經(jīng)元計算,得到最后的輸出。
9.根據(jù)權(quán)利要求1所述的基于識別模型的多神經(jīng)網(wǎng)絡(luò)結(jié)合的人眼檢測方法,其特征是,所述的有監(jiān)督學(xué)習(xí),即在識別過程中,與教師交互,詢問該區(qū)域是否是人眼,若回答是,則保存該人眼二值圖,自動重新訓(xùn)練徑向基神經(jīng)網(wǎng)絡(luò),若回答否,則保存該人眼灰度圖,自動重新訓(xùn)練反向神經(jīng)網(wǎng)絡(luò)。
全文摘要
一種基于識別模型的多神經(jīng)網(wǎng)絡(luò)結(jié)合的睜眼檢測方法,屬于圖像處理領(lǐng)域。本發(fā)明包括A、二值化后標(biāo)記連通區(qū)域,根據(jù)人眼二值圖幾何模型,篩選可能區(qū)域。B、基于識別模型設(shè)計多神經(jīng)網(wǎng)絡(luò)結(jié)合的檢測器。即將二值圖用徑向基神經(jīng)網(wǎng)絡(luò)識別,若識別則檢測到睜眼,若沒有,則進(jìn)行下一步。C、將灰度圖用反向神經(jīng)網(wǎng)絡(luò)識別,若未識別,則累計次數(shù),若次數(shù)大于6,則未檢測到睜眼。若識別,則進(jìn)行下一步。D、若未設(shè)置學(xué)習(xí)狀態(tài),則檢測到睜眼,若設(shè)置,則向教師詢問該區(qū)域是否人眼,若是,則保存二值圖,重新訓(xùn)練徑向基神經(jīng)網(wǎng)絡(luò);若否,則保存灰度圖,重新訓(xùn)練反向神經(jīng)網(wǎng)絡(luò)。本發(fā)明無須大量的初始訓(xùn)練樣本,隨著不斷地有監(jiān)督學(xué)習(xí),檢測性能持續(xù)提高。
文檔編號G06K9/62GK1818930SQ20061002497
公開日2006年8月16日 申請日期2006年3月23日 優(yōu)先權(quán)日2006年3月23日
發(fā)明者陳剛, 申瑞民, 王加俊, 申麗萍, 許世峰, 曾義 申請人:上海交通大學(xué)