本發(fā)明屬于計(jì)算機(jī)視覺(jué)與人機(jī)交互技術(shù)領(lǐng)域,具體涉及一種基于人臉識(shí)別與手勢(shì)交互的電視娛樂(lè)系統(tǒng)。
背景技術(shù):
家庭娛樂(lè)關(guān)注的主要是客廳終端所承載的一系列信息交互和視聽(tīng)服務(wù)智能系統(tǒng)。重新定位客廳,讓客廳數(shù)字化是促進(jìn)家庭娛樂(lè)、家庭溝通的重點(diǎn)。
家庭用戶與數(shù)字化產(chǎn)品具有一切操作流程不順、信息內(nèi)容繁雜等問(wèn)題。為了使人與家庭娛樂(lè)產(chǎn)品的交流更加輕松,應(yīng)該充分調(diào)用人本身的各個(gè)感覺(jué)信息通道,如語(yǔ)音、手勢(shì)、肢體動(dòng)作等。
如今很多家庭消費(fèi)愿意投入在諸如運(yùn)動(dòng)休閑、兒童教育、購(gòu)物美容、陶冶情操等方面。家庭普遍認(rèn)為這些消費(fèi)有必要和有價(jià)值,愿意投入。這促進(jìn)了對(duì)家庭娛樂(lè)產(chǎn)品的需求,也大大促進(jìn)了相關(guān)產(chǎn)業(yè)的發(fā)展。
但當(dāng)前的家庭娛樂(lè)產(chǎn)品存在一些問(wèn)題。第一,娛樂(lè)產(chǎn)品沒(méi)有良好的標(biāo)識(shí)現(xiàn)代家庭用戶群;第二,家庭娛樂(lè)產(chǎn)品互動(dòng)性差;第三,家庭娛樂(lè)產(chǎn)品信息過(guò)載,感興趣的信息難以提??;第四,隨著用戶需求的不斷提升,傳統(tǒng)的遙控方案存在按鍵多操作復(fù)雜等影響用戶交互的弊端,用戶也越來(lái)越不滿足于這一傳統(tǒng)的交互方式。
技術(shù)實(shí)現(xiàn)要素:
為了克服現(xiàn)有技術(shù)存在的上述不足,本發(fā)提出一種基于人臉識(shí)別與手勢(shì)交互的電視娛樂(lè)系統(tǒng)與方法,以增加用戶體驗(yàn)。
本發(fā)明至少通過(guò)如下技術(shù)方案之一實(shí)現(xiàn)。
一種基于人臉識(shí)別與手勢(shì)交互的電視娛樂(lè)系統(tǒng),包括圖像采集模塊、手勢(shì)交互模塊、指令控制模塊、人臉識(shí)別模塊、個(gè)性化推薦模塊、界面系統(tǒng),其中,
圖像采集模塊,捕獲用戶在操作時(shí)做出的肢體動(dòng)作信息,并將所述肢體動(dòng)作信息轉(zhuǎn)化成動(dòng)態(tài)圖像序列;
手勢(shì)交互模塊,首先對(duì)圖像采集模塊獲得的圖像進(jìn)行預(yù)處理,分屏搜索和識(shí)別用戶手勢(shì),一旦識(shí)別到控制手勢(shì)便進(jìn)入手勢(shì)控制模式,結(jié)合背景建模排除相關(guān)類膚色影響,對(duì)手勢(shì)進(jìn)行膚色自適應(yīng)跟蹤;
人臉識(shí)別模塊,在用戶初始使用時(shí),通過(guò)網(wǎng)絡(luò)通信將人臉數(shù)據(jù)傳送至后臺(tái)服務(wù)器,調(diào)用人臉識(shí)別算法,判定用戶身份,判定結(jié)果用于個(gè)性化推薦模塊中確定相應(yīng)的用戶身份;
指令控制模塊,將手勢(shì)交互結(jié)果轉(zhuǎn)化為控制指令,結(jié)合界面系統(tǒng),為用戶提供趨勢(shì)控制、手勢(shì)鼠標(biāo)的自然手勢(shì)交互服務(wù);
個(gè)性化推薦模塊,利用臉識(shí)別模塊中的人臉識(shí)別結(jié)果,確定用戶身份,調(diào)用推薦算法,推薦用戶可能感興趣內(nèi)容,做到一對(duì)一的個(gè)性化推薦;
界面系統(tǒng),主要提供內(nèi)容展示、消息提示及用戶交互可視化過(guò)程,作為用戶操作的直接入口;
指令控制模塊還進(jìn)一步從界面系統(tǒng)中采集用戶行為數(shù)據(jù),為個(gè)性化推薦模塊提供依據(jù)。
進(jìn)一步地,所述系統(tǒng)采用 CS架構(gòu),包括客戶端與服務(wù)端,客戶端與服務(wù)端通過(guò)網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)的交換;
圖像采集模塊、手勢(shì)交互模塊、指令控制模塊、界面系統(tǒng)在物理上集成為客戶端;人臉識(shí)別模塊、個(gè)性化推薦模塊在物理上集成為服務(wù)端,通過(guò)網(wǎng)絡(luò)向客戶端提供內(nèi)容信息、人臉識(shí)別結(jié)果、個(gè)性化推薦結(jié)果。
進(jìn)一步地,所述系統(tǒng)客戶端平臺(tái)為嵌入式移動(dòng)平臺(tái)或者計(jì)算機(jī)平臺(tái),服務(wù)端平臺(tái)為計(jì)算機(jī)平臺(tái)。
進(jìn)一步地,所述圖像采集模塊為可拆卸安裝模塊,由用戶個(gè)人安裝在適當(dāng)位置。
進(jìn)一步地,所述手勢(shì)交互模塊搜索用戶手勢(shì)信息為分屏方式,對(duì)于每個(gè)圖像幀,只對(duì)圖像的一部分進(jìn)行搜索,在下一圖像幀中則搜索另一部分,如此反復(fù)。
進(jìn)一步地,所述人臉識(shí)別模塊的功能包括:依托于手勢(shì)交互模塊提供手勢(shì)位置,進(jìn)而確定用戶人臉位置;截取用戶人臉圖像,通過(guò)網(wǎng)絡(luò)與服務(wù)端數(shù)據(jù)庫(kù)存在人臉信息做配對(duì),獲取用戶身份;
截取用戶人臉圖像,通過(guò)網(wǎng)絡(luò)傳至服務(wù)端,對(duì)陌生人臉進(jìn)行注冊(cè),將陌生人臉信息存進(jìn)數(shù)據(jù)庫(kù),用于確定陌生人身份;所述個(gè)性化推薦模塊根據(jù)獲取的用戶身份,讀取該用戶在數(shù)據(jù)庫(kù)中的個(gè)性化推薦內(nèi)容,通過(guò)網(wǎng)絡(luò)傳至界面系統(tǒng),呈現(xiàn)給用戶。
進(jìn)一步地,所述人臉位置的確定包括:在圖像中確定的所有人臉位置中,選取距離手勢(shì)位置最近的人臉位置;所述對(duì)陌生人臉進(jìn)行注冊(cè)時(shí),截取用戶頭像,作為用戶身份的憑證;在確定用戶身份后的所有操作,指令控制模塊會(huì)將用戶的行為記錄下來(lái)并傳至服務(wù)端數(shù)據(jù)庫(kù)。
進(jìn)一步地,個(gè)性化模塊每天定時(shí)為所有注冊(cè)用戶生成推薦內(nèi)容,存儲(chǔ)在數(shù)據(jù)庫(kù)中。
進(jìn)一步地,手勢(shì)交互模塊的工作包括:
手勢(shì)交互模塊識(shí)別五指張開(kāi)手勢(shì),系統(tǒng)進(jìn)入控制模式;
手勢(shì)交互模塊識(shí)別手勢(shì)運(yùn)動(dòng)軌跡,并跟蹤其軌跡,實(shí)時(shí)反應(yīng)在對(duì)應(yīng)的指針元素圖像信號(hào);
手勢(shì)交互模塊識(shí)別握拳手勢(shì),指令控制模塊轉(zhuǎn)換控制指令,做出點(diǎn)擊操作;
手勢(shì)交互模塊識(shí)別揮手手勢(shì),指令控制模塊轉(zhuǎn)換控制指令,向左邊揮手做出頁(yè)面下翻操作,向右邊揮手做出頁(yè)面上翻操作;
手勢(shì)交互模塊識(shí)別搖手手勢(shì),指令控制模塊轉(zhuǎn)換控制指令,做出返回操作;
手勢(shì)交互模塊識(shí)別雙掌運(yùn)動(dòng)手勢(shì),識(shí)別到用戶兩個(gè)手掌,并反向移動(dòng),指令控制模塊轉(zhuǎn)換控制指令,做出放大操作,相向移動(dòng),指令控制模塊轉(zhuǎn)換控制指令,做出縮小操作。
與現(xiàn)有技術(shù)相比,本發(fā)明具有如下優(yōu)點(diǎn)和技術(shù)效果:
從上述技術(shù)方案可以看出,在通過(guò)對(duì)家庭娛樂(lè)的現(xiàn)狀進(jìn)行分析之后,根據(jù)家庭娛樂(lè)存在的問(wèn)題,提出兩個(gè)重要特點(diǎn)——人機(jī)交互與內(nèi)容推薦。
系統(tǒng)引入手勢(shì)操控,代替現(xiàn)有的遙控器與鼠標(biāo),提出一種在家庭娛樂(lè)中,自然的人機(jī)交 互方式。
系統(tǒng)創(chuàng)新性的在家庭娛樂(lè)中加入人臉識(shí)別功能, 通過(guò)識(shí)別家庭中使用者人臉,確定單一個(gè)體身份,可以實(shí)現(xiàn)一對(duì)一的個(gè)性化推薦,解決家庭娛樂(lè)產(chǎn)品中定位用戶群混亂,目標(biāo)人物模糊不清的情況。
最后,系統(tǒng)在提高家庭娛樂(lè)中操作舒適度與娛樂(lè)獨(dú)特性的同時(shí),相比國(guó)內(nèi)外家庭娛樂(lè)產(chǎn)品,降低了使用成本;只需一個(gè)普通 2D 攝像頭,接上互聯(lián)網(wǎng),即可享受優(yōu)質(zhì)交互娛樂(lè)服務(wù)。
本發(fā)明一種基于人臉識(shí)別與手勢(shì)交互的電視娛樂(lè)系統(tǒng)不限制表現(xiàn)形式,可以是作為計(jì)算機(jī)應(yīng)用軟件、電視機(jī)頂盒系統(tǒng)、電視內(nèi)部系統(tǒng)等。
附圖說(shuō)明
圖1為一種基于人臉識(shí)別與手勢(shì)交互的電視娛樂(lè)系統(tǒng)結(jié)構(gòu)示意圖;
圖2為一種基于人臉識(shí)別與手勢(shì)交互的電視娛樂(lè)系統(tǒng)手勢(shì)交互算法流程圖;
圖3為一種基于人臉識(shí)別與手勢(shì)交互的電視娛樂(lè)系統(tǒng)人臉識(shí)別算法流程圖;
圖4為一種基于人臉識(shí)別與手勢(shì)交互的電視娛樂(lè)系統(tǒng)推薦算法框架圖。
圖5為一種基于人臉識(shí)別與手勢(shì)交互的電視娛樂(lè)系統(tǒng)推薦算法流程圖。
具體實(shí)施方式
為使本領(lǐng)域技術(shù)人員更好地理解本發(fā)明的技術(shù)方案,下面結(jié)合附圖和具體實(shí)施方式對(duì)本發(fā)明的具體實(shí)施作進(jìn)一步詳細(xì)描述,需指出的是,以下若有未特別詳細(xì)說(shuō)明之處,均是本領(lǐng)域技術(shù)人員可參照現(xiàn)有技術(shù)實(shí)現(xiàn)的。
如圖1所示,該系統(tǒng)包括圖像采集模塊101、手勢(shì)交互模塊102、人臉識(shí)別模塊103和個(gè)性化推薦模塊104,其中:
圖像采集模塊101,捕獲用戶在操作本系統(tǒng)時(shí)做出的肢體動(dòng)作信息,并將所述肢體動(dòng)作信息轉(zhuǎn)化成動(dòng)態(tài)圖像序列;
手勢(shì)交互模塊102,首先對(duì)圖像采用平滑濾波、直方圖均衡等圖像預(yù)處理方法對(duì)上述圖像序列進(jìn)行預(yù)處理,主要通過(guò)已有的先驗(yàn)條件結(jié)合采集完整部分圖像來(lái)填補(bǔ)或?yàn)V除失真的噪聲部分,分屏搜索和識(shí)別用戶手勢(shì),一旦識(shí)別控制手勢(shì)便進(jìn)入手勢(shì)控制模式,結(jié)合背景建模排除相關(guān)類膚色影響,對(duì)手勢(shì)進(jìn)行膚色自適應(yīng)跟蹤;
上述手勢(shì)交互模塊102采用AdaBoost學(xué)習(xí)算法,具體為根據(jù)事先計(jì)算出的手勢(shì)樣本特征,再進(jìn)行分類器訓(xùn)練,從而得出識(shí)別結(jié)果。
具體手勢(shì)檢測(cè)和跟蹤算法流程圖如圖2所示。
(1)對(duì)固定手型位置的檢測(cè),實(shí)現(xiàn)對(duì)手勢(shì)初步定位、獲取手勢(shì)的信息和相關(guān)初始化,為后面的跟蹤與其他手勢(shì)提供足夠的信息。
(2)由檢測(cè)時(shí)提供的初始信息,結(jié)合運(yùn)動(dòng)信息和膚色信息并排除類膚色背景對(duì)手勢(shì)跟蹤的影響對(duì)視頻序列中的人手逐幀進(jìn)行跟蹤,獲得人手所在的位置信息。
(3)對(duì)步驟(2)中獲得的人手位置信息,獲取感興趣區(qū)域,使用固定手型檢測(cè)同樣的方 法進(jìn)行握拳檢測(cè),判斷用戶是否有點(diǎn)擊行為,并實(shí)現(xiàn)點(diǎn)擊功能。
(4)結(jié)合運(yùn)動(dòng)信息和膚色信息評(píng)價(jià)跟蹤所得的人手位置信息,判斷目標(biāo)是否跟蹤錯(cuò)誤。人臉識(shí)別模塊,在用戶初始使用時(shí),通過(guò)網(wǎng)絡(luò)通信將人臉數(shù)據(jù)傳送至后臺(tái)服務(wù)器,調(diào)用人臉識(shí)別算法,判定用戶身份,為推薦模塊奠定基礎(chǔ);
(5)在界面系統(tǒng)中,在步驟(1)的基礎(chǔ)上,通過(guò)判斷人手運(yùn)動(dòng)的軌跡方向,來(lái)判斷是否為搖手手勢(shì)及揮手手勢(shì),從而觸發(fā)返回及頁(yè)面上翻下翻功能;
(6)在特定的界面系統(tǒng)中,在步驟(1)的基礎(chǔ)上,檢測(cè)左手手勢(shì),并判斷雙手的運(yùn)動(dòng)軌跡方向,來(lái)判斷是否觸發(fā)放大縮小功能。
人臉識(shí)別模塊103,在用戶初始使用時(shí),通過(guò)網(wǎng)絡(luò)通信將人臉數(shù)據(jù)傳送至后臺(tái)服務(wù)器,調(diào)用人臉識(shí)別算法,判定用戶身份,為推薦模塊奠定基礎(chǔ);
上述人臉識(shí)別模塊103采用深度神經(jīng)網(wǎng)絡(luò)CNN改進(jìn)算法——CNN-SVM混合模型; CNN 作為自學(xué)習(xí)的特征提取器,從未經(jīng)處理的原始圖像中提取特征,SVM分類器識(shí)別然后輸出預(yù)測(cè)結(jié)果;
具體人臉識(shí)別算法流程圖如圖3所示。
(1)首先,輸入層是歸一化和人臉對(duì)齊后的輸入圖像。原始CNN的輸出層在多次交叉驗(yàn)證后直到訓(xùn)練過(guò)程收斂;
(2)然后,使用RBF核的SVM代替了原來(lái)的最后全連接層。將倒數(shù)第二層的CNN特征表達(dá)隱層的輸出作為SVM分類器的輸入;
(3)訓(xùn)練好SVM分類器后,則在SVM實(shí)現(xiàn)識(shí)別任務(wù),對(duì)CNN自動(dòng)抽取的特征做出分類決策。
個(gè)性化推薦模塊104,以人臉識(shí)別模塊中人臉識(shí)別為基石,確定用戶身份,調(diào)用推薦算法,推薦用戶可能感興趣內(nèi)容,做到一對(duì)一的個(gè)性化推薦;
具體推薦算法框架圖如圖4所示。
(1)判斷當(dāng)前數(shù)據(jù)庫(kù)用戶數(shù)目,若小于10,則啟動(dòng)冷啟動(dòng)處理方法,通過(guò)推薦一些熱門相關(guān)內(nèi)容給用戶;若大于10,則做下一步判別;
(2)當(dāng)用戶過(guò)往的行為數(shù)據(jù)不超過(guò)10條時(shí),認(rèn)為該用戶為新用戶,則根據(jù)該用戶過(guò) 往的行為數(shù)據(jù),推薦與其相關(guān)的熱門內(nèi)容,這一步融合了非個(gè)性化推與個(gè)性化推薦,可以達(dá)到較佳的效果;
(3)對(duì)步驟(2)中用戶的行為數(shù)據(jù)如果超過(guò)設(shè)定條數(shù)如10條,認(rèn)為該用戶具備有個(gè)性化推薦的條件,此時(shí)啟動(dòng)個(gè)性化推薦,這里使用多個(gè)推薦算法相融合的方法, 推薦過(guò)程如圖5所示。這里分別使用三種推薦算法做用戶-對(duì)象(User-Item)的推薦評(píng)分,并將評(píng)分歸一化到0~1之間,最后做加權(quán)融合,得到最后的推薦評(píng)分;三種推薦算法可以采用基于用戶的協(xié)同過(guò)濾算法(user-based collaboratIve filtering)、基于Item的協(xié)同過(guò)濾算法(item-based collaborative filtering)、PersonalRank算法。
最后根據(jù)得到的用戶-對(duì)象的推薦評(píng)分,選取評(píng)分TopN的對(duì)象,推薦給相應(yīng)的用戶,寫入相應(yīng)的推薦數(shù)據(jù)庫(kù)表。