亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

使用多種線索對(duì)多個(gè)人的自動(dòng)探測(cè)和追蹤的制作方法

文檔序號(hào):7941237閱讀:450來(lái)源:國(guó)知局
專利名稱:使用多種線索對(duì)多個(gè)人的自動(dòng)探測(cè)和追蹤的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及影像和/或音頻處理,和/或計(jì)算機(jī)視覺(jué),尤其是涉及對(duì)多個(gè)人的自動(dòng)探測(cè)和追蹤。
背景技術(shù)
分析視頻數(shù)據(jù)的系統(tǒng)變得越來(lái)越流行了。視頻會(huì)議系統(tǒng)就是這種系統(tǒng)的實(shí)例——它們?cè)试S進(jìn)行視覺(jué)互動(dòng)的會(huì)議,盡管與會(huì)者可能位于不同的地理位置。典型情況下,視頻會(huì)議的視覺(jué)方面使它比電話會(huì)議更加引人入勝,而同時(shí)與一個(gè)或多個(gè)參加者必須旅行到會(huì)議地點(diǎn)才能親自到會(huì)相比,這也是花銷更低的一種替代形式(典型情況下,也能夠以更短的通知來(lái)實(shí)現(xiàn))。
某些當(dāng)前的視頻會(huì)議系統(tǒng)使用自動(dòng)的基于音頻的探測(cè)技術(shù)和/或預(yù)置來(lái)移動(dòng)攝像頭(例如使攝像頭搖攝或俯仰)。然而,當(dāng)前的視頻會(huì)議系統(tǒng)存在著許多問(wèn)題。一個(gè)這樣的問(wèn)題是,基于音頻的發(fā)言者探測(cè)技術(shù)的準(zhǔn)確度不高。另外,典型情況下,視頻會(huì)議系統(tǒng)不知道會(huì)場(chǎng)上有多少參加者(包括參加者進(jìn)入或離開(kāi)會(huì)場(chǎng)時(shí))、參加者位于何處(坐或立)以及哪個(gè)參加者正在發(fā)言。雖然某些系統(tǒng)可以手工設(shè)定參加者的信息(例如參加者的數(shù)目及其位置),但是這就需要用戶進(jìn)入設(shè)定的信息范圍,它勢(shì)必限制與會(huì)者在房間內(nèi)移動(dòng)的能力,以及與會(huì)者加入會(huì)議的能力。
本文中介紹的多個(gè)人的自動(dòng)探測(cè)和追蹤,有助于解決這些和其它的問(wèn)題。

發(fā)明內(nèi)容
本文介紹多個(gè)人的自動(dòng)探測(cè)和追蹤。
一方面,接收內(nèi)容(例如音頻和/或視頻)的一幀,并且在該幀中為了一個(gè)新的面孔區(qū)域而確認(rèn)一個(gè)或多個(gè)候選區(qū)域。然后使用分級(jí)驗(yàn)證法來(lái)驗(yàn)證某個(gè)人的面孔是否在候選區(qū)域中,如果分級(jí)驗(yàn)證法驗(yàn)證了一個(gè)人的面孔是在候選區(qū)域中,就產(chǎn)生該候選區(qū)域包括一張面孔的一個(gè)標(biāo)記。驗(yàn)證了區(qū)域之后,在內(nèi)容中一幀一幀地使用多個(gè)線索來(lái)追蹤每個(gè)驗(yàn)證后的面孔。
一方面,在這種探測(cè)和追蹤的框架中有三個(gè)主要的模塊自動(dòng)初始化模塊、分級(jí)驗(yàn)證模塊和多線索追蹤模塊。由自動(dòng)初始化模塊來(lái)接收內(nèi)容(例如音頻和/或視頻)的一幀,并且在該幀中為了一個(gè)新的面孔(或其它目標(biāo))區(qū)域而確認(rèn)一個(gè)或多個(gè)候選區(qū)域。然后使用分級(jí)驗(yàn)證模塊驗(yàn)證某個(gè)人的面孔是否在候選區(qū)域中,如果分級(jí)驗(yàn)證模塊驗(yàn)證了一個(gè)人的面孔是在候選區(qū)域中,就產(chǎn)生該候選區(qū)域包括一張面孔的一個(gè)標(biāo)記。區(qū)域經(jīng)過(guò)驗(yàn)證之后,多線索追蹤模塊在內(nèi)容中一幀一幀地使用多個(gè)線索來(lái)追蹤每個(gè)驗(yàn)證后的面孔。在整個(gè)追蹤過(guò)程中,被追蹤的面孔由分級(jí)驗(yàn)證模塊持續(xù)地驗(yàn)證。如果置信度水平高,多線索追蹤模塊就保持該面孔的追蹤;如果置信度變低了,就終止特定面孔的追蹤。追蹤模塊和驗(yàn)證模塊等待初始化模塊供應(yīng)更多的候選區(qū)域。
附圖簡(jiǎn)要說(shuō)明本文檔中自始至終使用同樣的號(hào)碼表示類似的組件和/或特性。


圖1展示了一種示范環(huán)境,其中能夠使用穩(wěn)健的自動(dòng)確認(rèn)和追蹤。
圖2展示了另一種示范環(huán)境,其中能夠使用穩(wěn)健的自動(dòng)確認(rèn)和追蹤。
圖3展示了使用穩(wěn)健的自動(dòng)確認(rèn)和追蹤的一種示范系統(tǒng)。
圖4是一個(gè)流程圖,展示了一個(gè)示范過(guò)程,用于為新的面孔區(qū)域探測(cè)候選區(qū)域。
圖5是一個(gè)流程圖,展示了一個(gè)示范過(guò)程,使用基于運(yùn)動(dòng)的初始化,為新的面孔區(qū)域確認(rèn)候選區(qū)域。
圖6展示了視頻內(nèi)容的一幀的一個(gè)示范影像。
圖7是一個(gè)流程圖,展示了一個(gè)示范過(guò)程,用于執(zhí)行分級(jí)驗(yàn)證。
圖8展示了一個(gè)示范過(guò)程,用于基于色彩的快速驗(yàn)證。
圖9是一個(gè)流程圖,展示了一個(gè)示范過(guò)程,用于執(zhí)行多線索追蹤。
圖10更詳細(xì)地展示了一個(gè)示范的模擬和比較,用于多線索追蹤。
圖11是一個(gè)影像,展示了區(qū)域平滑的概念。
圖12展示了從圖11測(cè)出的亮度。
圖13展示了圖形匹配距離的一種示范計(jì)算。
圖14展示了對(duì)某個(gè)目標(biāo)從一幀到下一幀的示范追蹤。
圖15是一個(gè)流程圖,展示了一個(gè)示范的無(wú)氣味微粒濾波器過(guò)程。
圖16展示了一種示范的多話筒環(huán)境。
圖17展示了一種示范的通用計(jì)算機(jī)環(huán)境。
具體實(shí)施例方式
本文介紹對(duì)多個(gè)人的自動(dòng)探測(cè)和追蹤。分析視頻內(nèi)容和/或音頻內(nèi)容,以自動(dòng)探測(cè)內(nèi)容的各幀中的個(gè)人。一旦探測(cè)到,就在后續(xù)的幀中自動(dòng)追蹤這些人。如果對(duì)某個(gè)人的追蹤中斷了,就再次自動(dòng)探測(cè)這個(gè)人,并恢復(fù)對(duì)這個(gè)人的追蹤。
圖1和圖2展示了示范的環(huán)境,其中能夠使用穩(wěn)健的自動(dòng)確認(rèn)和追蹤。在圖1中,多(n)個(gè)視頻會(huì)議系統(tǒng)102能夠相互對(duì)一個(gè)或多個(gè)進(jìn)行音頻和/或視頻內(nèi)容的通信。在視頻會(huì)議系統(tǒng)102中可以使用為數(shù)眾多的不同攝像頭系統(tǒng),比如常規(guī)的搖攝/俯仰/變焦攝像頭、360度全景攝像頭(例如能夠數(shù)字地而不是機(jī)械地?fù)u攝/俯仰/變焦的攝像頭)等等。一種這樣的360度全景攝像頭系統(tǒng)使用一個(gè)指向拋物線鏡面設(shè)備的攝像頭,然后使用多種標(biāo)定技術(shù)消除影像的扭曲,獲得若干正常的影像,由這些影像能夠構(gòu)造攝像頭周圍的360度全向影像。這種360度全景攝像頭系統(tǒng)的一個(gè)實(shí)例,可以參見(jiàn)發(fā)明者Yong Rui、Anoop Gupta、Johnathan J.Cadiz和Ross G.Cutler 2001年6月14日提交的、標(biāo)題為“Automated Online Broadcasting System andMethod Using an Omni-Directional Camera System for ViewingMeetings Over a Computer Network”的待批準(zhǔn)美國(guó)專利申請(qǐng)書(shū)09/681843號(hào)。另一種這樣的360度全景攝像頭系統(tǒng)使用多個(gè)攝像頭(每一個(gè)都具有小于360度的視野),其排列方式使它們能夠一起提供接近360度的視野。
會(huì)議系統(tǒng)102中的每一個(gè)都包括追蹤模塊104,它穩(wěn)健地自動(dòng)探測(cè)和追蹤在對(duì)應(yīng)系統(tǒng)102的多個(gè)人。這種探測(cè)和追蹤能夠用于多種目的,比如使攝像頭俯仰/搖攝/變焦、突出某個(gè)人(例如采用一個(gè)箭頭指向這個(gè)人或者采用一個(gè)圓圈圍繞這個(gè)人)等等。
視頻會(huì)議系統(tǒng)102能夠以為數(shù)眾多的方式中的任何一種連接在一起。例如,可以使用一條或多條電話線路(包括數(shù)字線路,比如ISDN),將多個(gè)系統(tǒng)102連接在一起,或者直接連接,或者通過(guò)某個(gè)中心設(shè)備或位置,可以使用常規(guī)的數(shù)據(jù)網(wǎng)絡(luò)(例如因特網(wǎng)、內(nèi)聯(lián)網(wǎng)等等)將多個(gè)系統(tǒng)102連接在一起,等等。
在圖2中,系統(tǒng)112包括追蹤模塊114,它接收內(nèi)容116。典型情況下,內(nèi)容116是音頻/視頻內(nèi)容,但是也可能包括其它類型的內(nèi)容(例如共享的白板等等)以及/或者可能不包括音頻內(nèi)容或視頻內(nèi)容。追蹤模塊114分析內(nèi)容116,并根據(jù)內(nèi)容116中多個(gè)人的影像和/或音頻,穩(wěn)健地自動(dòng)探測(cè)和追蹤這些人。能夠以為數(shù)眾多的方式中的任何一種,使內(nèi)容116可為系統(tǒng)112可用,比如系統(tǒng)112的攝像頭和話筒、記錄著內(nèi)容的記錄介質(zhì)(例如磁帶、光盤(pán)等)、電話線路或網(wǎng)絡(luò)輸入等等。
圖3展示了使用穩(wěn)健的自動(dòng)確認(rèn)和追蹤的一種示范系統(tǒng)130。系統(tǒng)130可能是——例如——圖1的視頻會(huì)議系統(tǒng)102或者圖2的系統(tǒng)112中的任何一種。系統(tǒng)130包括探測(cè)和追蹤模塊132、通信模塊134、音頻捕捉模塊136和視頻捕捉模塊138。還可以包括多種其它模塊(未顯示),比如白板捕捉模塊。通信模塊134管理系統(tǒng)130與其它系統(tǒng)的通信,比如其它的、圖1的視頻會(huì)議系統(tǒng)102,或者可以從其接收要分析之內(nèi)容的其它設(shè)備。通信模塊134能夠支持為數(shù)眾多的常規(guī)的和/或?qū)S械膮f(xié)議。
在系統(tǒng)130中,音頻捕捉模塊136管理音頻內(nèi)容的捕捉,比如通過(guò)一個(gè)或多個(gè)話筒(未顯示)——系統(tǒng)130的一部分。還可以進(jìn)行進(jìn)一步的處理(例如使用聲束形成技術(shù))以提高音頻的質(zhì)量。音頻內(nèi)容轉(zhuǎn)換為數(shù)字格式(如果需要)并使探測(cè)和追蹤模塊132可用它來(lái)追蹤。在系統(tǒng)130中,視頻捕捉模塊138管理視頻內(nèi)容的捕捉,比如通過(guò)一個(gè)或多個(gè)視頻捕捉設(shè)備(例如模擬或數(shù)字視頻攝像頭(未顯示))——系統(tǒng)130的一部分(可能包括——例如——固定攝像頭、常規(guī)的搖攝/俯仰/變焦攝像頭、360度全景攝像頭等等)。然后,捕捉的視頻內(nèi)容幀轉(zhuǎn)換為數(shù)字格式(如果需要)并使探測(cè)和追蹤模塊132可用它來(lái)探測(cè)和追蹤若干個(gè)人。音頻和視頻內(nèi)容相互相關(guān)(例如在捕捉的時(shí)間),因此對(duì)于內(nèi)容的任何特定部位(例如某幀),視頻和音頻內(nèi)容都是已知的。在另一個(gè)實(shí)施例中,可能不包括模塊134、136和138中的一個(gè)或多個(gè)。例如,系統(tǒng)可能不包括或者視頻捕捉模塊138,或者音頻捕捉模塊136。
探測(cè)和追蹤模塊132包括自動(dòng)初始化模塊140、分級(jí)驗(yàn)證模塊142、多線索追蹤模塊144和面孔/候選區(qū)域追蹤列表146。探測(cè)和追蹤模塊132自動(dòng)探測(cè)視頻內(nèi)容中包括或者可能包括人面孔的若干區(qū)域,并使用多種線索來(lái)追蹤探測(cè)到的區(qū)域。探測(cè)和追蹤模塊132能夠探測(cè)包括面孔和面孔候選區(qū)域的多個(gè)區(qū)域,并且同時(shí)追蹤這些區(qū)域。
探測(cè)和追蹤模塊132分析內(nèi)容的部位,比如幀。例如,典型情況下視頻內(nèi)容捕捉為每秒若干幀(例如靜止影像)(典型情況下在每秒15-60幀的量級(jí),盡管可以使用其它速率)。這些視頻幀,以及對(duì)應(yīng)的音頻內(nèi)容(例如每1/15至1/60秒的音頻數(shù)據(jù))用作模塊132探測(cè)和追蹤所用的幀。記錄音頻時(shí),典型情況下音頻的采樣率比視頻高得多(例如盡管對(duì)于視頻每秒可能捕捉15至60幅影像,卻可能要捕捉數(shù)千個(gè)音頻樣點(diǎn))。這些音頻樣點(diǎn)可能以各種不同的方式對(duì)應(yīng)于視頻中特定的一幀。例如,從捕捉某視頻幀到捕捉下一視頻幀之間的音頻樣點(diǎn),可以是對(duì)應(yīng)于該視頻幀的音頻幀。通過(guò)另一個(gè)實(shí)例,以視頻捕捉幀為中心時(shí)間的音頻樣點(diǎn),可以是對(duì)應(yīng)于該視頻幀的音頻幀(例如,以每秒30幀捕捉視頻,音頻幀的范圍可能是從捕捉視頻幀之前的1/60秒至捕捉視頻幀之后的1/60秒)。
此外,在某些情況下可能沒(méi)有視頻內(nèi)容。在這些情況下,就能夠以為數(shù)眾多的方式,由采樣后的音頻產(chǎn)生音頻內(nèi)容的幀。例如,每1/30秒或1/60秒的音頻樣點(diǎn)可以組成音頻內(nèi)容的幀。
在某些情況下,音頻內(nèi)容可能包括并不直接對(duì)應(yīng)于視頻內(nèi)容的數(shù)據(jù)。例如,音頻內(nèi)容可能是音樂(lè)的音軌,而不是視頻內(nèi)容中人們的語(yǔ)音。在這些情況下,本文中介紹的探測(cè)和追蹤依賴于視頻內(nèi)容,而無(wú)需音頻內(nèi)容。
雖然本文的主要討論是關(guān)于使用視頻和音頻內(nèi)容,但是探測(cè)和追蹤模塊132也可以僅僅根據(jù)視頻內(nèi)容或者僅僅根據(jù)音頻內(nèi)容而操作。在沒(méi)有音頻內(nèi)容的情況下,就不執(zhí)行下面討論的處理音頻內(nèi)容的過(guò)程。同樣,在沒(méi)有視頻內(nèi)容的情況下,就不執(zhí)行下面討論的處理視頻內(nèi)容的過(guò)程。
面孔/候選區(qū)域追蹤列表146保持的信息用于每個(gè)探測(cè)的區(qū)域,其中包括或者可能包括某個(gè)人的面孔。這些可能包括某個(gè)面孔但是面孔的存在尚未驗(yàn)證的區(qū)域,被稱為候選區(qū)域。在展示的實(shí)例中,由中心坐標(biāo)148、邊界框150、追蹤持續(xù)時(shí)間152和上次驗(yàn)證后的時(shí)間154來(lái)描述每個(gè)區(qū)域。由一個(gè)中心坐標(biāo)和一個(gè)邊界框,來(lái)規(guī)定包括若干面孔或面孔候選者的視頻內(nèi)容區(qū)域。中心坐標(biāo)148表示該區(qū)域的近似中心,而邊界框150表示圍繞該中心坐標(biāo)的矩形區(qū)域。這個(gè)矩形區(qū)域就是包括某個(gè)面孔或面孔候選者、并被探測(cè)和追蹤模塊132追蹤的區(qū)域。追蹤持續(xù)時(shí)間152表示該區(qū)域中的面孔或面孔候選者已經(jīng)被追蹤了多長(zhǎng)時(shí)間,而上次驗(yàn)證后的時(shí)間154表示多長(zhǎng)時(shí)間以前該區(qū)域中的面孔或面孔候選者被(驗(yàn)證模塊142)驗(yàn)證過(guò)(如下面更詳細(xì)的討論)。
如列表146中所展示的、描述每個(gè)區(qū)域的信息僅僅是示意性的,也可以使用多種其它信息。例如,可能不包括中心坐標(biāo)148。通過(guò)另一個(gè)實(shí)例,可以使用不同于矩形的區(qū)域形狀,比如圓、橢圓、三角形、五邊形、六邊形或者不規(guī)則的形狀。
追蹤列表146既記錄著若干面孔,又記錄著若干面孔候選者,它們能夠以多種方式相互區(qū)分。例如,可以保持兩個(gè)字列表(一個(gè)確認(rèn)面孔,另一個(gè)確認(rèn)面孔候選者),或者可以增加另外的字段以便把每個(gè)字段標(biāo)示為面孔或面孔候選者,或者可能是在上次驗(yàn)證后的時(shí)間154中固有的(例如,若是這個(gè)值為空格,就表示該區(qū)域尚未被驗(yàn)證為包括某個(gè)面孔,因此為面孔候選者)。另外,也可以包括多個(gè)列表,而不是單一的列表146(例如,一個(gè)列表用于面孔,另一個(gè)列表用于面孔候選者)。
在運(yùn)行期間,探測(cè)和追蹤模塊132一幀一幀地分析內(nèi)容。對(duì)于每一幀,模塊132激活自動(dòng)初始化模塊140,它用于為新的面孔區(qū)域探測(cè)候選者。每個(gè)這樣的候選者都是視頻內(nèi)容的某個(gè)區(qū)域,它可能包括某個(gè)新的面孔(換句話說(shuō),某個(gè)目前還沒(méi)有被追蹤的面孔)。一旦探測(cè)到,一個(gè)候選區(qū)域就傳遞到分級(jí)驗(yàn)證模塊142,它接著驗(yàn)證候選區(qū)域是否確實(shí)包括一個(gè)面孔。分級(jí)驗(yàn)證模塊142為每個(gè)候選區(qū)域產(chǎn)生一個(gè)置信度水平,并且如果置信度水平超過(guò)某個(gè)閾值,就確定保持該候選區(qū)域作為一個(gè)面孔區(qū)域,在追蹤列表146中增加該區(qū)域的一個(gè)描述。如果置信度水平不超過(guò)該閾值,分級(jí)驗(yàn)證模塊142就放棄該候選區(qū)域。
多線索追蹤模塊144對(duì)追蹤列表146中已確認(rèn)之區(qū)域中的每一個(gè)進(jìn)行追蹤。追蹤模塊144使用多種視覺(jué)線索,在內(nèi)容中一幀一幀地追蹤若干區(qū)域。被追蹤區(qū)域中的面孔中的每一個(gè),都是某個(gè)人的至少一個(gè)部位的影像。典型情況下,在產(chǎn)生該內(nèi)容時(shí)人們能夠移動(dòng),比如站起、坐下、走動(dòng)、坐在椅子上活動(dòng)等等。模塊132不是在內(nèi)容的每一幀中執(zhí)行面孔探測(cè),而是一幀一幀地追蹤包括面孔(一旦探測(cè)到后)的區(qū)域,典型情況下,它的計(jì)算成本低于面孔探測(cè)。
包括追蹤列表146中某個(gè)面孔的每個(gè)區(qū)域,除了被追蹤之外,還要由分級(jí)驗(yàn)證模塊142重復(fù)地再驗(yàn)證。多線索追蹤模塊144,或者也可能是分級(jí)驗(yàn)證模塊142,可以確定何時(shí)一個(gè)區(qū)域要由模塊142進(jìn)行再驗(yàn)證??梢园匆?guī)則的或不規(guī)則的間隔對(duì)區(qū)域進(jìn)行再驗(yàn)證。再驗(yàn)證某個(gè)區(qū)域時(shí),分級(jí)驗(yàn)證模塊142為該區(qū)域產(chǎn)生一個(gè)新的置信度水平,并把該置信度水平與閾值進(jìn)行比較。如果新的置信度水平超過(guò)閾值,那么使該區(qū)域的上次驗(yàn)證后的時(shí)間154復(fù)位,并且該區(qū)域留在追蹤列表146中。然而,如果新的置信度水平不超過(guò)閾值,那么該區(qū)域便從追蹤列表146中刪除。
應(yīng)當(dāng)注意,可能會(huì)發(fā)生多線索追蹤模塊144丟失其追蹤的情況。分級(jí)驗(yàn)證模塊142通過(guò)確認(rèn)對(duì)包括某個(gè)面孔之區(qū)域的追蹤何時(shí)丟失(例如,該區(qū)域的置信度水平很低),來(lái)解決這些問(wèn)題。這就允許自動(dòng)初始化模塊140重新探測(cè)該區(qū)域,并繼續(xù)追蹤重新探測(cè)到的區(qū)域。
自動(dòng)初始化自動(dòng)初始化模塊140使用一種或多種技術(shù)為新的面孔區(qū)域探測(cè)候選區(qū)域。這些技術(shù)包括基于運(yùn)動(dòng)的初始化、基于音頻的聲源定位以及快速的面孔探測(cè)?;谶\(yùn)動(dòng)的初始化模塊156使用幀間差異(視頻內(nèi)容的兩幀或更多幀之間的差異)來(lái)探測(cè)運(yùn)動(dòng),并確定其中探測(cè)到運(yùn)動(dòng)的區(qū)域是否包括一個(gè)面孔?;谝纛l的初始化模塊158分析對(duì)應(yīng)于視頻內(nèi)容的音頻內(nèi)容,探測(cè)收到聲音的方向,并且搜索該方向的視頻內(nèi)容區(qū)域,以確定收到聲音的方向上的區(qū)域是否包括一個(gè)面孔。模塊156和158都能夠分析視頻內(nèi)容的每一幀。另外,模塊156和158之一也可以僅僅對(duì)視頻內(nèi)容的某一特定幀進(jìn)行分析,如果另一個(gè)模塊156或158未能探測(cè)到任何面孔的話。
當(dāng)視頻內(nèi)容的幀中沒(méi)有運(yùn)動(dòng)和音頻時(shí),就使用快速的面孔探測(cè)模塊160。另外,模塊160也可以用于雖然幀中有運(yùn)動(dòng)和/或音頻,但是無(wú)論是模塊156還是模塊158都未能探測(cè)到面孔(也可能是不論模塊156或158是否探測(cè)到面孔)時(shí)。快速的面孔探測(cè)模塊160使用一種快速面孔探測(cè)器來(lái)分析視頻內(nèi)容的幀,并探測(cè)該幀中的面孔。當(dāng)通知自動(dòng)初始化模塊140,某個(gè)區(qū)域的再驗(yàn)證結(jié)果為該區(qū)域包括某個(gè)面孔的置信度消失時(shí),就使用丟失置信度區(qū)域探測(cè)模塊162。盡管丟失了該區(qū)域包括某個(gè)面孔的置信度,某個(gè)面孔在這個(gè)區(qū)域附近仍然很有可能。丟失置信度區(qū)域探測(cè)模塊162與模塊156、158和160中的每一個(gè)進(jìn)行通信,使模塊156、158和160分析視頻內(nèi)容中圍繞這個(gè)區(qū)域的部位,試圖從中探測(cè)一個(gè)面孔。圍繞該區(qū)域之部位的嚴(yán)格尺寸可以隨實(shí)施方案而變化(例如,在一個(gè)示范實(shí)施方案中,該部位可能在該區(qū)域上下延伸至區(qū)域高度的一半之處,在該區(qū)域左右延伸至區(qū)域?qū)挾鹊囊话胫帯?br> 圖4是一個(gè)流程圖,展示了一個(gè)示范過(guò)程200,用于為新的面孔區(qū)域探測(cè)候選區(qū)域。圖4中的過(guò)程由圖3中的自動(dòng)初始化模塊140實(shí)施,而且可以在軟件中執(zhí)行。
一開(kāi)始,接收音頻/視頻內(nèi)容的一幀(202)。內(nèi)容的這一幀可以來(lái)自為數(shù)眾多的信號(hào)源中的任何一種。例如,內(nèi)容的這一幀可能是圖3中系統(tǒng)130的一臺(tái)或多臺(tái)捕捉設(shè)備捕捉的,或者該內(nèi)容可能是在別處捕捉并由通信傳到系統(tǒng)130(例如通過(guò)可拆卸的存儲(chǔ)設(shè)備、通過(guò)網(wǎng)絡(luò)或電話線連接等等)。一旦收到,就通過(guò)比較該幀的像素和音頻/視頻內(nèi)容中前一幀的對(duì)應(yīng)像素,試圖探測(cè)該幀中的運(yùn)動(dòng)(動(dòng)作204)。如果探測(cè)到了運(yùn)動(dòng),那么就執(zhí)行基于運(yùn)動(dòng)的初始化,以便在幀中為新的面孔區(qū)域確認(rèn)候選者(動(dòng)作206)。在動(dòng)作206中使用基于運(yùn)動(dòng)的初始化為新的面孔區(qū)域確認(rèn)了任何的候選者之后,就試圖在幀中探測(cè)音頻(動(dòng)作208)。如果探測(cè)到了音頻,那么就執(zhí)行基于音頻的初始化,以便在幀中為新的面孔區(qū)域確認(rèn)候選者(動(dòng)作210)。根據(jù)基于運(yùn)動(dòng)的初始化和/或基于音頻的初始化,為新的面孔區(qū)域確認(rèn)的任何候選者都傳遞到分級(jí)驗(yàn)證模塊142,以便進(jìn)行面孔驗(yàn)證(動(dòng)作212)。
返回動(dòng)作204,如果在幀中沒(méi)有探測(cè)到運(yùn)動(dòng),那么就試圖在幀中探測(cè)音頻(動(dòng)作214)。如果探測(cè)到了音頻,那么就執(zhí)行基于音頻的初始化,以便在幀中為新的面孔區(qū)域確認(rèn)候選者(動(dòng)作210),然后處理過(guò)程進(jìn)入動(dòng)作212。然而,如果沒(méi)有探測(cè)到音頻,那么就使用一種快速的面孔探測(cè)器來(lái)為新的面孔區(qū)域確認(rèn)候選者(動(dòng)作216)。根據(jù)快速的面孔探測(cè),為新的面孔區(qū)域確認(rèn)的任何候選者都傳遞到分級(jí)驗(yàn)證模塊142,以便進(jìn)行面孔驗(yàn)證(動(dòng)作212)。
試圖探測(cè)運(yùn)動(dòng)或音頻或者使用快速面孔探測(cè)器的幀中區(qū)域可以隨情況而變化。在追蹤列表146不包括面孔和面孔候選者的情況下,那么幀中區(qū)域就是整個(gè)幀。在追蹤列表146包括一個(gè)或多個(gè)面孔或面孔候選者的情況下,那么幀中區(qū)域包括所有當(dāng)前沒(méi)有被追蹤的區(qū)域(換句話說(shuō),沒(méi)有列在追蹤列表146中的區(qū)域)。在丟失置信度區(qū)域探測(cè)模塊162申請(qǐng)分析某個(gè)特定區(qū)域的情況下,那么幀中區(qū)域就是模塊162確認(rèn)的區(qū)域。
返回圖3,基于運(yùn)動(dòng)的初始化模塊156通過(guò)把幀中的像素與前面幀和/或后續(xù)幀中對(duì)應(yīng)的像素相比較,分析視頻內(nèi)容的一幀,并探測(cè)每個(gè)像素在這些幀之間是否有運(yùn)動(dòng)。據(jù)信一個(gè)移動(dòng)的人是在視頻內(nèi)容的前景中,所以模塊156試圖確認(rèn)這種移動(dòng)前景的形狀。如果該形狀類似于人上半身的輪廓(一個(gè)較小的頭在一個(gè)較大的肩膀之上),那么就確定該形狀是一個(gè)模塊候選者。
圖5是一個(gè)流程圖,展示了一個(gè)示范過(guò)程240,使用基于運(yùn)動(dòng)的初始化,為新的面孔區(qū)域確認(rèn)候選區(qū)域。圖5中的過(guò)程由圖3中的基于運(yùn)動(dòng)的初始化模塊156實(shí)施,而且可以在軟件中執(zhí)行。
一開(kāi)始,確定在每個(gè)像素處是否有運(yùn)動(dòng)(動(dòng)作242)。通過(guò)把像素與前面幀中對(duì)應(yīng)的像素相比較,對(duì)一幀中的每個(gè)像素作出這種確定。比較可以通過(guò)例如像素亮度(例如灰度)或顏色值來(lái)進(jìn)行。在比較之前,還可以對(duì)像素應(yīng)用使用多種常規(guī)的濾波器。視頻內(nèi)容能夠使用一種常規(guī)的二維(x,y)像素坐標(biāo)系統(tǒng)來(lái)觀察。在一幀中某個(gè)特定坐標(biāo)位置處的像素,對(duì)應(yīng)于另一幀中同一坐標(biāo)位置處的一個(gè)像素。在被分析幀的區(qū)域中每個(gè)像素具有一種幀差異,產(chǎn)生如下 式中Dt(x,y)為t幀中影像的(x,y)位置處的像素與t-1幀中影像的(x,y)位置處的像素之間幀差異,It(x,y)為t幀中影像的(x,y)位置處的像素,It-1(x,y)為t-1幀中影像的(x,y)位置處的像素,dth為決定像素是否為運(yùn)動(dòng)像素的閾值。dth的精確數(shù)值可以隨實(shí)施方案而變,比如根據(jù)幀是彩色的還是灰度的,進(jìn)行過(guò)何種濾波(如果有的話)等等。作為一個(gè)特殊的實(shí)例,如果像素是256級(jí)灰度的,數(shù)值20可以用于dth。
另外,幀差異也可以不是僅僅根據(jù)兩幀,而是根據(jù)三幀或更多幀來(lái)產(chǎn)生。在一個(gè)實(shí)施方案中,使用三幀(例如It-1、It、It+1)來(lái)探測(cè)運(yùn)動(dòng)的像素。只有在It(x,y)-It-1(x,y)和It+1(x,y)-It(x,y)中都有較大幀差異(例如大于dth)的像素才是運(yùn)動(dòng)的像素。
給定了幀差異之后,就在被分析幀區(qū)域中影像的每條水平線上,對(duì)每個(gè)可能的區(qū)段產(chǎn)生幀差異之和(動(dòng)作244)。被分析幀區(qū)域中的影像包括多條水平線。每一水平行的像素都可能是這樣一條線,或者每隔n(例如二、三、四、五等等)個(gè)水平行的像素也可以是這樣一條線。每條這樣的線中,存在著許多區(qū)段,在線上具有不同的起點(diǎn)和終點(diǎn)。沿著可能的區(qū)段對(duì)幀差異求和,用于在被分析的區(qū)域中試圖確認(rèn)最可能的前景區(qū)段。在圖6中有更詳細(xì)的說(shuō)明。
圖6展示了視頻內(nèi)容的一幀的一個(gè)示范影像。展示的影像270包括已經(jīng)被追蹤為包含面孔或面孔候選者的兩個(gè)區(qū)域272和274,以及為了尋求新面孔區(qū)域的候選者而分析的其余區(qū)域276。假設(shè)該影像包括一個(gè)人278,兩條水平線280和282將在起點(diǎn)i和終點(diǎn)j穿越影像278。在一條特定的線Ii上,i點(diǎn)和j點(diǎn)之間的所有像素都應(yīng)當(dāng)在前景上,兩條相鄰的水平線之間的邊界也應(yīng)當(dāng)具有一種光滑約束——它們趨于具有類似的中心和類似的寬度。幀差異之和用于確認(rèn)具有起點(diǎn)i和終點(diǎn)j之水平線Ii的部分。
對(duì)于每條水平線,水平線上每個(gè)可能的區(qū)段的幀差異之和S產(chǎn)生如下S(i,j)=Σx=ijD(x,y)0<i<j<N,y∈
]]>式中i為區(qū)段的起點(diǎn),j為區(qū)段的終點(diǎn),D(x,y)為沿著該區(qū)段在x,y位置處的幀差異,N為水平線的長(zhǎng)度,M為水平線的數(shù)目。
對(duì)于所有可能i和j,為了加快計(jì)算求和的速度,使用了以下過(guò)程。首先,對(duì)于0和N之間——包括端點(diǎn)——的每個(gè)i值,計(jì)算下式S(i,i)=D(i,y),i∈
然后,對(duì)于從k=1到k=N,計(jì)算S(i,i+k)=S(i,i+k-1)+S(i+k,i+k),i∈
返回圖5,一旦在水平線上對(duì)每個(gè)可能的區(qū)段都產(chǎn)生了幀差異之和,對(duì)于每一條水平線,具有最大和的區(qū)段就被選為該線上最可能的前景區(qū)段(動(dòng)作246)。具有最大和的區(qū)段實(shí)際上是否為新面孔區(qū)域候選者的一部分,也取決于光滑約束,正如下面的討論。然后,就確定了最可能區(qū)段的最光滑的區(qū)域(動(dòng)作248)。對(duì)所有的水平線考慮光滑約束,就產(chǎn)生了最光滑的區(qū)域。實(shí)現(xiàn)方式如下。該過(guò)程起始于y=0(頂端的水平線)及E0(i(0),j(0))=S(i(0),j(0)),并以下列遞歸函數(shù)前進(jìn)到y(tǒng)=M(低端的水平線)E0(i(y),j(y))=S(i(y),j(y))+maxi(y-1),j(y-1)∈
(E0(i(y-1),j(y-1))+C(i(y-1)j(y-1),i(y)j(y)))]]>式中i(y)和j(y)為第y條水平線的邊界,N為影像的寬度。C(.,.)參數(shù)為光滑能量項(xiàng)。C(.,.)參數(shù)在相鄰線之間對(duì)不光滑的邊界給出了較大的懲罰,它規(guī)定如下C(i(y-1)j(y-1),i(y)j(y))=cc·|i(y)+j(y)2-i(y-1)+j(y-1)2|+cw·|(j(y)-i(y))-(j(y-1)-i(y-1))|]]>式中cc為對(duì)區(qū)段中心的不光滑罰系數(shù),而cw為對(duì)區(qū)段寬度的不光滑罰系數(shù)。對(duì)罰系數(shù)cc和cw可以使用不同的數(shù)值,在一個(gè)示范實(shí)施方案中,cc和cw中每一個(gè)都是0.5。
然后,通過(guò)確定下式,可以獲得最光滑的區(qū)域maxi(M),j(M)∈
(E0(i(M),j(M)))]]>給定了這種最光滑的區(qū)域,就能夠執(zhí)行向回追蹤,以尋找所有水平線的邊界。
給定了最光滑的區(qū)域,就檢驗(yàn)該區(qū)域是否像人的上半身(動(dòng)作250)。在展示的實(shí)例中,人的上半身包括一個(gè)較小的頭在一個(gè)較大的肩膀之上。所以,就檢驗(yàn)這個(gè)最光滑的區(qū)域是否具有一個(gè)近似橢圓的部分(頭),位于一個(gè)較寬的部分(肩膀)之上。在一個(gè)實(shí)施方案中,這種檢驗(yàn)通過(guò)尋找相鄰水平線之寬度的最大變化,首先探測(cè)頸部的位置。然后,檢驗(yàn)頸部之上的部分(頭部區(qū)域)是否具有比下部區(qū)域(肩膀區(qū)域)更小的平均寬度。也要檢驗(yàn)頭部區(qū)域的寬度和高度之比是否為近似1∶1.2。如果所有這些檢驗(yàn)結(jié)果都是真實(shí)的,那么被探測(cè)的區(qū)域就確定為像人的上半身輪廓。
如果該區(qū)域確實(shí)像人的上半身,那么就提取該區(qū)域中包括頭部(但是不包括肩膀)的部分(動(dòng)作252),并確認(rèn)為新面孔區(qū)域的候選者(動(dòng)作254)。這個(gè)提取的區(qū)域可能是人頭部的近似橢圓的區(qū)域,或者是頭部周圍的某個(gè)區(qū)域(例如頭部周圍的矩形區(qū)域)。不過(guò),如果該區(qū)域不像人的上半身,那么從該幀就沒(méi)有探測(cè)到新面孔的候選者(動(dòng)作256)。
在一個(gè)實(shí)施方案中,如果在動(dòng)作254中確認(rèn)了一個(gè)新面孔區(qū)域的候選者,并且在該幀中還有任何另外的區(qū)域(不算在動(dòng)作254中確認(rèn)的候選者和任何其它的面孔和面孔候選者),就重復(fù)圖5中的過(guò)程。這樣就能在該幀中確認(rèn)另外的學(xué)面孔區(qū)域的候選者。
返回圖3和圖4,基于音頻的初始化模塊158通過(guò)使用聲源定位器探測(cè)收到聲音的方向,來(lái)分析一幀音頻/視頻內(nèi)容(圖4中的動(dòng)作210)。模塊158假設(shè),這個(gè)聲音可能是人在發(fā)言,因此指示著視頻內(nèi)容的一個(gè)區(qū)域,其中可能包括一個(gè)面孔區(qū)域的候選者。能夠以為數(shù)眾多的不同方式來(lái)確定收到聲音的方向。在一個(gè)實(shí)施方案中,一個(gè)或多個(gè)話筒陣列捕捉聲音,并使用一個(gè)或多個(gè)聲源定位算法來(lái)確定聲音來(lái)自哪個(gè)方向。可以使用多種不同的常規(guī)聲源定位算法,比如眾所周知的到達(dá)時(shí)間延遲(TDOA)技術(shù)(例如廣義互相關(guān)(GCC)方法)。
在沒(méi)有視頻內(nèi)容的情況下,通過(guò)適當(dāng)?shù)夭贾枚鄠€(gè)話筒,也能夠完成面孔探測(cè)。使用三個(gè)或更多的話筒,其中至少兩個(gè)位于不同的水平面上,而且其中至少兩個(gè)位于不同的垂直面上,就能夠確定聲源的(x,y)坐標(biāo)。例如,兩個(gè)話筒可能位于垂直面中,并且兩個(gè)話筒可能位于水平面中。那么可以使用多種常規(guī)的聲源定位算法來(lái)確定聲源的(x,y)位置——假定它是一個(gè)人的嘴巴。這個(gè)聲源位置本身能夠被視為探測(cè)到的面孔區(qū)域(假定發(fā)言者的嘴巴是發(fā)言者面孔的一部分),或者該位置也可以擴(kuò)展(例如增大百分之二三),擴(kuò)展后的位置用作探測(cè)到的面孔區(qū)域。
給定了影像中對(duì)應(yīng)于收到聲音之方向的區(qū)域,初始化模塊158分析該區(qū)域,試圖對(duì)該區(qū)域中的影像擬合一個(gè)膚色模型。如果擬合成功,那么擬合膚色模型的區(qū)域就確認(rèn)為新面孔區(qū)域的候選者。在一個(gè)實(shí)施方案中,膚色模型為HSV(色調(diào)飽和度值)顏色空間模型,帶有用于訓(xùn)練模型的大量膚色訓(xùn)練數(shù)據(jù)。應(yīng)當(dāng)注意,因?yàn)橐纛l已經(jīng)指出在該區(qū)域中有一個(gè)面孔,可以使用粗略的探測(cè)過(guò)程(例如膚色模型)來(lái)使面孔定位。
在沒(méi)有視頻內(nèi)容的情況下,模塊158依靠聲源定位而不使用膚色模型(由于沒(méi)有視頻內(nèi)容可以應(yīng)用膚色模型)。
快速模塊探測(cè)模塊160使用快速模塊探測(cè)器,在幀影像的若干區(qū)域中探測(cè)面孔。探測(cè)模塊160使用的快速面孔探測(cè)器,可能不同于分級(jí)驗(yàn)證模塊142使用的面孔探測(cè)器——下面有更詳細(xì)的討論。為了在計(jì)算量和準(zhǔn)確性之間取折衷,模塊160使用的探測(cè)器比分級(jí)驗(yàn)證模塊142使用的面孔探測(cè)器更快,但是準(zhǔn)確性要低一些;不過(guò),模塊160和142可能基于同樣的面孔探測(cè)算法,但是使用不同的參數(shù)或閾值,以便模塊160提高探測(cè)速度(相對(duì)于模塊142的探測(cè)速度)。另外,模塊160和142也可以基于兩種不同的面孔探測(cè)算法。典型情況下,探測(cè)模塊160使用的探測(cè)器快于分級(jí)驗(yàn)證模塊142使用的探測(cè)器。
為數(shù)眾多的面孔探測(cè)算法都能夠用作快速面孔探測(cè)模塊160的基礎(chǔ),使用什么算法所依據(jù)的主要特征是其速度??焖倜婵滋綔y(cè)模塊160的目標(biāo)是很快地探測(cè)面孔,如果需要的話,以準(zhǔn)確性作為代價(jià)。面孔探測(cè)可能僅僅是正面,也可能是多視角(不限于正面探測(cè))。這種算法的一個(gè)實(shí)例是P.Viola和M.J.Jones介紹的,見(jiàn)“Robust real-time0bject detection”,Technical Report Series,Compaq CambridgeResearch Laboratory,CXRL 2001/01,F(xiàn)eb.2001。這種算法的另一個(gè)實(shí)例類似于P.Viola和M.J.Jones討論的,只是使用探測(cè)器級(jí)在開(kāi)始時(shí)利用一個(gè)探測(cè)器,它覆蓋寬闊的視角,發(fā)展到利用一組多個(gè)探測(cè)器,每個(gè)覆蓋較窄的視角。目標(biāo)從探測(cè)器的一級(jí)到另一級(jí),每個(gè)探測(cè)器把該目標(biāo)劃分為或者是面孔,或者不是面孔。每個(gè)目標(biāo)只要被任何一個(gè)探測(cè)器劃分為不是面孔,就將它從過(guò)程中排除——僅有通過(guò)了所有的探測(cè)器級(jí)并被劃分為面孔的目標(biāo)才被確認(rèn)為面孔。
因此,自動(dòng)初始化模塊140使用一個(gè)或多個(gè)基于運(yùn)動(dòng)的初始化、基于音頻的聲源定位和快速探測(cè)技術(shù)探測(cè)新面孔區(qū)域的候選者。然后,這些候選者傳送到分級(jí)驗(yàn)證模塊142,以便驗(yàn)證這些候選者是否確實(shí)包括一個(gè)面孔。應(yīng)當(dāng)注意,并非所有幀都包括新面孔,因此,即使使用了所有上述的技術(shù),自動(dòng)初始化模塊140也可能在一幀中探測(cè)不到任何新面孔的候選者。
分級(jí)驗(yàn)證圖3中的分級(jí)驗(yàn)證模塊142驗(yàn)證自動(dòng)初始化模塊140確認(rèn)的候選面孔區(qū)域。此外,探測(cè)和追蹤模塊132考慮了多線索追蹤模塊144在運(yùn)行期間或許失去追蹤的可能性。這可能是由于多種原因,比如遮擋(例如另一個(gè)與會(huì)者走到視頻捕捉設(shè)備和被追蹤的個(gè)人之間時(shí))或者突然的照明變化。分級(jí)驗(yàn)證模塊142以規(guī)則的或不規(guī)則的間隔,再次驗(yàn)證被追蹤的每個(gè)目標(biāo),并適當(dāng)?shù)厥姑婵捉导?jí)為面孔候選者。根據(jù)追蹤需要的準(zhǔn)確度(較短的間隔趨于改善準(zhǔn)確性)、可用的計(jì)算能力規(guī)模(取決于驗(yàn)證的類型,追蹤可能需要比再次驗(yàn)證少的計(jì)算能力)以及驗(yàn)證模塊的計(jì)算成本,間隔的長(zhǎng)度可以變化。
在一個(gè)實(shí)施方案中,分級(jí)驗(yàn)證模塊142驗(yàn)證目標(biāo)為面孔,確認(rèn)一個(gè)目標(biāo)或者是面孔,或者不是面孔。另外,驗(yàn)證模塊142也可以根據(jù)不同的特性(例如音頻、顏色直方圖距離、邊界附近的邊緣探測(cè)結(jié)果、面孔探測(cè)結(jié)果等等),輸出概率統(tǒng)計(jì)的驗(yàn)證結(jié)果。在這種過(guò)程中,輸出的概率統(tǒng)計(jì)的驗(yàn)證結(jié)果可以與微粒濾波的加權(quán)方案相結(jié)合,下面將更詳細(xì)地討論該濾波。
因?yàn)榭紤]計(jì)算量,附近驗(yàn)證模塊142使用一種多級(jí)的分級(jí)過(guò)程來(lái)驗(yàn)證某個(gè)目標(biāo)包括一個(gè)面孔。該驗(yàn)證過(guò)程是一個(gè)從粗略到精細(xì)的過(guò)程,以較塊而不太準(zhǔn)確的驗(yàn)證開(kāi)始,如果需要,就上升到較慢而更準(zhǔn)確的驗(yàn)證。在展示的實(shí)例中,該分級(jí)過(guò)程包括兩個(gè)級(jí)別。此外,分級(jí)過(guò)程中也可以包括三個(gè)或更多的級(jí)別。
圖3中的分級(jí)驗(yàn)證模塊142包括基于顏色的快速驗(yàn)證模塊164和多視角的面孔探測(cè)模塊166。驗(yàn)證模塊142假設(shè),典型情況下,在相鄰幀期間目標(biāo)并不顯著改變顏色。基于顏色的驗(yàn)證模塊164根據(jù)當(dāng)前幀中目標(biāo)的顏色直方圖和前面幀中目標(biāo)的估計(jì)顏色直方圖之間的相似度,來(lái)驗(yàn)證目標(biāo)。相似度高時(shí),就假設(shè)追蹤沒(méi)有發(fā)生損失,不必調(diào)用多視角的面孔探測(cè)模塊166。不過(guò),相似度低、追蹤可能已經(jīng)發(fā)生了損失時(shí),因而目標(biāo)從面孔降級(jí)為面孔候選者,并傳送到多視角的面孔探測(cè)模塊166。如果多視角的面孔探測(cè)模塊166驗(yàn)證該目標(biāo)為面孔,該目標(biāo)就從面孔候選者升級(jí)為面孔。不過(guò),如果探測(cè)模塊166不把該目標(biāo)驗(yàn)證為面孔,該目標(biāo)就從追蹤列表146中刪除。
在一個(gè)實(shí)施方案中,基于顏色的驗(yàn)證模塊164對(duì)每一幀執(zhí)行其驗(yàn)證功能,而多視角的面孔探測(cè)模塊166以較低的頻度執(zhí)行其驗(yàn)證功能。舉例來(lái)說(shuō),多視角的面孔探測(cè)模塊166可能每數(shù)秒執(zhí)行一次其驗(yàn)證功能,盡管根據(jù)上面討論的多種因素,也可以使用不同的間隔。
圖7是一個(gè)流程圖,展示了一個(gè)示范過(guò)程320,用于執(zhí)行分級(jí)驗(yàn)證。過(guò)程320是由圖3中的分級(jí)驗(yàn)證模塊142執(zhí)行,并且可以在軟件中執(zhí)行。
一開(kāi)始,獲得所關(guān)注區(qū)域的一個(gè)影像(動(dòng)作322)。所關(guān)注區(qū)域可能是由自動(dòng)初始化模塊140確認(rèn)的一個(gè)候選區(qū)域,或者是為進(jìn)行再次驗(yàn)證的一個(gè)區(qū)域。可以將帶有要分析區(qū)域指示的整幀傳送到分級(jí)驗(yàn)證模塊142,也可以僅僅將幀中包括要分析區(qū)域的一部分傳送到分級(jí)驗(yàn)證模塊142。一旦收到之后,就使用基于顏色的快速驗(yàn)證法來(lái)驗(yàn)證該區(qū)域中是否有一個(gè)面孔(動(dòng)作324)。
圖8中展示了動(dòng)作324的、基于顏色的快速驗(yàn)證法的更多細(xì)節(jié)。圖8中的過(guò)程324由圖3中的基于顏色的快速驗(yàn)證模塊164執(zhí)行,并且可以在軟件中執(zhí)行。一開(kāi)始,產(chǎn)生當(dāng)前t幀中目標(biāo)的顏色直方圖(qt(x))(動(dòng)作362)。也產(chǎn)生前面幀中目標(biāo)的估計(jì)顏色直方圖(pt-1(x))(動(dòng)作364)。估計(jì)顏色直方圖pt-1(x)按下式產(chǎn)生pt-1(x)=α·qt-1(x)+(1-α)·pt-2(x)式中α表示加權(quán)值,qt-1(x)為前一幀t-1中目標(biāo)的顏色直方圖,pt-2(x)為對(duì)于前一幀t-1中目標(biāo)的估計(jì)顏色直方圖。在不同的實(shí)施方案中可以使用范圍很廣的α值,選定的確切值是相信歷史和相信當(dāng)前幀之間的折衷(例如在一個(gè)示范實(shí)施方案中,α值的范圍是從0.25到0.75)。因此,根據(jù)每一幀中目標(biāo)的顏色直方圖,更新目標(biāo)的估計(jì)顏色直方圖pt-1(x)。
然后確定兩個(gè)直方圖的相似度(動(dòng)作366)。為了確定兩個(gè)直方圖qt(x)和pt-1(x)的相似度測(cè)度,使用下列眾所周知的Bhattacharyya系數(shù)ρ(pt-1(x),qt(x))=∫pt-1(x)·qt(x)dx]]>式中ρ表示統(tǒng)計(jì)假設(shè)試驗(yàn)中分類錯(cuò)誤的概率——錯(cuò)誤的概率越大,兩種分布就越相似。ρ值的范圍從0到1,1表示兩個(gè)直方圖相同,0表示兩個(gè)直方圖完全不同。這種相似度測(cè)度在本文中也稱為置信度。另外,也可以使用其它眾所周知的相似度測(cè)度,比如K-L散度、直方圖交會(huì)等等。
然后檢驗(yàn)兩個(gè)直方圖之間的相似度是否超過(guò)某個(gè)閾值幅度(動(dòng)作368)。如果差異大于閾值幅度,那么該面孔被證實(shí)(動(dòng)作370);換句話說(shuō),該目標(biāo)被證實(shí)為包括一個(gè)面孔。不過(guò),如果差異不大于閾值幅度,那么面孔就不被證實(shí)(動(dòng)作372);換句話說(shuō),該目標(biāo)不被證實(shí)為包括一個(gè)面孔。在不同的實(shí)施方案中,可以使用不同的差異閾值。在一個(gè)示范實(shí)施方案中,閾值的范圍可以從0.90到0.95,在一個(gè)具體的實(shí)施方案中是0.94。
返回圖7,根據(jù)面孔是否被證實(shí)而繼續(xù)處理(動(dòng)作326)。如果面孔被證實(shí),那么它就從面孔候選者升級(jí)為面孔(如果還不是面孔的話)(動(dòng)作328),分級(jí)驗(yàn)證過(guò)程完成(動(dòng)作330),這時(shí)對(duì)所關(guān)注的區(qū)域不再進(jìn)行更多的驗(yàn)證。然而,如果面孔不被證實(shí),那么該面孔就從面孔降級(jí)為面孔候選者(如果當(dāng)前是面孔的話)(動(dòng)作332)。然后包括面孔的目標(biāo)傳送到圖3的多視角面孔探測(cè)模塊166,它使用多視角面孔探測(cè)法驗(yàn)證該區(qū)域中是否有一個(gè)面孔(動(dòng)作334)。
多視角的面孔探測(cè)模塊166使用了一個(gè)或多個(gè)探測(cè)過(guò)程——它們?cè)噲D以不同的姿勢(shì)或者從多個(gè)視角來(lái)探測(cè)人的面孔(換句話說(shuō),即使頭部可能傾斜、轉(zhuǎn)離影像捕捉設(shè)備等等情況下,也要探測(cè)面孔)。為數(shù)眾多的面孔探測(cè)技術(shù)中的任何一種,都能夠被多視角的面孔探測(cè)模塊166所使用。
一種這樣的多視角面孔探測(cè)過(guò)程是基于核心機(jī)的過(guò)程,更加詳細(xì)的討論見(jiàn)S.Z.Li,Q.D.Fu,L.Gu,B.Scholkopf,Y.M.Cheng,H.J.Zhang,“Kernel Machine Based learning for Multi-View FaceDetection and Pose Estimation,”P(pán)roceedings of 8thIEEE InternationalConference on Computer Vision,Vancouver,Canada,July 9-12,2001。這種探測(cè)過(guò)程歸納如下。
令I(lǐng)p∈RN為面孔的窗內(nèi)灰度影像或外觀。假設(shè)所有左轉(zhuǎn)的面孔(視角在91°和180°之間)都經(jīng)鏡面反射成右轉(zhuǎn),所以每一個(gè)視角都在0°和90°之間。將姿勢(shì)量化成一組L個(gè)離散值(例如選擇L=10,用于10個(gè)等間隔的角,從0°到90°,0°對(duì)應(yīng)于右側(cè)面視角,90°對(duì)應(yīng)于正面視角)。
假設(shè)為學(xué)習(xí)提供了一組訓(xùn)練用面孔影像。影像Ip不僅視角有變化,照明也有變化。訓(xùn)練組經(jīng)過(guò)視角標(biāo)注——每個(gè)面孔影像都由人工標(biāo)注了其盡可能接近真實(shí)值的視角值,然后按照最接近的視角值分配到L個(gè)組中的一個(gè)。這就產(chǎn)生了L個(gè)經(jīng)過(guò)視角標(biāo)注的面孔影像子集,用于學(xué)習(xí)面孔的視角子空間。另一個(gè)非面孔的訓(xùn)練組也用于訓(xùn)練面孔探測(cè)。
現(xiàn)在,有L+1個(gè)類,由l為索引,意義如下,l∈{0,1,...,L-1}對(duì)應(yīng)于L個(gè)視角的面孔,l=L對(duì)應(yīng)于非面孔類。把輸入Ip劃分為L(zhǎng)+1個(gè)類之一,就共同執(zhí)行了兩個(gè)任務(wù)——面孔探測(cè)和姿勢(shì)估計(jì)。如果輸入劃分為L(zhǎng)個(gè)面孔類之一,就探測(cè)到了一個(gè)面孔,對(duì)應(yīng)的視角就是估計(jì)的姿勢(shì);否則,輸入模式被視為非面孔模式。
使用核心機(jī)學(xué)習(xí)面孔探測(cè)和姿勢(shì)估計(jì)分為兩個(gè)階段一個(gè)是為了核心主分量分析(KPCA)的視角子空間學(xué)習(xí),一個(gè)是為了核心支持矢量分類器(KSVC)的分類器訓(xùn)練。第一階段的訓(xùn)練目標(biāo)是從L個(gè)面孔視角子集學(xué)習(xí)L個(gè)KPCA視角子空間。一組核心主分量(KPC)是從每個(gè)視角子集學(xué)到的。最重要的分量(例如最高的50個(gè))用作構(gòu)造視角子空間的基本矢量。這個(gè)階段的學(xué)習(xí)產(chǎn)生了L個(gè)視角子空間,每一個(gè)都由一組支持矢量和對(duì)應(yīng)的系數(shù)確定。每個(gè)視角信道中的KPCA有效地執(zhí)行了從輸入影像空間到輸出KPCA特性空間(具有與最重要的分量中分量數(shù)目相同的維數(shù))的非線性映射。
第二階段的目標(biāo)是訓(xùn)練L個(gè)KSVC,以便為了面孔探測(cè)而在面孔和非面孔模式之間進(jìn)行區(qū)分。這個(gè)階段使用一個(gè)訓(xùn)練組,包括一個(gè)非面孔子集以及L個(gè)視角的面孔子集。一旦訓(xùn)練了KSVC,就用于每個(gè)視角根據(jù)對(duì)應(yīng)KPCA子空間的特性進(jìn)行L+1個(gè)類別的劃分。視角到對(duì)應(yīng)的KPCA子空間的投影用作特性矢量。在KSVC中,使用眾所周知的一對(duì)其余方法來(lái)解決多類問(wèn)題。第二階段給出L個(gè)KSVC。
在試驗(yàn)階段中,對(duì)于每個(gè)視角l,向KPCA特性提取器提供一個(gè)試驗(yàn)樣本,以獲得該視角的特性矢量。該視角對(duì)應(yīng)的KSVC計(jì)算出一個(gè)輸出矢量yl=(ylc|c=0,...,L),]]>作為對(duì)輸入的L+1個(gè)類的響應(yīng)。對(duì)所有L個(gè)視角信道都這樣做,所以就產(chǎn)生了L個(gè)這樣的輸出矢量{yl|l=0,...,L-1}。y1c值是判斷在第l個(gè)視角KPCA子空間中,輸入Ip的特性屬于c類的證據(jù)。通過(guò)融合所有L個(gè)視角信道的證據(jù),作出最終的分類決定。融合的一種方法是將證據(jù)求和;換句話說(shuō),對(duì)于每個(gè)類c=0,...,L,計(jì)算下式y(tǒng)c(Ip)=Σl=0L-1ylc]]>這種計(jì)算給出了將Ip劃分為c類的全面證據(jù)。通過(guò)使該證據(jù)最大化而作出最終的決定如果c*=arg maxcyc(Ip),那么Ip屬于c*。
繼續(xù)看圖7,根據(jù)多視角面孔探測(cè)是否證實(shí)了面孔,繼續(xù)進(jìn)行處理(動(dòng)作336)。如果證實(shí)了面孔,那么該面孔就從面孔候選者升級(jí)為面孔(動(dòng)作328),分級(jí)驗(yàn)證過(guò)程完成(動(dòng)作330)。然而,如果未證實(shí)面孔,那么該候選者就從圖3的追蹤列表146中清除(動(dòng)作338),分級(jí)驗(yàn)證過(guò)程完成(動(dòng)作330)。
在分級(jí)驗(yàn)證中沒(méi)有視頻內(nèi)容可分析的情況下,適當(dāng)時(shí)也可以僅僅使用音頻線索來(lái)驗(yàn)證。例如,當(dāng)被追蹤面孔者正在持續(xù)發(fā)言時(shí),或者進(jìn)行眾所周知的、基于音頻發(fā)言者的確認(rèn)時(shí)(從而允許將聲源聯(lián)系到發(fā)言者個(gè)人的語(yǔ)音,通過(guò)確定來(lái)自某個(gè)特定聲源位置的語(yǔ)音是否符合以前從該聲源位置收到的、同一發(fā)言者的確認(rèn)信息,進(jìn)行驗(yàn)證),都可以僅僅使用音頻線索。
多線索追蹤一旦在視頻內(nèi)容的一幀中探測(cè)到某個(gè)面孔,圖3中的多線索追蹤模塊144就在視頻內(nèi)容的后續(xù)幀中追蹤該面孔。其面孔被追蹤的與會(huì)者可能移動(dòng),因此在視頻內(nèi)容的不同幀中,面孔的位置可能會(huì)不同。不僅如此,與會(huì)者還可能轉(zhuǎn)動(dòng)其頭部(例如這樣其面孔就不再直接對(duì)著視頻捕捉設(shè)備),可能發(fā)生多種遮擋(例如與會(huì)者可能在其面前揮手),照明可能會(huì)變化等等。多線索追蹤模塊144試圖考慮這些每幀不同的變化。此外,因?yàn)檫@些變化,某些追蹤的線索可能變得不可靠。多線索追蹤模塊144也試圖考慮線索可靠性從一幀到另一幀中發(fā)生的這些變化。
追蹤模塊144在追蹤面孔中使用多種線索。在一個(gè)實(shí)施方案中,這些追蹤線索包括面孔的形狀(模擬為一個(gè)橢圓)、移動(dòng)、邊緣、前景顏色和背景顏色。此外,也可以不使用這些線索中的一個(gè)或多個(gè),或者也可以使用另外的線索,比如音頻線索。
有音頻內(nèi)容可用時(shí),多線索追蹤模塊144可以使用音頻線索協(xié)助追蹤(或者作為追蹤的唯一基礎(chǔ))。根據(jù)聲源定位過(guò)程進(jìn)行基于音頻的追蹤,并且其進(jìn)行方式如同上面討論的、圖3中的基于音頻的初始化模塊158進(jìn)行的基于音頻的探測(cè)。
圖9是一個(gè)流程圖,展示了一個(gè)示范過(guò)程400,用于執(zhí)行多線索追蹤。過(guò)程400是由圖3中的多線索追蹤模塊144執(zhí)行,并且可以在軟件中執(zhí)行。
一開(kāi)始,根據(jù)從前一幀t-1的追蹤結(jié)果和目標(biāo)的動(dòng)力學(xué)特征(由眾所周知的Langevin過(guò)程模擬,下面還要更詳細(xì)地討論),預(yù)測(cè)在當(dāng)前t幀中目標(biāo)將在何處(動(dòng)作402)。沿著該目標(biāo)預(yù)測(cè)輪廓的一組法線,收集觀測(cè)結(jié)果(動(dòng)作404),并對(duì)于法線上的每一個(gè)像素,求取觀測(cè)似然函數(shù)值(動(dòng)作406)。求取從t-1幀到t幀的狀態(tài)轉(zhuǎn)換概率(動(dòng)作408),對(duì)于給定的觀測(cè)結(jié)果確定最佳輪廓(動(dòng)作410)。根據(jù)探測(cè)到的輪廓,對(duì)t幀中的影像擬合最佳橢圓(動(dòng)作412),并調(diào)整用于下一幀t+1的模型(動(dòng)作414)。
多線索追蹤模塊144包括多個(gè)模塊,用于執(zhí)行圖9中的動(dòng)作。在展示的實(shí)例中,追蹤模塊144包括觀察似然模塊168、平滑約束模塊170、輪廓選擇模塊172和模型調(diào)整模塊174。
多線索追蹤模塊144努力追蹤人的頭部——它是橢圓形的(大約1∶1.2)。對(duì)于被追蹤的面孔,人的頭部由一個(gè)模型來(lái)表示,它是具有多種追蹤線索的一個(gè)橢圓。分析視頻內(nèi)容幀中的影像時(shí),該模型與影像的多個(gè)位置進(jìn)行比較,并確定哪個(gè)位置最接近該模型。這個(gè)最接近該模型的位置就被選為新的一幀中的面孔。
圖10更詳細(xì)地展示了這個(gè)示范的模擬和比較。在圖10中,實(shí)線曲線422表示在特定的t幀中,根據(jù)從前一幀t-1追蹤的結(jié)果,預(yù)測(cè)的人頭部的輪廓。虛線曲線424表示t幀中人頭部的真實(shí)輪廓。沿著預(yù)測(cè)輪廓422的多(M)條法線426收集一組測(cè)量值。點(diǎn)428(c(φ))為第φ條法線上的真實(shí)輪廓點(diǎn)。點(diǎn)430(ρφ(N))為第φ條法線上的預(yù)測(cè)輪廓點(diǎn)。多線索追蹤模塊144通過(guò)使預(yù)測(cè)輪廓422上盡可能多的輪廓點(diǎn)與真實(shí)輪廓線424上的輪廓點(diǎn)相同,試圖確定真實(shí)輪廓424的位置。
圖3中的觀測(cè)似然模塊168產(chǎn)生ρφ(λ)值,它表明在線φ上像素λ處的影像亮度,如下式ρφ(λ)=I(xλφ,yλφ)式中φ的范圍從1到M(法線246的總數(shù)目),λ的范圍沿著法線從-N到N(每條法線有2N+1個(gè)像素),xλφ,yλφ為第φ條法線上像素λ處的對(duì)應(yīng)影像坐標(biāo),I(xλφ,yλφ)為(xλφ,yλφ)點(diǎn)處的影像亮度。
為了探測(cè)輪廓點(diǎn),通過(guò)使用隱藏馬爾可夫模型(HMM),可以結(jié)合不同的線索(例如邊緣強(qiáng)度、前景和背景的顏色模型)和先驗(yàn)約束(例如輪廓平滑約束)。隱藏馬爾可夫模型對(duì)于本領(lǐng)域的技術(shù)人員是眾所周知的,因此除了它們適于本文所介紹的多個(gè)人的自動(dòng)追蹤以外,不再進(jìn)一步討論。HMM的隱藏狀態(tài)為每條法線上的真實(shí)輪廓點(diǎn)(表示為s={s1,...,sφ,...,sM})。HMM的觀測(cè)結(jié)果O={O1,...,Oφ,...,OM}是沿著每條法線φ收集的。一個(gè)HMM是由狀態(tài)的數(shù)目(在我們的情況下是2N+1)、觀測(cè)模型P(Oφ|sφ)和轉(zhuǎn)換概率p(sφ|sφ-1)指定的。
觀測(cè)似然模塊168繼續(xù)產(chǎn)生多線索觀測(cè)似然函數(shù)如下。在線φ上的觀測(cè)結(jié)果(表示為Oφ)可以包括多個(gè)線索,例如沿著法線的像素亮度(如ρφ(λ),λ∈[-N,N])和邊緣強(qiáng)度(如zφ)。通過(guò)使用多種常規(guī)邊緣探測(cè)過(guò)程中的任何一種,比如眾所周知的Sobel邊緣探測(cè)器或Canny邊緣探測(cè)器,都可以得到邊緣探測(cè)結(jié)果zφ的觀測(cè)似然模型。由于噪音和影像干擾,沿著每條法線φ可能有多個(gè)邊緣。使用J值來(lái)表示探測(cè)到的邊緣的數(shù)目(zφ=(z1,z2,...,zJ))。在J個(gè)探測(cè)到的邊緣中,最多只有一個(gè)在圖10中的真實(shí)輪廓線424上。所以我們可以規(guī)定J+1個(gè)假設(shè)H0={ej=F:j=1,...,J}H1={ej=T,ek=F:k=1,...,J,k≠j式中ej=T表明第j條邊緣與真實(shí)輪廓線相關(guān)聯(lián),而ej=F表明第j條邊緣不與真實(shí)輪廓線相關(guān)聯(lián)。所以假設(shè)H0表明沒(méi)有邊緣與真實(shí)輪廓線相關(guān)聯(lián)。
假設(shè)沿著法線的影像干擾為眾所周知的、空間密度為γ的泊松過(guò)程,真實(shí)的目標(biāo)測(cè)量結(jié)果是標(biāo)準(zhǔn)差為σz的正態(tài)分布,邊緣似然模型按下式獲得p(zφ|sφ=λφ)∝1+12πσzqγΣm=1Jexp(-(zm-λφ)22σz2)]]>式中q為假設(shè)H0的先驗(yàn)概率。
除了邊緣似然模型以外,HMM框架中也結(jié)合了有關(guān)前景和背景的區(qū)域性質(zhì)的其它線索,例如混合色彩模型。令p(ν|FG)和p(ν|BG)分別表示前景(FG)和背景(BG)的顏色分布。后驗(yàn)概率p(BG|ν)和p(FG|ν)能夠按下式得到P(BG|v)=p(v|BG)p(v|BG)+p(v|FG).....(1)]]>P(FG|v)=p(v|FG)p(v|BG)+p(v|FG)]]>
如果sφ=λφ為法線φ上的輪廓點(diǎn),那么區(qū)間[-N,sφ]就在前景上,區(qū)間[sφ+1,N]就在背景上。結(jié)合邊緣似然模型和顏色后驗(yàn)概率,對(duì)于HMM就會(huì)得出下列多線索觀測(cè)似然函數(shù)P(Oφ|sφ)=p(z|sφ)·Πi=-NsφP(BG|v=ρφ(i))·Πi=sφ+1NP(FG|v=ρφ(i))...(2)]]>在類似方式下,也可以結(jié)合其它線索,比如音頻線索(如根據(jù)聲源位置和聲音來(lái)自特定位置的可能性)。在沒(méi)有視頻內(nèi)容可供分析的情況下,就僅僅使用音頻線索。此外,為了補(bǔ)充或取代這種音頻隊(duì)列,音頻也可以用作無(wú)氣味微粒濾波的建議函數(shù),下面還要更詳細(xì)地討論。
HMM中的另一個(gè)分量是轉(zhuǎn)換概率,它確定在時(shí)間t-1的狀態(tài)如何轉(zhuǎn)換為在時(shí)間t的另一種狀態(tài)。圖3中的平滑約束模塊170得出了轉(zhuǎn)換概率。
為了獲得平滑的輪廓,使用轉(zhuǎn)換概率對(duì)平滑約束進(jìn)行編碼,并懲罰粗糙。參考圖10,可見(jiàn)法線426密集(例如在30條法線的數(shù)量級(jí))時(shí),在相鄰的法線426上真實(shí)輪廓線424的點(diǎn),與預(yù)測(cè)輪廓線422趨于具有相同的位移(在每條法線上指數(shù)為0)。這種相關(guān)性有助于獲得平滑的輪廓。
在HMM中,給定了當(dāng)前的狀態(tài)sφ,當(dāng)前觀測(cè)結(jié)果Oφ就獨(dú)立于前一個(gè)狀態(tài)sφ-1和前一個(gè)觀測(cè)結(jié)果Oφ-1。此外,由于馬爾可夫模型的性質(zhì),我們有p(sφ|s1,s2,...,sφ-1)=p(sφ|sφ-1)。
那么,可以通過(guò)狀態(tài)轉(zhuǎn)換p(sφ|sφ-1)捕捉輪廓平滑約束如下P(sφ|sφ-1)=c·exp(-(sφ-sφ-1)2/σs2)....(3)]]>式中c為歸一化常數(shù),σs為預(yù)先規(guī)定的調(diào)節(jié)輪廓平滑程度的常數(shù)。這種轉(zhuǎn)換概率懲罰相鄰法線之間輪廓點(diǎn)的突然變化,因此產(chǎn)生平滑的輪廓。然后,可以由輪廓選擇模塊172獲得最佳的輪廓。
平滑約束模塊170根據(jù)上面計(jì)算式(3)產(chǎn)生的轉(zhuǎn)換概率,考慮了輪廓點(diǎn),而不管法線上的其它像素。此外,平滑約束模塊170也可以使用基于JPDAF(聯(lián)合概率數(shù)據(jù)關(guān)聯(lián)濾波器)的方法,不僅對(duì)輪廓平滑約束編碼,而且也對(duì)在法線上多個(gè)(例如所有)像素上觀測(cè)到的區(qū)域平滑約束編碼。在展示的實(shí)例中,使用基于動(dòng)態(tài)規(guī)劃的JPDAF過(guò)程來(lái)改善實(shí)時(shí)性能。
在典型條件下,人體部分(例如面部或頭部)的像素亮度值在其區(qū)域中平緩地變化。所以,在人們的追蹤中,前景和背景具有平滑的區(qū)域是一個(gè)合理的假設(shè),因而兩條相鄰法線上的觀測(cè)結(jié)果類似。令sφ和sφ+1分別為線φ和線φ+1上的輪廓點(diǎn)。這兩個(gè)輪廓點(diǎn)將這兩條線劃分為前景區(qū)段和背景區(qū)段。根據(jù)區(qū)域平滑假設(shè),不僅sφ和sφ+1相互接近,而且這兩條法線上所有其它的像素也都匹配得很好。為了獲得區(qū)域平滑約束,使用一種聯(lián)合概率數(shù)據(jù)關(guān)聯(lián)濾波器來(lái)處理法線匹配。換句話說(shuō),它不是單點(diǎn)對(duì)單點(diǎn)的匹配問(wèn)題,而是(2N+1)個(gè)點(diǎn)對(duì)(2N+1)個(gè)點(diǎn)的匹配問(wèn)題。通過(guò)一起考慮沿著這些法線上的所有像素,可以獲得更穩(wěn)健的匹配結(jié)果。所以,典型情況下,基于JPDAF過(guò)程的轉(zhuǎn)換概率更準(zhǔn)確。令DF(i,j)和DB(i,j)分別為前景(在線φ上的[-N,i],在線φ+1上的[-N,j])和背景(在線φ上的[i+1,N],在線φ+1上的[j+1,N])的匹配距離。那么,可以規(guī)定轉(zhuǎn)換概率如下,以取代上面參考計(jì)算式(3)討論的轉(zhuǎn)換概率log(p(s2|s1)=DF(s1,s2)+DB(s1,s2)+(s2-s1)2/σs2...(4)]]>區(qū)域平滑概念可以由圖11中展示的合成影像來(lái)說(shuō)明。圖中展示了兩個(gè)區(qū)域表示背景干擾的矩形區(qū)域460和表示目標(biāo)的近似圓形區(qū)域462。也展示了兩條相鄰的法線464和466。點(diǎn)a和b為法線464上探測(cè)到的邊緣點(diǎn),而點(diǎn)c和d為法線466上探測(cè)到的邊緣點(diǎn)。目的是在這兩條法線464和466上尋找輪廓線在何處。除了某些變形以外,測(cè)量結(jié)果482和484相互類似。僅僅根據(jù)輪廓平滑約束,從a到c的輪廓和從b到c的輪廓幾乎具有相同幅度的平滑能量,因?yàn)閨a-c|≌|b-c|。不過(guò),如果我們還考慮區(qū)域平滑約束,可能的輪廓可以是ad或bc,而不是ac或bd。HMM可以進(jìn)一步根據(jù)所有的觀測(cè)線區(qū)分輪廓候選者ad和bc。
為了獲得新的轉(zhuǎn)換概率,要計(jì)算所有可能的((2N+1)2個(gè))狀態(tài)對(duì)之間的匹配。圖13以圖形的方式說(shuō)明了匹配距離的計(jì)算。給定了線464和466,匹配距離的計(jì)算可以由以下遞歸方程說(shuō)明,并且可以參見(jiàn)圖13 式中d(.,.)為匹配兩個(gè)像素的成本。DF(i,j)為464線上[-N,i]區(qū)段和466線上[-N,j]區(qū)段之間的最佳匹配距離。起始于DF(0,j)=DF(i,0)=0,其中i,j∈[-N,N],從i=-N到N和j=-N到N,使用以上遞歸式獲得匹配距離DF(i,j)。計(jì)算DB(i,j)是通過(guò)類似的過(guò)程,不過(guò)起始于DB(N,N)=0,到DB(-N,-N)。獲得了所有的匹配距離之后,可以計(jì)算出狀態(tài)轉(zhuǎn)換概率,并可以通過(guò)圖3中的輪廓選擇模塊172完成輪廓追蹤,下面還要更詳細(xì)地討論。
給定了觀測(cè)結(jié)果序列O={Oφ,φ∈[1,M]}和轉(zhuǎn)換概率ai,j=p(sφ+1=j(luò)|sφ=i)之后,輪廓選擇模塊172通過(guò)使用以下眾所周知的Veterbi算法,尋找最可能的狀態(tài)序列s*,確定所發(fā)現(xiàn)的最佳輪廓s*=argmaxsP(s|O)=argmaxsP(s,O)]]>值V(φ,λ)定義如下V(φ,λ)=maxsφ-1P(Oφ-1,sφ-1,sφ=λ)使用馬爾可夫條件獨(dú)立假設(shè),對(duì)于初始值V(1,λ)=maxs1P(O1|s1)P(s1),V(φ,λ)能夠遞歸計(jì)算如下V(φ,λ)=P(Oφ|sφ=λ)·maxjP(sφ=λ|sφ-1=j)V(j,φ-1)]]>j*(φ,λ)=P(Oφ|sφ=λ)·argmaxjP(sφ=λ|sφ-1=j)V(j,φ-1)]]>式中初始狀態(tài)概率P(s1)=1/(2N+1),s1∈[-N,N]。j*(φ,λ)項(xiàng)記錄了φ線上來(lái)自λ狀態(tài)的“最佳以前狀態(tài)”。所以,在序列的終點(diǎn),就獲得了maxsP(O,s)=maxλV(M,λ)。從sM*=arg maxλV(M,λ)開(kāi)始,以sφ-1*=j(luò)*(sφ*,φ)向后追蹤j*,可以獲得最優(yōu)狀態(tài)序列s*。
給定了最佳狀態(tài)序列s*={s1*,...,sM*},φ線上最佳輪廓點(diǎn)sφ*對(duì)應(yīng)的影像坐標(biāo)記為[xφ,yφ]。因?yàn)槭褂脵E圓作為參數(shù)輪廓模型,對(duì)于每個(gè)輪廓點(diǎn)[xφ,yφ],下式成立axφ2+byφ2+cxφyφ+dxφ+eyφ-1=0]]>這些方程的矩陣表達(dá)式為
A·f=b式中A=x12y12x1y1x1y1......xM2yM2xMyMxMyM]]>且b=[1,1,...,1]T。通過(guò)最小均方(LMS)解可以獲得最佳擬合橢圓的參數(shù)f*=[a,b,c,d,e]Tf*=(ATA)-1ATb (5)上面的橢圓表達(dá)式f=[a,b,c,d,e]T在數(shù)學(xué)上是方便的。但是這5個(gè)參數(shù)卻沒(méi)有清楚的物理解釋。在追蹤中,往往使用不同的5元橢圓表達(dá)式θ=[x,y,α,β,φ]式中(x,y)為橢圓的中心,α和β為橢圓長(zhǎng)短軸的長(zhǎng)度,φ為橢圓的方向。因?yàn)閒和θ是同一橢圓的兩個(gè)表達(dá)式,它們?cè)诒疚闹薪粨Q地使用。
在動(dòng)態(tài)環(huán)境中,被追蹤的目標(biāo)和背景都可能逐漸改變外觀。因此,模型調(diào)整模塊174動(dòng)態(tài)地調(diào)整觀測(cè)似然模型。調(diào)整觀測(cè)似然模型的一種方法是,完全相信Viterbi算法在t-1幀返回的輪廓,對(duì)該輪廓內(nèi)外的所有像素求平均,以獲得在t幀新的前景/背景顏色模型。不過(guò),如果在t-1幀發(fā)生了錯(cuò)誤,這個(gè)過(guò)程就可能以錯(cuò)誤的方式調(diào)整模型。因此,模型調(diào)整模塊174以概率統(tǒng)計(jì)的方式訓(xùn)練觀測(cè)模型。
不是完全相信在t-1幀獲得的輪廓,而是使用一種向前-向后的算法,來(lái)決定如何更新觀測(cè)模型?!跋蚯案怕史植肌倍x如下αφ(s)=p((O1,O2,...,Oφ,sφ=s)它能夠使用如下遞歸來(lái)計(jì)算α1(s)=p(s1=s)p(O1|s1=s)αφ+1(s)=[Σuαφ(u)au,s]p(Oφ+1|sφ+1=s)]]>同樣,“向后概率分布”定義如下βφ(s)=p(Oφ+1,Oφ+2,...,OM,sφ=s)它能夠使用如下遞歸來(lái)計(jì)算
βM(s)=1βφ(s)=Σuas,up(Oφ+1|sφ+1=u)βφ+1(u)]]>計(jì)算了向前和向后概率之后,我們可以計(jì)算φ線上每種狀態(tài)的概率如下P(sφ=s|O)=αφ(s)βφ(s)Σuαφ(u)βφ(u),s∈[-N,N]]]>它表示測(cè)量線φ上s處具有輪廓點(diǎn)的概率。
根據(jù)這些概率,沿著法線結(jié)合P(sφ=s|O),可以計(jì)算像素λφ在前景(或背景)中的概率如下P(λφ∈BG)=1-P(λφ∈FG)=Πs=-Nλφp(sφ=s|O)]]>這個(gè)概率給我們提供了一種穩(wěn)健的方法,在調(diào)整觀測(cè)模型期間對(duì)不同的像素加權(quán)。分類置信度越高的像素對(duì)顏色模型的貢獻(xiàn)越大,分類置信度越低的像素貢獻(xiàn)越小p(v|BG)=Σs=-NNP(s∈BG)·Oφ(s)Σs=-NNP(s∈BG).....(6)]]>p(v|FG)=Σs=-NNP(s∈FG)·Oφ(s)Σs=-NNP(s∈FG)]]>調(diào)整后的新模型反映了追蹤期間顏色分布的變化。然后,在下一幀的輪廓搜索期間,把調(diào)整后的新模型代回(1)式中。在展示的實(shí)例中沒(méi)有訓(xùn)練轉(zhuǎn)換概率,因?yàn)樵诘湫颓闆r下,它們趨于在追蹤過(guò)程期間保持相對(duì)不變。此外,也能夠以類似于訓(xùn)練顏色分布的方式訓(xùn)練轉(zhuǎn)換概率。
返回圖9,多線索追蹤過(guò)程400可以進(jìn)一步參考圖14。圖14展示了從時(shí)間t-1的一幀522到時(shí)間t的下一幀524追蹤一個(gè)目標(biāo)的過(guò)程。根據(jù)前一幀t-1中的追蹤結(jié)果和該目標(biāo)的動(dòng)態(tài),預(yù)測(cè)當(dāng)前幀t中目標(biāo)將在何處(動(dòng)作402)。沿著預(yù)測(cè)輪廓的一組法線收集觀測(cè)結(jié)果(動(dòng)作404)。使用眾所周知的Langevin過(guò)程來(lái)模擬人運(yùn)動(dòng)的動(dòng)態(tài)θtθt=1τ0aθt-1θt-1+0bmt]]>式中θ=[x,y,α,β,φ]為參數(shù)橢圓,a=exp(-βθτ),b=v‾1-a2]]>。βθ為比率常數(shù),m為從高斯分布N(0,Q)導(dǎo)出的熱激勵(lì)過(guò)程,τ為離散時(shí)間步長(zhǎng),v為穩(wěn)態(tài)均方根速度。
對(duì)于法線φ上的每一個(gè)像素,使用上面的(2)式,根據(jù)法線上每個(gè)像素的邊緣探測(cè)結(jié)果和顏色值,求取觀測(cè)似然函數(shù)(動(dòng)作406)p(Oφ|sφ=λφ),λφ∈[-N,N],φ∈[1,M]同時(shí),也根據(jù)JPDAF求取狀態(tài)轉(zhuǎn)換概率(動(dòng)作408),如上面(4)式所示。
利用前面計(jì)算出的觀測(cè)似然函數(shù)和轉(zhuǎn)換概率矩陣,由Viterbi算法尋找對(duì)于給定觀測(cè)結(jié)果的最佳輪廓(動(dòng)作410),并且使用上面的(6)式,根據(jù)探測(cè)的輪廓擬合最佳橢圓(動(dòng)作412)。
然后,使用向前-向后算法估計(jì)法線上每個(gè)像素(向前和向后)的軟分類,根據(jù)上面的(6)式,更新前景和背景的顏色模型(動(dòng)作414)。
對(duì)于視頻內(nèi)容中的每一幀,重復(fù)圖9中的過(guò)程400。
多線索追蹤模塊144試圖考慮線索的可靠性和線索可靠性的變化。例如,前景和背景的性質(zhì)都進(jìn)行模擬(參見(jiàn)上面的(1)式),在上面的(2)式中使用該模型來(lái)探測(cè)邊界(例如,假若前景的顏色與背景類似,它將不會(huì)對(duì)邊界探測(cè)作出很大貢獻(xiàn),該過(guò)程將更多地依靠更容易判別的其它線索,比如運(yùn)動(dòng))。在追蹤期間,也要調(diào)制由上面(6)式表達(dá)的背景和前景的模型。
對(duì)上面討論的多線索追蹤過(guò)程,還可以進(jìn)行多種修改。根據(jù)一種修改方案,被追蹤面孔的一個(gè)或多個(gè)特性點(diǎn)組成一組,得到保持,分析新的每一幀以確定組內(nèi)特性點(diǎn)的位置。一旦組內(nèi)的特性點(diǎn)定位之后,根據(jù)已定位的組內(nèi)各點(diǎn),就能夠粗略估計(jì)面孔的位置,然后這種粗略的估計(jì)結(jié)果會(huì)用作上面討論的參數(shù)輪廓追蹤過(guò)程的初始猜測(cè)。換句話說(shuō),分析新的一幀以便為參數(shù)輪廓追蹤過(guò)程定位一個(gè)初始猜測(cè),而不是依靠上面討論的預(yù)測(cè)位置。在相鄰幀之間目標(biāo)移動(dòng)距離大(大到上面討論的預(yù)測(cè)位置可能與后續(xù)幀中的實(shí)際輪廓位置不夠接近)的情況下,這種修改尤其有用。
可以追蹤多種不同的特性點(diǎn),比如眼角、嘴角、鼻孔等等。還可以追蹤音頻中的聲源作為特性點(diǎn),以補(bǔ)充或取代視覺(jué)特性。能夠使用多種特性的追蹤過(guò)程,比如眾所周知的Lucas-Kanade特性追蹤器。有關(guān)Lucas-Kanade特性追蹤器的其它信息,可以參見(jiàn)J.Shi andC.Tomasi,“Good Features to Track,”IEEE Conf.On ComputerVision and Pattern Recognition,pp.593-600,1994。
對(duì)上面討論的多線索追蹤過(guò)程可以進(jìn)行的另一種修改是,執(zhí)行概率統(tǒng)計(jì)的采樣時(shí),從特性點(diǎn)(探測(cè)的輪廓點(diǎn))采樣,而不是從狀態(tài)空間采樣。例如,從探測(cè)的所有輪廓點(diǎn)中可以采取幾個(gè)輪廓點(diǎn),在采用的輪廓點(diǎn)上擬合參數(shù)形狀。
對(duì)多線索追蹤過(guò)程可以進(jìn)行的另一種修改是,對(duì)面孔追蹤多個(gè)可能的位置——換句話說(shuō),追蹤多個(gè)假設(shè)而不是一個(gè)假設(shè)??梢允褂梦⒘V波技術(shù)來(lái)保持多個(gè)技術(shù),所以勉強(qiáng)的假設(shè)不被立即排除。相反,保持勉強(qiáng)的假設(shè),使它們有時(shí)間來(lái)證明是正確的選擇。下一步介紹一種這樣的微粒濾波器技術(shù),稱為無(wú)氣味的微粒濾波器。
使用無(wú)氣味卡爾曼濾波器(UKF)的無(wú)氣味微粒濾波器(UPF),被多線索追蹤模塊144用于追蹤多個(gè)假設(shè)。無(wú)氣味的變換(UT)用于計(jì)算g()的泰勒級(jí)數(shù)展開(kāi)式中高至第二階(第三階為高斯先驗(yàn)項(xiàng))的均值和協(xié)方差。令nx為x的維數(shù),x為x的均值,Px為x的協(xié)方差,UT計(jì)算y=g(x)的均值和協(xié)方差如下首先,確定性地產(chǎn)生2nx+1個(gè)求和點(diǎn)Si={Xi,Wi}X0=xXi=x‾+((nx+λ)Px)ii=1,...,nx]]>Xi=x‾((nx+λ)Px)ii=nx+1,...,2nx]]>(7)W0(m)=λ/(nx+λ),W0(c)=W0(m)+(1-α2+β)]]>Wi(m)=Wi(m)=1/(2·(nx+λ))i=1,...,2nx]]>λ=α2(nx+κ)-nx式中κ為比例參數(shù),它控制著求和點(diǎn)之間的距離和均值x,α為正比例參數(shù),它控制著非線性函數(shù)g()產(chǎn)生的高階效應(yīng),β為一個(gè)參數(shù),控制著第0個(gè)求和點(diǎn)的加權(quán),((nx+λ)Px)i]]>為矩陣第i列的平方根。在一個(gè)實(shí)施方案中,對(duì)于標(biāo)量情況,α=1,β=2,κ=2。注意,計(jì)算均值和協(xié)方差時(shí),第0個(gè)求和點(diǎn)的加權(quán)不同。
然后,求和點(diǎn)通過(guò)非線性變換傳播Yi=g(xi)i=0,...,2nx(8)y的均值和協(xié)方差按下式計(jì)算y‾=Σi=02nxWi(m)Yi,Py=Σi=02nxWi(c)(Yi-y‾)(Yi-y‾)T...(9)]]>y的均值和協(xié)方差準(zhǔn)確至泰勒級(jí)數(shù)展開(kāi)的第二階。
使用UT,將狀態(tài)空間擴(kuò)展到包括噪音分量xta=xtTmtTntTT]]>,可以實(shí)現(xiàn)無(wú)氣味的卡爾曼濾波器。令Na=Nx+Nm+Nn為擴(kuò)展后狀態(tài)空間的維數(shù),其中Nm和Nn為噪音mt和nt的維數(shù),Q和R為噪音mt和nt的協(xié)方差,UKF可以歸納如下初始化x‾0a=x‾0T00T,P0a=P0000Q000R.....(10)]]>對(duì)于每個(gè)時(shí)間事件,迭代下列步驟a)使用上面的(7)式中的過(guò)程計(jì)算求和點(diǎn)Xt-1a=x‾t-1ax‾t-1a±(na+λ)Pt-1a....(11)]]>b)時(shí)間更新Xt|t-1x=f(Xt-1x,Xt-1x),x‾t|t-1=Σi=02naWi(m)Xi,t|t-1x...(12)]]>Yt|t-1=h(Xt|t-1x,Xt-1n),y‾t|t-1=Σi=02naWi(m)Yi,t|t-1x....(13)]]>Pt|t-1=Σi=02naWi(c)[Xi,t|t-1x-x‾t|t-1][Xi,t|t-1x-x‾t|t-1]T....(14)]]>c)測(cè)量更新Pytyt=Σi=02naWi(c)[Yi,t|t-1-y‾t|t-1][Yi,t|t-1-y‾t|t-1]T...(15)]]>Pxtyt=Σi=02naWi(c)[Xi,t|t-1x-x‾t|t-1][Yi,t|t-1x-y‾t|t-1]T...(16)]]>Kt=PxtytPytyt-1......(17)]]>x‾t=x‾t|t-1+Kt(yt-y‾t|t-1),Pt=Pt|t-1-KtPytytKtT...(18)]]>
利用UKF,最新的觀測(cè)結(jié)果能夠方便地加入狀態(tài)估計(jì)中(例如上面的測(cè)量更新c));不過(guò),它對(duì)狀態(tài)分布進(jìn)行了高斯假設(shè)。相反,微粒濾波器能夠模擬任意的分布,但是卻難以將新的觀測(cè)結(jié)果yt加入建議的分布。UKF用于為微粒濾波器產(chǎn)生建議的分布,得出混合的UPF。確切地說(shuō),對(duì)于每個(gè)微粒,建議的分布如下q(xt(i)|x0:t-1(i),y1:t)=N(x‾t(i),Pt(i)),i=1,...,N....(19)]]>式中xt和Pt為x的均值和協(xié)方差,是使用UKF((10)-(18)式)計(jì)算出的。應(yīng)當(dāng)注意,盡管高斯假設(shè)并非真實(shí)地近似后驗(yàn)分布p(xt|xt-1,y0:t),對(duì)于明確的xt和Pt,產(chǎn)生各個(gè)微粒也不是一個(gè)大問(wèn)題。不僅如此,因?yàn)閁KF近似后驗(yàn)的均值和協(xié)方差高至第二階,所以很好地保存了系統(tǒng)的非線性性質(zhì)。通過(guò)將UKF步驟和(19)式插入一般的微粒濾波器算法,很容易獲得UPF過(guò)程。
圖15是一個(gè)流程圖,展示了一個(gè)示范的UPF過(guò)程550。圖15中的過(guò)程是由圖3中的多線索追蹤模塊144執(zhí)行,并且可以在軟件中執(zhí)行。
一開(kāi)始,使用(11)-(18)式利用UKF更新微粒xt(i),i=1,...,N,獲得xt(i)和Pt(i)(動(dòng)作552)。然后,從建議的分布q(xt(i)|x0:t-1(i),y1:t)=N(x‾t(i),Pt(i))]]>中,對(duì)微粒xt(i),i=1,...,N進(jìn)行采樣(動(dòng)作554)。然后使用如下的(20)式計(jì)算微粒加權(quán)(動(dòng)作556)w~t(i)=p(y1:t|x0:t(i))p(x0:t(i))q(x0:t-1(i)|y1:t-1)q(xt(i)|x0:t-1(i),y1:t)]]>=w~t-1(i)p(y1:t|x0:t(i))p(x0:t(i))p(y1:t-1|x0:t-1(i))p(x0:t-1(i))q(xt(i)|x0:t-1(i),y1:t)....(20)]]>=w~t-1(i)p(yt|xt(i))p(xt(i)|xt-1(i))q(xt(i)|x0:t-1(i),y1:t)]]>然后,使用如下的(21)式對(duì)重要性加權(quán)進(jìn)行歸一化(動(dòng)作558)wt(x0:t(i))=w~t(x0:t(i))/Σi=1Nw~t(x0:t(i))...(21)]]>式中微粒{x0:t(i),wt(x0:t(i))}是取自已知分布q, 和wt(x0:t(i))是未歸一化的和歸一化的重要性加權(quán)。
然后,使用如下的(22)式確定有效微粒尺寸S(動(dòng)作560)w~t(i)=w~t-1(i)p(yt|xt(i))p(xt(i)|xt-1(i))q(xt(i)|x0:t-1(i),y1:t)=w~t-1(i)p(yt|xt(i))...(22)]]>如果S<ST,那么乘(或者壓制)加權(quán)后的微粒,以產(chǎn)生N個(gè)等權(quán)的微粒(動(dòng)作562)。然后,使用如下的(23)式計(jì)算g()的期望(動(dòng)作564)Ep(g(x0:t))=limN→∞Σi=1Ng(x0:t(i))wt(x0:t(i))...(23)]]>利用gt(xt)=xt可以計(jì)算xt的條件均值,利用gt(xt)=xtxtT]]>可以計(jì)算xt的條件協(xié)方差。
現(xiàn)在討論根據(jù)音頻,使用圖15中的UPF過(guò)程550來(lái)追蹤與會(huì)者。典型情況下,兩個(gè)話筒就足以估計(jì)水平搖攝角。本文中討論根據(jù)水平搖攝角的追蹤,也可以進(jìn)行類似的操作來(lái)根據(jù)發(fā)言者的垂直俯仰角進(jìn)行追蹤。圖16展示了一種示范的多話筒環(huán)境。在圖16中,假設(shè)兩個(gè)話筒處在位置A和B,聲源處在位置C。當(dāng)聲源的距離(即|OC|)遠(yuǎn)大于話筒對(duì)基線|AB|時(shí),搖攝角θ=∠COX可以估計(jì)如下θ=∠COX≈∠BAE=arcsin|BE||AB|=arcsinD×v|AB|....(24)]]>式中D為兩個(gè)話筒之間的時(shí)間延遲,v=342m/s為聲音在空氣中傳播的速度。
為了在追蹤應(yīng)用中使用UPF框架,首先要建立4個(gè)實(shí)體在(12)式中使用的系統(tǒng)動(dòng)態(tài)模型Xt=f(xt-1,mt-1),在(13)式中使用的系統(tǒng)觀測(cè)模型yt=h(xt,nt),在(22)式中使用的似然模型p(yt|xt),以及在(18)式中使用的新發(fā)明的模型yt-yt|t-1。一旦這4個(gè)實(shí)體建立之后,就直截了當(dāng)?shù)厥褂脠D15中的UPF過(guò)程550進(jìn)行追蹤。
系統(tǒng)動(dòng)態(tài)模型Xt=f(xt-1,mt-1)確定如下。令x=[θ,θ·]T]]>為狀態(tài)空間,式中它們分別是搖攝角和搖攝角的速度。為了模擬一個(gè)發(fā)言者的運(yùn)動(dòng)動(dòng)態(tài),使用眾所周知的Langevin過(guò)程d2θ/dt2+βθ·dθ/dt=m,其離散形式為θtθ·t=1τ0aθt-1θ·t-1+0bmt...(25)]]>a=exp(-βθτ),b=v‾1-a2]]>式中βθ為比率常數(shù),m為從N(0,Q)導(dǎo)出的熱激勵(lì)過(guò)程,τ為離散時(shí)間步長(zhǎng),v為穩(wěn)態(tài)均方根速度。
系統(tǒng)觀測(cè)模型yt=h(xt,nt)確定如下。系統(tǒng)觀測(cè)結(jié)果yt為時(shí)間延遲Dt。根據(jù)上面的(24)式,觀測(cè)結(jié)果與狀態(tài)的關(guān)系為yt=Dt=h(θt,nt)=|AB|νsinθt+nt(26)式中nt為測(cè)量噪音,服從N(0,R)的高斯分布。
似然模型p(yt|xt)確定如下。令J為GCCF(廣義互相關(guān)函數(shù))中峰值的數(shù)目。在J個(gè)峰值位置中,最多只有一個(gè)是來(lái)自真正的聲源。所以,可以定義J+1個(gè)假設(shè)H0={cj=c:j=1,...,J} (27)Hj={cj=T,ck=C:k=1,...,J,k≠j式中cj=T表明第j個(gè)峰值與真正的聲源相關(guān)聯(lián),cj=C表明其它情況。所以,假設(shè)H0表明,沒(méi)有一個(gè)峰值與真正的聲源相關(guān)聯(lián)。所以,結(jié)合的似然模型為p(yt|xt)=π0p(yt|H0)+Σj=1Jπjp(yt|Hj)]]>=π0U+NmΣj=1JπjN(Dj,σD).....(28)]]>s.t.π0+Σj=1Jπj=1]]>式中π0為假設(shè)H0的先驗(yàn)概率,從第j個(gè)峰值的相對(duì)高度可以獲得πj,j=1,...,J,Nm為歸一化因子,Dj為第j個(gè)峰值相應(yīng)的時(shí)間延遲,U表示均勻分布,N()表示高斯分布。
新發(fā)明的模型yt-yt|t-1確定如下。與似然模型相同,新發(fā)明的模型也需要考慮多峰的事實(shí)yt-y‾t|t-1=Σj=1Jπj(Dj-y‾t|t-1).....(29)]]>式中yt|t-1為預(yù)測(cè)的側(cè)UKF獲得的測(cè)量結(jié)果(見(jiàn)上面的(18)式)。
根據(jù)視頻,使用圖15中的UPF過(guò)程550來(lái)追蹤與會(huì)者,類似于根據(jù)音頻來(lái)追蹤與會(huì)者。為了在追蹤應(yīng)用中使用UPF框架,首先要建立4個(gè)實(shí)體系統(tǒng)動(dòng)態(tài)模型xt=f(xt-1,mt-1),系統(tǒng)觀測(cè)模型yt=h(xt,nt),似然模型p(yt|xt),以及新發(fā)明的模型yt-yt|t-1。一旦這4個(gè)實(shí)體建立之后,就直截了當(dāng)?shù)厥褂脠D15中的UPF過(guò)程550進(jìn)行追蹤。
系統(tǒng)動(dòng)態(tài)模型xt=f(xt-1,mt-1)確定如下。令(r,s)表示影像坐標(biāo)。在基于輪廓的追蹤中,系統(tǒng)狀態(tài)為橢圓中心的位置及其水平和垂直速度,即xt=[rt,st,r·t,s·t]T]]>。類似于音頻數(shù)據(jù)的系統(tǒng)動(dòng)態(tài)模型,使用眾所周知的Langevin過(guò)程來(lái)模擬人運(yùn)動(dòng)的動(dòng)態(tài)r1str·ts·t=10τ0010τ00ar0000asrt-1st-1r·t-1s·t-1+00brbsmt...(30)]]>系統(tǒng)觀測(cè)模型yt=h(xt,nt)確定如下。橢圓的中心處在當(dāng)前狀態(tài)位置(rt,st)。從橢圓的中心產(chǎn)生K條射線,與橢圓邊界相交。橢圓中心用作局部坐標(biāo)系統(tǒng)的原點(diǎn),所以要獲得交點(diǎn)(uk,vk),k=1,2,...,K,uk=tan2φk/(1.44tan2φk+1).....(31)]]>vk=1/(1.44tan2φk+1)]]>可以通過(guò)聯(lián)合求解橢圓方程和射線方程 將局部(u,v)坐標(biāo)變換回影像坐標(biāo)就獲得了以下觀測(cè)結(jié)果yt=h(xt,nt) (33)=[(uk+rt,vk+st)]+nt,k=1,2,…,K式中nt為測(cè)量噪音,服從N(0,R)的高斯分布。應(yīng)當(dāng)注意,觀測(cè)模型是高度非線性的。
似然模型p(yt|xt)確定如下。沿著K條射線中的每一條,使用眾所周知的Canny邊緣探測(cè)器來(lái)計(jì)算邊緣強(qiáng)度。結(jié)果函數(shù)是一個(gè)多峰函數(shù),正如音頻數(shù)據(jù)似然模型中的GCCF。多個(gè)峰值表示沿著這條射線有多個(gè)邊緣候選者。令峰值的數(shù)目為J,我們可以使用與為了音頻數(shù)據(jù)開(kāi)發(fā)的似然模型同樣的似然模型,來(lái)模擬沿著射線k的邊緣似然p(k)(yt|xt)=πk0p(k)(yt|H0)+Σj=1Jπkjp(k)(yt|Hj)]]>=πk0U+NmΣj=1JπkjN((uk,vk)j,σkj)]]>考慮到所有的K條射線,所以整體似然為p(yt|xt)=Πk=1Kp(k)(yt|xt)......(34)]]>新發(fā)明的模型yt-yt|t-1確定如下。與似然模型相同,新發(fā)明的模型也需要考慮多峰的事實(shí)y(k)t-y‾(k)t|t-1=Σj=1Jπkj((uk,vk)t,j-(uk,vk)t|t-1)]]>式中k=1,2,...,K,πkj為沿著射線k對(duì)第j個(gè)峰值的混合加權(quán),可以從對(duì)應(yīng)的邊緣強(qiáng)度獲得。
通用計(jì)算機(jī)環(huán)境圖17展示了一種通用計(jì)算機(jī)環(huán)境600,它可以用于實(shí)施本文中介紹的、多個(gè)人的自動(dòng)探測(cè)和追蹤。計(jì)算機(jī)環(huán)境600僅僅是計(jì)算環(huán)境的一個(gè)實(shí)例,并非試圖建議對(duì)計(jì)算機(jī)和網(wǎng)絡(luò)體系結(jié)構(gòu)之使用范疇或功能的任何限制。計(jì)算機(jī)環(huán)境600也不應(yīng)當(dāng)被解釋為對(duì)示范計(jì)算機(jī)環(huán)境600中展示的組件中任何一個(gè)或組合具有任何的依賴或需要。
計(jì)算機(jī)環(huán)境600包括計(jì)算機(jī)602形式的通用計(jì)算設(shè)備。例如,計(jì)算機(jī)602可以是圖1中的系統(tǒng)102、圖2中的系統(tǒng)112、圖3中的系統(tǒng)130等等。計(jì)算機(jī)602的組件可以包括但是不限于一個(gè)或多個(gè)處理器或者說(shuō)處理單元604、一個(gè)系統(tǒng)存儲(chǔ)器606和一條系統(tǒng)總線608——它將多種系統(tǒng)組件,包括處理器604連接到系統(tǒng)存儲(chǔ)器606。
系統(tǒng)總線608表示幾種總線結(jié)構(gòu)中任何的一個(gè)或多個(gè),包括存儲(chǔ)器總線或者說(shuō)存儲(chǔ)器控制器、外圍總線、加速圖形端口以及處理器或者使用多種總線體系結(jié)構(gòu)中任何一種的局部總線。例如,這種體系結(jié)構(gòu)可以包括工業(yè)標(biāo)準(zhǔn)結(jié)構(gòu)(ISA)總線、微通道結(jié)構(gòu)(MCA)總線、增強(qiáng)的ISA(EISA)總線、視頻電子標(biāo)準(zhǔn)協(xié)會(huì)(VESA)局部總線以及外圍部件互連(PCI)總線——也被稱為中樓總線。
典型情況下,計(jì)算機(jī)602包括多種計(jì)算機(jī)可讀的介質(zhì)。這種介質(zhì)可以是任何可用的介質(zhì)——計(jì)算機(jī)602可存取,并包括易失性的和非易失性的、可拆卸的和不可拆卸的介質(zhì)。
系統(tǒng)存儲(chǔ)器606包括易失性存儲(chǔ)器形式的計(jì)算機(jī)可讀的介質(zhì),比如隨機(jī)存取存儲(chǔ)器(RAM)610,和/或非易失性存儲(chǔ)器,比如只讀存儲(chǔ)器(ROM)612。在ROM 612中存放著基本輸入/輸出系統(tǒng)(BIOS)614,包含著基本的例程,有助于在計(jì)算機(jī)602之內(nèi)的元件之間傳遞信息,比如在啟動(dòng)期間。典型情況下,RAM 610包含著處理單元604可立即存取和/或正在操作的數(shù)據(jù)和/或程序模塊。
計(jì)算機(jī)602也可以包括其它可拆卸的/不可拆卸的、易失性的/非易失性的計(jì)算機(jī)存儲(chǔ)介質(zhì)。例如,圖17展示了硬盤(pán)驅(qū)動(dòng)器616——用于在不可拆卸的、非易失性的磁介質(zhì)(未顯示)上讀取和寫(xiě)入,磁盤(pán)驅(qū)動(dòng)器618——用于在可拆卸的、非易失性的磁盤(pán)620(如“軟盤(pán)”)上讀取和寫(xiě)入,以及光盤(pán)驅(qū)動(dòng)器622——用于在可拆卸的、非易失性的光盤(pán)624比如CD-ROM、DVD-ROM或其它光存儲(chǔ)介質(zhì)上讀取和/或?qū)懭?。硬盤(pán)驅(qū)動(dòng)器616、磁盤(pán)驅(qū)動(dòng)器618和光盤(pán)驅(qū)動(dòng)器622都通過(guò)一個(gè)或多個(gè)數(shù)據(jù)介質(zhì)接口626,連接到系統(tǒng)總線608。此外,硬盤(pán)驅(qū)動(dòng)器616、磁盤(pán)驅(qū)動(dòng)器618和光盤(pán)驅(qū)動(dòng)器622也可以通過(guò)一個(gè)或多個(gè)接口(未顯示)連接到系統(tǒng)總線608。
這些盤(pán)片驅(qū)動(dòng)器和它們相關(guān)聯(lián)的計(jì)算機(jī)可讀介質(zhì),為計(jì)算機(jī)602所用的計(jì)算機(jī)可讀的指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊和其它數(shù)據(jù)提供了非易失性的存儲(chǔ)。盡管該實(shí)例展示了硬盤(pán)616、可拆卸的磁盤(pán)620和可拆卸的光盤(pán)624,應(yīng)當(dāng)承認(rèn),也可以采用能夠存放計(jì)算機(jī)可存取之?dāng)?shù)據(jù)的其它類型的計(jì)算機(jī)可讀介質(zhì),來(lái)實(shí)現(xiàn)示范的計(jì)算系統(tǒng)和環(huán)境,比如磁帶或其它磁存儲(chǔ)設(shè)備、閃存卡、CD-ROM、數(shù)字萬(wàn)能盤(pán)(DVD)或其它光存儲(chǔ)介質(zhì)、隨機(jī)存取存儲(chǔ)器(RAM)、只讀存儲(chǔ)器(ROM)、可電擦除的可編程只讀存儲(chǔ)器(EEPROM)等等。
在硬盤(pán)616、磁盤(pán)620、光盤(pán)624、ROM 612和/或RAM 610中,可用存放任何數(shù)目的程序模塊,包括例如操作系統(tǒng)626、一個(gè)或多個(gè)應(yīng)用程序628、其它程序模塊630和程序數(shù)據(jù)632。這種操作系統(tǒng)626、一個(gè)或多個(gè)應(yīng)用程序628、其它程序模塊630和程序數(shù)據(jù)632中的任何一種(或者它們的某些組合),都可以成為支持分布式文件系統(tǒng)的全部或部分駐留組件。
用戶可以通過(guò)輸入設(shè)備比如鍵盤(pán)634和定點(diǎn)設(shè)備636如“鼠標(biāo)”),向計(jì)算機(jī)602輸入命令和信息。其它輸入設(shè)備638(未確切顯示)可能包括話筒、操縱桿、游戲墊板、衛(wèi)星天線、串口、掃描儀等等。這些和其它輸入設(shè)備通過(guò)連接到系統(tǒng)總線608的輸入/輸出接口640,連接到處理單元604,但是也可以通過(guò)其它接口和總線結(jié)構(gòu)連接,比如并口、游戲端口或者通用串行總線(USB)。
監(jiān)視器642或其它類型的顯示設(shè)備也可以通過(guò)接口——比如視頻適配器644——連接到系統(tǒng)總線608。除了監(jiān)視器642,其它的外圍輸出設(shè)備可以包括能夠通過(guò)輸入/輸出接口640連接到計(jì)算機(jī)602的部件,比如揚(yáng)聲器(未顯示)和打印機(jī)646。
計(jì)算機(jī)602可以運(yùn)行在網(wǎng)絡(luò)化環(huán)境中,它使用一臺(tái)或多臺(tái)遠(yuǎn)程計(jì)算機(jī)的邏輯連接,比如遠(yuǎn)程計(jì)算設(shè)備648。例如,遠(yuǎn)程計(jì)算設(shè)備648可能是一臺(tái)個(gè)人計(jì)算機(jī)、便攜計(jì)算機(jī)、服務(wù)器、路由器、網(wǎng)絡(luò)計(jì)算機(jī)、對(duì)等設(shè)備或者其它普通網(wǎng)絡(luò)節(jié)點(diǎn)等等。遠(yuǎn)程計(jì)算設(shè)備648展示為便攜計(jì)算機(jī),相對(duì)于計(jì)算機(jī)602,它可以包括本文中介紹的許多或全部要素。
在計(jì)算機(jī)602和遠(yuǎn)程計(jì)算機(jī)648之間的邏輯連接,描述為局域網(wǎng)(LAN)650和一般的廣域網(wǎng)(WAN)652。這種聯(lián)網(wǎng)環(huán)境在辦公室、企業(yè)計(jì)算機(jī)網(wǎng)絡(luò)、內(nèi)聯(lián)網(wǎng)和因特網(wǎng)中是司空見(jiàn)慣的。
在LAN聯(lián)網(wǎng)環(huán)境中實(shí)現(xiàn)時(shí),計(jì)算機(jī)602通過(guò)網(wǎng)絡(luò)接口或者說(shuō)適配器654,連接到局域網(wǎng)650。在WAN聯(lián)網(wǎng)環(huán)境中實(shí)現(xiàn)時(shí),典型情況下計(jì)算機(jī)602包括調(diào)制解調(diào)器656或其它裝置,以便建立通過(guò)廣域網(wǎng)的通信調(diào)制解調(diào)器656——它可以在計(jì)算機(jī)602的內(nèi)部或外部——可以通過(guò)輸入/輸出接口640或其它適當(dāng)?shù)臋C(jī)制,連接到系統(tǒng)總線608。應(yīng)當(dāng)承認(rèn),展示的網(wǎng)絡(luò)連接是示范性的,在計(jì)算機(jī)602和648之間,也可以采用其它方式建立通信連接。
在網(wǎng)絡(luò)化的環(huán)境中,比如計(jì)算環(huán)境600展示的環(huán)境,相對(duì)于計(jì)算機(jī)602或者其中部分所描述的程序模塊,可能存放在遠(yuǎn)程存儲(chǔ)器的存儲(chǔ)設(shè)備中。例如,遠(yuǎn)程應(yīng)用程序658駐留在遠(yuǎn)程計(jì)算機(jī)648的存儲(chǔ)器設(shè)備中。為了便于展示,應(yīng)用程序和其它可執(zhí)行程序組件比如操縱系統(tǒng),在本文中展示為離散的塊,盡管應(yīng)當(dāng)理解這些程序和組件在不同的時(shí)間駐留在計(jì)算設(shè)備602的不同的存儲(chǔ)部件中,并被該計(jì)算機(jī)的數(shù)據(jù)處理器執(zhí)行。
分布式文件系統(tǒng)150的實(shí)施方案,可以在計(jì)算機(jī)可執(zhí)行指令——比如程序模塊,由一臺(tái)或多臺(tái)計(jì)算機(jī)或其它設(shè)備執(zhí)行——的一般環(huán)境中介紹。一般說(shuō)來(lái),程序模塊包括例程、程序、對(duì)象、組件、數(shù)據(jù)結(jié)構(gòu)等等,它們執(zhí)行特定的任務(wù)或者實(shí)現(xiàn)特定的抽象數(shù)據(jù)類型。典型情況下,程序模塊的功能可以結(jié)合或分配,如多個(gè)實(shí)施例中的介紹。
對(duì)于加密的文件,其文件格式的實(shí)施方案可以存放在或者傳送到某種形式的計(jì)算機(jī)可讀的介質(zhì)上。計(jì)算機(jī)可讀的介質(zhì)可以是計(jì)算機(jī)可以存取的、任何可用的介質(zhì)。計(jì)算機(jī)可讀的介質(zhì)可能包括例如但是不限于“計(jì)算機(jī)存儲(chǔ)介質(zhì)”和通信媒介”。
“計(jì)算機(jī)存儲(chǔ)介質(zhì)”包括以任何方法或技術(shù)實(shí)現(xiàn)的、用于信息——比如計(jì)算機(jī)可讀的指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或其它數(shù)據(jù)——存儲(chǔ)的易失性的和非易失性的、可拆卸的和不可拆卸的介質(zhì)。計(jì)算機(jī)存儲(chǔ)介質(zhì)包括但是不限于RAM、ROM、EEPROM、閃存或其它存儲(chǔ)器技術(shù)、CD-ROM、數(shù)字萬(wàn)能盤(pán)(DVD)或其它光存儲(chǔ)介質(zhì)、盒式磁帶、磁帶、磁盤(pán)存儲(chǔ)或其它磁存儲(chǔ)設(shè)備,或者能夠用于存放所需信息并且可由計(jì)算機(jī)存取的任何其它介質(zhì)。
“通信媒介”典型情況下使計(jì)算機(jī)可讀的指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或其它數(shù)據(jù)具體化為調(diào)制后的數(shù)據(jù)信號(hào),比如載波或其它傳輸機(jī)制。通信媒介也包括任何信息傳遞媒介。術(shù)語(yǔ)“調(diào)制后的數(shù)據(jù)信號(hào)”表明的信號(hào)使其特征的一個(gè)或多個(gè),以在信號(hào)中編碼信息的方式設(shè)置或改變。通信媒介包括例如但是不限于有線媒介比如有線網(wǎng)絡(luò)或直接有線連接,以及無(wú)須媒介比如聲波、RF、紅外線和其它無(wú)須媒介。在計(jì)算機(jī)可讀媒介的范疇之內(nèi),也包括以上類型的任何組合。
盡管本文主要討論涉及人的面孔,但是類似于本文中討論的人的面孔,其它目標(biāo)也可以自動(dòng)探測(cè)和/或追蹤。
結(jié)論雖然上面的介紹使用的語(yǔ)言,對(duì)結(jié)構(gòu)特性和/或方法動(dòng)作才是具體的,應(yīng)當(dāng)理解,在附帶的權(quán)利要求書(shū)中規(guī)定的本發(fā)明不限于介紹的具體特性和動(dòng)作。相反,具體的特性和動(dòng)作是公開(kāi)為本發(fā)明實(shí)施的示范形式。
權(quán)利要求
1.一種方法,包括接收內(nèi)容的幀;在該幀中為新的面孔區(qū)域自動(dòng)探測(cè)候選區(qū)域;使用一個(gè)或多個(gè)分級(jí)驗(yàn)證級(jí)別,驗(yàn)證人的面孔是否在該候選區(qū)域中;如果一個(gè)或多個(gè)分級(jí)驗(yàn)證級(jí)別驗(yàn)證了人的面孔在該候選區(qū)域中,就指明該候選區(qū)域包括一個(gè)面孔;以及使用多個(gè)線索在內(nèi)容中一幀一幀地追蹤每個(gè)證實(shí)的面孔。
2.根據(jù)權(quán)利要求1的方法,其特征在于,內(nèi)容的幀包括視頻內(nèi)容的幀。
3.根據(jù)權(quán)利要求1的方法,其特征在于,內(nèi)容的幀包括音頻內(nèi)容的幀。
4.根據(jù)權(quán)利要求1的方法,其特征在于,內(nèi)容的幀包括既有視頻內(nèi)容又有音頻內(nèi)容的幀。
5.根據(jù)權(quán)利要求1的方法,進(jìn)一步包括在證實(shí)的面孔追蹤丟失的情況下,重復(fù)自動(dòng)探測(cè)。
6.根據(jù)權(quán)利要求1的方法,其特征在于,接收內(nèi)容的幀包括從實(shí)施本方法之系統(tǒng)本地的視頻捕捉設(shè)備接收視頻內(nèi)容的幀。
7.根據(jù)權(quán)利要求1的方法,其特征在于,接收內(nèi)容的幀包括從實(shí)施本方法之系統(tǒng)可存取的計(jì)算機(jī)可讀介質(zhì)接收內(nèi)容的幀。
8.根據(jù)權(quán)利要求1的方法,其特征在于,在該幀中為新的面孔區(qū)域探測(cè)候選區(qū)域包括探測(cè)在該幀中是否有運(yùn)動(dòng),如果在該幀中有運(yùn)動(dòng),那么執(zhí)行基于運(yùn)動(dòng)的初始化,以確認(rèn)一個(gè)或多個(gè)候選區(qū)域;探測(cè)在該幀中是否有音頻,如果在該幀中有音頻,那么執(zhí)行基于音頻的初始化,以確認(rèn)一個(gè)或多個(gè)候選區(qū)域;以及如果在該幀中既沒(méi)有運(yùn)動(dòng)也沒(méi)有音頻,就使用快速面孔探測(cè)器來(lái)確認(rèn)一個(gè)或多個(gè)候選區(qū)域。
9.根據(jù)權(quán)利要求1的方法,其特征在于,在該幀中為新的面孔區(qū)域探測(cè)候選區(qū)域包括確定在跨越該幀的多條線上的多個(gè)像素處是否有運(yùn)動(dòng);對(duì)多條線中每一條的每個(gè)可能的區(qū)段,產(chǎn)生幀差異之和;對(duì)多條線中的每一條,選擇具有最大和的區(qū)段;確認(rèn)選定區(qū)段的最平滑的區(qū)域;檢驗(yàn)該最平滑的區(qū)域是否像人的上半身;以及在最平滑區(qū)域中提取像人的頭部的區(qū)域作為候選區(qū)域。
10.根據(jù)權(quán)利要求9的方法,其特征在于,確定是否有運(yùn)動(dòng)包括對(duì)于多個(gè)像素中的每一個(gè),確定該幀中像素的亮度值與其它的一幀或多幀中對(duì)應(yīng)像素的亮度值之間的差異是否超過(guò)閾值。
11.根據(jù)權(quán)利要求1的方法,其特征在于,一個(gè)或多個(gè)分級(jí)驗(yàn)證級(jí)別包括一個(gè)粗略級(jí)別和一個(gè)精細(xì)級(jí)別,其中粗略級(jí)別能夠更快地驗(yàn)證人的面孔是否在候選區(qū)域中,但是比精細(xì)級(jí)別的準(zhǔn)確度低。
12.根據(jù)權(quán)利要求1的方法,其特征在于,使用一個(gè)或多個(gè)分級(jí)驗(yàn)證級(jí)別包括產(chǎn)生候選區(qū)域的顏色直方圖;根據(jù)前面若干幀,產(chǎn)生候選區(qū)域的估計(jì)顏色直方圖;確定該顏色直方圖和該估計(jì)顏色直方圖之間的相似度值;以及如果相似度值大于閾值,驗(yàn)證該候選區(qū)域包括一個(gè)面孔;作為驗(yàn)證級(jí)別之一。
13.根據(jù)權(quán)利要求1的方法,其特征在于,指明該候選區(qū)域包括一個(gè)面孔,包括在追蹤列表中記錄該候選區(qū)域。
14.根據(jù)權(quán)利要求13的方法,其特征在于,在追蹤列表中記錄該候選區(qū)域,包括存取與該候選區(qū)域?qū)?yīng)的一個(gè)記錄,以及使該候選區(qū)域的上次驗(yàn)證后的時(shí)間復(fù)位。
15.根據(jù)權(quán)利要求1的方法,其特征在于,一個(gè)或多個(gè)分級(jí)驗(yàn)證級(jí)別包括一個(gè)第一級(jí)別和一個(gè)第二級(jí)別,其特征還在于,使用一個(gè)或多個(gè)分級(jí)驗(yàn)證級(jí)別,驗(yàn)證人的面孔是否在該候選區(qū)域中包括使用第一級(jí)別驗(yàn)證,檢驗(yàn)人的面孔是否驗(yàn)證為在候選區(qū)域中;以及只有檢驗(yàn)表明第一級(jí)別驗(yàn)證中,人的面孔沒(méi)有驗(yàn)證為在候選區(qū)域中,才使用第二級(jí)別驗(yàn)證。
16.根據(jù)權(quán)利要求1的方法,其特征在于,使用一個(gè)或多個(gè)分級(jí)驗(yàn)證級(jí)別包括使用第一驗(yàn)證過(guò)程確定人的頭部是否在候選區(qū)域中;以及如果第一驗(yàn)證過(guò)程驗(yàn)證了人的頭部是在候選區(qū)域中,那么指明該區(qū)域包括一個(gè)面孔,否則使用第二驗(yàn)證過(guò)程確定人的頭部是否在該區(qū)域中。
17.根據(jù)權(quán)利要求16的方法,其特征在于,第一驗(yàn)證過(guò)程更快,但是比第二驗(yàn)證過(guò)程的準(zhǔn)確度低。
18.根據(jù)權(quán)利要求1的方法,其特征在于,多個(gè)線索包括前景顏色、背景顏色、邊緣強(qiáng)度、運(yùn)動(dòng)和音頻。
19.根據(jù)權(quán)利要求1的方法,其特征在于,使用多個(gè)線索追蹤每個(gè)證實(shí)的面孔包括對(duì)于每個(gè)面孔預(yù)測(cè)面孔的輪廓將在何處;對(duì)懲罰粗糙的平滑約束進(jìn)行編碼;對(duì)多個(gè)可能的輪廓位置應(yīng)用平滑約束;以及在該幀中選擇具有最平滑輪廓的輪廓位置作為面孔的位置。
20.根據(jù)權(quán)利要求19的方法,其特征在于,平滑約束包括輪廓平滑。
21.根據(jù)權(quán)利要求19的方法,其特征在于,平滑約束既包括輪廓平滑又包括區(qū)域平滑。
22.根據(jù)權(quán)利要求19的方法,其特征在于,對(duì)平滑約束進(jìn)行編碼包括產(chǎn)生隱藏馬爾可夫模型(HMM)的狀態(tài)轉(zhuǎn)換概率。
23.根據(jù)權(quán)利要求19的方法,其特征在于,對(duì)平滑約束進(jìn)行編碼包括產(chǎn)生聯(lián)合概率數(shù)據(jù)關(guān)聯(lián)濾波器(JPDAF)的狀態(tài)轉(zhuǎn)換概率。
24.根據(jù)權(quán)利要求19的方法,其特征在于,使用多個(gè)線索追蹤每個(gè)證實(shí)的面孔進(jìn)一步包括對(duì)于每個(gè)面孔考慮變化的顏色分布,在后續(xù)幀中調(diào)整面孔的預(yù)測(cè)。
25.根據(jù)權(quán)利要求19的方法,其特征在于,使用多個(gè)線索追蹤每個(gè)證實(shí)的面孔進(jìn)一步包括對(duì)于每個(gè)面孔根據(jù)該幀中觀測(cè)的一個(gè)或多個(gè)線索,在后續(xù)幀中調(diào)整面孔的預(yù)測(cè)。
26.根據(jù)權(quán)利要求1的方法,其特征在于,使用多個(gè)線索追蹤每個(gè)證實(shí)的面孔包括對(duì)于每個(gè)面孔存取面孔的一個(gè)或多個(gè)特性點(diǎn)組成的組;分析該幀以確認(rèn)包括一個(gè)或多個(gè)特性點(diǎn)組成之組的區(qū)域;對(duì)懲罰粗糙的平滑約束進(jìn)行編碼;對(duì)多個(gè)可能的輪廓位置應(yīng)用平滑約束;以及在該幀中選擇具有最平滑輪廓的輪廓位置作為面孔的位置。
27.根據(jù)權(quán)利要求1的方法,其特征在于,使用多個(gè)線索追蹤每個(gè)證實(shí)的面孔包括一幀一幀地同時(shí)追蹤多個(gè)可能的面孔位置。
28.根據(jù)權(quán)利要求27的方法,進(jìn)一步包括使用多假設(shè)追蹤技術(shù)同時(shí)追蹤多個(gè)可能的位置。
29.根據(jù)權(quán)利要求27的方法,進(jìn)一步包括使用微粒濾波器同時(shí)追蹤多個(gè)可能的位置。
30.根據(jù)權(quán)利要求27的方法,進(jìn)一步包括使用無(wú)氣味微粒濾波器同時(shí)追蹤多個(gè)可能的位置。
31.一種在視頻內(nèi)容中追蹤多個(gè)人的系統(tǒng),該系統(tǒng)包括一個(gè)自動(dòng)初始化模塊,在該視頻內(nèi)容的一幀中為新的面孔探測(cè)候選區(qū)域;一個(gè)分級(jí)驗(yàn)證模塊,產(chǎn)生候選區(qū)域的置信度;以及一個(gè)多線索追蹤模塊,使用多個(gè)視覺(jué)線索追蹤前面帶有置信度的候選區(qū)域,該置信度是由分級(jí)驗(yàn)證模塊產(chǎn)生并超過(guò)閾值。
32.根據(jù)權(quán)利要求31的系統(tǒng),其特征在于,分級(jí)驗(yàn)證模塊進(jìn)一步配置為檢驗(yàn)置信度是否超過(guò)閾值;如果置信度確實(shí)超過(guò)閾值,那么將該候選區(qū)域傳遞到多線索追蹤模塊;以及如果置信度沒(méi)有超過(guò)閾值,那么將該候選區(qū)域清除并且不將該候選區(qū)域傳遞到多線索追蹤模塊。
33.根據(jù)權(quán)利要求31的系統(tǒng),其特征在于,分級(jí)驗(yàn)證模塊進(jìn)一步配置為從多線索追蹤模塊接收區(qū)域的一個(gè)指示;驗(yàn)證該區(qū)域是否為一個(gè)面孔;以及只有該區(qū)域驗(yàn)證為一個(gè)面孔時(shí),才將該區(qū)域返回多線索追蹤模塊以便繼續(xù)追蹤。
34.根據(jù)權(quán)利要求31的系統(tǒng),其特征在于,該系統(tǒng)包括一個(gè)視頻會(huì)議系統(tǒng)。
35.根據(jù)權(quán)利要求31的系統(tǒng),其特征在于,自動(dòng)初始化模塊進(jìn)一步要探測(cè)在該幀中是否有運(yùn)動(dòng);如果在該幀中有運(yùn)動(dòng),那么執(zhí)行基于運(yùn)動(dòng)的初始化,以確認(rèn)候選區(qū)域;探測(cè)在該幀中是否有音頻;如果在該幀中有音頻,那么執(zhí)行基于音頻的初始化,以確認(rèn)候選區(qū)域;以及如果在該幀中既沒(méi)有運(yùn)動(dòng),在該幀中也沒(méi)有音頻,就使用快速面孔探測(cè)器來(lái)確認(rèn)候選區(qū)域。
36.根據(jù)權(quán)利要求31的系統(tǒng),其特征在于,分級(jí)驗(yàn)證模塊要使用的一個(gè)或多個(gè)分級(jí)驗(yàn)證級(jí)別包括一個(gè)粗略級(jí)別和一個(gè)精細(xì)級(jí)別,其中粗略級(jí)別能夠更快地驗(yàn)證新面孔是否在候選區(qū)域中,但是比精細(xì)級(jí)別的準(zhǔn)確度低。
37.一種或多種計(jì)算機(jī)可讀的介質(zhì),其中已經(jīng)存放著多條指令,當(dāng)被一個(gè)或多個(gè)處理器執(zhí)行時(shí),這些指令使這一個(gè)或多個(gè)處理器接收視頻內(nèi)容的一幀中的區(qū)域指示;使用第一驗(yàn)證過(guò)程,確定人的頭部是否在該區(qū)域中;以及如果第一驗(yàn)證過(guò)程驗(yàn)證了人的頭部是在該區(qū)域中,那么指明該區(qū)域包括一個(gè)面孔,否則使用第二驗(yàn)證過(guò)程確定人的頭部是否在該區(qū)域中。
38.根據(jù)權(quán)利要求37的一種或多種計(jì)算機(jī)可讀介質(zhì),其特征在于,第一驗(yàn)證過(guò)程和第二驗(yàn)證過(guò)程對(duì)應(yīng)于多個(gè)分級(jí)驗(yàn)證級(jí)別。
39.根據(jù)權(quán)利要求38的一種或多種計(jì)算機(jī)可讀介質(zhì),其特征在于,多個(gè)分級(jí)驗(yàn)證級(jí)別包括多于兩個(gè)分級(jí)驗(yàn)證級(jí)別。
40.根據(jù)權(quán)利要求37的一種或多種計(jì)算機(jī)可讀介質(zhì),其特征在于,第一驗(yàn)證過(guò)程是一種粗略級(jí)別的過(guò)程,第二驗(yàn)證過(guò)程第一驗(yàn)證過(guò)程是一種精細(xì)級(jí)別的過(guò)程,其中粗略級(jí)別過(guò)程能夠更快地驗(yàn)證人的頭部是否在候選區(qū)域中,但是比精細(xì)級(jí)別過(guò)程的準(zhǔn)確度低。
41.根據(jù)權(quán)利要求37的一種或多種計(jì)算機(jī)可讀介質(zhì),其特征在于,使用第一驗(yàn)證過(guò)程的多條指令包括的指令使這一個(gè)或多個(gè)處理器產(chǎn)生該區(qū)域的顏色直方圖;根據(jù)視頻內(nèi)容的前面若干幀,產(chǎn)生該區(qū)域的估計(jì)顏色直方圖;確定該顏色直方圖和該估計(jì)顏色直方圖之間的相似度值;以及如果相似度值大于閾值,驗(yàn)證該候選區(qū)域包括一個(gè)人的頭部。
42.根據(jù)權(quán)利要求37的一種或多種計(jì)算機(jī)可讀介質(zhì),其特征在于,接收視頻內(nèi)容一幀中的區(qū)域指示的多條指令包括的指令使這一個(gè)或多個(gè)處理器在該幀中為新的面孔區(qū)域接收一個(gè)候選區(qū)域。
43.根據(jù)權(quán)利要求37的一種或多種計(jì)算機(jī)可讀介質(zhì),其特征在于,接收視頻內(nèi)容一幀中的區(qū)域指示的多條指令包括的指令使這一個(gè)或多個(gè)處理器接收一個(gè)區(qū)域再次驗(yàn)證為包括一個(gè)面孔的指示。
44.一種或多種計(jì)算機(jī)可讀的介質(zhì),其中已經(jīng)存放著在內(nèi)容的一幀為一個(gè)未追蹤的面孔探測(cè)候選區(qū)域的多條指令,當(dāng)被一個(gè)或多個(gè)處理器執(zhí)行時(shí),這多條指令使這一個(gè)或多個(gè)處理器探測(cè)在該幀中是否有運(yùn)動(dòng);如果在該幀中有運(yùn)動(dòng),那么執(zhí)行基于運(yùn)動(dòng)的初始化,以確認(rèn)候選區(qū)域;探測(cè)在該幀中是否有音頻;如果在該幀中有音頻,那么執(zhí)行基于音頻的初始化,以確認(rèn)候選區(qū)域;以及如果在該幀中既沒(méi)有運(yùn)動(dòng),在該幀中也沒(méi)有音頻,就使用快速面孔探測(cè)器來(lái)確認(rèn)候選區(qū)域。
45.根據(jù)權(quán)利要求44的一種或多種計(jì)算機(jī)可讀介質(zhì),其特征在于,執(zhí)行基于運(yùn)動(dòng)的初始化的多條指令包括的指令使這一個(gè)或多個(gè)處理器確定在跨越該幀的多條線上的多個(gè)像素處是否有運(yùn)動(dòng);對(duì)多條線中若干條的多個(gè)區(qū)段,產(chǎn)生幀差異之和;對(duì)多條線中的每一條,選擇具有最大和的區(qū)段;確認(rèn)選定區(qū)段的最平滑的區(qū)域;檢驗(yàn)該最平滑的區(qū)域是否像人的上半身;以及在最平滑區(qū)域中提取像人的頭部的區(qū)域作為候選區(qū)域。
46.根據(jù)權(quán)利要求45的一種或多種計(jì)算機(jī)可讀介質(zhì),其特征在于,確定是否有運(yùn)動(dòng)的指令包括的指令使這一個(gè)或多個(gè)處理器對(duì)于多個(gè)像素中的每一個(gè),確定該幀中像素的亮度值與其它的一幀或多幀中對(duì)應(yīng)像素的亮度值之間的差異是否超過(guò)閾值。
47.一種或多種計(jì)算機(jī)可讀的介質(zhì),其中已經(jīng)存放著在內(nèi)容中一幀一幀地追蹤若干面孔的多條指令,當(dāng)被一個(gè)或多個(gè)處理器執(zhí)行時(shí),這多條指令使這一個(gè)或多個(gè)處理器使用多個(gè)線索,在一幀中預(yù)測(cè)面孔的輪廓將在何處;對(duì)懲罰粗糙的平滑約束進(jìn)行編碼;對(duì)多個(gè)可能的輪廓位置應(yīng)用平滑約束;以及在該幀中選擇具有最平滑輪廓的輪廓位置作為面孔的位置。
48.根據(jù)權(quán)利要求47的一種或多種計(jì)算機(jī)可讀介質(zhì),其特征在于,多個(gè)線索包括前景顏色、背景顏色、邊緣強(qiáng)度和運(yùn)動(dòng)。
49.根據(jù)權(quán)利要求47的一種或多種計(jì)算機(jī)可讀介質(zhì),其特征在于,多個(gè)線索包括音頻。
50.根據(jù)權(quán)利要求47的一種或多種計(jì)算機(jī)可讀介質(zhì),其特征在于,平滑約束包括輪廓平滑。
51.根據(jù)權(quán)利要求47的一種或多種計(jì)算機(jī)可讀介質(zhì),其特征在于,平滑約束既包括輪廓平滑又包括區(qū)域平滑。
52.根據(jù)權(quán)利要求47的一種或多種計(jì)算機(jī)可讀介質(zhì),其特征在于,對(duì)平滑約束進(jìn)行編碼的多條指令包括的指令使這一個(gè)或多個(gè)處理器產(chǎn)生隱藏馬爾可夫模型(HMM)的狀態(tài)轉(zhuǎn)換概率。
53.根據(jù)權(quán)利要求47的一種或多種計(jì)算機(jī)可讀介質(zhì),其特征在于,對(duì)平滑約束進(jìn)行編碼的多條指令包括的指令使這一個(gè)或多個(gè)處理器產(chǎn)生聯(lián)合概率數(shù)據(jù)關(guān)聯(lián)濾波器(JPDAF)的狀態(tài)轉(zhuǎn)換概率。
54.根據(jù)權(quán)利要求47的一種或多種計(jì)算機(jī)可讀介質(zhì),其特征在于,多條指令進(jìn)一步包括的指令使這一個(gè)或多個(gè)處理器考慮變化的顏色分布,在后續(xù)幀中調(diào)整面孔的預(yù)測(cè)。
55.根據(jù)權(quán)利要求47的一種或多種計(jì)算機(jī)可讀介質(zhì),其特征在于,多條指令進(jìn)一步包括的指令使這一個(gè)或多個(gè)處理器根據(jù)該幀中觀測(cè)的一個(gè)或多個(gè)線索,在后續(xù)幀中調(diào)整面孔的預(yù)測(cè)。
56.根據(jù)權(quán)利要求47的一種或多種計(jì)算機(jī)可讀介質(zhì),多條指令進(jìn)一步包括的指令使這一個(gè)或多個(gè)處理器一幀一幀地同時(shí)追蹤多個(gè)可能的面孔位置。
57.根據(jù)權(quán)利要求56的一種或多種計(jì)算機(jī)可讀介質(zhì),多條指令進(jìn)一步包括的指令使這一個(gè)或多個(gè)處理器同時(shí)追蹤多個(gè)可能的位置。
58.一種沿著內(nèi)容的若干幀追蹤目標(biāo)的方法,該方法包括使用多個(gè)線索追蹤該目標(biāo)。
59.根據(jù)權(quán)利要求58的方法,其特征在于,多個(gè)線索包括前景顏色、背景顏色、邊緣強(qiáng)度、運(yùn)動(dòng)和音頻。
60.根據(jù)權(quán)利要求58的方法,其特征在于,使用多個(gè)線索包括根據(jù)多個(gè)線索一幀一幀地預(yù)測(cè)目標(biāo)將在何處。
61.一種沿著內(nèi)容的若干幀追蹤目標(biāo)的方法,該方法包括在一幀中預(yù)測(cè)目標(biāo)將在何處;對(duì)懲罰粗糙的平滑約束進(jìn)行編碼;對(duì)多個(gè)可能的目標(biāo)位置應(yīng)用平滑約束;以及在該幀中選擇具有最平滑輪廓的目標(biāo)位置作為目標(biāo)的位置。
62.根據(jù)權(quán)利要求61的方法,其特征在于,該預(yù)測(cè)使用多個(gè)線索,包括前景顏色、背景顏色、邊緣強(qiáng)度、運(yùn)動(dòng)和音頻。
63.根據(jù)權(quán)利要求61的方法,其特征在于,平滑約束既包括輪廓平滑又包括區(qū)域平滑。
64.根據(jù)權(quán)利要求61的方法,其特征在于,對(duì)平滑約束進(jìn)行編碼包括產(chǎn)生隱藏馬爾可夫模型(HMM)的狀態(tài)轉(zhuǎn)換概率。
65.根據(jù)權(quán)利要求61的方法,其特征在于,對(duì)平滑約束進(jìn)行編碼包括產(chǎn)生聯(lián)合概率數(shù)據(jù)關(guān)聯(lián)濾波器(JPDAF)的狀態(tài)轉(zhuǎn)換概率。
66.根據(jù)權(quán)利要求61的方法,其特征在于,使用多個(gè)線索追蹤每個(gè)證實(shí)的面孔進(jìn)一步包括對(duì)于每個(gè)面孔根據(jù)該幀中觀測(cè)的一個(gè)或多個(gè)線索,在后續(xù)幀中調(diào)整面孔的預(yù)測(cè)。
67.根據(jù)權(quán)利要求61的方法,其特征在于,預(yù)測(cè)目標(biāo)將在何處包括存取面孔的一個(gè)或多個(gè)特性點(diǎn)組成的組;以及分析該幀以確認(rèn)包括一個(gè)或多個(gè)特性點(diǎn)組成之組的區(qū)域。
68.根據(jù)權(quán)利要求61的方法,其特征在于,使用多個(gè)線索追蹤每個(gè)證實(shí)的面孔包括一幀一幀地同時(shí)追蹤多個(gè)可能的面孔位置。
69.根據(jù)權(quán)利要求68的方法,進(jìn)一步包括使用多假設(shè)追蹤技術(shù)同時(shí)追蹤多個(gè)可能的位置。
70.根據(jù)權(quán)利要求61的方法,其特征在于,該目標(biāo)包括視頻內(nèi)容中的一個(gè)面孔。
71.根據(jù)權(quán)利要求61的方法,其特征在于,該目標(biāo)包括音頻內(nèi)容中的一個(gè)聲源位置。
全文摘要
對(duì)多個(gè)人的自動(dòng)探測(cè)和追蹤包括接收視頻和/或音頻內(nèi)容的一幀,并在該幀中為新的面孔區(qū)域確認(rèn)一個(gè)候選區(qū)域。一個(gè)或多個(gè)分級(jí)驗(yàn)證級(jí)別用于驗(yàn)證人的面孔是否在候選區(qū)域中,如果一個(gè)或多個(gè)分級(jí)驗(yàn)證級(jí)別驗(yàn)證了人的面孔是在候選區(qū)域中,就作出該候選區(qū)域包括一個(gè)面孔的指示。多個(gè)音頻和/或視頻線索用于在視頻內(nèi)容中一幀一幀地追蹤每個(gè)證實(shí)的面孔。
文檔編號(hào)H04N7/26GK1423487SQ0215266
公開(kāi)日2003年6月11日 申請(qǐng)日期2002年11月29日 優(yōu)先權(quán)日2001年12月3日
發(fā)明者芮永, 陳云強(qiáng) 申請(qǐng)人:微軟公司
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1