使用多種線索對(duì)多個(gè)人的自動(dòng)探測(cè)和追蹤的制作方法

文檔序號(hào)：7941237閱讀：450來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>電子通信裝置的制造及其應(yīng)用技術(shù)

專利名稱：使用多種線索對(duì)多個(gè)人的自動(dòng)探測(cè)和追蹤的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及影像和/或音頻處理，和/或計(jì)算機(jī)視覺(jué)，尤其是涉及對(duì)多個(gè)人的自動(dòng)探測(cè)和追蹤。
背景技術(shù)：
分析視頻數(shù)據(jù)的系統(tǒng)變得越來(lái)越流行了。視頻會(huì)議系統(tǒng)就是這種系統(tǒng)的實(shí)例——它們?cè)试S進(jìn)行視覺(jué)互動(dòng)的會(huì)議，盡管與會(huì)者可能位于不同的地理位置。典型情況下，視頻會(huì)議的視覺(jué)方面使它比電話會(huì)議更加引人入勝，而同時(shí)與一個(gè)或多個(gè)參加者必須旅行到會(huì)議地點(diǎn)才能親自到會(huì)相比，這也是花銷更低的一種替代形式(典型情況下，也能夠以更短的通知來(lái)實(shí)現(xiàn))。
某些當(dāng)前的視頻會(huì)議系統(tǒng)使用自動(dòng)的基于音頻的探測(cè)技術(shù)和/或預(yù)置來(lái)移動(dòng)攝像頭(例如使攝像頭搖攝或俯仰)。然而，當(dāng)前的視頻會(huì)議系統(tǒng)存在著許多問(wèn)題。一個(gè)這樣的問(wèn)題是，基于音頻的發(fā)言者探測(cè)技術(shù)的準(zhǔn)確度不高。另外，典型情況下，視頻會(huì)議系統(tǒng)不知道會(huì)場(chǎng)上有多少參加者(包括參加者進(jìn)入或離開(kāi)會(huì)場(chǎng)時(shí))、參加者位于何處(坐或立)以及哪個(gè)參加者正在發(fā)言。雖然某些系統(tǒng)可以手工設(shè)定參加者的信息(例如參加者的數(shù)目及其位置)，但是這就需要用戶進(jìn)入設(shè)定的信息范圍，它勢(shì)必限制與會(huì)者在房間內(nèi)移動(dòng)的能力，以及與會(huì)者加入會(huì)議的能力。
本文中介紹的多個(gè)人的自動(dòng)探測(cè)和追蹤，有助于解決這些和其它的問(wèn)題。

發(fā)明內(nèi)容
本文介紹多個(gè)人的自動(dòng)探測(cè)和追蹤。
一方面，接收內(nèi)容(例如音頻和/或視頻)的一幀，并且在該幀中為了一個(gè)新的面孔區(qū)域而確認(rèn)一個(gè)或多個(gè)候選區(qū)域。然后使用分級(jí)驗(yàn)證法來(lái)驗(yàn)證某個(gè)人的面孔是否在候選區(qū)域中，如果分級(jí)驗(yàn)證法驗(yàn)證了一個(gè)人的面孔是在候選區(qū)域中，就產(chǎn)生該候選區(qū)域包括一張面孔的一個(gè)標(biāo)記。驗(yàn)證了區(qū)域之后，在內(nèi)容中一幀一幀地使用多個(gè)線索來(lái)追蹤每個(gè)驗(yàn)證后的面孔。
一方面，在這種探測(cè)和追蹤的框架中有三個(gè)主要的模塊自動(dòng)初始化模塊、分級(jí)驗(yàn)證模塊和多線索追蹤模塊。由自動(dòng)初始化模塊來(lái)接收內(nèi)容(例如音頻和/或視頻)的一幀，并且在該幀中為了一個(gè)新的面孔(或其它目標(biāo))區(qū)域而確認(rèn)一個(gè)或多個(gè)候選區(qū)域。然后使用分級(jí)驗(yàn)證模塊驗(yàn)證某個(gè)人的面孔是否在候選區(qū)域中，如果分級(jí)驗(yàn)證模塊驗(yàn)證了一個(gè)人的面孔是在候選區(qū)域中，就產(chǎn)生該候選區(qū)域包括一張面孔的一個(gè)標(biāo)記。區(qū)域經(jīng)過(guò)驗(yàn)證之后，多線索追蹤模塊在內(nèi)容中一幀一幀地使用多個(gè)線索來(lái)追蹤每個(gè)驗(yàn)證后的面孔。在整個(gè)追蹤過(guò)程中，被追蹤的面孔由分級(jí)驗(yàn)證模塊持續(xù)地驗(yàn)證。如果置信度水平高，多線索追蹤模塊就保持該面孔的追蹤；如果置信度變低了，就終止特定面孔的追蹤。追蹤模塊和驗(yàn)證模塊等待初始化模塊供應(yīng)更多的候選區(qū)域。
附圖簡(jiǎn)要說(shuō)明本文檔中自始至終使用同樣的號(hào)碼表示類似的組件和/或特性。

圖1展示了一種示范環(huán)境，其中能夠使用穩(wěn)健的自動(dòng)確認(rèn)和追蹤。
圖2展示了另一種示范環(huán)境，其中能夠使用穩(wěn)健的自動(dòng)確認(rèn)和追蹤。
圖3展示了使用穩(wěn)健的自動(dòng)確認(rèn)和追蹤的一種示范系統(tǒng)。
圖4是一個(gè)流程圖，展示了一個(gè)示范過(guò)程，用于為新的面孔區(qū)域探測(cè)候選區(qū)域。
圖5是一個(gè)流程圖，展示了一個(gè)示范過(guò)程，使用基于運(yùn)動(dòng)的初始化，為新的面孔區(qū)域確認(rèn)候選區(qū)域。
圖6展示了視頻內(nèi)容的一幀的一個(gè)示范影像。
圖7是一個(gè)流程圖，展示了一個(gè)示范過(guò)程，用于執(zhí)行分級(jí)驗(yàn)證。
圖8展示了一個(gè)示范過(guò)程，用于基于色彩的快速驗(yàn)證。
圖9是一個(gè)流程圖，展示了一個(gè)示范過(guò)程，用于執(zhí)行多線索追蹤。
圖10更詳細(xì)地展示了一個(gè)示范的模擬和比較，用于多線索追蹤。
圖11是一個(gè)影像，展示了區(qū)域平滑的概念。
圖12展示了從圖11測(cè)出的亮度。
圖13展示了圖形匹配距離的一種示范計(jì)算。
圖14展示了對(duì)某個(gè)目標(biāo)從一幀到下一幀的示范追蹤。
圖15是一個(gè)流程圖，展示了一個(gè)示范的無(wú)氣味微粒濾波器過(guò)程。
圖16展示了一種示范的多話筒環(huán)境。
圖17展示了一種示范的通用計(jì)算機(jī)環(huán)境。
具體實(shí)施例方式
本文介紹對(duì)多個(gè)人的自動(dòng)探測(cè)和追蹤。分析視頻內(nèi)容和/或音頻內(nèi)容，以自動(dòng)探測(cè)內(nèi)容的各幀中的個(gè)人。一旦探測(cè)到，就在后續(xù)的幀中自動(dòng)追蹤這些人。如果對(duì)某個(gè)人的追蹤中斷了，就再次自動(dòng)探測(cè)這個(gè)人，并恢復(fù)對(duì)這個(gè)人的追蹤。
圖1和圖2展示了示范的環(huán)境，其中能夠使用穩(wěn)健的自動(dòng)確認(rèn)和追蹤。在圖1中，多(n)個(gè)視頻會(huì)議系統(tǒng)102能夠相互對(duì)一個(gè)或多個(gè)進(jìn)行音頻和/或視頻內(nèi)容的通信。在視頻會(huì)議系統(tǒng)102中可以使用為數(shù)眾多的不同攝像頭系統(tǒng)，比如常規(guī)的搖攝/俯仰/變焦攝像頭、360度全景攝像頭(例如能夠數(shù)字地而不是機(jī)械地?fù)u攝/俯仰/變焦的攝像頭)等等。一種這樣的360度全景攝像頭系統(tǒng)使用一個(gè)指向拋物線鏡面設(shè)備的攝像頭，然后使用多種標(biāo)定技術(shù)消除影像的扭曲，獲得若干正常的影像，由這些影像能夠構(gòu)造攝像頭周圍的360度全向影像。這種360度全景攝像頭系統(tǒng)的一個(gè)實(shí)例，可以參見(jiàn)發(fā)明者Yong Rui、Anoop Gupta、Johnathan J.Cadiz和Ross G.Cutler 2001年6月14日提交的、標(biāo)題為“Automated Online Broadcasting System andMethod Using an Omni-Directional Camera System for ViewingMeetings Over a Computer Network”的待批準(zhǔn)美國(guó)專利申請(qǐng)書(shū)09/681843號(hào)。另一種這樣的360度全景攝像頭系統(tǒng)使用多個(gè)攝像頭(每一個(gè)都具有小于360度的視野)，其排列方式使它們能夠一起提供接近360度的視野。
會(huì)議系統(tǒng)102中的每一個(gè)都包括追蹤模塊104，它穩(wěn)健地自動(dòng)探測(cè)和追蹤在對(duì)應(yīng)系統(tǒng)102的多個(gè)人。這種探測(cè)和追蹤能夠用于多種目的，比如使攝像頭俯仰/搖攝/變焦、突出某個(gè)人(例如采用一個(gè)箭頭指向這個(gè)人或者采用一個(gè)圓圈圍繞這個(gè)人)等等。
視頻會(huì)議系統(tǒng)102能夠以為數(shù)眾多的方式中的任何一種連接在一起。例如，可以使用一條或多條電話線路(包括數(shù)字線路，比如ISDN)，將多個(gè)系統(tǒng)102連接在一起，或者直接連接，或者通過(guò)某個(gè)中心設(shè)備或位置，可以使用常規(guī)的數(shù)據(jù)網(wǎng)絡(luò)(例如因特網(wǎng)、內(nèi)聯(lián)網(wǎng)等等)將多個(gè)系統(tǒng)102連接在一起，等等。
在圖2中，系統(tǒng)112包括追蹤模塊114，它接收內(nèi)容116。典型情況下，內(nèi)容116是音頻/視頻內(nèi)容，但是也可能包括其它類型的內(nèi)容(例如共享的白板等等)以及/或者可能不包括音頻內(nèi)容或視頻內(nèi)容。追蹤模塊114分析內(nèi)容116，并根據(jù)內(nèi)容116中多個(gè)人的影像和/或音頻，穩(wěn)健地自動(dòng)探測(cè)和追蹤這些人。能夠以為數(shù)眾多的方式中的任何一種，使內(nèi)容116可為系統(tǒng)112可用，比如系統(tǒng)112的攝像頭和話筒、記錄著內(nèi)容的記錄介質(zhì)(例如磁帶、光盤(pán)等)、電話線路或網(wǎng)絡(luò)輸入等等。
圖3展示了使用穩(wěn)健的自動(dòng)確認(rèn)和追蹤的一種示范系統(tǒng)130。系統(tǒng)130可能是——例如——圖1的視頻會(huì)議系統(tǒng)102或者圖2的系統(tǒng)112中的任何一種。系統(tǒng)130包括探測(cè)和追蹤模塊132、通信模塊134、音頻捕捉模塊136和視頻捕捉模塊138。還可以包括多種其它模塊(未顯示)，比如白板捕捉模塊。通信模塊134管理系統(tǒng)130與其它系統(tǒng)的通信，比如其它的、圖1的視頻會(huì)議系統(tǒng)102，或者可以從其接收要分析之內(nèi)容的其它設(shè)備。通信模塊134能夠支持為數(shù)眾多的常規(guī)的和/或?qū)Ｓ械膮f(xié)議。
在系統(tǒng)130中，音頻捕捉模塊136管理音頻內(nèi)容的捕捉，比如通過(guò)一個(gè)或多個(gè)話筒(未顯示)——系統(tǒng)130的一部分。還可以進(jìn)行進(jìn)一步的處理(例如使用聲束形成技術(shù))以提高音頻的質(zhì)量。音頻內(nèi)容轉(zhuǎn)換為數(shù)字格式(如果需要)并使探測(cè)和追蹤模塊132可用它來(lái)追蹤。在系統(tǒng)130中，視頻捕捉模塊138管理視頻內(nèi)容的捕捉，比如通過(guò)一個(gè)或多個(gè)視頻捕捉設(shè)備(例如模擬或數(shù)字視頻攝像頭(未顯示))——系統(tǒng)130的一部分(可能包括——例如——固定攝像頭、常規(guī)的搖攝/俯仰/變焦攝像頭、360度全景攝像頭等等)。然后，捕捉的視頻內(nèi)容幀轉(zhuǎn)換為數(shù)字格式(如果需要)并使探測(cè)和追蹤模塊132可用它來(lái)探測(cè)和追蹤若干個(gè)人。音頻和視頻內(nèi)容相互相關(guān)(例如在捕捉的時(shí)間)，因此對(duì)于內(nèi)容的任何特定部位(例如某幀)，視頻和音頻內(nèi)容都是已知的。在另一個(gè)實(shí)施例中，可能不包括模塊134、136和138中的一個(gè)或多個(gè)。例如，系統(tǒng)可能不包括或者視頻捕捉模塊138，或者音頻捕捉模塊136。
探測(cè)和追蹤模塊132包括自動(dòng)初始化模塊140、分級(jí)驗(yàn)證模塊142、多線索追蹤模塊144和面孔/候選區(qū)域追蹤列表146。探測(cè)和追蹤模塊132自動(dòng)探測(cè)視頻內(nèi)容中包括或者可能包括人面孔的若干區(qū)域，并使用多種線索來(lái)追蹤探測(cè)到的區(qū)域。探測(cè)和追蹤模塊132能夠探測(cè)包括面孔和面孔候選區(qū)域的多個(gè)區(qū)域，并且同時(shí)追蹤這些區(qū)域。
探測(cè)和追蹤模塊132分析內(nèi)容的部位，比如幀。例如，典型情況下視頻內(nèi)容捕捉為每秒若干幀(例如靜止影像)(典型情況下在每秒15-60幀的量級(jí)，盡管可以使用其它速率)。這些視頻幀，以及對(duì)應(yīng)的音頻內(nèi)容(例如每1/15至1/60秒的音頻數(shù)據(jù))用作模塊132探測(cè)和追蹤所用的幀。記錄音頻時(shí)，典型情況下音頻的采樣率比視頻高得多(例如盡管對(duì)于視頻每秒可能捕捉15至60幅影像，卻可能要捕捉數(shù)千個(gè)音頻樣點(diǎn))。這些音頻樣點(diǎn)可能以各種不同的方式對(duì)應(yīng)于視頻中特定的一幀。例如，從捕捉某視頻幀到捕捉下一視頻幀之間的音頻樣點(diǎn)，可以是對(duì)應(yīng)于該視頻幀的音頻幀。通過(guò)另一個(gè)實(shí)例，以視頻捕捉幀為中心時(shí)間的音頻樣點(diǎn)，可以是對(duì)應(yīng)于該視頻幀的音頻幀(例如，以每秒30幀捕捉視頻，音頻幀的范圍可能是從捕捉視頻幀之前的1/60秒至捕捉視頻幀之后的1/60秒)。
此外，在某些情況下可能沒(méi)有視頻內(nèi)容。在這些情況下，就能夠以為數(shù)眾多的方式，由采樣后的音頻產(chǎn)生音頻內(nèi)容的幀。例如，每1/30秒或1/60秒的音頻樣點(diǎn)可以組成音頻內(nèi)容的幀。
在某些情況下，音頻內(nèi)容可能包括并不直接對(duì)應(yīng)于視頻內(nèi)容的數(shù)據(jù)。例如，音頻內(nèi)容可能是音樂(lè)的音軌，而不是視頻內(nèi)容中人們的語(yǔ)音。在這些情況下，本文中介紹的探測(cè)和追蹤依賴于視頻內(nèi)容，而無(wú)需音頻內(nèi)容。
雖然本文的主要討論是關(guān)于使用視頻和音頻內(nèi)容，但是探測(cè)和追蹤模塊132也可以僅僅根據(jù)視頻內(nèi)容或者僅僅根據(jù)音頻內(nèi)容而操作。在沒(méi)有音頻內(nèi)容的情況下，就不執(zhí)行下面討論的處理音頻內(nèi)容的過(guò)程。同樣，在沒(méi)有視頻內(nèi)容的情況下，就不執(zhí)行下面討論的處理視頻內(nèi)容的過(guò)程。
面孔/候選區(qū)域追蹤列表146保持的信息用于每個(gè)探測(cè)的區(qū)域，其中包括或者可能包括某個(gè)人的面孔。這些可能包括某個(gè)面孔但是面孔的存在尚未驗(yàn)證的區(qū)域，被稱為候選區(qū)域。在展示的實(shí)例中，由中心坐標(biāo)148、邊界框150、追蹤持續(xù)時(shí)間152和上次驗(yàn)證后的時(shí)間154來(lái)描述每個(gè)區(qū)域。由一個(gè)中心坐標(biāo)和一個(gè)邊界框，來(lái)規(guī)定包括若干面孔或面孔候選者的視頻內(nèi)容區(qū)域。中心坐標(biāo)148表示該區(qū)域的近似中心，而邊界框150表示圍繞該中心坐標(biāo)的矩形區(qū)域。這個(gè)矩形區(qū)域就是包括某個(gè)面孔或面孔候選者、并被探測(cè)和追蹤模塊132追蹤的區(qū)域。追蹤持續(xù)時(shí)間152表示該區(qū)域中的面孔或面孔候選者已經(jīng)被追蹤了多長(zhǎng)時(shí)間，而上次驗(yàn)證后的時(shí)間154表示多長(zhǎng)時(shí)間以前該區(qū)域中的面孔或面孔候選者被(驗(yàn)證模塊142)驗(yàn)證過(guò)(如下面更詳細(xì)的討論)。
如列表146中所展示的、描述每個(gè)區(qū)域的信息僅僅是示意性的，也可以使用多種其它信息。例如，可能不包括中心坐標(biāo)148。通過(guò)另一個(gè)實(shí)例，可以使用不同于矩形的區(qū)域形狀，比如圓、橢圓、三角形、五邊形、六邊形或者不規(guī)則的形狀。
追蹤列表146既記錄著若干面孔，又記錄著若干面孔候選者，它們能夠以多種方式相互區(qū)分。例如，可以保持兩個(gè)字列表(一個(gè)確認(rèn)面孔，另一個(gè)確認(rèn)面孔候選者)，或者可以增加另外的字段以便把每個(gè)字段標(biāo)示為面孔或面孔候選者，或者可能是在上次驗(yàn)證后的時(shí)間154中固有的(例如，若是這個(gè)值為空格，就表示該區(qū)域尚未被驗(yàn)證為包括某個(gè)面孔，因此為面孔候選者)。另外，也可以包括多個(gè)列表，而不是單一的列表146(例如，一個(gè)列表用于面孔，另一個(gè)列表用于面孔候選者)。
在運(yùn)行期間，探測(cè)和追蹤模塊132一幀一幀地分析內(nèi)容。對(duì)于每一幀，模塊132激活自動(dòng)初始化模塊140，它用于為新的面孔區(qū)域探測(cè)候選者。每個(gè)這樣的候選者都是視頻內(nèi)容的某個(gè)區(qū)域，它可能包括某個(gè)新的面孔(換句話說(shuō)，某個(gè)目前還沒(méi)有被追蹤的面孔)。一旦探測(cè)到，一個(gè)候選區(qū)域就傳遞到分級(jí)驗(yàn)證模塊142，它接著驗(yàn)證候選區(qū)域是否確實(shí)包括一個(gè)面孔。分級(jí)驗(yàn)證模塊142為每個(gè)候選區(qū)域產(chǎn)生一個(gè)置信度水平，并且如果置信度水平超過(guò)某個(gè)閾值，就確定保持該候選區(qū)域作為一個(gè)面孔區(qū)域，在追蹤列表146中增加該區(qū)域的一個(gè)描述。如果置信度水平不超過(guò)該閾值，分級(jí)驗(yàn)證模塊142就放棄該候選區(qū)域。
多線索追蹤模塊144對(duì)追蹤列表146中已確認(rèn)之區(qū)域中的每一個(gè)進(jìn)行追蹤。追蹤模塊144使用多種視覺(jué)線索，在內(nèi)容中一幀一幀地追蹤若干區(qū)域。被追蹤區(qū)域中的面孔中的每一個(gè)，都是某個(gè)人的至少一個(gè)部位的影像。典型情況下，在產(chǎn)生該內(nèi)容時(shí)人們能夠移動(dòng)，比如站起、坐下、走動(dòng)、坐在椅子上活動(dòng)等等。模塊132不是在內(nèi)容的每一幀中執(zhí)行面孔探測(cè)，而是一幀一幀地追蹤包括面孔(一旦探測(cè)到后)的區(qū)域，典型情況下，它的計(jì)算成本低于面孔探測(cè)。
包括追蹤列表146中某個(gè)面孔的每個(gè)區(qū)域，除了被追蹤之外，還要由分級(jí)驗(yàn)證模塊142重復(fù)地再驗(yàn)證。多線索追蹤模塊144，或者也可能是分級(jí)驗(yàn)證模塊142，可以確定何時(shí)一個(gè)區(qū)域要由模塊142進(jìn)行再驗(yàn)證?？梢园匆?guī)則的或不規(guī)則的間隔對(duì)區(qū)域進(jìn)行再驗(yàn)證。再驗(yàn)證某個(gè)區(qū)域時(shí)，分級(jí)驗(yàn)證模塊142為該區(qū)域產(chǎn)生一個(gè)新的置信度水平，并把該置信度水平與閾值進(jìn)行比較。如果新的置信度水平超過(guò)閾值，那么使該區(qū)域的上次驗(yàn)證后的時(shí)間154復(fù)位，并且該區(qū)域留在追蹤列表146中。然而，如果新的置信度水平不超過(guò)閾值，那么該區(qū)域便從追蹤列表146中刪除。
應(yīng)當(dāng)注意，可能會(huì)發(fā)生多線索追蹤模塊144丟失其追蹤的情況。分級(jí)驗(yàn)證模塊142通過(guò)確認(rèn)對(duì)包括某個(gè)面孔之區(qū)域的追蹤何時(shí)丟失(例如，該區(qū)域的置信度水平很低)，來(lái)解決這些問(wèn)題。這就允許自動(dòng)初始化模塊140重新探測(cè)該區(qū)域，并繼續(xù)追蹤重新探測(cè)到的區(qū)域。
自動(dòng)初始化自動(dòng)初始化模塊140使用一種或多種技術(shù)為新的面孔區(qū)域探測(cè)候選區(qū)域。這些技術(shù)包括基于運(yùn)動(dòng)的初始化、基于音頻的聲源定位以及快速的面孔探測(cè)?；谶\(yùn)動(dòng)的初始化模塊156使用幀間差異(視頻內(nèi)容的兩幀或更多幀之間的差異)來(lái)探測(cè)運(yùn)動(dòng)，并確定其中探測(cè)到運(yùn)動(dòng)的區(qū)域是否包括一個(gè)面孔?；谝纛l的初始化模塊158分析對(duì)應(yīng)于視頻內(nèi)容的音頻內(nèi)容，探測(cè)收到聲音的方向，并且搜索該方向的視頻內(nèi)容區(qū)域，以確定收到聲音的方向上的區(qū)域是否包括一個(gè)面孔。模塊156和158都能夠分析視頻內(nèi)容的每一幀。另外，模塊156和158之一也可以僅僅對(duì)視頻內(nèi)容的某一特定幀進(jìn)行分析，如果另一個(gè)模塊156或158未能探測(cè)到任何面孔的話。
當(dāng)視頻內(nèi)容的幀中沒(méi)有運(yùn)動(dòng)和音頻時(shí)，就使用快速的面孔探測(cè)模塊160。另外，模塊160也可以用于雖然幀中有運(yùn)動(dòng)和/或音頻，但是無(wú)論是模塊156還是模塊158都未能探測(cè)到面孔(也可能是不論模塊156或158是否探測(cè)到面孔)時(shí)。快速的面孔探測(cè)模塊160使用一種快速面孔探測(cè)器來(lái)分析視頻內(nèi)容的幀，并探測(cè)該幀中的面孔。當(dāng)通知自動(dòng)初始化模塊140，某個(gè)區(qū)域的再驗(yàn)證結(jié)果為該區(qū)域包括某個(gè)面孔的置信度消失時(shí)，就使用丟失置信度區(qū)域探測(cè)模塊162。盡管丟失了該區(qū)域包括某個(gè)面孔的置信度，某個(gè)面孔在這個(gè)區(qū)域附近仍然很有可能。丟失置信度區(qū)域探測(cè)模塊162與模塊156、158和160中的每一個(gè)進(jìn)行通信，使模塊156、158和160分析視頻內(nèi)容中圍繞這個(gè)區(qū)域的部位，試圖從中探測(cè)一個(gè)面孔。圍繞該區(qū)域之部位的嚴(yán)格尺寸可以隨實(shí)施方案而變化(例如，在一個(gè)示范實(shí)施方案中，該部位可能在該區(qū)域上下延伸至區(qū)域高度的一半之處，在該區(qū)域左右延伸至區(qū)域?qū)挾鹊囊话胫帯?br> 圖4是一個(gè)流程圖，展示了一個(gè)示范過(guò)程200，用于為新的面孔區(qū)域探測(cè)候選區(qū)域。圖4中的過(guò)程由圖3中的自動(dòng)初始化模塊140實(shí)施，而且可以在軟件中執(zhí)行。
一開(kāi)始，接收音頻/視頻內(nèi)容的一幀(202)。內(nèi)容的這一幀可以來(lái)自為數(shù)眾多的信號(hào)源中的任何一種。例如，內(nèi)容的這一幀可能是圖3中系統(tǒng)130的一臺(tái)或多臺(tái)捕捉設(shè)備捕捉的，或者該內(nèi)容可能是在別處捕捉并由通信傳到系統(tǒng)130(例如通過(guò)可拆卸的存儲(chǔ)設(shè)備、通過(guò)網(wǎng)絡(luò)或電話線連接等等)。一旦收到，就通過(guò)比較該幀的像素和音頻/視頻內(nèi)容中前一幀的對(duì)應(yīng)像素，試圖探測(cè)該幀中的運(yùn)動(dòng)(動(dòng)作204)。如果探測(cè)到了運(yùn)動(dòng)，那么就執(zhí)行基于運(yùn)動(dòng)的初始化，以便在幀中為新的面孔區(qū)域確認(rèn)候選者(動(dòng)作206)。在動(dòng)作206中使用基于運(yùn)動(dòng)的初始化為新的面孔區(qū)域確認(rèn)了任何的候選者之后，就試圖在幀中探測(cè)音頻(動(dòng)作208)。如果探測(cè)到了音頻，那么就執(zhí)行基于音頻的初始化，以便在幀中為新的面孔區(qū)域確認(rèn)候選者(動(dòng)作210)。根據(jù)基于運(yùn)動(dòng)的初始化和/或基于音頻的初始化，為新的面孔區(qū)域確認(rèn)的任何候選者都傳遞到分級(jí)驗(yàn)證模塊142，以便進(jìn)行面孔驗(yàn)證(動(dòng)作212)。
返回動(dòng)作204，如果在幀中沒(méi)有探測(cè)到運(yùn)動(dòng)，那么就試圖在幀中探測(cè)音頻(動(dòng)作214)。如果探測(cè)到了音頻，那么就執(zhí)行基于音頻的初始化，以便在幀中為新的面孔區(qū)域確認(rèn)候選者(動(dòng)作210)，然后處理過(guò)程進(jìn)入動(dòng)作212。然而，如果沒(méi)有探測(cè)到音頻，那么就使用一種快速的面孔探測(cè)器來(lái)為新的面孔區(qū)域確認(rèn)候選者(動(dòng)作216)。根據(jù)快速的面孔探測(cè)，為新的面孔區(qū)域確認(rèn)的任何候選者都傳遞到分級(jí)驗(yàn)證模塊142，以便進(jìn)行面孔驗(yàn)證(動(dòng)作212)。
試圖探測(cè)運(yùn)動(dòng)或音頻或者使用快速面孔探測(cè)器的幀中區(qū)域可以隨情況而變化。在追蹤列表146不包括面孔和面孔候選者的情況下，那么幀中區(qū)域就是整個(gè)幀。在追蹤列表146包括一個(gè)或多個(gè)面孔或面孔候選者的情況下，那么幀中區(qū)域包括所有當(dāng)前沒(méi)有被追蹤的區(qū)域(換句話說(shuō)，沒(méi)有列在追蹤列表146中的區(qū)域)。在丟失置信度區(qū)域探測(cè)模塊162申請(qǐng)分析某個(gè)特定區(qū)域的情況下，那么幀中區(qū)域就是模塊162確認(rèn)的區(qū)域。
返回圖3，基于運(yùn)動(dòng)的初始化模塊156通過(guò)把幀中的像素與前面幀和/或后續(xù)幀中對(duì)應(yīng)的像素相比較，分析視頻內(nèi)容的一幀，并探測(cè)每個(gè)像素在這些幀之間是否有運(yùn)動(dòng)。據(jù)信一個(gè)移動(dòng)的人是在視頻內(nèi)容的前景中，所以模塊156試圖確認(rèn)這種移動(dòng)前景的形狀。如果該形狀類似于人上半身的輪廓(一個(gè)較小的頭在一個(gè)較大的肩膀之上)，那么就確定該形狀是一個(gè)模塊候選者。
圖5是一個(gè)流程圖，展示了一個(gè)示范過(guò)程240，使用基于運(yùn)動(dòng)的初始化，為新的面孔區(qū)域確認(rèn)候選區(qū)域。圖5中的過(guò)程由圖3中的基于運(yùn)動(dòng)的初始化模塊156實(shí)施，而且可以在軟件中執(zhí)行。
一開(kāi)始，確定在每個(gè)像素處是否有運(yùn)動(dòng)(動(dòng)作242)。通過(guò)把像素與前面幀中對(duì)應(yīng)的像素相比較，對(duì)一幀中的每個(gè)像素作出這種確定。比較可以通過(guò)例如像素亮度(例如灰度)或顏色值來(lái)進(jìn)行。在比較之前，還可以對(duì)像素應(yīng)用使用多種常規(guī)的濾波器。視頻內(nèi)容能夠使用一種常規(guī)的二維(x，y)像素坐標(biāo)系統(tǒng)來(lái)觀察。在一幀中某個(gè)特定坐標(biāo)位置處的像素，對(duì)應(yīng)于另一幀中同一坐標(biāo)位置處的一個(gè)像素。在被分析幀的區(qū)域中每個(gè)像素具有一種幀差異，產(chǎn)生如下式中Dt(x，y)為t幀中影像的(x，y)位置處的像素與t-1幀中影像的(x，y)位置處的像素之間幀差異，It(x，y)為t幀中影像的(x，y)位置處的像素，It-1(x，y)為t-1幀中影像的(x，y)位置處的像素，dth為決定像素是否為運(yùn)動(dòng)像素的閾值。dth的精確數(shù)值可以隨實(shí)施方案而變，比如根據(jù)幀是彩色的還是灰度的，進(jìn)行過(guò)何種濾波(如果有的話)等等。作為一個(gè)特殊的實(shí)例，如果像素是256級(jí)灰度的，數(shù)值20可以用于dth。
另外，幀差異也可以不是僅僅根據(jù)兩幀，而是根據(jù)三幀或更多幀來(lái)產(chǎn)生。在一個(gè)實(shí)施方案中，使用三幀(例如It-1、It、It+1)來(lái)探測(cè)運(yùn)動(dòng)的像素。只有在It(x，y)-It-1(x，y)和It+1(x，y)-It(x，y)中都有較大幀差異(例如大于dth)的像素才是運(yùn)動(dòng)的像素。
給定了幀差異之后，就在被分析幀區(qū)域中影像的每條水平線上，對(duì)每個(gè)可能的區(qū)段產(chǎn)生幀差異之和(動(dòng)作244)。被分析幀區(qū)域中的影像包括多條水平線。每一水平行的像素都可能是這樣一條線，或者每隔n(例如二、三、四、五等等)個(gè)水平行的像素也可以是這樣一條線。每條這樣的線中，存在著許多區(qū)段，在線上具有不同的起點(diǎn)和終點(diǎn)。沿著可能的區(qū)段對(duì)幀差異求和，用于在被分析的區(qū)域中試圖確認(rèn)最可能的前景區(qū)段。在圖6中有更詳細(xì)的說(shuō)明。
圖6展示了視頻內(nèi)容的一幀的一個(gè)示范影像。展示的影像270包括已經(jīng)被追蹤為包含面孔或面孔候選者的兩個(gè)區(qū)域272和274，以及為了尋求新面孔區(qū)域的候選者而分析的其余區(qū)域276。假設(shè)該影像包括一個(gè)人278，兩條水平線280和282將在起點(diǎn)i和終點(diǎn)j穿越影像278。在一條特定的線Ii上，i點(diǎn)和j點(diǎn)之間的所有像素都應(yīng)當(dāng)在前景上，兩條相鄰的水平線之間的邊界也應(yīng)當(dāng)具有一種光滑約束——它們趨于具有類似的中心和類似的寬度。幀差異之和用于確認(rèn)具有起點(diǎn)i和終點(diǎn)j之水平線Ii的部分。
對(duì)于每條水平線，水平線上每個(gè)可能的區(qū)段的幀差異之和S產(chǎn)生如下S(i,j)=Σx=ijD(x,y)0<i<j<N,y&Element;
]]>式中i為區(qū)段的起點(diǎn)，j為區(qū)段的終點(diǎn)，D(x，y)為沿著該區(qū)段在x，y位置處的幀差異，N為水平線的長(zhǎng)度，M為水平線的數(shù)目。
對(duì)于所有可能i和j，為了加快計(jì)算求和的速度，使用了以下過(guò)程。首先，對(duì)于0和N之間——包括端點(diǎn)——的每個(gè)i值，計(jì)算下式S(i，i)＝D(i，y)，i∈
然后，對(duì)于從k＝1到k＝N，計(jì)算S(i，i+k)＝S(i，i+k-1)+S(i+k，i+k)，i∈
返回圖5，一旦在水平線上對(duì)每個(gè)可能的區(qū)段都產(chǎn)生了幀差異之和，對(duì)于每一條水平線，具有最大和的區(qū)段就被選為該線上最可能的前景區(qū)段(動(dòng)作246)。具有最大和的區(qū)段實(shí)際上是否為新面孔區(qū)域候選者的一部分，也取決于光滑約束，正如下面的討論。然后，就確定了最可能區(qū)段的最光滑的區(qū)域(動(dòng)作248)。對(duì)所有的水平線考慮光滑約束，就產(chǎn)生了最光滑的區(qū)域。實(shí)現(xiàn)方式如下。該過(guò)程起始于y＝0(頂端的水平線)及E0(i(0)，j(0))＝S(i(0)，j(0))，并以下列遞歸函數(shù)前進(jìn)到y(tǒng)＝M(低端的水平線)E0(i(y),j(y))=S(i(y),j(y))+maxi(y-1),j(y-1)&Element;
(E0(i(y-1),j(y-1))+C(i(y-1)j(y-1),i(y)j(y)))]]>式中i(y)和j(y)為第y條水平線的邊界，N為影像的寬度。C(.，.)參數(shù)為光滑能量項(xiàng)。C(.，.)參數(shù)在相鄰線之間對(duì)不光滑的邊界給出了較大的懲罰，它規(guī)定如下C(i(y-1)j(y-1),i(y)j(y))=cc·|i(y)+j(y)2-i(y-1)+j(y-1)2|+cw·|(j(y)-i(y))-(j(y-1)-i(y-1))|]]>式中cc為對(duì)區(qū)段中心的不光滑罰系數(shù)，而cw為對(duì)區(qū)段寬度的不光滑罰系數(shù)。對(duì)罰系數(shù)cc和cw可以使用不同的數(shù)值，在一個(gè)示范實(shí)施方案中，cc和cw中每一個(gè)都是0.5。
然后，通過(guò)確定下式，可以獲得最光滑的區(qū)域maxi(M),j(M)&Element;
(E0(i(M),j(M)))]]>給定了這種最光滑的區(qū)域，就能夠執(zhí)行向回追蹤，以尋找所有水平線的邊界。
給定了最光滑的區(qū)域，就檢驗(yàn)該區(qū)域是否像人的上半身(動(dòng)作250)。在展示的實(shí)例中，人的上半身包括一個(gè)較小的頭在一個(gè)較大的肩膀之上。所以，就檢驗(yàn)這個(gè)最光滑的區(qū)域是否具有一個(gè)近似橢圓的部分(頭)，位于一個(gè)較寬的部分(肩膀)之上。在一個(gè)實(shí)施方案中，這種檢驗(yàn)通過(guò)尋找相鄰水平線之寬度的最大變化，首先探測(cè)頸部的位置。然后，檢驗(yàn)頸部之上的部分(頭部區(qū)域)是否具有比下部區(qū)域(肩膀區(qū)域)更小的平均寬度。也要檢驗(yàn)頭部區(qū)域的寬度和高度之比是否為近似1∶1.2。如果所有這些檢驗(yàn)結(jié)果都是真實(shí)的，那么被探測(cè)的區(qū)域就確定為像人的上半身輪廓。
如果該區(qū)域確實(shí)像人的上半身，那么就提取該區(qū)域中包括頭部(但是不包括肩膀)的部分(動(dòng)作252)，并確認(rèn)為新面孔區(qū)域的候選者(動(dòng)作254)。這個(gè)提取的區(qū)域可能是人頭部的近似橢圓的區(qū)域，或者是頭部周圍的某個(gè)區(qū)域(例如頭部周圍的矩形區(qū)域)。不過(guò)，如果該區(qū)域不像人的上半身，那么從該幀就沒(méi)有探測(cè)到新面孔的候選者(動(dòng)作256)。
在一個(gè)實(shí)施方案中，如果在動(dòng)作254中確認(rèn)了一個(gè)新面孔區(qū)域的候選者，并且在該幀中還有任何另外的區(qū)域(不算在動(dòng)作254中確認(rèn)的候選者和任何其它的面孔和面孔候選者)，就重復(fù)圖5中的過(guò)程。這樣就能在該幀中確認(rèn)另外的學(xué)面孔區(qū)域的候選者。
返回圖3和圖4，基于音頻的初始化模塊158通過(guò)使用聲源定位器探測(cè)收到聲音的方向，來(lái)分析一幀音頻/視頻內(nèi)容(圖4中的動(dòng)作210)。模塊158假設(shè)，這個(gè)聲音可能是人在發(fā)言，因此指示著視頻內(nèi)容的一個(gè)區(qū)域，其中可能包括一個(gè)面孔區(qū)域的候選者。能夠以為數(shù)眾多的不同方式來(lái)確定收到聲音的方向。在一個(gè)實(shí)施方案中，一個(gè)或多個(gè)話筒陣列捕捉聲音，并使用一個(gè)或多個(gè)聲源定位算法來(lái)確定聲音來(lái)自哪個(gè)方向。可以使用多種不同的常規(guī)聲源定位算法，比如眾所周知的到達(dá)時(shí)間延遲(TDOA)技術(shù)(例如廣義互相關(guān)(GCC)方法)。
在沒(méi)有視頻內(nèi)容的情況下，通過(guò)適當(dāng)?shù)夭贾枚鄠€(gè)話筒，也能夠完成面孔探測(cè)。使用三個(gè)或更多的話筒，其中至少兩個(gè)位于不同的水平面上，而且其中至少兩個(gè)位于不同的垂直面上，就能夠確定聲源的(x，y)坐標(biāo)。例如，兩個(gè)話筒可能位于垂直面中，并且兩個(gè)話筒可能位于水平面中。那么可以使用多種常規(guī)的聲源定位算法來(lái)確定聲源的(x，y)位置——假定它是一個(gè)人的嘴巴。這個(gè)聲源位置本身能夠被視為探測(cè)到的面孔區(qū)域(假定發(fā)言者的嘴巴是發(fā)言者面孔的一部分)，或者該位置也可以擴(kuò)展(例如增大百分之二三)，擴(kuò)展后的位置用作探測(cè)到的面孔區(qū)域。
給定了影像中對(duì)應(yīng)于收到聲音之方向的區(qū)域，初始化模塊158分析該區(qū)域，試圖對(duì)該區(qū)域中的影像擬合一個(gè)膚色模型。如果擬合成功，那么擬合膚色模型的區(qū)域就確認(rèn)為新面孔區(qū)域的候選者。在一個(gè)實(shí)施方案中，膚色模型為HSV(色調(diào)飽和度值)顏色空間模型，帶有用于訓(xùn)練模型的大量膚色訓(xùn)練數(shù)據(jù)。應(yīng)當(dāng)注意，因?yàn)橐纛l已經(jīng)指出在該區(qū)域中有一個(gè)面孔，可以使用粗略的探測(cè)過(guò)程(例如膚色模型)來(lái)使面孔定位。
在沒(méi)有視頻內(nèi)容的情況下，模塊158依靠聲源定位而不使用膚色模型(由于沒(méi)有視頻內(nèi)容可以應(yīng)用膚色模型)。
快速模塊探測(cè)模塊160使用快速模塊探測(cè)器，在幀影像的若干區(qū)域中探測(cè)面孔。探測(cè)模塊160使用的快速面孔探測(cè)器，可能不同于分級(jí)驗(yàn)證模塊142使用的面孔探測(cè)器——下面有更詳細(xì)的討論。為了在計(jì)算量和準(zhǔn)確性之間取折衷，模塊160使用的探測(cè)器比分級(jí)驗(yàn)證模塊142使用的面孔探測(cè)器更快，但是準(zhǔn)確性要低一些；不過(guò)，模塊160和142可能基于同樣的面孔探測(cè)算法，但是使用不同的參數(shù)或閾值，以便模塊160提高探測(cè)速度(相對(duì)于模塊142的探測(cè)速度)。另外，模塊160和142也可以基于兩種不同的面孔探測(cè)算法。典型情況下，探測(cè)模塊160使用的探測(cè)器快于分級(jí)驗(yàn)證模塊142使用的探測(cè)器。
為數(shù)眾多的面孔探測(cè)算法都能夠用作快速面孔探測(cè)模塊160的基礎(chǔ)，使用什么算法所依據(jù)的主要特征是其速度?？焖倜婵滋綔y(cè)模塊160的目標(biāo)是很快地探測(cè)面孔，如果需要的話，以準(zhǔn)確性作為代價(jià)。面孔探測(cè)可能僅僅是正面，也可能是多視角(不限于正面探測(cè))。這種算法的一個(gè)實(shí)例是P.Viola和M.J.Jones介紹的，見(jiàn)“Robust real-time0bject detection”，Technical Report Series，Compaq CambridgeResearch Laboratory，CXRL 2001/01，F(xiàn)eb.2001。這種算法的另一個(gè)實(shí)例類似于P.Viola和M.J.Jones討論的，只是使用探測(cè)器級(jí)在開(kāi)始時(shí)利用一個(gè)探測(cè)器，它覆蓋寬闊的視角，發(fā)展到利用一組多個(gè)探測(cè)器，每個(gè)覆蓋較窄的視角。目標(biāo)從探測(cè)器的一級(jí)到另一級(jí)，每個(gè)探測(cè)器把該目標(biāo)劃分為或者是面孔，或者不是面孔。每個(gè)目標(biāo)只要被任何一個(gè)探測(cè)器劃分為不是面孔，就將它從過(guò)程中排除——僅有通過(guò)了所有的探測(cè)器級(jí)并被劃分為面孔的目標(biāo)才被確認(rèn)為面孔。
因此，自動(dòng)初始化模塊140使用一個(gè)或多個(gè)基于運(yùn)動(dòng)的初始化、基于音頻的聲源定位和快速探測(cè)技術(shù)探測(cè)新面孔區(qū)域的候選者。然后，這些候選者傳送到分級(jí)驗(yàn)證模塊142，以便驗(yàn)證這些候選者是否確實(shí)包括一個(gè)面孔。應(yīng)當(dāng)注意，并非所有幀都包括新面孔，因此，即使使用了所有上述的技術(shù)，自動(dòng)初始化模塊140也可能在一幀中探測(cè)不到任何新面孔的候選者。
分級(jí)驗(yàn)證圖3中的分級(jí)驗(yàn)證模塊142驗(yàn)證自動(dòng)初始化模塊140確認(rèn)的候選面孔區(qū)域。此外，探測(cè)和追蹤模塊132考慮了多線索追蹤模塊144在運(yùn)行期間或許失去追蹤的可能性。這可能是由于多種原因，比如遮擋(例如另一個(gè)與會(huì)者走到視頻捕捉設(shè)備和被追蹤的個(gè)人之間時(shí))或者突然的照明變化。分級(jí)驗(yàn)證模塊142以規(guī)則的或不規(guī)則的間隔，再次驗(yàn)證被追蹤的每個(gè)目標(biāo)，并適當(dāng)?shù)厥姑婵捉导?jí)為面孔候選者。根據(jù)追蹤需要的準(zhǔn)確度(較短的間隔趨于改善準(zhǔn)確性)、可用的計(jì)算能力規(guī)模(取決于驗(yàn)證的類型，追蹤可能需要比再次驗(yàn)證少的計(jì)算能力)以及驗(yàn)證模塊的計(jì)算成本，間隔的長(zhǎng)度可以變化。
在一個(gè)實(shí)施方案中，分級(jí)驗(yàn)證模塊142驗(yàn)證目標(biāo)為面孔，確認(rèn)一個(gè)目標(biāo)或者是面孔，或者不是面孔。另外，驗(yàn)證模塊142也可以根據(jù)不同的特性(例如音頻、顏色直方圖距離、邊界附近的邊緣探測(cè)結(jié)果、面孔探測(cè)結(jié)果等等)，輸出概率統(tǒng)計(jì)的驗(yàn)證結(jié)果。在這種過(guò)程中，輸出的概率統(tǒng)計(jì)的驗(yàn)證結(jié)果可以與微粒濾波的加權(quán)方案相結(jié)合，下面將更詳細(xì)地討論該濾波。
因?yàn)榭紤]計(jì)算量，附近驗(yàn)證模塊142使用一種多級(jí)的分級(jí)過(guò)程來(lái)驗(yàn)證某個(gè)目標(biāo)包括一個(gè)面孔。該驗(yàn)證過(guò)程是一個(gè)從粗略到精細(xì)的過(guò)程，以較塊而不太準(zhǔn)確的驗(yàn)證開(kāi)始，如果需要，就上升到較慢而更準(zhǔn)確的驗(yàn)證。在展示的實(shí)例中，該分級(jí)過(guò)程包括兩個(gè)級(jí)別。此外，分級(jí)過(guò)程中也可以包括三個(gè)或更多的級(jí)別。
圖3中的分級(jí)驗(yàn)證模塊142包括基于顏色的快速驗(yàn)證模塊164和多視角的面孔探測(cè)模塊166。驗(yàn)證模塊142假設(shè)，典型情況下，在相鄰幀期間目標(biāo)并不顯著改變顏色。基于顏色的驗(yàn)證模塊164根據(jù)當(dāng)前幀中目標(biāo)的顏色直方圖和前面幀中目標(biāo)的估計(jì)顏色直方圖之間的相似度，來(lái)驗(yàn)證目標(biāo)。相似度高時(shí)，就假設(shè)追蹤沒(méi)有發(fā)生損失，不必調(diào)用多視角的面孔探測(cè)模塊166。不過(guò)，相似度低、追蹤可能已經(jīng)發(fā)生了損失時(shí)，因而目標(biāo)從面孔降級(jí)為面孔候選者，并傳送到多視角的面孔探測(cè)模塊166。如果多視角的面孔探測(cè)模塊166驗(yàn)證該目標(biāo)為面孔，該目標(biāo)就從面孔候選者升級(jí)為面孔。不過(guò)，如果探測(cè)模塊166不把該目標(biāo)驗(yàn)證為面孔，該目標(biāo)就從追蹤列表146中刪除。
在一個(gè)實(shí)施方案中，基于顏色的驗(yàn)證模塊164對(duì)每一幀執(zhí)行其驗(yàn)證功能，而多視角的面孔探測(cè)模塊166以較低的頻度執(zhí)行其驗(yàn)證功能。舉例來(lái)說(shuō)，多視角的面孔探測(cè)模塊166可能每數(shù)秒執(zhí)行一次其驗(yàn)證功能，盡管根據(jù)上面討論的多種因素，也可以使用不同的間隔。
圖7是一個(gè)流程圖，展示了一個(gè)示范過(guò)程320，用于執(zhí)行分級(jí)驗(yàn)證。過(guò)程320是由圖3中的分級(jí)驗(yàn)證模塊142執(zhí)行，并且可以在軟件中執(zhí)行。
一開(kāi)始，獲得所關(guān)注區(qū)域的一個(gè)影像(動(dòng)作322)。所關(guān)注區(qū)域可能是由自動(dòng)初始化模塊140確認(rèn)的一個(gè)候選區(qū)域，或者是為進(jìn)行再次驗(yàn)證的一個(gè)區(qū)域。可以將帶有要分析區(qū)域指示的整幀傳送到分級(jí)驗(yàn)證模塊142，也可以僅僅將幀中包括要分析區(qū)域的一部分傳送到分級(jí)驗(yàn)證模塊142。一旦收到之后，就使用基于顏色的快速驗(yàn)證法來(lái)驗(yàn)證該區(qū)域中是否有一個(gè)面孔(動(dòng)作324)。
圖8中展示了動(dòng)作324的、基于顏色的快速驗(yàn)證法的更多細(xì)節(jié)。圖8中的過(guò)程324由圖3中的基于顏色的快速驗(yàn)證模塊164執(zhí)行，并且可以在軟件中執(zhí)行。一開(kāi)始，產(chǎn)生當(dāng)前t幀中目標(biāo)的顏色直方圖(qt(x))(動(dòng)作362)。也產(chǎn)生前面幀中目標(biāo)的估計(jì)顏色直方圖(pt-1(x))(動(dòng)作364)。估計(jì)顏色直方圖pt-1(x)按下式產(chǎn)生pt-1(x)＝α·qt-1(x)+(1-α)·pt-2(x)式中α表示加權(quán)值，qt-1(x)為前一幀t-1中目標(biāo)的顏色直方圖，pt-2(x)為對(duì)于前一幀t-1中目標(biāo)的估計(jì)顏色直方圖。在不同的實(shí)施方案中可以使用范圍很廣的α值，選定的確切值是相信歷史和相信當(dāng)前幀之間的折衷(例如在一個(gè)示范實(shí)施方案中，α值的范圍是從0.25到0.75)。因此，根據(jù)每一幀中目標(biāo)的顏色直方圖，更新目標(biāo)的估計(jì)顏色直方圖pt-1(x)。
然后確定兩個(gè)直方圖的相似度(動(dòng)作366)。為了確定兩個(gè)直方圖qt(x)和pt-1(x)的相似度測(cè)度，使用下列眾所周知的Bhattacharyya系數(shù)ρ(pt-1(x),qt(x))=&Integral;pt-1(x)·qt(x)dx]]>式中ρ表示統(tǒng)計(jì)假設(shè)試驗(yàn)中分類錯(cuò)誤的概率——錯(cuò)誤的概率越大，兩種分布就越相似。ρ值的范圍從0到1，1表示兩個(gè)直方圖相同，0表示兩個(gè)直方圖完全不同。這種相似度測(cè)度在本文中也稱為置信度。另外，也可以使用其它眾所周知的相似度測(cè)度，比如K-L散度、直方圖交會(huì)等等。
然后檢驗(yàn)兩個(gè)直方圖之間的相似度是否超過(guò)某個(gè)閾值幅度(動(dòng)作368)。如果差異大于閾值幅度，那么該面孔被證實(shí)(動(dòng)作370)；換句話說(shuō)，該目標(biāo)被證實(shí)為包括一個(gè)面孔。不過(guò)，如果差異不大于閾值幅度，那么面孔就不被證實(shí)(動(dòng)作372)；換句話說(shuō)，該目標(biāo)不被證實(shí)為包括一個(gè)面孔。在不同的實(shí)施方案中，可以使用不同的差異閾值。在一個(gè)示范實(shí)施方案中，閾值的范圍可以從0.90到0.95，在一個(gè)具體的實(shí)施方案中是0.94。
返回圖7，根據(jù)面孔是否被證實(shí)而繼續(xù)處理(動(dòng)作326)。如果面孔被證實(shí)，那么它就從面孔候選者升級(jí)為面孔(如果還不是面孔的話)(動(dòng)作328)，分級(jí)驗(yàn)證過(guò)程完成(動(dòng)作330)，這時(shí)對(duì)所關(guān)注的區(qū)域不再進(jìn)行更多的驗(yàn)證。然而，如果面孔不被證實(shí)，那么該面孔就從面孔降級(jí)為面孔候選者(如果當(dāng)前是面孔的話)(動(dòng)作332)。然后包括面孔的目標(biāo)傳送到圖3的多視角面孔探測(cè)模塊166，它使用多視角面孔探測(cè)法驗(yàn)證該區(qū)域中是否有一個(gè)面孔(動(dòng)作334)。
多視角的面孔探測(cè)模塊166使用了一個(gè)或多個(gè)探測(cè)過(guò)程——它們?cè)噲D以不同的姿勢(shì)或者從多個(gè)視角來(lái)探測(cè)人的面孔(換句話說(shuō)，即使頭部可能傾斜、轉(zhuǎn)離影像捕捉設(shè)備等等情況下，也要探測(cè)面孔)。為數(shù)眾多的面孔探測(cè)技術(shù)中的任何一種，都能夠被多視角的面孔探測(cè)模塊166所使用。
一種這樣的多視角面孔探測(cè)過(guò)程是基于核心機(jī)的過(guò)程，更加詳細(xì)的討論見(jiàn)S.Z.Li，Q.D.Fu，L.Gu，B.Scholkopf，Y.M.Cheng，H.J.Zhang，“Kernel Machine Based learning for Multi-View FaceDetection and Pose Estimation，”P(pán)roceedings of 8thIEEE InternationalConference on Computer Vision，Vancouver，Canada，July 9-12，2001。這種探測(cè)過(guò)程歸納如下。
令I(lǐng)p∈RN為面孔的窗內(nèi)灰度影像或外觀。假設(shè)所有左轉(zhuǎn)的面孔(視角在91°和180°之間)都經(jīng)鏡面反射成右轉(zhuǎn)，所以每一個(gè)視角都在0°和90°之間。將姿勢(shì)量化成一組L個(gè)離散值(例如選擇L＝10，用于10個(gè)等間隔的角，從0°到90°，0°對(duì)應(yīng)于右側(cè)面視角，90°對(duì)應(yīng)于正面視角)。
假設(shè)為學(xué)習(xí)提供了一組訓(xùn)練用面孔影像。影像Ip不僅視角有變化，照明也有變化。訓(xùn)練組經(jīng)過(guò)視角標(biāo)注——每個(gè)面孔影像都由人工標(biāo)注了其盡可能接近真實(shí)值的視角值，然后按照最接近的視角值分配到L個(gè)組中的一個(gè)。這就產(chǎn)生了L個(gè)經(jīng)過(guò)視角標(biāo)注的面孔影像子集，用于學(xué)習(xí)面孔的視角子空間。另一個(gè)非面孔的訓(xùn)練組也用于訓(xùn)練面孔探測(cè)。
現(xiàn)在，有L+1個(gè)類，由l為索引，意義如下，l∈{0，1，...，L-1}對(duì)應(yīng)于L個(gè)視角的面孔，l＝L對(duì)應(yīng)于非面孔類。把輸入Ip劃分為L(zhǎng)+1個(gè)類之一，就共同執(zhí)行了兩個(gè)任務(wù)——面孔探測(cè)和姿勢(shì)估計(jì)。如果輸入劃分為L(zhǎng)個(gè)面孔類之一，就探測(cè)到了一個(gè)面孔，對(duì)應(yīng)的視角就是估計(jì)的姿勢(shì)；否則，輸入模式被視為非面孔模式。
使用核心機(jī)學(xué)習(xí)面孔探測(cè)和姿勢(shì)估計(jì)分為兩個(gè)階段一個(gè)是為了核心主分量分析(KPCA)的視角子空間學(xué)習(xí)，一個(gè)是為了核心支持矢量分類器(KSVC)的分類器訓(xùn)練。第一階段的訓(xùn)練目標(biāo)是從L個(gè)面孔視角子集學(xué)習(xí)L個(gè)KPCA視角子空間。一組核心主分量(KPC)是從每個(gè)視角子集學(xué)到的。最重要的分量(例如最高的50個(gè))用作構(gòu)造視角子空間的基本矢量。這個(gè)階段的學(xué)習(xí)產(chǎn)生了L個(gè)視角子空間，每一個(gè)都由一組支持矢量和對(duì)應(yīng)的系數(shù)確定。每個(gè)視角信道中的KPCA有效地執(zhí)行了從輸入影像空間到輸出KPCA特性空間(具有與最重要的分量中分量數(shù)目相同的維數(shù))的非線性映射。
第二階段的目標(biāo)是訓(xùn)練L個(gè)KSVC，以便為了面孔探測(cè)而在面孔和非面孔模式之間進(jìn)行區(qū)分。這個(gè)階段使用一個(gè)訓(xùn)練組，包括一個(gè)非面孔子集以及L個(gè)視角的面孔子集。一旦訓(xùn)練了KSVC，就用于每個(gè)視角根據(jù)對(duì)應(yīng)KPCA子空間的特性進(jìn)行L+1個(gè)類別的劃分。視角到對(duì)應(yīng)的KPCA子空間的投影用作特性矢量。在KSVC中，使用眾所周知的一對(duì)其余方法來(lái)解決多類問(wèn)題。第二階段給出L個(gè)KSVC。
在試驗(yàn)階段中，對(duì)于每個(gè)視角l，向KPCA特性提取器提供一個(gè)試驗(yàn)樣本，以獲得該視角的特性矢量。該視角對(duì)應(yīng)的KSVC計(jì)算出一個(gè)輸出矢量yl=(ylc|c=0,...,L),]]>作為對(duì)輸入的L+1個(gè)類的響應(yīng)。對(duì)所有L個(gè)視角信道都這樣做，所以就產(chǎn)生了L個(gè)這樣的輸出矢量{yl|l＝0，...，L-1}。y1c值是判斷在第l個(gè)視角KPCA子空間中，輸入Ip的特性屬于c類的證據(jù)。通過(guò)融合所有L個(gè)視角信道的證據(jù)，作出最終的分類決定。融合的一種方法是將證據(jù)求和；換句話說(shuō)，對(duì)于每個(gè)類c＝0，...，L，計(jì)算下式y(tǒng)c(Ip)=Σl=0L-1ylc]]>這種計(jì)算給出了將Ip劃分為c類的全面證據(jù)。通過(guò)使該證據(jù)最大化而作出最終的決定如果c*＝arg maxcyc(Ip)，那么Ip屬于c*。
繼續(xù)看圖7，根據(jù)多視角面孔探測(cè)是否證實(shí)了面孔，繼續(xù)進(jìn)行處理(動(dòng)作336)。如果證實(shí)了面孔，那么該面孔就從面孔候選者升級(jí)為面孔(動(dòng)作328)，分級(jí)驗(yàn)證過(guò)程完成(動(dòng)作330)。然而，如果未證實(shí)面孔，那么該候選者就從圖3的追蹤列表146中清除(動(dòng)作338)，分級(jí)驗(yàn)證過(guò)程完成(動(dòng)作330)。
在分級(jí)驗(yàn)證中沒(méi)有視頻內(nèi)容可分析的情況下，適當(dāng)時(shí)也可以僅僅使用音頻線索來(lái)驗(yàn)證。例如，當(dāng)被追蹤面孔者正在持續(xù)發(fā)言時(shí)，或者進(jìn)行眾所周知的、基于音頻發(fā)言者的確認(rèn)時(shí)(從而允許將聲源聯(lián)系到發(fā)言者個(gè)人的語(yǔ)音，通過(guò)確定來(lái)自某個(gè)特定聲源位置的語(yǔ)音是否符合以前從該聲源位置收到的、同一發(fā)言者的確認(rèn)信息，進(jìn)行驗(yàn)證)，都可以僅僅使用音頻線索。
多線索追蹤一旦在視頻內(nèi)容的一幀中探測(cè)到某個(gè)面孔，圖3中的多線索追蹤模塊144就在視頻內(nèi)容的后續(xù)幀中追蹤該面孔。其面孔被追蹤的與會(huì)者可能移動(dòng)，因此在視頻內(nèi)容的不同幀中，面孔的位置可能會(huì)不同。不僅如此，與會(huì)者還可能轉(zhuǎn)動(dòng)其頭部(例如這樣其面孔就不再直接對(duì)著視頻捕捉設(shè)備)，可能發(fā)生多種遮擋(例如與會(huì)者可能在其面前揮手)，照明可能會(huì)變化等等。多線索追蹤模塊144試圖考慮這些每幀不同的變化。此外，因?yàn)檫@些變化，某些追蹤的線索可能變得不可靠。多線索追蹤模塊144也試圖考慮線索可靠性從一幀到另一幀中發(fā)生的這些變化。
追蹤模塊144在追蹤面孔中使用多種線索。在一個(gè)實(shí)施方案中，這些追蹤線索包括面孔的形狀(模擬為一個(gè)橢圓)、移動(dòng)、邊緣、前景顏色和背景顏色。此外，也可以不使用這些線索中的一個(gè)或多個(gè)，或者也可以使用另外的線索，比如音頻線索。
有音頻內(nèi)容可用時(shí)，多線索追蹤模塊144可以使用音頻線索協(xié)助追蹤(或者作為追蹤的唯一基礎(chǔ))。根據(jù)聲源定位過(guò)程進(jìn)行基于音頻的追蹤，并且其進(jìn)行方式如同上面討論的、圖3中的基于音頻的初始化模塊158進(jìn)行的基于音頻的探測(cè)。
圖9是一個(gè)流程圖，展示了一個(gè)示范過(guò)程400，用于執(zhí)行多線索追蹤。過(guò)程400是由圖3中的多線索追蹤模塊144執(zhí)行，并且可以在軟件中執(zhí)行。
一開(kāi)始，根據(jù)從前一幀t-1的追蹤結(jié)果和目標(biāo)的動(dòng)力學(xué)特征(由眾所周知的Langevin過(guò)程模擬，下面還要更詳細(xì)地討論)，預(yù)測(cè)在當(dāng)前t幀中目標(biāo)將在何處(動(dòng)作402)。沿著該目標(biāo)預(yù)測(cè)輪廓的一組法線，收集觀測(cè)結(jié)果(動(dòng)作404)，并對(duì)于法線上的每一個(gè)像素，求取觀測(cè)似然函數(shù)值(動(dòng)作406)。求取從t-1幀到t幀的狀態(tài)轉(zhuǎn)換概率(動(dòng)作408)，對(duì)于給定的觀測(cè)結(jié)果確定最佳輪廓(動(dòng)作410)。根據(jù)探測(cè)到的輪廓，對(duì)t幀中的影像擬合最佳橢圓(動(dòng)作412)，并調(diào)整用于下一幀t+1的模型(動(dòng)作414)。
多線索追蹤模塊144包括多個(gè)模塊，用于執(zhí)行圖9中的動(dòng)作。在展示的實(shí)例中，追蹤模塊144包括觀察似然模塊168、平滑約束模塊170、輪廓選擇模塊172和模型調(diào)整模塊174。
多線索追蹤模塊144努力追蹤人的頭部——它是橢圓形的(大約1∶1.2)。對(duì)于被追蹤的面孔，人的頭部由一個(gè)模型來(lái)表示，它是具有多種追蹤線索的一個(gè)橢圓。分析視頻內(nèi)容幀中的影像時(shí)，該模型與影像的多個(gè)位置進(jìn)行比較，并確定哪個(gè)位置最接近該模型。這個(gè)最接近該模型的位置就被選為新的一幀中的面孔。
圖10更詳細(xì)地展示了這個(gè)示范的模擬和比較。在圖10中，實(shí)線曲線422表示在特定的t幀中，根據(jù)從前一幀t-1追蹤的結(jié)果，預(yù)測(cè)的人頭部的輪廓。虛線曲線424表示t幀中人頭部的真實(shí)輪廓。沿著預(yù)測(cè)輪廓422的多(M)條法線426收集一組測(cè)量值。點(diǎn)428(c(φ))為第φ條法線上的真實(shí)輪廓點(diǎn)。點(diǎn)430(ρφ(N))為第φ條法線上的預(yù)測(cè)輪廓點(diǎn)。多線索追蹤模塊144通過(guò)使預(yù)測(cè)輪廓422上盡可能多的輪廓點(diǎn)與真實(shí)輪廓線424上的輪廓點(diǎn)相同，試圖確定真實(shí)輪廓424的位置。
圖3中的觀測(cè)似然模塊168產(chǎn)生ρφ(λ)值，它表明在線φ上像素λ處的影像亮度，如下式ρφ(λ)＝I(xλφ，yλφ)式中φ的范圍從1到M(法線246的總數(shù)目)，λ的范圍沿著法線從-N到N(每條法線有2N+1個(gè)像素)，xλφ，yλφ為第φ條法線上像素λ處的對(duì)應(yīng)影像坐標(biāo)，I(xλφ，yλφ)為(xλφ，yλφ)點(diǎn)處的影像亮度。
為了探測(cè)輪廓點(diǎn)，通過(guò)使用隱藏馬爾可夫模型(HMM)，可以結(jié)合不同的線索(例如邊緣強(qiáng)度、前景和背景的顏色模型)和先驗(yàn)約束(例如輪廓平滑約束)。隱藏馬爾可夫模型對(duì)于本領(lǐng)域的技術(shù)人員是眾所周知的，因此除了它們適于本文所介紹的多個(gè)人的自動(dòng)追蹤以外，不再進(jìn)一步討論。HMM的隱藏狀態(tài)為每條法線上的真實(shí)輪廓點(diǎn)(表示為s＝{s1，...，sφ，...，sM})。HMM的觀測(cè)結(jié)果O＝{O1，...，Oφ，...，OM}是沿著每條法線φ收集的。一個(gè)HMM是由狀態(tài)的數(shù)目(在我們的情況下是2N+1)、觀測(cè)模型P(Oφ|sφ)和轉(zhuǎn)換概率p(sφ|sφ-1)指定的。
觀測(cè)似然模塊168繼續(xù)產(chǎn)生多線索觀測(cè)似然函數(shù)如下。在線φ上的觀測(cè)結(jié)果(表示為Oφ)可以包括多個(gè)線索，例如沿著法線的像素亮度(如ρφ(λ)，λ∈[-N，N])和邊緣強(qiáng)度(如zφ)。通過(guò)使用多種常規(guī)邊緣探測(cè)過(guò)程中的任何一種，比如眾所周知的Sobel邊緣探測(cè)器或Canny邊緣探測(cè)器，都可以得到邊緣探測(cè)結(jié)果zφ的觀測(cè)似然模型。由于噪音和影像干擾，沿著每條法線φ可能有多個(gè)邊緣。使用J值來(lái)表示探測(cè)到的邊緣的數(shù)目(zφ＝(z1，z2，...，zJ))。在J個(gè)探測(cè)到的邊緣中，最多只有一個(gè)在圖10中的真實(shí)輪廓線424上。所以我們可以規(guī)定J+1個(gè)假設(shè)H0＝{ej＝F:j＝1，...，J}H1＝{ej＝T，ek＝F:k＝1，...，J，k≠j式中ej＝T表明第j條邊緣與真實(shí)輪廓線相關(guān)聯(lián)，而ej＝F表明第j條邊緣不與真實(shí)輪廓線相關(guān)聯(lián)。所以假設(shè)H0表明沒(méi)有邊緣與真實(shí)輪廓線相關(guān)聯(lián)。
假設(shè)沿著法線的影像干擾為眾所周知的、空間密度為γ的泊松過(guò)程，真實(shí)的目標(biāo)測(cè)量結(jié)果是標(biāo)準(zhǔn)差為σz的正態(tài)分布，邊緣似然模型按下式獲得p(zφ|sφ=λφ)&Proportional;1+12πσzqγΣm=1Jexp(-(zm-λφ)22σz2)]]>式中q為假設(shè)H0的先驗(yàn)概率。
除了邊緣似然模型以外，HMM框架中也結(jié)合了有關(guān)前景和背景的區(qū)域性質(zhì)的其它線索，例如混合色彩模型。令p(ν|FG)和p(ν|BG)分別表示前景(FG)和背景(BG)的顏色分布。后驗(yàn)概率p(BG|ν)和p(FG|ν)能夠按下式得到P(BG|v)=p(v|BG)p(v|BG)+p(v|FG).....(1)]]>P(FG|v)=p(v|FG)p(v|BG)+p(v|FG)]]>
如果sφ＝λφ為法線φ上的輪廓點(diǎn)，那么區(qū)間[-N，sφ]就在前景上，區(qū)間[sφ+1，N]就在背景上。結(jié)合邊緣似然模型和顏色后驗(yàn)概率，對(duì)于HMM就會(huì)得出下列多線索觀測(cè)似然函數(shù)P(Oφ|sφ)=p(z|sφ)·Πi=-NsφP(BG|v=ρφ(i))·Πi=sφ+1NP(FG|v=ρφ(i))...(2)]]>在類似方式下，也可以結(jié)合其它線索，比如音頻線索(如根據(jù)聲源位置和聲音來(lái)自特定位置的可能性)。在沒(méi)有視頻內(nèi)容可供分析的情況下，就僅僅使用音頻線索。此外，為了補(bǔ)充或取代這種音頻隊(duì)列，音頻也可以用作無(wú)氣味微粒濾波的建議函數(shù)，下面還要更詳細(xì)地討論。
HMM中的另一個(gè)分量是轉(zhuǎn)換概率，它確定在時(shí)間t-1的狀態(tài)如何轉(zhuǎn)換為在時(shí)間t的另一種狀態(tài)。圖3中的平滑約束模塊170得出了轉(zhuǎn)換概率。
為了獲得平滑的輪廓，使用轉(zhuǎn)換概率對(duì)平滑約束進(jìn)行編碼，并懲罰粗糙。參考圖10，可見(jiàn)法線426密集(例如在30條法線的數(shù)量級(jí))時(shí)，在相鄰的法線426上真實(shí)輪廓線424的點(diǎn)，與預(yù)測(cè)輪廓線422趨于具有相同的位移(在每條法線上指數(shù)為0)。這種相關(guān)性有助于獲得平滑的輪廓。
在HMM中，給定了當(dāng)前的狀態(tài)sφ，當(dāng)前觀測(cè)結(jié)果Oφ就獨(dú)立于前一個(gè)狀態(tài)sφ-1和前一個(gè)觀測(cè)結(jié)果Oφ-1。此外，由于馬爾可夫模型的性質(zhì)，我們有p(sφ|s1，s2，...，sφ-1)＝p(sφ|sφ-1)。
那么，可以通過(guò)狀態(tài)轉(zhuǎn)換p(sφ|sφ-1)捕捉輪廓平滑約束如下P(sφ|sφ-1)=c·exp(-(sφ-sφ-1)2/σs2)....(3)]]>式中c為歸一化常數(shù)，σs為預(yù)先規(guī)定的調(diào)節(jié)輪廓平滑程度的常數(shù)。這種轉(zhuǎn)換概率懲罰相鄰法線之間輪廓點(diǎn)的突然變化，因此產(chǎn)生平滑的輪廓。然后，可以由輪廓選擇模塊172獲得最佳的輪廓。
平滑約束模塊170根據(jù)上面計(jì)算式(3)產(chǎn)生的轉(zhuǎn)換概率，考慮了輪廓點(diǎn)，而不管法線上的其它像素。此外，平滑約束模塊170也可以使用基于JPDAF(聯(lián)合概率數(shù)據(jù)關(guān)聯(lián)濾波器)的方法，不僅對(duì)輪廓平滑約束編碼，而且也對(duì)在法線上多個(gè)(例如所有)像素上觀測(cè)到的區(qū)域平滑約束編碼。在展示的實(shí)例中，使用基于動(dòng)態(tài)規(guī)劃的JPDAF過(guò)程來(lái)改善實(shí)時(shí)性能。
在典型條件下，人體部分(例如面部或頭部)的像素亮度值在其區(qū)域中平緩地變化。所以，在人們的追蹤中，前景和背景具有平滑的區(qū)域是一個(gè)合理的假設(shè)，因而兩條相鄰法線上的觀測(cè)結(jié)果類似。令sφ和sφ+1分別為線φ和線φ+1上的輪廓點(diǎn)。這兩個(gè)輪廓點(diǎn)將這兩條線劃分為前景區(qū)段和背景區(qū)段。根據(jù)區(qū)域平滑假設(shè)，不僅sφ和sφ+1相互接近，而且這兩條法線上所有其它的像素也都匹配得很好。為了獲得區(qū)域平滑約束，使用一種聯(lián)合概率數(shù)據(jù)關(guān)聯(lián)濾波器來(lái)處理法線匹配。換句話說(shuō)，它不是單點(diǎn)對(duì)單點(diǎn)的匹配問(wèn)題，而是(2N+1)個(gè)點(diǎn)對(duì)(2N+1)個(gè)點(diǎn)的匹配問(wèn)題。通過(guò)一起考慮沿著這些法線上的所有像素，可以獲得更穩(wěn)健的匹配結(jié)果。所以，典型情況下，基于JPDAF過(guò)程的轉(zhuǎn)換概率更準(zhǔn)確。令DF(i，j)和DB(i，j)分別為前景(在線φ上的[-N，i]，在線φ+1上的[-N，j])和背景(在線φ上的[i+1，N]，在線φ+1上的[j+1，N])的匹配距離。那么，可以規(guī)定轉(zhuǎn)換概率如下，以取代上面參考計(jì)算式(3)討論的轉(zhuǎn)換概率log(p(s2|s1)=DF(s1,s2)+DB(s1,s2)+(s2-s1)2/σs2...(4)]]>區(qū)域平滑概念可以由圖11中展示的合成影像來(lái)說(shuō)明。圖中展示了兩個(gè)區(qū)域表示背景干擾的矩形區(qū)域460和表示目標(biāo)的近似圓形區(qū)域462。也展示了兩條相鄰的法線464和466。點(diǎn)a和b為法線464上探測(cè)到的邊緣點(diǎn)，而點(diǎn)c和d為法線466上探測(cè)到的邊緣點(diǎn)。目的是在這兩條法線464和466上尋找輪廓線在何處。除了某些變形以外，測(cè)量結(jié)果482和484相互類似。僅僅根據(jù)輪廓平滑約束，從a到c的輪廓和從b到c的輪廓幾乎具有相同幅度的平滑能量，因?yàn)閨a-c|≌|b-c|。不過(guò)，如果我們還考慮區(qū)域平滑約束，可能的輪廓可以是ad或bc，而不是ac或bd。HMM可以進(jìn)一步根據(jù)所有的觀測(cè)線區(qū)分輪廓候選者ad和bc。
為了獲得新的轉(zhuǎn)換概率，要計(jì)算所有可能的((2N+1)2個(gè))狀態(tài)對(duì)之間的匹配。圖13以圖形的方式說(shuō)明了匹配距離的計(jì)算。給定了線464和466，匹配距離的計(jì)算可以由以下遞歸方程說(shuō)明，并且可以參見(jiàn)圖13 式中d(.，.)為匹配兩個(gè)像素的成本。DF(i，j)為464線上[-N，i]區(qū)段和466線上[-N，j]區(qū)段之間的最佳匹配距離。起始于DF(0，j)＝DF(i，0)＝0，其中i，j∈[-N，N]，從i＝-N到N和j＝-N到N，使用以上遞歸式獲得匹配距離DF(i，j)。計(jì)算DB(i，j)是通過(guò)類似的過(guò)程，不過(guò)起始于DB(N，N)＝0，到DB(-N，-N)。獲得了所有的匹配距離之后，可以計(jì)算出狀態(tài)轉(zhuǎn)換概率，并可以通過(guò)圖3中的輪廓選擇模塊172完成輪廓追蹤，下面還要更詳細(xì)地討論。
給定了觀測(cè)結(jié)果序列O＝{Oφ，φ∈[1，M]}和轉(zhuǎn)換概率ai，j＝p(sφ+1＝j(luò)|sφ＝i)之后，輪廓選擇模塊172通過(guò)使用以下眾所周知的Veterbi算法，尋找最可能的狀態(tài)序列s*，確定所發(fā)現(xiàn)的最佳輪廓s*=argmaxsP(s|O)=argmaxsP(s,O)]]>值V(φ，λ)定義如下V(φ，λ)＝maxsφ-1P(Oφ-1，sφ-1，sφ＝λ)使用馬爾可夫條件獨(dú)立假設(shè)，對(duì)于初始值V(1，λ)＝maxs1P(O1|s1)P(s1)，V(φ，λ)能夠遞歸計(jì)算如下V(φ,λ)=P(Oφ|sφ=λ)·maxjP(sφ=λ|sφ-1=j)V(j,φ-1)]]>j*(φ,λ)=P(Oφ|sφ=λ)·argmaxjP(sφ=λ|sφ-1=j)V(j,φ-1)]]>式中初始狀態(tài)概率P(s1)＝1/(2N+1)，s1∈[-N，N]。j*(φ，λ)項(xiàng)記錄了φ線上來(lái)自λ狀態(tài)的“最佳以前狀態(tài)”。所以，在序列的終點(diǎn)，就獲得了maxsP(O，s)＝maxλV(M，λ)。從sM*＝arg maxλV(M，λ)開(kāi)始，以sφ-1*＝j(luò)*(sφ*，φ)向后追蹤j*，可以獲得最優(yōu)狀態(tài)序列s*。
給定了最佳狀態(tài)序列s*＝{s1*，...，sM*}，φ線上最佳輪廓點(diǎn)sφ*對(duì)應(yīng)的影像坐標(biāo)記為[xφ，yφ]。因?yàn)槭褂脵E圓作為參數(shù)輪廓模型，對(duì)于每個(gè)輪廓點(diǎn)[xφ，yφ]，下式成立axφ2+byφ2+cxφyφ+dxφ+eyφ-1=0]]>這些方程的矩陣表達(dá)式為
A·f＝b式中A=x12y12x1y1x1y1......xM2yM2xMyMxMyM]]>且b＝[1，1，...，1]T。通過(guò)最小均方(LMS)解可以獲得最佳擬合橢圓的參數(shù)f*＝[a，b，c，d，e]Tf*＝(ATA)-1ATb (5)上面的橢圓表達(dá)式f＝[a，b，c，d，e]T在數(shù)學(xué)上是方便的。但是這5個(gè)參數(shù)卻沒(méi)有清楚的物理解釋。在追蹤中，往往使用不同的5元橢圓表達(dá)式θ＝[x，y，α，β，φ]式中(x，y)為橢圓的中心，α和β為橢圓長(zhǎng)短軸的長(zhǎng)度，φ為橢圓的方向。因?yàn)閒和θ是同一橢圓的兩個(gè)表達(dá)式，它們?cè)诒疚闹薪粨Q地使用。
在動(dòng)態(tài)環(huán)境中，被追蹤的目標(biāo)和背景都可能逐漸改變外觀。因此，模型調(diào)整模塊174動(dòng)態(tài)地調(diào)整觀測(cè)似然模型。調(diào)整觀測(cè)似然模型的一種方法是，完全相信Viterbi算法在t-1幀返回的輪廓，對(duì)該輪廓內(nèi)外的所有像素求平均，以獲得在t幀新的前景/背景顏色模型。不過(guò)，如果在t-1幀發(fā)生了錯(cuò)誤，這個(gè)過(guò)程就可能以錯(cuò)誤的方式調(diào)整模型。因此，模型調(diào)整模塊174以概率統(tǒng)計(jì)的方式訓(xùn)練觀測(cè)模型。
不是完全相信在t-1幀獲得的輪廓，而是使用一種向前-向后的算法，來(lái)決定如何更新觀測(cè)模型?！跋蚯案怕史植肌倍x如下αφ(s)＝p((O1，O2，...，Oφ，sφ＝s)它能夠使用如下遞歸來(lái)計(jì)算α1(s)＝p(s1＝s)p(O1|s1＝s)αφ+1(s)=[Σuαφ(u)au,s]p(Oφ+1|sφ+1=s)]]>同樣，“向后概率分布”定義如下βφ(s)＝p(Oφ+1，Oφ+2，...，OM，sφ＝s)它能夠使用如下遞歸來(lái)計(jì)算
βM(s)＝1βφ(s)=Σuas,up(Oφ+1|sφ+1=u)βφ+1(u)]]>計(jì)算了向前和向后概率之后，我們可以計(jì)算φ線上每種狀態(tài)的概率如下P(sφ=s|O)=αφ(s)βφ(s)Σuαφ(u)βφ(u),s&Element;[-N,N]]]>它表示測(cè)量線φ上s處具有輪廓點(diǎn)的概率。
根據(jù)這些概率，沿著法線結(jié)合P(sφ＝s|O)，可以計(jì)算像素λφ在前景(或背景)中的概率如下P(λφ&Element;BG)=1-P(λφ&Element;FG)=Πs=-Nλφp(sφ=s|O)]]>這個(gè)概率給我們提供了一種穩(wěn)健的方法，在調(diào)整觀測(cè)模型期間對(duì)不同的像素加權(quán)。分類置信度越高的像素對(duì)顏色模型的貢獻(xiàn)越大，分類置信度越低的像素貢獻(xiàn)越小p(v|BG)=Σs=-NNP(s&Element;BG)·Oφ(s)Σs=-NNP(s&Element;BG).....(6)]]>p(v|FG)=Σs=-NNP(s&Element;FG)·Oφ(s)Σs=-NNP(s&Element;FG)]]>調(diào)整后的新模型反映了追蹤期間顏色分布的變化。然后，在下一幀的輪廓搜索期間，把調(diào)整后的新模型代回(1)式中。在展示的實(shí)例中沒(méi)有訓(xùn)練轉(zhuǎn)換概率，因?yàn)樵诘湫颓闆r下，它們趨于在追蹤過(guò)程期間保持相對(duì)不變。此外，也能夠以類似于訓(xùn)練顏色分布的方式訓(xùn)練轉(zhuǎn)換概率。
返回圖9，多線索追蹤過(guò)程400可以進(jìn)一步參考圖14。圖14展示了從時(shí)間t-1的一幀522到時(shí)間t的下一幀524追蹤一個(gè)目標(biāo)的過(guò)程。根據(jù)前一幀t-1中的追蹤結(jié)果和該目標(biāo)的動(dòng)態(tài)，預(yù)測(cè)當(dāng)前幀t中目標(biāo)將在何處(動(dòng)作402)。沿著預(yù)測(cè)輪廓的一組法線收集觀測(cè)結(jié)果(動(dòng)作404)。使用眾所周知的Langevin過(guò)程來(lái)模擬人運(yùn)動(dòng)的動(dòng)態(tài)θtθt=1τ0aθt-1θt-1+0bmt]]>式中θ＝[x，y，α，β，φ]為參數(shù)橢圓，a＝exp(-βθτ)，b=v&OverBar;1-a2]]>。βθ為比率常數(shù)，m為從高斯分布N(0，Q)導(dǎo)出的熱激勵(lì)過(guò)程，τ為離散時(shí)間步長(zhǎng)，v為穩(wěn)態(tài)均方根速度。
對(duì)于法線φ上的每一個(gè)像素，使用上面的(2)式，根據(jù)法線上每個(gè)像素的邊緣探測(cè)結(jié)果和顏色值，求取觀測(cè)似然函數(shù)(動(dòng)作406)p(Oφ|sφ＝λφ)，λφ∈[-N，N]，φ∈[1，M]同時(shí)，也根據(jù)JPDAF求取狀態(tài)轉(zhuǎn)換概率(動(dòng)作408)，如上面(4)式所示。
利用前面計(jì)算出的觀測(cè)似然函數(shù)和轉(zhuǎn)換概率矩陣，由Viterbi算法尋找對(duì)于給定觀測(cè)結(jié)果的最佳輪廓(動(dòng)作410)，并且使用上面的(6)式，根據(jù)探測(cè)的輪廓擬合最佳橢圓(動(dòng)作412)。
然后，使用向前-向后算法估計(jì)法線上每個(gè)像素(向前和向后)的軟分類，根據(jù)上面的(6)式，更新前景和背景的顏色模型(動(dòng)作414)。
對(duì)于視頻內(nèi)容中的每一幀，重復(fù)圖9中的過(guò)程400。
多線索追蹤模塊144試圖考慮線索的可靠性和線索可靠性的變化。例如，前景和背景的性質(zhì)都進(jìn)行模擬(參見(jiàn)上面的(1)式)，在上面的(2)式中使用該模型來(lái)探測(cè)邊界(例如，假若前景的顏色與背景類似，它將不會(huì)對(duì)邊界探測(cè)作出很大貢獻(xiàn)，該過(guò)程將更多地依靠更容易判別的其它線索，比如運(yùn)動(dòng))。在追蹤期間，也要調(diào)制由上面(6)式表達(dá)的背景和前景的模型。
對(duì)上面討論的多線索追蹤過(guò)程，還可以進(jìn)行多種修改。根據(jù)一種修改方案，被追蹤面孔的一個(gè)或多個(gè)特性點(diǎn)組成一組，得到保持，分析新的每一幀以確定組內(nèi)特性點(diǎn)的位置。一旦組內(nèi)的特性點(diǎn)定位之后，根據(jù)已定位的組內(nèi)各點(diǎn)，就能夠粗略估計(jì)面孔的位置，然后這種粗略的估計(jì)結(jié)果會(huì)用作上面討論的參數(shù)輪廓追蹤過(guò)程的初始猜測(cè)。換句話說(shuō)，分析新的一幀以便為參數(shù)輪廓追蹤過(guò)程定位一個(gè)初始猜測(cè)，而不是依靠上面討論的預(yù)測(cè)位置。在相鄰幀之間目標(biāo)移動(dòng)距離大(大到上面討論的預(yù)測(cè)位置可能與后續(xù)幀中的實(shí)際輪廓位置不夠接近)的情況下，這種修改尤其有用。
可以追蹤多種不同的特性點(diǎn)，比如眼角、嘴角、鼻孔等等。還可以追蹤音頻中的聲源作為特性點(diǎn)，以補(bǔ)充或取代視覺(jué)特性。能夠使用多種特性的追蹤過(guò)程，比如眾所周知的Lucas-Kanade特性追蹤器。有關(guān)Lucas-Kanade特性追蹤器的其它信息，可以參見(jiàn)J.Shi andC.Tomasi，“Good Features to Track，”IEEE Conf.On ComputerVision and Pattern Recognition，pp.593-600，1994。
對(duì)上面討論的多線索追蹤過(guò)程可以進(jìn)行的另一種修改是，執(zhí)行概率統(tǒng)計(jì)的采樣時(shí)，從特性點(diǎn)(探測(cè)的輪廓點(diǎn))采樣，而不是從狀態(tài)空間采樣。例如，從探測(cè)的所有輪廓點(diǎn)中可以采取幾個(gè)輪廓點(diǎn)，在采用的輪廓點(diǎn)上擬合參數(shù)形狀。
對(duì)多線索追蹤過(guò)程可以進(jìn)行的另一種修改是，對(duì)面孔追蹤多個(gè)可能的位置——換句話說(shuō)，追蹤多個(gè)假設(shè)而不是一個(gè)假設(shè)?？梢允褂梦⒘V波技術(shù)來(lái)保持多個(gè)技術(shù)，所以勉強(qiáng)的假設(shè)不被立即排除。相反，保持勉強(qiáng)的假設(shè)，使它們有時(shí)間來(lái)證明是正確的選擇。下一步介紹一種這樣的微粒濾波器技術(shù)，稱為無(wú)氣味的微粒濾波器。
使用無(wú)氣味卡爾曼濾波器(UKF)的無(wú)氣味微粒濾波器(UPF)，被多線索追蹤模塊144用于追蹤多個(gè)假設(shè)。無(wú)氣味的變換(UT)用于計(jì)算g()的泰勒級(jí)數(shù)展開(kāi)式中高至第二階(第三階為高斯先驗(yàn)項(xiàng))的均值和協(xié)方差。令nx為x的維數(shù)，x為x的均值，Px為x的協(xié)方差，UT計(jì)算y＝g(x)的均值和協(xié)方差如下首先，確定性地產(chǎn)生2nx+1個(gè)求和點(diǎn)Si＝{Xi，Wi}X0＝xXi=x&OverBar;+((nx+λ)Px)ii=1,...,nx]]>Xi=x&OverBar;((nx+λ)Px)ii=nx+1,...,2nx]]>(7)W0(m)=λ/(nx+λ),W0(c)=W0(m)+(1-α2+β)]]>Wi(m)=Wi(m)=1/(2·(nx+λ))i=1,...,2nx]]>λ＝α2(nx+κ)-nx式中κ為比例參數(shù)，它控制著求和點(diǎn)之間的距離和均值x，α為正比例參數(shù)，它控制著非線性函數(shù)g()產(chǎn)生的高階效應(yīng)，β為一個(gè)參數(shù)，控制著第0個(gè)求和點(diǎn)的加權(quán)，((nx+λ)Px)i]]>為矩陣第i列的平方根。在一個(gè)實(shí)施方案中，對(duì)于標(biāo)量情況，α＝1，β＝2，κ＝2。注意，計(jì)算均值和協(xié)方差時(shí)，第0個(gè)求和點(diǎn)的加權(quán)不同。
然后，求和點(diǎn)通過(guò)非線性變換傳播Yi＝g(xi)i＝0，...，2nx(8)y的均值和協(xié)方差按下式計(jì)算y&OverBar;=Σi=02nxWi(m)Yi,Py=Σi=02nxWi(c)(Yi-y&OverBar;)(Yi-y&OverBar;)T...(9)]]>y的均值和協(xié)方差準(zhǔn)確至泰勒級(jí)數(shù)展開(kāi)的第二階。
使用UT，將狀態(tài)空間擴(kuò)展到包括噪音分量xta=xtTmtTntTT]]>，可以實(shí)現(xiàn)無(wú)氣味的卡爾曼濾波器。令Na＝Nx+Nm+Nn為擴(kuò)展后狀態(tài)空間的維數(shù)，其中Nm和Nn為噪音mt和nt的維數(shù)，Q和R為噪音mt和nt的協(xié)方差，UKF可以歸納如下初始化x&OverBar;0a=x&OverBar;0T00T,P0a=P0000Q000R.....(10)]]>對(duì)于每個(gè)時(shí)間事件，迭代下列步驟a)使用上面的(7)式中的過(guò)程計(jì)算求和點(diǎn)Xt-1a=x&OverBar;t-1ax&OverBar;t-1a&PlusMinus;(na+λ)Pt-1a....(11)]]>b)時(shí)間更新Xt|t-1x=f(Xt-1x,Xt-1x),x&OverBar;t|t-1=Σi=02naWi(m)Xi,t|t-1x...(12)]]>Yt|t-1=h(Xt|t-1x,Xt-1n),y&OverBar;t|t-1=Σi=02naWi(m)Yi,t|t-1x....(13)]]>Pt|t-1=Σi=02naWi(c)[Xi,t|t-1x-x&OverBar;t|t-1][Xi,t|t-1x-x&OverBar;t|t-1]T....(14)]]>c)測(cè)量更新Pytyt=Σi=02naWi(c)[Yi,t|t-1-y&OverBar;t|t-1][Yi,t|t-1-y&OverBar;t|t-1]T...(15)]]>Pxtyt=Σi=02naWi(c)[Xi,t|t-1x-x&OverBar;t|t-1][Yi,t|t-1x-y&OverBar;t|t-1]T...(16)]]>Kt=PxtytPytyt-1......(17)]]>x&OverBar;t=x&OverBar;t|t-1+Kt(yt-y&OverBar;t|t-1),Pt=Pt|t-1-KtPytytKtT...(18)]]>
利用UKF，最新的觀測(cè)結(jié)果能夠方便地加入狀態(tài)估計(jì)中(例如上面的測(cè)量更新c))；不過(guò)，它對(duì)狀態(tài)分布進(jìn)行了高斯假設(shè)。相反，微粒濾波器能夠模擬任意的分布，但是卻難以將新的觀測(cè)結(jié)果yt加入建議的分布。UKF用于為微粒濾波器產(chǎn)生建議的分布，得出混合的UPF。確切地說(shuō)，對(duì)于每個(gè)微粒，建議的分布如下q(xt(i)|x0:t-1(i),y1:t)=N(x&OverBar;t(i),Pt(i)),i=1,...,N....(19)]]>式中xt和Pt為x的均值和協(xié)方差，是使用UKF((10)-(18)式)計(jì)算出的。應(yīng)當(dāng)注意，盡管高斯假設(shè)并非真實(shí)地近似后驗(yàn)分布p(xt|xt-1，y0:t)，對(duì)于明確的xt和Pt，產(chǎn)生各個(gè)微粒也不是一個(gè)大問(wèn)題。不僅如此，因?yàn)閁KF近似后驗(yàn)的均值和協(xié)方差高至第二階，所以很好地保存了系統(tǒng)的非線性性質(zhì)。通過(guò)將UKF步驟和(19)式插入一般的微粒濾波器算法，很容易獲得UPF過(guò)程。
圖15是一個(gè)流程圖，展示了一個(gè)示范的UPF過(guò)程550。圖15中的過(guò)程是由圖3中的多線索追蹤模塊144執(zhí)行，并且可以在軟件中執(zhí)行。
一開(kāi)始，使用(11)-(18)式利用UKF更新微粒xt(i)，i＝1，...，N，獲得xt(i)和Pt(i)(動(dòng)作552)。然后，從建議的分布q(xt(i)|x0:t-1(i),y1:t)=N(x&OverBar;t(i),Pt(i))]]>中，對(duì)微粒xt(i)，i＝1，...，N進(jìn)行采樣(動(dòng)作554)。然后使用如下的(20)式計(jì)算微粒加權(quán)(動(dòng)作556)w~t(i)=p(y1:t|x0:t(i))p(x0:t(i))q(x0:t-1(i)|y1:t-1)q(xt(i)|x0:t-1(i),y1:t)]]>=w~t-1(i)p(y1:t|x0:t(i))p(x0:t(i))p(y1:t-1|x0:t-1(i))p(x0:t-1(i))q(xt(i)|x0:t-1(i),y1:t)....(20)]]>=w~t-1(i)p(yt|xt(i))p(xt(i)|xt-1(i))q(xt(i)|x0:t-1(i),y1:t)]]>然后，使用如下的(21)式對(duì)重要性加權(quán)進(jìn)行歸一化(動(dòng)作558)wt(x0:t(i))=w~t(x0:t(i))/Σi=1Nw~t(x0:t(i))...(21)]]>式中微粒{x0:t(i)，wt(x0:t(i))}是取自已知分布q，和wt(x0:t(i))是未歸一化的和歸一化的重要性加權(quán)。
然后，使用如下的(22)式確定有效微粒尺寸S(動(dòng)作560)w~t(i)=w~t-1(i)p(yt|xt(i))p(xt(i)|xt-1(i))q(xt(i)|x0:t-1(i),y1:t)=w~t-1(i)p(yt|xt(i))...(22)]]>如果S＜ST，那么乘(或者壓制)加權(quán)后的微粒，以產(chǎn)生N個(gè)等權(quán)的微粒(動(dòng)作562)。然后，使用如下的(23)式計(jì)算g()的期望(動(dòng)作564)Ep(g(x0:t))=limN&RightArrow;∞Σi=1Ng(x0:t(i))wt(x0:t(i))...(23)]]>利用gt(xt)＝xt可以計(jì)算xt的條件均值，利用gt(xt)=xtxtT]]>可以計(jì)算xt的條件協(xié)方差。
現(xiàn)在討論根據(jù)音頻，使用圖15中的UPF過(guò)程550來(lái)追蹤與會(huì)者。典型情況下，兩個(gè)話筒就足以估計(jì)水平搖攝角。本文中討論根據(jù)水平搖攝角的追蹤，也可以進(jìn)行類似的操作來(lái)根據(jù)發(fā)言者的垂直俯仰角進(jìn)行追蹤。圖16展示了一種示范的多話筒環(huán)境。在圖16中，假設(shè)兩個(gè)話筒處在位置A和B，聲源處在位置C。當(dāng)聲源的距離(即|OC|)遠(yuǎn)大于話筒對(duì)基線|AB|時(shí)，搖攝角θ＝∠COX可以估計(jì)如下θ=&angle;COX≈&angle;BAE=arcsin|BE||AB|=arcsinD×v|AB|....(24)]]>式中D為兩個(gè)話筒之間的時(shí)間延遲，v＝342m/s為聲音在空氣中傳播的速度。
為了在追蹤應(yīng)用中使用UPF框架，首先要建立4個(gè)實(shí)體在(12)式中使用的系統(tǒng)動(dòng)態(tài)模型Xt＝f(xt-1，mt-1)，在(13)式中使用的系統(tǒng)觀測(cè)模型yt＝h(xt，nt)，在(22)式中使用的似然模型p(yt|xt)，以及在(18)式中使用的新發(fā)明的模型yt-yt|t-1。一旦這4個(gè)實(shí)體建立之后，就直截了當(dāng)?shù)厥褂脠D15中的UPF過(guò)程550進(jìn)行追蹤。
系統(tǒng)動(dòng)態(tài)模型Xt＝f(xt-1，mt-1)確定如下。令x=[θ,θ·]T]]>為狀態(tài)空間，式中它們分別是搖攝角和搖攝角的速度。為了模擬一個(gè)發(fā)言者的運(yùn)動(dòng)動(dòng)態(tài)，使用眾所周知的Langevin過(guò)程d2θ/dt2+βθ·dθ/dt＝m，其離散形式為θtθ·t=1τ0aθt-1θ·t-1+0bmt...(25)]]>a=exp(-βθτ),b=v&OverBar;1-a2]]>式中βθ為比率常數(shù)，m為從N(0，Q)導(dǎo)出的熱激勵(lì)過(guò)程，τ為離散時(shí)間步長(zhǎng)，v為穩(wěn)態(tài)均方根速度。
系統(tǒng)觀測(cè)模型yt＝h(xt，nt)確定如下。系統(tǒng)觀測(cè)結(jié)果yt為時(shí)間延遲Dt。根據(jù)上面的(24)式，觀測(cè)結(jié)果與狀態(tài)的關(guān)系為yt＝Dt＝h(θt，nt)＝|AB|νsinθt+nt(26)式中nt為測(cè)量噪音，服從N(0，R)的高斯分布。
似然模型p(yt|xt)確定如下。令J為GCCF(廣義互相關(guān)函數(shù))中峰值的數(shù)目。在J個(gè)峰值位置中，最多只有一個(gè)是來(lái)自真正的聲源。所以，可以定義J+1個(gè)假設(shè)H0＝{cj＝c:j＝1，...，J} (27)Hj＝{cj＝T，ck＝C:k＝1，...，J，k≠j式中cj＝T表明第j個(gè)峰值與真正的聲源相關(guān)聯(lián)，cj＝C表明其它情況。所以，假設(shè)H0表明，沒(méi)有一個(gè)峰值與真正的聲源相關(guān)聯(lián)。所以，結(jié)合的似然模型為p(yt|xt)=π0p(yt|H0)+Σj=1Jπjp(yt|Hj)]]>=π0U+NmΣj=1JπjN(Dj,σD).....(28)]]>s.t.π0+Σj=1Jπj=1]]>式中π0為假設(shè)H0的先驗(yàn)概率，從第j個(gè)峰值的相對(duì)高度可以獲得πj，j＝1，...，J，Nm為歸一化因子，Dj為第j個(gè)峰值相應(yīng)的時(shí)間延遲，U表示均勻分布，N()表示高斯分布。
新發(fā)明的模型yt-yt|t-1確定如下。與似然模型相同，新發(fā)明的模型也需要考慮多峰的事實(shí)yt-y&OverBar;t|t-1=Σj=1Jπj(Dj-y&OverBar;t|t-1).....(29)]]>式中yt|t-1為預(yù)測(cè)的側(cè)UKF獲得的測(cè)量結(jié)果(見(jiàn)上面的(18)式)。
根據(jù)視頻，使用圖15中的UPF過(guò)程550來(lái)追蹤與會(huì)者，類似于根據(jù)音頻來(lái)追蹤與會(huì)者。為了在追蹤應(yīng)用中使用UPF框架，首先要建立4個(gè)實(shí)體系統(tǒng)動(dòng)態(tài)模型xt＝f(xt-1，mt-1)，系統(tǒng)觀測(cè)模型yt＝h(xt，nt)，似然模型p(yt|xt)，以及新發(fā)明的模型yt-yt|t-1。一旦這4個(gè)實(shí)體建立之后，就直截了當(dāng)?shù)厥褂脠D15中的UPF過(guò)程550進(jìn)行追蹤。
系統(tǒng)動(dòng)態(tài)模型xt＝f(xt-1，mt-1)確定如下。令(r，s)表示影像坐標(biāo)。在基于輪廓的追蹤中，系統(tǒng)狀態(tài)為橢圓中心的位置及其水平和垂直速度，即xt=[rt,st,r·t,s·t]T]]>。類似于音頻數(shù)據(jù)的系統(tǒng)動(dòng)態(tài)模型，使用眾所周知的Langevin過(guò)程來(lái)模擬人運(yùn)動(dòng)的動(dòng)態(tài)r1str·ts·t=10τ0010τ00ar0000asrt-1st-1r·t-1s·t-1+00brbsmt...(30)]]>系統(tǒng)觀測(cè)模型yt＝h(xt，nt)確定如下。橢圓的中心處在當(dāng)前狀態(tài)位置(rt，st)。從橢圓的中心產(chǎn)生K條射線，與橢圓邊界相交。橢圓中心用作局部坐標(biāo)系統(tǒng)的原點(diǎn)，所以要獲得交點(diǎn)(uk，vk)，k＝1，2，...，K，uk=tan2φk/(1.44tan2φk+1).....(31)]]>vk=1/(1.44tan2φk+1)]]>可以通過(guò)聯(lián)合求解橢圓方程和射線方程將局部(u，v)坐標(biāo)變換回影像坐標(biāo)就獲得了以下觀測(cè)結(jié)果yt＝h(xt，nt) (33)＝[(uk+rt，vk+st)]+nt，k＝1，2，…，K式中nt為測(cè)量噪音，服從N(0，R)的高斯分布。應(yīng)當(dāng)注意，觀測(cè)模型是高度非線性的。
似然模型p(yt|xt)確定如下。沿著K條射線中的每一條，使用眾所周知的Canny邊緣探測(cè)器來(lái)計(jì)算邊緣強(qiáng)度。結(jié)果函數(shù)是一個(gè)多峰函數(shù)，正如音頻數(shù)據(jù)似然模型中的GCCF。多個(gè)峰值表示沿著這條射線有多個(gè)邊緣候選者。令峰值的數(shù)目為J，我們可以使用與為了音頻數(shù)據(jù)開(kāi)發(fā)的似然模型同樣的似然模型，來(lái)模擬沿著射線k的邊緣似然p(k)(yt|xt)=πk0p(k)(yt|H0)+Σj=1Jπkjp(k)(yt|Hj)]]>=πk0U+NmΣj=1JπkjN((uk,vk)j,σkj)]]>考慮到所有的K條射線，所以整體似然為p(yt|xt)=Πk=1Kp(k)(yt|xt)......(34)]]>新發(fā)明的模型yt-yt|t-1確定如下。與似然模型相同，新發(fā)明的模型也需要考慮多峰的事實(shí)y(k)t-y&OverBar;(k)t|t-1=Σj=1Jπkj((uk,vk)t,j-(uk,vk)t|t-1)]]>式中k＝1，2，...，K，πkj為沿著射線k對(duì)第j個(gè)峰值的混合加權(quán)，可以從對(duì)應(yīng)的邊緣強(qiáng)度獲得。
通用計(jì)算機(jī)環(huán)境圖17展示了一種通用計(jì)算機(jī)環(huán)境600，它可以用于實(shí)施本文中介紹的、多個(gè)人的自動(dòng)探測(cè)和追蹤。計(jì)算機(jī)環(huán)境600僅僅是計(jì)算環(huán)境的一個(gè)實(shí)例，并非試圖建議對(duì)計(jì)算機(jī)和網(wǎng)絡(luò)體系結(jié)構(gòu)之使用范疇或功能的任何限制。計(jì)算機(jī)環(huán)境600也不應(yīng)當(dāng)被解釋為對(duì)示范計(jì)算機(jī)環(huán)境600中展示的組件中任何一個(gè)或組合具有任何的依賴或需要。
計(jì)算機(jī)環(huán)境600包括計(jì)算機(jī)602形式的通用計(jì)算設(shè)備。例如，計(jì)算機(jī)602可以是圖1中的系統(tǒng)102、圖2中的系統(tǒng)112、圖3中的系統(tǒng)130等等。計(jì)算機(jī)602的組件可以包括但是不限于一個(gè)或多個(gè)處理器或者說(shuō)處理單元604、一個(gè)系統(tǒng)存儲(chǔ)器606和一條系統(tǒng)總線608——它將多種系統(tǒng)組件，包括處理器604連接到系統(tǒng)存儲(chǔ)器606。
系統(tǒng)總線608表示幾種總線結(jié)構(gòu)中任何的一個(gè)或多個(gè)，包括存儲(chǔ)器總線或者說(shuō)存儲(chǔ)器控制器、外圍總線、加速圖形端口以及處理器或者使用多種總線體系結(jié)構(gòu)中任何一種的局部總線。例如，這種體系結(jié)構(gòu)可以包括工業(yè)標(biāo)準(zhǔn)結(jié)構(gòu)(ISA)總線、微通道結(jié)構(gòu)(MCA)總線、增強(qiáng)的ISA(EISA)總線、視頻電子標(biāo)準(zhǔn)協(xié)會(huì)(VESA)局部總線以及外圍部件互連(PCI)總線——也被稱為中樓總線。
典型情況下，計(jì)算機(jī)602包括多種計(jì)算機(jī)可讀的介質(zhì)。這種介質(zhì)可以是任何可用的介質(zhì)——計(jì)算機(jī)602可存取，并包括易失性的和非易失性的、可拆卸的和不可拆卸的介質(zhì)。
系統(tǒng)存儲(chǔ)器606包括易失性存儲(chǔ)器形式的計(jì)算機(jī)可讀的介質(zhì)，比如隨機(jī)存取存儲(chǔ)器(RAM)610，和/或非易失性存儲(chǔ)器，比如只讀存儲(chǔ)器(ROM)612。在ROM 612中存放著基本輸入/輸出系統(tǒng)(BIOS)614，包含著基本的例程，有助于在計(jì)算機(jī)602之內(nèi)的元件之間傳遞信息，比如在啟動(dòng)期間。典型情況下，RAM 610包含著處理單元604可立即存取和/或正在操作的數(shù)據(jù)和/或程序模塊。
計(jì)算機(jī)602也可以包括其它可拆卸的/不可拆卸的、易失性的/非易失性的計(jì)算機(jī)存儲(chǔ)介質(zhì)。例如，圖17展示了硬盤(pán)驅(qū)動(dòng)器616——用于在不可拆卸的、非易失性的磁介質(zhì)(未顯示)上讀取和寫(xiě)入，磁盤(pán)驅(qū)動(dòng)器618——用于在可拆卸的、非易失性的磁盤(pán)620(如“軟盤(pán)”)上讀取和寫(xiě)入，以及光盤(pán)驅(qū)動(dòng)器622——用于在可拆卸的、非易失性的光盤(pán)624比如CD-ROM、DVD-ROM或其它光存儲(chǔ)介質(zhì)上讀取和/或?qū)懭?。硬盤(pán)驅(qū)動(dòng)器616、磁盤(pán)驅(qū)動(dòng)器618和光盤(pán)驅(qū)動(dòng)器622都通過(guò)一個(gè)或多個(gè)數(shù)據(jù)介質(zhì)接口626，連接到系統(tǒng)總線608。此外，硬盤(pán)驅(qū)動(dòng)器616、磁盤(pán)驅(qū)動(dòng)器618和光盤(pán)驅(qū)動(dòng)器622也可以通過(guò)一個(gè)或多個(gè)接口(未顯示)連接到系統(tǒng)總線608。
這些盤(pán)片驅(qū)動(dòng)器和它們相關(guān)聯(lián)的計(jì)算機(jī)可讀介質(zhì)，為計(jì)算機(jī)602所用的計(jì)算機(jī)可讀的指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊和其它數(shù)據(jù)提供了非易失性的存儲(chǔ)。盡管該實(shí)例展示了硬盤(pán)616、可拆卸的磁盤(pán)620和可拆卸的光盤(pán)624，應(yīng)當(dāng)承認(rèn)，也可以采用能夠存放計(jì)算機(jī)可存取之?dāng)?shù)據(jù)的其它類型的計(jì)算機(jī)可讀介質(zhì)，來(lái)實(shí)現(xiàn)示范的計(jì)算系統(tǒng)和環(huán)境，比如磁帶或其它磁存儲(chǔ)設(shè)備、閃存卡、CD-ROM、數(shù)字萬(wàn)能盤(pán)(DVD)或其它光存儲(chǔ)介質(zhì)、隨機(jī)存取存儲(chǔ)器(RAM)、只讀存儲(chǔ)器(ROM)、可電擦除的可編程只讀存儲(chǔ)器(EEPROM)等等。
在硬盤(pán)616、磁盤(pán)620、光盤(pán)624、ROM 612和/或RAM 610中，可用存放任何數(shù)目的程序模塊，包括例如操作系統(tǒng)626、一個(gè)或多個(gè)應(yīng)用程序628、其它程序模塊630和程序數(shù)據(jù)632。這種操作系統(tǒng)626、一個(gè)或多個(gè)應(yīng)用程序628、其它程序模塊630和程序數(shù)據(jù)632中的任何一種(或者它們的某些組合)，都可以成為支持分布式文件系統(tǒng)的全部或部分駐留組件。
用戶可以通過(guò)輸入設(shè)備比如鍵盤(pán)634和定點(diǎn)設(shè)備636如“鼠標(biāo)”)，向計(jì)算機(jī)602輸入命令和信息。其它輸入設(shè)備638(未確切顯示)可能包括話筒、操縱桿、游戲墊板、衛(wèi)星天線、串口、掃描儀等等。這些和其它輸入設(shè)備通過(guò)連接到系統(tǒng)總線608的輸入/輸出接口640，連接到處理單元604，但是也可以通過(guò)其它接口和總線結(jié)構(gòu)連接，比如并口、游戲端口或者通用串行總線(USB)。
監(jiān)視器642或其它類型的顯示設(shè)備也可以通過(guò)接口——比如視頻適配器644——連接到系統(tǒng)總線608。除了監(jiān)視器642，其它的外圍輸出設(shè)備可以包括能夠通過(guò)輸入/輸出接口640連接到計(jì)算機(jī)602的部件，比如揚(yáng)聲器(未顯示)和打印機(jī)646。
計(jì)算機(jī)602可以運(yùn)行在網(wǎng)絡(luò)化環(huán)境中，它使用一臺(tái)或多臺(tái)遠(yuǎn)程計(jì)算機(jī)的邏輯連接，比如遠(yuǎn)程計(jì)算設(shè)備648。例如，遠(yuǎn)程計(jì)算設(shè)備648可能是一臺(tái)個(gè)人計(jì)算機(jī)、便攜計(jì)算機(jī)、服務(wù)器、路由器、網(wǎng)絡(luò)計(jì)算機(jī)、對(duì)等設(shè)備或者其它普通網(wǎng)絡(luò)節(jié)點(diǎn)等等。遠(yuǎn)程計(jì)算設(shè)備648展示為便攜計(jì)算機(jī)，相對(duì)于計(jì)算機(jī)602，它可以包括本文中介紹的許多或全部要素。
在計(jì)算機(jī)602和遠(yuǎn)程計(jì)算機(jī)648之間的邏輯連接，描述為局域網(wǎng)(LAN)650和一般的廣域網(wǎng)(WAN)652。這種聯(lián)網(wǎng)環(huán)境在辦公室、企業(yè)計(jì)算機(jī)網(wǎng)絡(luò)、內(nèi)聯(lián)網(wǎng)和因特網(wǎng)中是司空見(jiàn)慣的。
在LAN聯(lián)網(wǎng)環(huán)境中實(shí)現(xiàn)時(shí)，計(jì)算機(jī)602通過(guò)網(wǎng)絡(luò)接口或者說(shuō)適配器654，連接到局域網(wǎng)650。在WAN聯(lián)網(wǎng)環(huán)境中實(shí)現(xiàn)時(shí)，典型情況下計(jì)算機(jī)602包括調(diào)制解調(diào)器656或其它裝置，以便建立通過(guò)廣域網(wǎng)的通信調(diào)制解調(diào)器656——它可以在計(jì)算機(jī)602的內(nèi)部或外部——可以通過(guò)輸入/輸出接口640或其它適當(dāng)?shù)臋C(jī)制，連接到系統(tǒng)總線608。應(yīng)當(dāng)承認(rèn)，展示的網(wǎng)絡(luò)連接是示范性的，在計(jì)算機(jī)602和648之間，也可以采用其它方式建立通信連接。
在網(wǎng)絡(luò)化的環(huán)境中，比如計(jì)算環(huán)境600展示的環(huán)境，相對(duì)于計(jì)算機(jī)602或者其中部分所描述的程序模塊，可能存放在遠(yuǎn)程存儲(chǔ)器的存儲(chǔ)設(shè)備中。例如，遠(yuǎn)程應(yīng)用程序658駐留在遠(yuǎn)程計(jì)算機(jī)648的存儲(chǔ)器設(shè)備中。為了便于展示，應(yīng)用程序和其它可執(zhí)行程序組件比如操縱系統(tǒng)，在本文中展示為離散的塊，盡管應(yīng)當(dāng)理解這些程序和組件在不同的時(shí)間駐留在計(jì)算設(shè)備602的不同的存儲(chǔ)部件中，并被該計(jì)算機(jī)的數(shù)據(jù)處理器執(zhí)行。
分布式文件系統(tǒng)150的實(shí)施方案，可以在計(jì)算機(jī)可執(zhí)行指令——比如程序模塊，由一臺(tái)或多臺(tái)計(jì)算機(jī)或其它設(shè)備執(zhí)行——的一般環(huán)境中介紹。一般說(shuō)來(lái)，程序模塊包括例程、程序、對(duì)象、組件、數(shù)據(jù)結(jié)構(gòu)等等，它們執(zhí)行特定的任務(wù)或者實(shí)現(xiàn)特定的抽象數(shù)據(jù)類型。典型情況下，程序模塊的功能可以結(jié)合或分配，如多個(gè)實(shí)施例中的介紹。
對(duì)于加密的文件，其文件格式的實(shí)施方案可以存放在或者傳送到某種形式的計(jì)算機(jī)可讀的介質(zhì)上。計(jì)算機(jī)可讀的介質(zhì)可以是計(jì)算機(jī)可以存取的、任何可用的介質(zhì)。計(jì)算機(jī)可讀的介質(zhì)可能包括例如但是不限于“計(jì)算機(jī)存儲(chǔ)介質(zhì)”和通信媒介”。
“計(jì)算機(jī)存儲(chǔ)介質(zhì)”包括以任何方法或技術(shù)實(shí)現(xiàn)的、用于信息——比如計(jì)算機(jī)可讀的指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或其它數(shù)據(jù)——存儲(chǔ)的易失性的和非易失性的、可拆卸的和不可拆卸的介質(zhì)。計(jì)算機(jī)存儲(chǔ)介質(zhì)包括但是不限于RAM、ROM、EEPROM、閃存或其它存儲(chǔ)器技術(shù)、CD-ROM、數(shù)字萬(wàn)能盤(pán)(DVD)或其它光存儲(chǔ)介質(zhì)、盒式磁帶、磁帶、磁盤(pán)存儲(chǔ)或其它磁存儲(chǔ)設(shè)備，或者能夠用于存放所需信息并且可由計(jì)算機(jī)存取的任何其它介質(zhì)。
“通信媒介”典型情況下使計(jì)算機(jī)可讀的指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或其它數(shù)據(jù)具體化為調(diào)制后的數(shù)據(jù)信號(hào)，比如載波或其它傳輸機(jī)制。通信媒介也包括任何信息傳遞媒介。術(shù)語(yǔ)“調(diào)制后的數(shù)據(jù)信號(hào)”表明的信號(hào)使其特征的一個(gè)或多個(gè)，以在信號(hào)中編碼信息的方式設(shè)置或改變。通信媒介包括例如但是不限于有線媒介比如有線網(wǎng)絡(luò)或直接有線連接，以及無(wú)須媒介比如聲波、RF、紅外線和其它無(wú)須媒介。在計(jì)算機(jī)可讀媒介的范疇之內(nèi)，也包括以上類型的任何組合。
盡管本文主要討論涉及人的面孔，但是類似于本文中討論的人的面孔，其它目標(biāo)也可以自動(dòng)探測(cè)和/或追蹤。
結(jié)論雖然上面的介紹使用的語(yǔ)言，對(duì)結(jié)構(gòu)特性和/或方法動(dòng)作才是具體的，應(yīng)當(dāng)理解，在附帶的權(quán)利要求書(shū)中規(guī)定的本發(fā)明不限于介紹的具體特性和動(dòng)作。相反，具體的特性和動(dòng)作是公開(kāi)為本發(fā)明實(shí)施的示范形式。
權(quán)利要求
1.一種方法，包括接收內(nèi)容的幀；在該幀中為新的面孔區(qū)域自動(dòng)探測(cè)候選區(qū)域；使用一個(gè)或多個(gè)分級(jí)驗(yàn)證級(jí)別，驗(yàn)證人的面孔是否在該候選區(qū)域中；如果一個(gè)或多個(gè)分級(jí)驗(yàn)證級(jí)別驗(yàn)證了人的面孔在該候選區(qū)域中，就指明該候選區(qū)域包括一個(gè)面孔；以及使用多個(gè)線索在內(nèi)容中一幀一幀地追蹤每個(gè)證實(shí)的面孔。
2.根據(jù)權(quán)利要求1的方法，其特征在于，內(nèi)容的幀包括視頻內(nèi)容的幀。
3.根據(jù)權(quán)利要求1的方法，其特征在于，內(nèi)容的幀包括音頻內(nèi)容的幀。
4.根據(jù)權(quán)利要求1的方法，其特征在于，內(nèi)容的幀包括既有視頻內(nèi)容又有音頻內(nèi)容的幀。
5.根據(jù)權(quán)利要求1的方法，進(jìn)一步包括在證實(shí)的面孔追蹤丟失的情況下，重復(fù)自動(dòng)探測(cè)。
6.根據(jù)權(quán)利要求1的方法，其特征在于，接收內(nèi)容的幀包括從實(shí)施本方法之系統(tǒng)本地的視頻捕捉設(shè)備接收視頻內(nèi)容的幀。
7.根據(jù)權(quán)利要求1的方法，其特征在于，接收內(nèi)容的幀包括從實(shí)施本方法之系統(tǒng)可存取的計(jì)算機(jī)可讀介質(zhì)接收內(nèi)容的幀。
8.根據(jù)權(quán)利要求1的方法，其特征在于，在該幀中為新的面孔區(qū)域探測(cè)候選區(qū)域包括探測(cè)在該幀中是否有運(yùn)動(dòng)，如果在該幀中有運(yùn)動(dòng)，那么執(zhí)行基于運(yùn)動(dòng)的初始化，以確認(rèn)一個(gè)或多個(gè)候選區(qū)域；探測(cè)在該幀中是否有音頻，如果在該幀中有音頻，那么執(zhí)行基于音頻的初始化，以確認(rèn)一個(gè)或多個(gè)候選區(qū)域；以及如果在該幀中既沒(méi)有運(yùn)動(dòng)也沒(méi)有音頻，就使用快速面孔探測(cè)器來(lái)確認(rèn)一個(gè)或多個(gè)候選區(qū)域。
9.根據(jù)權(quán)利要求1的方法，其特征在于，在該幀中為新的面孔區(qū)域探測(cè)候選區(qū)域包括確定在跨越該幀的多條線上的多個(gè)像素處是否有運(yùn)動(dòng)；對(duì)多條線中每一條的每個(gè)可能的區(qū)段，產(chǎn)生幀差異之和；對(duì)多條線中的每一條，選擇具有最大和的區(qū)段；確認(rèn)選定區(qū)段的最平滑的區(qū)域；檢驗(yàn)該最平滑的區(qū)域是否像人的上半身；以及在最平滑區(qū)域中提取像人的頭部的區(qū)域作為候選區(qū)域。
10.根據(jù)權(quán)利要求9的方法，其特征在于，確定是否有運(yùn)動(dòng)包括對(duì)于多個(gè)像素中的每一個(gè)，確定該幀中像素的亮度值與其它的一幀或多幀中對(duì)應(yīng)像素的亮度值之間的差異是否超過(guò)閾值。
11.根據(jù)權(quán)利要求1的方法，其特征在于，一個(gè)或多個(gè)分級(jí)驗(yàn)證級(jí)別包括一個(gè)粗略級(jí)別和一個(gè)精細(xì)級(jí)別，其中粗略級(jí)別能夠更快地驗(yàn)證人的面孔是否在候選區(qū)域中，但是比精細(xì)級(jí)別的準(zhǔn)確度低。
12.根據(jù)權(quán)利要求1的方法，其特征在于，使用一個(gè)或多個(gè)分級(jí)驗(yàn)證級(jí)別包括產(chǎn)生候選區(qū)域的顏色直方圖；根據(jù)前面若干幀，產(chǎn)生候選區(qū)域的估計(jì)顏色直方圖；確定該顏色直方圖和該估計(jì)顏色直方圖之間的相似度值；以及如果相似度值大于閾值，驗(yàn)證該候選區(qū)域包括一個(gè)面孔；作為驗(yàn)證級(jí)別之一。
13.根據(jù)權(quán)利要求1的方法，其特征在于，指明該候選區(qū)域包括一個(gè)面孔，包括在追蹤列表中記錄該候選區(qū)域。
14.根據(jù)權(quán)利要求13的方法，其特征在于，在追蹤列表中記錄該候選區(qū)域，包括存取與該候選區(qū)域?qū)?yīng)的一個(gè)記錄，以及使該候選區(qū)域的上次驗(yàn)證后的時(shí)間復(fù)位。
15.根據(jù)權(quán)利要求1的方法，其特征在于，一個(gè)或多個(gè)分級(jí)驗(yàn)證級(jí)別包括一個(gè)第一級(jí)別和一個(gè)第二級(jí)別，其特征還在于，使用一個(gè)或多個(gè)分級(jí)驗(yàn)證級(jí)別，驗(yàn)證人的面孔是否在該候選區(qū)域中包括使用第一級(jí)別驗(yàn)證，檢驗(yàn)人的面孔是否驗(yàn)證為在候選區(qū)域中；以及只有檢驗(yàn)表明第一級(jí)別驗(yàn)證中，人的面孔沒(méi)有驗(yàn)證為在候選區(qū)域中，才使用第二級(jí)別驗(yàn)證。
16.根據(jù)權(quán)利要求1的方法，其特征在于，使用一個(gè)或多個(gè)分級(jí)驗(yàn)證級(jí)別包括使用第一驗(yàn)證過(guò)程確定人的頭部是否在候選區(qū)域中；以及如果第一驗(yàn)證過(guò)程驗(yàn)證了人的頭部是在候選區(qū)域中，那么指明該區(qū)域包括一個(gè)面孔，否則使用第二驗(yàn)證過(guò)程確定人的頭部是否在該區(qū)域中。
17.根據(jù)權(quán)利要求16的方法，其特征在于，第一驗(yàn)證過(guò)程更快，但是比第二驗(yàn)證過(guò)程的準(zhǔn)確度低。
18.根據(jù)權(quán)利要求1的方法，其特征在于，多個(gè)線索包括前景顏色、背景顏色、邊緣強(qiáng)度、運(yùn)動(dòng)和音頻。
19.根據(jù)權(quán)利要求1的方法，其特征在于，使用多個(gè)線索追蹤每個(gè)證實(shí)的面孔包括對(duì)于每個(gè)面孔預(yù)測(cè)面孔的輪廓將在何處；對(duì)懲罰粗糙的平滑約束進(jìn)行編碼；對(duì)多個(gè)可能的輪廓位置應(yīng)用平滑約束；以及在該幀中選擇具有最平滑輪廓的輪廓位置作為面孔的位置。
20.根據(jù)權(quán)利要求19的方法，其特征在于，平滑約束包括輪廓平滑。
21.根據(jù)權(quán)利要求19的方法，其特征在于，平滑約束既包括輪廓平滑又包括區(qū)域平滑。
22.根據(jù)權(quán)利要求19的方法，其特征在于，對(duì)平滑約束進(jìn)行編碼包括產(chǎn)生隱藏馬爾可夫模型(HMM)的狀態(tài)轉(zhuǎn)換概率。
23.根據(jù)權(quán)利要求19的方法，其特征在于，對(duì)平滑約束進(jìn)行編碼包括產(chǎn)生聯(lián)合概率數(shù)據(jù)關(guān)聯(lián)濾波器(JPDAF)的狀態(tài)轉(zhuǎn)換概率。
24.根據(jù)權(quán)利要求19的方法，其特征在于，使用多個(gè)線索追蹤每個(gè)證實(shí)的面孔進(jìn)一步包括對(duì)于每個(gè)面孔考慮變化的顏色分布，在后續(xù)幀中調(diào)整面孔的預(yù)測(cè)。
25.根據(jù)權(quán)利要求19的方法，其特征在于，使用多個(gè)線索追蹤每個(gè)證實(shí)的面孔進(jìn)一步包括對(duì)于每個(gè)面孔根據(jù)該幀中觀測(cè)的一個(gè)或多個(gè)線索，在后續(xù)幀中調(diào)整面孔的預(yù)測(cè)。
26.根據(jù)權(quán)利要求1的方法，其特征在于，使用多個(gè)線索追蹤每個(gè)證實(shí)的面孔包括對(duì)于每個(gè)面孔存取面孔的一個(gè)或多個(gè)特性點(diǎn)組成的組；分析該幀以確認(rèn)包括一個(gè)或多個(gè)特性點(diǎn)組成之組的區(qū)域；對(duì)懲罰粗糙的平滑約束進(jìn)行編碼；對(duì)多個(gè)可能的輪廓位置應(yīng)用平滑約束；以及在該幀中選擇具有最平滑輪廓的輪廓位置作為面孔的位置。
27.根據(jù)權(quán)利要求1的方法，其特征在于，使用多個(gè)線索追蹤每個(gè)證實(shí)的面孔包括一幀一幀地同時(shí)追蹤多個(gè)可能的面孔位置。
28.根據(jù)權(quán)利要求27的方法，進(jìn)一步包括使用多假設(shè)追蹤技術(shù)同時(shí)追蹤多個(gè)可能的位置。
29.根據(jù)權(quán)利要求27的方法，進(jìn)一步包括使用微粒濾波器同時(shí)追蹤多個(gè)可能的位置。
30.根據(jù)權(quán)利要求27的方法，進(jìn)一步包括使用無(wú)氣味微粒濾波器同時(shí)追蹤多個(gè)可能的位置。
31.一種在視頻內(nèi)容中追蹤多個(gè)人的系統(tǒng)，該系統(tǒng)包括一個(gè)自動(dòng)初始化模塊，在該視頻內(nèi)容的一幀中為新的面孔探測(cè)候選區(qū)域；一個(gè)分級(jí)驗(yàn)證模塊，產(chǎn)生候選區(qū)域的置信度；以及一個(gè)多線索追蹤模塊，使用多個(gè)視覺(jué)線索追蹤前面帶有置信度的候選區(qū)域，該置信度是由分級(jí)驗(yàn)證模塊產(chǎn)生并超過(guò)閾值。
32.根據(jù)權(quán)利要求31的系統(tǒng)，其特征在于，分級(jí)驗(yàn)證模塊進(jìn)一步配置為檢驗(yàn)置信度是否超過(guò)閾值；如果置信度確實(shí)超過(guò)閾值，那么將該候選區(qū)域傳遞到多線索追蹤模塊；以及如果置信度沒(méi)有超過(guò)閾值，那么將該候選區(qū)域清除并且不將該候選區(qū)域傳遞到多線索追蹤模塊。
33.根據(jù)權(quán)利要求31的系統(tǒng)，其特征在于，分級(jí)驗(yàn)證模塊進(jìn)一步配置為從多線索追蹤模塊接收區(qū)域的一個(gè)指示；驗(yàn)證該區(qū)域是否為一個(gè)面孔；以及只有該區(qū)域驗(yàn)證為一個(gè)面孔時(shí)，才將該區(qū)域返回多線索追蹤模塊以便繼續(xù)追蹤。
34.根據(jù)權(quán)利要求31的系統(tǒng)，其特征在于，該系統(tǒng)包括一個(gè)視頻會(huì)議系統(tǒng)。
35.根據(jù)權(quán)利要求31的系統(tǒng)，其特征在于，自動(dòng)初始化模塊進(jìn)一步要探測(cè)在該幀中是否有運(yùn)動(dòng)；如果在該幀中有運(yùn)動(dòng)，那么執(zhí)行基于運(yùn)動(dòng)的初始化，以確認(rèn)候選區(qū)域；探測(cè)在該幀中是否有音頻；如果在該幀中有音頻，那么執(zhí)行基于音頻的初始化，以確認(rèn)候選區(qū)域；以及如果在該幀中既沒(méi)有運(yùn)動(dòng)，在該幀中也沒(méi)有音頻，就使用快速面孔探測(cè)器來(lái)確認(rèn)候選區(qū)域。
36.根據(jù)權(quán)利要求31的系統(tǒng)，其特征在于，分級(jí)驗(yàn)證模塊要使用的一個(gè)或多個(gè)分級(jí)驗(yàn)證級(jí)別包括一個(gè)粗略級(jí)別和一個(gè)精細(xì)級(jí)別，其中粗略級(jí)別能夠更快地驗(yàn)證新面孔是否在候選區(qū)域中，但是比精細(xì)級(jí)別的準(zhǔn)確度低。
37.一種或多種計(jì)算機(jī)可讀的介質(zhì)，其中已經(jīng)存放著多條指令，當(dāng)被一個(gè)或多個(gè)處理器執(zhí)行時(shí)，這些指令使這一個(gè)或多個(gè)處理器接收視頻內(nèi)容的一幀中的區(qū)域指示；使用第一驗(yàn)證過(guò)程，確定人的頭部是否在該區(qū)域中；以及如果第一驗(yàn)證過(guò)程驗(yàn)證了人的頭部是在該區(qū)域中，那么指明該區(qū)域包括一個(gè)面孔，否則使用第二驗(yàn)證過(guò)程確定人的頭部是否在該區(qū)域中。
38.根據(jù)權(quán)利要求37的一種或多種計(jì)算機(jī)可讀介質(zhì)，其特征在于，第一驗(yàn)證過(guò)程和第二驗(yàn)證過(guò)程對(duì)應(yīng)于多個(gè)分級(jí)驗(yàn)證級(jí)別。
39.根據(jù)權(quán)利要求38的一種或多種計(jì)算機(jī)可讀介質(zhì)，其特征在于，多個(gè)分級(jí)驗(yàn)證級(jí)別包括多于兩個(gè)分級(jí)驗(yàn)證級(jí)別。
40.根據(jù)權(quán)利要求37的一種或多種計(jì)算機(jī)可讀介質(zhì)，其特征在于，第一驗(yàn)證過(guò)程是一種粗略級(jí)別的過(guò)程，第二驗(yàn)證過(guò)程第一驗(yàn)證過(guò)程是一種精細(xì)級(jí)別的過(guò)程，其中粗略級(jí)別過(guò)程能夠更快地驗(yàn)證人的頭部是否在候選區(qū)域中，但是比精細(xì)級(jí)別過(guò)程的準(zhǔn)確度低。
41.根據(jù)權(quán)利要求37的一種或多種計(jì)算機(jī)可讀介質(zhì)，其特征在于，使用第一驗(yàn)證過(guò)程的多條指令包括的指令使這一個(gè)或多個(gè)處理器產(chǎn)生該區(qū)域的顏色直方圖；根據(jù)視頻內(nèi)容的前面若干幀，產(chǎn)生該區(qū)域的估計(jì)顏色直方圖；確定該顏色直方圖和該估計(jì)顏色直方圖之間的相似度值；以及如果相似度值大于閾值，驗(yàn)證該候選區(qū)域包括一個(gè)人的頭部。
42.根據(jù)權(quán)利要求37的一種或多種計(jì)算機(jī)可讀介質(zhì)，其特征在于，接收視頻內(nèi)容一幀中的區(qū)域指示的多條指令包括的指令使這一個(gè)或多個(gè)處理器在該幀中為新的面孔區(qū)域接收一個(gè)候選區(qū)域。
43.根據(jù)權(quán)利要求37的一種或多種計(jì)算機(jī)可讀介質(zhì)，其特征在于，接收視頻內(nèi)容一幀中的區(qū)域指示的多條指令包括的指令使這一個(gè)或多個(gè)處理器接收一個(gè)區(qū)域再次驗(yàn)證為包括一個(gè)面孔的指示。
44.一種或多種計(jì)算機(jī)可讀的介質(zhì)，其中已經(jīng)存放著在內(nèi)容的一幀為一個(gè)未追蹤的面孔探測(cè)候選區(qū)域的多條指令，當(dāng)被一個(gè)或多個(gè)處理器執(zhí)行時(shí)，這多條指令使這一個(gè)或多個(gè)處理器探測(cè)在該幀中是否有運(yùn)動(dòng)；如果在該幀中有運(yùn)動(dòng)，那么執(zhí)行基于運(yùn)動(dòng)的初始化，以確認(rèn)候選區(qū)域；探測(cè)在該幀中是否有音頻；如果在該幀中有音頻，那么執(zhí)行基于音頻的初始化，以確認(rèn)候選區(qū)域；以及如果在該幀中既沒(méi)有運(yùn)動(dòng)，在該幀中也沒(méi)有音頻，就使用快速面孔探測(cè)器來(lái)確認(rèn)候選區(qū)域。
45.根據(jù)權(quán)利要求44的一種或多種計(jì)算機(jī)可讀介質(zhì)，其特征在于，執(zhí)行基于運(yùn)動(dòng)的初始化的多條指令包括的指令使這一個(gè)或多個(gè)處理器確定在跨越該幀的多條線上的多個(gè)像素處是否有運(yùn)動(dòng)；對(duì)多條線中若干條的多個(gè)區(qū)段，產(chǎn)生幀差異之和；對(duì)多條線中的每一條，選擇具有最大和的區(qū)段；確認(rèn)選定區(qū)段的最平滑的區(qū)域；檢驗(yàn)該最平滑的區(qū)域是否像人的上半身；以及在最平滑區(qū)域中提取像人的頭部的區(qū)域作為候選區(qū)域。
46.根據(jù)權(quán)利要求45的一種或多種計(jì)算機(jī)可讀介質(zhì)，其特征在于，確定是否有運(yùn)動(dòng)的指令包括的指令使這一個(gè)或多個(gè)處理器對(duì)于多個(gè)像素中的每一個(gè)，確定該幀中像素的亮度值與其它的一幀或多幀中對(duì)應(yīng)像素的亮度值之間的差異是否超過(guò)閾值。
47.一種或多種計(jì)算機(jī)可讀的介質(zhì)，其中已經(jīng)存放著在內(nèi)容中一幀一幀地追蹤若干面孔的多條指令，當(dāng)被一個(gè)或多個(gè)處理器執(zhí)行時(shí)，這多條指令使這一個(gè)或多個(gè)處理器使用多個(gè)線索，在一幀中預(yù)測(cè)面孔的輪廓將在何處；對(duì)懲罰粗糙的平滑約束進(jìn)行編碼；對(duì)多個(gè)可能的輪廓位置應(yīng)用平滑約束；以及在該幀中選擇具有最平滑輪廓的輪廓位置作為面孔的位置。
48.根據(jù)權(quán)利要求47的一種或多種計(jì)算機(jī)可讀介質(zhì)，其特征在于，多個(gè)線索包括前景顏色、背景顏色、邊緣強(qiáng)度和運(yùn)動(dòng)。
49.根據(jù)權(quán)利要求47的一種或多種計(jì)算機(jī)可讀介質(zhì)，其特征在于，多個(gè)線索包括音頻。
50.根據(jù)權(quán)利要求47的一種或多種計(jì)算機(jī)可讀介質(zhì)，其特征在于，平滑約束包括輪廓平滑。
51.根據(jù)權(quán)利要求47的一種或多種計(jì)算機(jī)可讀介質(zhì)，其特征在于，平滑約束既包括輪廓平滑又包括區(qū)域平滑。
52.根據(jù)權(quán)利要求47的一種或多種計(jì)算機(jī)可讀介質(zhì)，其特征在于，對(duì)平滑約束進(jìn)行編碼的多條指令包括的指令使這一個(gè)或多個(gè)處理器產(chǎn)生隱藏馬爾可夫模型(HMM)的狀態(tài)轉(zhuǎn)換概率。
53.根據(jù)權(quán)利要求47的一種或多種計(jì)算機(jī)可讀介質(zhì)，其特征在于，對(duì)平滑約束進(jìn)行編碼的多條指令包括的指令使這一個(gè)或多個(gè)處理器產(chǎn)生聯(lián)合概率數(shù)據(jù)關(guān)聯(lián)濾波器(JPDAF)的狀態(tài)轉(zhuǎn)換概率。
54.根據(jù)權(quán)利要求47的一種或多種計(jì)算機(jī)可讀介質(zhì)，其特征在于，多條指令進(jìn)一步包括的指令使這一個(gè)或多個(gè)處理器考慮變化的顏色分布，在后續(xù)幀中調(diào)整面孔的預(yù)測(cè)。
55.根據(jù)權(quán)利要求47的一種或多種計(jì)算機(jī)可讀介質(zhì)，其特征在于，多條指令進(jìn)一步包括的指令使這一個(gè)或多個(gè)處理器根據(jù)該幀中觀測(cè)的一個(gè)或多個(gè)線索，在后續(xù)幀中調(diào)整面孔的預(yù)測(cè)。
56.根據(jù)權(quán)利要求47的一種或多種計(jì)算機(jī)可讀介質(zhì)，多條指令進(jìn)一步包括的指令使這一個(gè)或多個(gè)處理器一幀一幀地同時(shí)追蹤多個(gè)可能的面孔位置。
57.根據(jù)權(quán)利要求56的一種或多種計(jì)算機(jī)可讀介質(zhì)，多條指令進(jìn)一步包括的指令使這一個(gè)或多個(gè)處理器同時(shí)追蹤多個(gè)可能的位置。
58.一種沿著內(nèi)容的若干幀追蹤目標(biāo)的方法，該方法包括使用多個(gè)線索追蹤該目標(biāo)。
59.根據(jù)權(quán)利要求58的方法，其特征在于，多個(gè)線索包括前景顏色、背景顏色、邊緣強(qiáng)度、運(yùn)動(dòng)和音頻。
60.根據(jù)權(quán)利要求58的方法，其特征在于，使用多個(gè)線索包括根據(jù)多個(gè)線索一幀一幀地預(yù)測(cè)目標(biāo)將在何處。
61.一種沿著內(nèi)容的若干幀追蹤目標(biāo)的方法，該方法包括在一幀中預(yù)測(cè)目標(biāo)將在何處；對(duì)懲罰粗糙的平滑約束進(jìn)行編碼；對(duì)多個(gè)可能的目標(biāo)位置應(yīng)用平滑約束；以及在該幀中選擇具有最平滑輪廓的目標(biāo)位置作為目標(biāo)的位置。
62.根據(jù)權(quán)利要求61的方法，其特征在于，該預(yù)測(cè)使用多個(gè)線索，包括前景顏色、背景顏色、邊緣強(qiáng)度、運(yùn)動(dòng)和音頻。
63.根據(jù)權(quán)利要求61的方法，其特征在于，平滑約束既包括輪廓平滑又包括區(qū)域平滑。
64.根據(jù)權(quán)利要求61的方法，其特征在于，對(duì)平滑約束進(jìn)行編碼包括產(chǎn)生隱藏馬爾可夫模型(HMM)的狀態(tài)轉(zhuǎn)換概率。
65.根據(jù)權(quán)利要求61的方法，其特征在于，對(duì)平滑約束進(jìn)行編碼包括產(chǎn)生聯(lián)合概率數(shù)據(jù)關(guān)聯(lián)濾波器(JPDAF)的狀態(tài)轉(zhuǎn)換概率。
66.根據(jù)權(quán)利要求61的方法，其特征在于，使用多個(gè)線索追蹤每個(gè)證實(shí)的面孔進(jìn)一步包括對(duì)于每個(gè)面孔根據(jù)該幀中觀測(cè)的一個(gè)或多個(gè)線索，在后續(xù)幀中調(diào)整面孔的預(yù)測(cè)。
67.根據(jù)權(quán)利要求61的方法，其特征在于，預(yù)測(cè)目標(biāo)將在何處包括存取面孔的一個(gè)或多個(gè)特性點(diǎn)組成的組；以及分析該幀以確認(rèn)包括一個(gè)或多個(gè)特性點(diǎn)組成之組的區(qū)域。
68.根據(jù)權(quán)利要求61的方法，其特征在于，使用多個(gè)線索追蹤每個(gè)證實(shí)的面孔包括一幀一幀地同時(shí)追蹤多個(gè)可能的面孔位置。
69.根據(jù)權(quán)利要求68的方法，進(jìn)一步包括使用多假設(shè)追蹤技術(shù)同時(shí)追蹤多個(gè)可能的位置。
70.根據(jù)權(quán)利要求61的方法，其特征在于，該目標(biāo)包括視頻內(nèi)容中的一個(gè)面孔。
71.根據(jù)權(quán)利要求61的方法，其特征在于，該目標(biāo)包括音頻內(nèi)容中的一個(gè)聲源位置。
全文摘要
對(duì)多個(gè)人的自動(dòng)探測(cè)和追蹤包括接收視頻和/或音頻內(nèi)容的一幀,并在該幀中為新的面孔區(qū)域確認(rèn)一個(gè)候選區(qū)域。一個(gè)或多個(gè)分級(jí)驗(yàn)證級(jí)別用于驗(yàn)證人的面孔是否在候選區(qū)域中,如果一個(gè)或多個(gè)分級(jí)驗(yàn)證級(jí)別驗(yàn)證了人的面孔是在候選區(qū)域中,就作出該候選區(qū)域包括一個(gè)面孔的指示。多個(gè)音頻和/或視頻線索用于在視頻內(nèi)容中一幀一幀地追蹤每個(gè)證實(shí)的面孔。
文檔編號(hào)H04N7/26GK1423487SQ0215266
公開(kāi)日2003年6月11日申請(qǐng)日期2002年11月29日優(yōu)先權(quán)日2001年12月3日
發(fā)明者芮永, 陳云強(qiáng) 申請(qǐng)人:微軟公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：芮永、陳云強(qiáng)
技術(shù)所有人：微軟公司
我是此專利的發(fā)明人

上一篇：一種確定(個(gè)人)移動(dòng)臺(tái)和基站之間距離的方法
上一篇：應(yīng)用程序認(rèn)證系統(tǒng)的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、王老師：1.數(shù)字信號(hào)處理 2.傳感器技術(shù)及應(yīng)用 3.機(jī)電一體化產(chǎn)品開(kāi)發(fā) 4.機(jī)械工程測(cè)試技術(shù) 5.逆向工程技術(shù)研究
2、王老師：1.機(jī)器人 2.嵌入式控制系統(tǒng)開(kāi)發(fā)
3、孫老師：1.振動(dòng)信號(hào)時(shí)頻分析理論與測(cè)試系統(tǒng)設(shè)計(jì) 2.汽車檢測(cè)系統(tǒng)設(shè)計(jì) 3.汽車電子控制系統(tǒng)設(shè)計(jì)
4、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
5、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

金屬探測(cè)儀使用方法相關(guān)技術(shù)

地理探測(cè)器使用教程相關(guān)技術(shù)

釣魚(yú)探測(cè)器的使用相關(guān)技術(shù)

金屬探測(cè)器使用方法相關(guān)技術(shù)

龍珠超宇宙探測(cè)器使用相關(guān)技術(shù)

金屬探測(cè)器的使用方法相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

使用多種線索對(duì)多個(gè)人的自動(dòng)探測(cè)和追蹤的制作方法