用于檢測視頻中的對象的方法、設(shè)備和系統(tǒng)的制作方法
【專利說明】
[0001] 相關(guān)專利申請的交叉引用
[0002] 本申請要求于2013年3月15日提交的美國申請第13/838,511號以及于2012年 9月12日提交的美國臨時(shí)專利申請第61/700, 033號的優(yōu)先權(quán),以上兩個(gè)申請的每一個(gè)的內(nèi) 容通過引用方式全文并入本文中。
技術(shù)領(lǐng)域
[0003] 本公開涉及視頻監(jiān)控,例如,視頻監(jiān)控方法和系統(tǒng)以及視頻查證方法和系統(tǒng)。公開 了可以檢測人物的視頻監(jiān)控系統(tǒng)、設(shè)備和方法。視頻監(jiān)控系統(tǒng)、設(shè)備和方法可以統(tǒng)計(jì)人數(shù)并 且/或者監(jiān)測視頻流中的人群場景。
【背景技術(shù)】
[0004] 智能視頻監(jiān)控(IVS)系統(tǒng)可以用于(例如,通過回顧此前記錄并存儲的視頻)實(shí) 時(shí)或離線檢測視頻中感興趣的事件。通常,該任務(wù)通過檢測并跟蹤感興趣的目標(biāo)來完成。當(dāng) 場景不擁擠時(shí),這通常很好地發(fā)揮作用。然而,這種系統(tǒng)的性能在擁擠場景中會顯著降低。 實(shí)際上,這種擁擠的場景頻繁發(fā)生,因此,對能檢測人群中的人物具有極大興趣。這種檢測 人物可以用于統(tǒng)計(jì)以及其他人群分析,例如,人群密度、人群形成和人群分散。
[0005] 此前的人群分析工作處理一些具體的極端擁擠的場景,例如某些體育運(yùn)動或宗教 活動。然而,還需要關(guān)注偶爾會形成大量人群的更普通的監(jiān)控場景。這些場景包括公共場 所,例如,街道、購物中心、機(jī)場、公共汽車站和火車站等。
[0006] 最近,人群密度評估或統(tǒng)計(jì)人群中的人物的問題越來越得到研宄社群以及行業(yè)的 高度關(guān)注?,F(xiàn)有的方法主要包括基于映射(間接)的方法和/或基于檢測(直接)的方法。
[0007] 基于映射的方法可以嘗試將人物目標(biāo)的數(shù)量映射到提取的圖像特征,例如,運(yùn)動 像素的數(shù)量、前景斑點(diǎn)(foregroundblob)的大小、前景邊緣、前景角落的群以及其他圖像 特征?;谟成涞姆椒ㄍǔR筢槍Σ煌愋偷囊曨l場景進(jìn)行訓(xùn)練。研宄主要集中在查找 與人數(shù)良好對應(yīng)的可靠特征以及如何處理一些特殊問題,例如,陰影和攝像機(jī)視圖透視。在 許多場景中,在提供足夠訓(xùn)練視頻的情況下,基于映射的方法可以提供相當(dāng)精確的人數(shù)估 計(jì)。然而,效果通常與場景有關(guān)系,并且每個(gè)個(gè)體的實(shí)際位置可能難以獲得。
[0008] 基于檢測的方法可以通過識別每個(gè)單獨(dú)的人物目標(biāo)來對場景中的人數(shù)進(jìn)行計(jì)數(shù)。 研宄已經(jīng)集中在人物檢測、人體部位檢測以及檢測與跟蹤的結(jié)合考量。這些方法可以在稍 微擁擠的場景中提供更加精確的檢測和計(jì)數(shù)。如果使得每個(gè)個(gè)體的位置可以獲得,那么就 可能能夠計(jì)算局部人群密度。這些方法的關(guān)鍵挑戰(zhàn)是更高的計(jì)算成本、依賴視角的知識以 及較大的人物圖像大小要求。
[0009] 本發(fā)明所述的實(shí)施例解決了現(xiàn)有系統(tǒng)的這樣一些問題。
【發(fā)明內(nèi)容】
[0010] 所公開的實(shí)施例提供了用于對視頻圖像進(jìn)行智能分析以檢測對象(例如人物對 象)的方法、設(shè)備和系統(tǒng)。
[0011] 在某些實(shí)施例中,一種檢測視頻中的人物對象的方法包括:確定作為前景像素的 視頻圖像的某些像素,前景像素的組構(gòu)成一個(gè)或多個(gè)前景斑點(diǎn)的前景斑點(diǎn)集;對于視頻圖 像中N個(gè)位置的每個(gè)位置,其中N是整數(shù)(integer),將預(yù)定形狀與前景斑點(diǎn)集進(jìn)行比較以 獲得人物在該位置的相應(yīng)概率,從而獲得與N個(gè)位置對應(yīng)的N個(gè)概率;并且使用N個(gè)概率, 確定由前景斑點(diǎn)集代表的X個(gè)人物,其中X是整數(shù)(wholenumber)。
[0012] 一種檢測視頻中的人物對象的方法可以包括:將真實(shí)世界場景的視頻圖像的像素 確定為前景像素,前景像素的組構(gòu)成一個(gè)或多個(gè)前景斑點(diǎn)的前景斑點(diǎn)集;對于視頻圖像中 N個(gè)位置的每個(gè)位置,其中N是整數(shù),將預(yù)定形狀與前景斑點(diǎn)集進(jìn)行比較以確定由所述前景 斑點(diǎn)集代表的X個(gè)人物,其中X是整數(shù)。
[0013] 方法可以包括確定X個(gè)人物的每個(gè)人物的位置。X個(gè)人物的每個(gè)人物的位置可以 確定為真實(shí)世界的水平面上的位置,例如,真實(shí)世界的物理地平面上的位置。
[0014] 檢測人物對象可以用于對人物進(jìn)行計(jì)數(shù),用于人群分析和其他事件檢測。
[0015] 公開了可以被配置成執(zhí)行這些方法的系統(tǒng)和設(shè)備。
[0016] 包括可用于配置計(jì)算機(jī)以執(zhí)行本發(fā)明所述操作的軟件的計(jì)算機(jī)可讀介質(zhì)進(jìn)一步 包括本發(fā)明的實(shí)施例。
【附圖說明】
[0017] 結(jié)合附圖,從以下詳細(xì)描述可以更加清晰地理解示例性實(shí)施例。附圖代表本發(fā)明 描述的非限制性示例性實(shí)施例。
[0018]圖1圖示了根據(jù)本發(fā)明的示例性實(shí)施例的示例性視頻監(jiān)控系統(tǒng)。
[0019]圖2圖示了根據(jù)本發(fā)明的示例性實(shí)施例的示例性視頻監(jiān)控系統(tǒng)的視頻流的示例 性幀。
[0020] 圖3A圖示了根據(jù)本發(fā)明的示例性實(shí)施例的用于目標(biāo)檢測和計(jì)數(shù)的示例性流程 圖。
[0021] 圖3B圖示了幾個(gè)人物模型占用二維視頻圖像的實(shí)例,每個(gè)人物模型相對于二維 視頻圖像與不同的位置對應(yīng)。
[0022] 圖3C圖示了一行(x,y)識別坐標(biāo)321,每個(gè)識別坐標(biāo)與對應(yīng)的人物模型320相關(guān) 聯(lián)。
[0023] 圖3D圖示了用于計(jì)算人物概率映射(humanprobabilitymap)的示例性方法。
[0024] 圖3E圖示了執(zhí)行單次掃過(pass)概率映射的示例性方法,該方法是找到視頻圖 像內(nèi)人物模型的最佳數(shù)量的一部分。
[0025] 圖3F圖示了執(zhí)行多次掃過概率映射的方法,該方法用于找到視頻圖像內(nèi)人物模 型的最佳數(shù)量。
[0026] 圖4圖示了一般人物模型,包括三維圓柱體模型及其對應(yīng)的二維凸殼(convex hull)模型。
[0027]圖5圖示了可以使用幾個(gè)人物圖像樣本進(jìn)行校正的一般平地?cái)z像機(jī)模型。
[0028] 圖6A、圖6B和圖6C示出了示例性檢測結(jié)果。
[0029] 圖7A、圖7B和圖7C圖示了關(guān)于基于人物檢測結(jié)果的人群密度的實(shí)例。
[0030] 圖8圖示了用于檢測各種人群相關(guān)事件的示例性實(shí)施方式。
[0031] 圖9圖示了如何定義并檢測擁擠區(qū)域的示例性方法。
[0032] 圖10圖示了對每個(gè)檢測的人物目標(biāo)的示例性處理。
[0033] 圖11圖示了對每個(gè)擁擠區(qū)域的示例性處理。
[0034] 圖12圖示了可用于定義并檢測人群"聚集"和"分散"事件的方法。
[0035] 圖13圖示了定義人群聚集點(diǎn)的一個(gè)實(shí)例。
[0036] 圖14A和圖14B示出了人群聚集點(diǎn)的一個(gè)實(shí)例。
[0037] 圖15圖示了檢測人群聚集點(diǎn)的示例性方法。
[0038]圖16圖示了更新人群聚集點(diǎn)并檢測人群"聚集"和"分散"事件的示例性方法。
[0039] 圖17圖示了使用多個(gè)攝像機(jī)的示例性實(shí)施方式。
【具體實(shí)施方式】
[0040] 以下將參照附圖更全面地描述各個(gè)示例性實(shí)施例,附圖圖示了一些示例性實(shí)施 例。然而,本發(fā)明能夠以許多不同的方式來實(shí)施并且不應(yīng)當(dāng)被理解為限于本發(fā)明所述的示 例性實(shí)施例。這些示例性實(shí)施例僅僅是實(shí)例,并且不要求本發(fā)明提供的細(xì)節(jié)的許多實(shí)施方 式和變型是可行的。還應(yīng)當(dāng)強(qiáng)調(diào)的是,本公開提供替代實(shí)例的細(xì)節(jié),但是這種替代方式的列 舉不是詳盡的。此外,多個(gè)實(shí)例之間的任何細(xì)節(jié)一致不應(yīng)當(dāng)理解成要求這種細(xì)節(jié),因?yàn)闊o法 針對本發(fā)明描述的每種特征列舉每種可行的變型。在確定本發(fā)明的要求時(shí)應(yīng)當(dāng)參照權(quán)利要 求書的語言。在附圖中,為了清晰起見,可以夸大層和區(qū)域的大小和相對大小。在整篇文中 相同的附圖標(biāo)記指代相同的元件。
[0041] 應(yīng)當(dāng)理解,雖然術(shù)語"第一"、"第二"、"第三"等可以在本文中用于描述多種元件, 但是這些元件應(yīng)當(dāng)不受這些術(shù)語的限制。這些術(shù)語用于使一個(gè)元件與另一個(gè)元件區(qū)分開。 因此,在不脫離本發(fā)明構(gòu)思的教導(dǎo)的情況下,以下討論的第一元件可以稱為第二元件。本發(fā) 明中使用的術(shù)語"和/或"包括一個(gè)或多個(gè)相關(guān)的所列項(xiàng)目的任何和所有組合。
[0042] 應(yīng)當(dāng)理解,當(dāng)元件被稱為與另一個(gè)元件"連接上"或"耦接上"時(shí),它可以與另一個(gè) 元件直接連接上或親接上,或者可以存在中間元件。反之,當(dāng)元件被稱為與另一個(gè)元件上 "直接連接上"、"直接耦接上"時(shí),不存在中間元件。用于描述元件之間的關(guān)系的其他詞語應(yīng) 當(dāng)用相同的方式進(jìn)行理解(例如,與...之間"與直接在..與...之間","相鄰" 與"直接相鄰"等)。
[0043] 本發(fā)明中使用的術(shù)語僅僅用于描述特定示例性實(shí)施例的目的,并且并非旨在限制 本發(fā)明的發(fā)明構(gòu)思。本發(fā)明中單數(shù)形式"一個(gè)"、"一種"和"所述"旨在還包括復(fù)數(shù)形式,除 非上下文另有清晰的表示。還將進(jìn)一步理解,當(dāng)在本說明書中使用時(shí),術(shù)語"包含"和/或 "包括"指的是存在所述的特征、整數(shù)、步驟、操作、要素和/或元件,但是不排除存在或增加 一個(gè)或多個(gè)其他的特征、整數(shù)、步驟、操作、要素、元件和/或它們的組合。
[0044] 除非另有說明,包括本發(fā)明中使用的技術(shù)術(shù)語和科技術(shù)語的所有術(shù)語具有與本發(fā) 明構(gòu)思所屬的技術(shù)領(lǐng)域的普通技術(shù)人員通常理解的意思相同意思。還應(yīng)當(dāng)理解的是,術(shù)語, 例如常用的字典中定義的術(shù)語,應(yīng)當(dāng)被理解為具有與相關(guān)領(lǐng)域上下文中的意思相一致的意 思,并且不應(yīng)當(dāng)以理想化或過于正式意義上的方式來進(jìn)行理解,除非本發(fā)明中特別作出了 如此定義。
[0045] 定義:在描述本發(fā)明時(shí),以下定義通篇適用(包括以上定義)。
[0046] "視頻"可以指以模擬和/或數(shù)字形式呈現(xiàn)的動畫。視頻的實(shí)例可以包括:電視;電 影;來自攝像機(jī)或其他觀測器的圖像序列;來自實(shí)時(shí)輸入的圖像序列;計(jì)算機(jī)生成的圖像 序列;來自計(jì)