一種基于搜索匹配的角色標(biāo)注方法
【專利摘要】本發(fā)明公開了一種基于搜索匹配的影視劇角色標(biāo)注方法,該方法包括步驟:根據(jù)待標(biāo)注對(duì)象列表,得到標(biāo)注場(chǎng)景的待標(biāo)注對(duì)象集合及所有待標(biāo)注對(duì)象信息;為每位待標(biāo)注對(duì)象構(gòu)造文本關(guān)鍵詞,利用圖像搜索引擎獲得相應(yīng)的圖像集合;在搜索結(jié)果圖像上進(jìn)行人臉檢測(cè)和視覺屬性分析,去除其中的噪聲,得到待標(biāo)注對(duì)象與標(biāo)注場(chǎng)景密切相關(guān)的角色人臉集合;對(duì)標(biāo)注場(chǎng)景進(jìn)行人臉檢測(cè)和跟蹤,得到其中所有的人臉序列;基于人臉序列之間的視覺相似度,以及人臉序列與待標(biāo)注對(duì)象角色人臉的視覺相似度分析,對(duì)標(biāo)注場(chǎng)景進(jìn)行角色標(biāo)注。本發(fā)明利用互聯(lián)網(wǎng)中關(guān)于影視劇角色的人臉圖像進(jìn)行影視劇角色標(biāo)注,其有益效果在于:標(biāo)注過程全自動(dòng)、標(biāo)注精度高、方法擴(kuò)展性和普適性強(qiáng)。
【專利說明】—種基于搜索匹配的角色標(biāo)注方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及視頻智能分析【技術(shù)領(lǐng)域】,更具體的說,涉及一種基于搜索匹配的角色標(biāo)注方法。
【背景技術(shù)】
[0002]隨著電影電視劇產(chǎn)業(yè)的蓬勃發(fā)展,每年有大量影視劇節(jié)目被制作出來并極大豐富了人民群眾的娛樂生活。絕大部分影視劇的故事主體是人物角色。這些角色由真實(shí)演員扮演,影視劇情節(jié)也隨著角色的出現(xiàn)和交互不斷發(fā)展和深入。因此,對(duì)影視劇進(jìn)行角色標(biāo)注,為影視劇中出現(xiàn)的人臉加上相應(yīng)的角色名,建立人臉一角色名之間的映射關(guān)系,從而得到人物角色在影視劇中具體出現(xiàn)的時(shí)間片段和空間區(qū)域信息,成為一個(gè)有著廣泛應(yīng)用價(jià)值的重要課題。當(dāng)前,影視劇角色標(biāo)注已成為大規(guī)模影視劇數(shù)據(jù)的智能化和個(gè)性化管理、瀏覽和檢索等服務(wù)中的基礎(chǔ)支撐技術(shù)。在以角色為中心的影視劇瀏覽、智能視頻摘要、面向特定角色的視頻檢索等應(yīng)用中扮演著核心模塊的角色。
[0003]目前已經(jīng)有一些影視劇角色標(biāo)注的方法被提出來,它們可大致地分為基于人臉模型的方法和基于劇本的方法?;谌四樐P偷姆椒槊總€(gè)角色收集一定數(shù)量的人臉作為訓(xùn)練樣本,并利用這些樣本為每個(gè)角色構(gòu)造各自的人臉模型,基于這些模型,影視劇中人臉的角色標(biāo)注則根據(jù)它和不同角色人臉模型的相似度實(shí)現(xiàn)。這類方法雖然在不少系統(tǒng)中已經(jīng)得到成功應(yīng)用。但是,它需要人工收集訓(xùn)練樣本,通常會(huì)耗費(fèi)一定的時(shí)間和精力。而且上述訓(xùn)練得到的人臉模型一般也較難應(yīng)用到其它影視劇。因?yàn)榧词故峭粋€(gè)演員,她/他們?cè)诓煌耙晞≈械囊曈X表觀也可能存在較大的差異,導(dǎo)致基于人臉模型的方法難以擴(kuò)展到大規(guī)模影視劇的處理和分析上來。另一方面,基于劇本的方法則通過挖掘影視劇文本和視覺信息模態(tài)在時(shí)間上的一致性實(shí)現(xiàn)角色標(biāo)注。一般地,這類方法首先從外部渠道例如互聯(lián)網(wǎng)上獲得影視劇節(jié)目的劇本和字幕文本,通過對(duì)齊劇本和字幕,得到特定角色在特定時(shí)間點(diǎn)在說話的信息。同時(shí)根據(jù)影視劇中所檢測(cè)人臉的時(shí)間點(diǎn),初步建立人臉與角色名的映射關(guān)系,進(jìn)而利用人臉間的視覺相似性,對(duì)這一關(guān)系予以精化使之更準(zhǔn)確?;趧”镜姆椒▋?yōu)勢(shì)在于標(biāo)注過程是自動(dòng)的(無需人工干預(yù))。然而,并不是所有影視劇的劇本和字幕信息都是易于獲得的。不少影視劇沒有公開它的劇本,或者劇本與字幕并非完全對(duì)應(yīng),不少譯制片也沒有中文劇本和字幕,這些因素限制了基于劇本的方法的普適性。
[0004]除上述方法外,近期也有一些基于搜索的名人圖像標(biāo)注方法被提出來。這些方法首先利用搜索引擎收集名人人臉圖像構(gòu)造名人庫。然后對(duì)待標(biāo)注圖像,通過計(jì)算該圖像與名人庫中圖像的視覺相似度,得到少量高度相似的圖像,進(jìn)而根據(jù)這些圖像所屬的名人信息,實(shí)現(xiàn)對(duì)待標(biāo)注圖像的名人標(biāo)注。但是,這類方法的有效性尚只在僅包含數(shù)百個(gè)名人的庫上得到證實(shí),此外,這一工作是針對(duì)圖像域而不是視頻域的,無法利用視頻結(jié)構(gòu)等可用來輔助標(biāo)注的有價(jià)值線索。
[0005]互聯(lián)網(wǎng)的繁榮使得大量的人物圖像出現(xiàn)在網(wǎng)絡(luò)上。對(duì)具有一定知名度的演員來說,用她/他的真實(shí)姓名作為查詢,通過圖像搜索引擎即可檢索到很多她/他的人臉圖像。這些人臉通常具有如下特點(diǎn):1)檢索結(jié)果圖像包含該演員在不同影視劇,以及生活中的形象,人臉也因此有一定的視覺表觀變化;2)人臉圖像中通常含有一定噪聲,例如圖像中出現(xiàn)的是其它人的人臉;3)檢索結(jié)果中排序靠前的圖像的正確比例通常比排序靠后的高。另一方面,用影視劇名加上影視劇中演員所扮演的角色名作為查詢,由于查詢較為嚴(yán)格,通過圖像搜索引擎檢索到的人臉圖像的特點(diǎn)則不同于前者。一般地,當(dāng)所查詢角色是影視劇中的主要角色時(shí),檢索結(jié)果中排序靠前的圖像大部分是該角色在該影視劇中的人臉圖像,但當(dāng)該角色不是主要角色時(shí),排序靠前的檢索結(jié)果的噪聲比例通常會(huì)高一些,結(jié)果中也會(huì)有較高的概率出現(xiàn)一些該影視劇中其它主要角色的人臉圖像。
[0006]影視劇角色搜索得到的人臉圖像及其上述特點(diǎn)顯然可以被用來更好的實(shí)現(xiàn)角色標(biāo)注。但是,現(xiàn)有技術(shù)并沒有很好的利用這些信息,特別是在挖掘不同查詢檢索得到的結(jié)果圖像的特點(diǎn)這一方面。本發(fā)明正是基于這一認(rèn)識(shí)提出來。具體地,本發(fā)明利用影視劇名加角色名檢索得到的圖像中通常包含該角色在該影視劇中出現(xiàn)的人臉圖像。因此,采用基于視覺匹配的方法即可獲得很好的角色標(biāo)注效果。但是,這樣檢索得到的圖像集合中也可能存在少數(shù)甚至較多的噪聲,如何鑒別噪聲并去除它的影響成為一個(gè)難點(diǎn)。為此,本發(fā)明創(chuàng)新性的利用真實(shí)姓名檢索得到的圖像集合噪聲比例通常較低這一特點(diǎn),通過挖掘“真實(shí)姓名”的人臉集合得到演員的視覺屬性,進(jìn)而利用這些視覺屬性對(duì)“影視劇名加角色名”的人臉集合進(jìn)行去噪,從而得到演員的角色人臉集合?;诖?,再利用角色人臉與影視劇中人臉的視覺相似性,以及影視劇中人臉之間的視覺相似性,實(shí)現(xiàn)影視劇角色的高精度標(biāo)注。與傳統(tǒng)基于人臉模型的方法相比,本發(fā)明的標(biāo)注過程是自動(dòng)的無需人工干預(yù),且角色人臉圖像隨影視劇自適應(yīng)確定,具有良好的擴(kuò)展性。與基于劇本的方法相比,本發(fā)明只需要有影視劇的演員表即可進(jìn)行,相比于獲取劇本和字幕,獲取演員表是相對(duì)容易很多的任務(wù)。退一步說,即使得不到演員表,人工總結(jié)一個(gè)也是一個(gè)遠(yuǎn)比人工總結(jié)劇本和字幕文本容易的任務(wù)。因此本發(fā)明具有更強(qiáng)的普適性,能夠應(yīng)用到更多影視劇中。此外,基于搜索的名人圖像標(biāo)注方法僅利用人名收集人臉圖像,本發(fā)明則充分挖掘了不同查詢得到的人臉圖像間的相關(guān)性,并依此實(shí)現(xiàn)極具針對(duì)性的影視劇角色人臉收集。不僅如此,本發(fā)明還通過挖掘視頻的結(jié)構(gòu)信息更好地實(shí)現(xiàn)角色標(biāo)注,因而在技術(shù)上更加先進(jìn)標(biāo)注精度更高。以上可參考申請(qǐng)?zhí)枮?01210215951.1,發(fā)明名稱為“一種電視節(jié)目?jī)?nèi)部自動(dòng)生成主要人物摘要的方法”的發(fā)明專利;以及申請(qǐng)?zhí)枮?01110406765.1,發(fā)明名稱為“一種基于角色的電視劇視頻分析方法”的發(fā)明專利。
【發(fā)明內(nèi)容】
[0007]本發(fā)明的目的在于充分挖掘和有效利用互聯(lián)網(wǎng)中關(guān)于影視劇角色的人臉圖像,提供一種自動(dòng)、可擴(kuò)展、普適性強(qiáng)、高精度的角色標(biāo)注方法,為海量影視劇數(shù)據(jù)的智能化和個(gè)性化管理、瀏覽和檢索等服務(wù)提供基礎(chǔ)支撐技術(shù)。
[0008]為實(shí)現(xiàn)上述目的,本發(fā)明提供一種基于搜索匹配的角色標(biāo)注方法,該方法包括以下步驟:
[0009]S1、根據(jù)待標(biāo)注對(duì)象列表,得到標(biāo)注場(chǎng)景的待標(biāo)注對(duì)象集合及所有待標(biāo)注對(duì)象的信息;
[0010]S2、為每位待標(biāo)注對(duì)象構(gòu)造文本關(guān)鍵詞,利用圖像搜索引擎獲得相應(yīng)的搜索結(jié)果圖像集合;
[0011]S3、在所獲得的搜索結(jié)果圖像上進(jìn)行人臉檢測(cè)和視覺屬性分析,利用人臉視覺屬性的一致性去除其中的噪聲,得到待標(biāo)注對(duì)象與標(biāo)注場(chǎng)景密切相關(guān)的角色人臉集合;
[0012]S4、對(duì)所述標(biāo)注場(chǎng)景進(jìn)行人臉檢測(cè)和跟蹤,得到其中所有的人臉序列;S5、基于人臉序列之間的視覺相似度,以及人臉序列與待標(biāo)注對(duì)象角色人臉的視覺相似度分析,對(duì)所述標(biāo)注場(chǎng)景進(jìn)行角色標(biāo)注。
[0013]根據(jù)本發(fā)明,提出了一種基于搜索匹配的影視劇角色標(biāo)注方法。該方法通過挖掘不同查詢檢索得到的人臉圖像的關(guān)系,得到與影視劇密切相關(guān)的角色人臉圖像,進(jìn)而根據(jù)所獲角色人臉圖像與影視劇中人臉序列的視覺相似性,以及影視劇中人臉序列之間的視覺相似性實(shí)現(xiàn)角色標(biāo)注。該方法具有標(biāo)注過程全自動(dòng)無需人工干預(yù),標(biāo)注精度高,適用于大規(guī)模影視劇數(shù)據(jù)處理,擴(kuò)展性強(qiáng),適用于多種類型的影視劇,普適性強(qiáng)的優(yōu)點(diǎn)。該方法還可作為大規(guī)模影視劇數(shù)據(jù)的智能化和個(gè)性化管理、瀏覽和檢索服務(wù)中的重要基礎(chǔ)支撐技術(shù),在以角色為中心的影視劇瀏覽、智能視頻摘要、面向特定角色的視頻檢索等應(yīng)用中起到核心模塊的作用。
【專利附圖】
【附圖說明】
[0014]圖1為依照本發(fā)明一實(shí)施例的基于搜索匹配的角色標(biāo)注方法的流程圖。
【具體實(shí)施方式】
[0015]為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚明白,以下結(jié)合具體實(shí)施例,并參照附圖,對(duì)本發(fā)明進(jìn)一步詳細(xì)說明。
[0016]如圖1所示,本發(fā)明的基于搜索匹配的角色標(biāo)注方法包括以下步驟:
[0017]S1、根據(jù)演員表等待標(biāo)注對(duì)象列表,得到標(biāo)注場(chǎng)景的待標(biāo)注對(duì)象集合及所有待標(biāo)注對(duì)象的信息:真實(shí)姓名和角色名;
[0018]S2、為每位演員構(gòu)造文本關(guān)鍵詞,利用圖像搜索引擎獲得相應(yīng)的搜索結(jié)果圖像集合;
[0019]S3、在所獲得的搜索結(jié)果圖像集合上進(jìn)行人臉檢測(cè)和視覺屬性分析,利用人臉視覺屬性的一致性去除其中的噪聲,得到演員與該影視劇密切相關(guān)的角色人臉集合;
[0020]S4、對(duì)影視劇進(jìn)行人臉檢測(cè)和跟蹤,得到影視劇中所有的人臉序列;
[0021]S5、基于人臉序列之間的視覺相似度,以及人臉序列與演員角色人臉的視覺相似度分析,實(shí)現(xiàn)對(duì)影視劇的角色標(biāo)注。
[0022]根據(jù)本發(fā)明的優(yōu)選實(shí)施例,根據(jù)演員表等待標(biāo)注對(duì)象列表,取得所有待標(biāo)注對(duì)象的真實(shí)姓名和角色名的具體過程為:
[0023]步驟11、訪問愛演員網(wǎng)(http: //www.ayanyuan.com/)、IMDB (http: //www.1mdb.com/)等專業(yè)針對(duì)影視劇演員表、劇情介紹的網(wǎng)站,利用影視劇名查詢得到該影視劇,即與所述標(biāo)注場(chǎng)景相關(guān)的網(wǎng)頁;
[0024]步驟12、根據(jù)該網(wǎng)頁的頁面布局,抓取得到演員表部分,獲得該影視劇的演員集合,以及每個(gè)演員的真實(shí)姓名,角色名等信息。
[0025]根據(jù)本發(fā)明的優(yōu)選實(shí)施例,對(duì)步驟12得到的演員集合,為每位演員構(gòu)造真實(shí)姓名和影視劇名加角色名兩組文本關(guān)鍵詞,利用圖像搜索引擎獲得搜索結(jié)果圖像的具體過程如下:
[0026]步驟21、為步驟12得到的演員集合中的每位演員構(gòu)造兩個(gè)文本關(guān)鍵詞,一個(gè)是演員的真實(shí)姓名,另一個(gè)是影視劇全名加上演員所扮演角色的名字的組合;
[0027]步驟22、文本關(guān)鍵詞構(gòu)造完畢后,利用圖像搜索引擎,比如調(diào)用Google提供的應(yīng)用程序接口,依次將這兩個(gè)文本關(guān)鍵詞提交到Google圖像搜索引擎,并設(shè)置搜索參數(shù)為檢索包含人臉的圖像,返回多幅與該演員對(duì)應(yīng)的搜索結(jié)果圖像,比如檢索得到的結(jié)果圖像數(shù)量為64,該設(shè)置下,Google圖像搜索引擎會(huì)將檢索結(jié)果排序在前64位的人臉圖像的統(tǒng)一資源定位符(即URL地址)返回到檢索端,檢索端進(jìn)而根據(jù)該地址下載相應(yīng)圖像。也就是說,在所有圖像都可以正常下載的理想情況下,這一步驟可以得到64個(gè)搜索結(jié)果圖像。實(shí)際應(yīng)用中,每個(gè)關(guān)鍵詞可以下載到的圖像通常在50到64之間。用真實(shí)姓名和影視劇名加角色名下載得到的圖像集合分別被稱為“真實(shí)姓名”和“影視劇名加角色名”圖像集合。
[0028]對(duì)演員集合中的每位演員重復(fù)上述過程,即得到每個(gè)演員的“真實(shí)姓名”和“影視劇名加角色名”圖像集合。
[0029]根據(jù)本發(fā)明的優(yōu)選實(shí)施例,對(duì)步驟2得到的“真實(shí)姓名”和“影視劇名加角色名”圖像集合進(jìn)行人臉檢測(cè)和視覺屬性分析,利用人臉視覺屬性的一致性去除其中的噪聲,得到演員與該影視劇密切相關(guān)的角色人臉集合的具體過程如下:
[0030]步驟31、調(diào)用人臉識(shí)別云服務(wù) Face++(http://www.faceplusplus.com.cn/)的人臉檢測(cè)接口等工具,對(duì)“真實(shí)姓名”和“影視劇名加角色名”圖像集合進(jìn)行人臉檢測(cè),并根據(jù)檢測(cè)結(jié)果將圖像集合表示為相應(yīng)的“真實(shí)姓名”和“影視劇名加角色名”人臉集合;同時(shí)提取每個(gè)待標(biāo)注對(duì)象人臉的視覺屬性,在本發(fā)明一實(shí)施例中,所述視覺屬性包括性別、年齡和人種三種,并定位人臉的M個(gè)面部關(guān)鍵區(qū)域,在本發(fā)明一實(shí)施例中,所述面部關(guān)鍵區(qū)域包括九個(gè),分別為:兩個(gè)眼睛的左右角,鼻子的左下沿、中下沿和右下沿,嘴巴的左右角。在每個(gè)面部關(guān)鍵區(qū)域提取N維特征向量(比如128維的SIFT特征向量),并將這9個(gè)128維的特征向量拼接為1152維的人臉面部視覺特征描述子。對(duì)演員集合中的每位演員重復(fù)上述過程,得到每個(gè)演員的“真實(shí)姓名”和“影視劇名加角色名”人臉集合,每個(gè)人臉的上述三種視覺屬性和面部關(guān)鍵區(qū)域位置;
[0031]步驟32、在每位演員的“真實(shí)姓名”人臉集合上,分別生成上述三種視覺屬性的統(tǒng)計(jì)直方圖,比如:為性別屬性生成一個(gè)2維直方圖,2維分別對(duì)應(yīng)男性和女性;為年齡屬性生成一個(gè)8維直方圖,其中第I維和第8維分別對(duì)應(yīng)10歲以下和70歲以上的人臉,年齡落在區(qū)間[10*(1-l),10*i)的人臉對(duì)應(yīng)直方圖的第i維;為人種屬性生成一個(gè)3維直方圖,3維分別對(duì)應(yīng)“亞洲人”、“白人”和“黑人”。根據(jù)人臉三種視覺屬性的出現(xiàn)情況對(duì)所述統(tǒng)計(jì)直方圖的相應(yīng)維度進(jìn)行投票。當(dāng)該演員“真實(shí)姓名”人臉集合中所有人臉均已投票完時(shí),計(jì)算直方圖得票數(shù)最多的維度與人臉數(shù)量的比值,若該比值超過設(shè)定的閾值,比如0.5,則認(rèn)為該視覺屬性在“真實(shí)姓名”人臉集合上是顯著的。一個(gè)演員被定義為可識(shí)別的當(dāng)且僅當(dāng)她/他的上述三種視覺屬性都是顯著的。這三種顯著屬性也被定義為該演員的人物屬性。在所有演員的“真實(shí)姓名”人臉集合上重復(fù)上述過程,得到所有的可識(shí)別演員和她/他們的人物屬性。對(duì)于那些未被定義為可識(shí)別的演員,由于從網(wǎng)絡(luò)人臉圖像中無法鑒別出她/他們的人物屬性,在后續(xù)的角色標(biāo)注中將不會(huì)被考慮;[0032]步驟33、對(duì)步驟32得到的每位可識(shí)別演員,在其“影視劇名加角色名”人臉集合上(不失一般性,演員角色名和“影視劇名加角色名”人臉集合分別定義為Peri和CFi),基于步驟31得到的1152維人臉面部視覺特征描述子進(jìn)行人臉聚類,在本發(fā)明一實(shí)施例中,采用仿射傳播(Affinity Propagation)算法進(jìn)行人臉聚類,該聚類算法需要計(jì)算人臉的相似度矩陣S = [Si,j]TXT,其中,元素&為人臉A和fj的視覺相似度,當(dāng)i關(guān)j時(shí),為人臉A和fj描述子的余弦距離,當(dāng)i = j時(shí),為該集合中所有人臉相似度的平均值,T為集合CFi中的人臉數(shù)量。根據(jù)該聚類過程,可將CFi表示為公式(I)的形式
【權(quán)利要求】
1.一種基于搜索匹配的角色標(biāo)注方法,其特征在于,該方法包括以下步驟: S1、根據(jù)待標(biāo)注對(duì)象列表,得到標(biāo)注場(chǎng)景的待標(biāo)注對(duì)象集合及所有待標(biāo)注對(duì)象的信息; S2、為每位待標(biāo)注對(duì)象構(gòu)造文本關(guān)鍵詞,利用圖像搜索引擎獲得相應(yīng)的搜索結(jié)果圖像集合; S3、在所獲得的搜索結(jié)果圖像上進(jìn)行人臉檢測(cè)和視覺屬性分析,利用人臉視覺屬性的一致性去除其中的噪聲,得到待標(biāo)注對(duì)象與標(biāo)注場(chǎng)景密切相關(guān)的角色人臉集合; S4、對(duì)所述標(biāo)注場(chǎng)景進(jìn)行人臉檢測(cè)和跟蹤,得到其中所有的人臉序列; S5、基于人臉序列之間的視覺相似度,以及人臉序列與待標(biāo)注對(duì)象角色人臉的視覺相似度分析,對(duì)所述標(biāo)注場(chǎng)景進(jìn)行角色標(biāo)注。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟I包括以下步驟: 步驟11、檢索得到與所述標(biāo)注場(chǎng)景相關(guān)的網(wǎng)頁; 步驟12、根據(jù)檢索得到的網(wǎng)頁,得到所述標(biāo)注場(chǎng)景的待標(biāo)注對(duì)象集合,以及每個(gè)待標(biāo)注對(duì)象的信息。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述待標(biāo)注對(duì)象的信息包括真實(shí)姓名和角色名。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟2包括以下步驟: 步驟21、為所述待標(biāo)注對(duì)象集合中的每個(gè)待標(biāo)注對(duì)象構(gòu)造文本關(guān)鍵詞; 步驟22、基于所述文本關(guān)鍵詞,利用圖像搜索引擎檢索得到每個(gè)待標(biāo)注對(duì)象的、多幅與所述文本關(guān)鍵詞對(duì)應(yīng)的搜索結(jié)果圖像集合。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述文本關(guān)鍵詞包括標(biāo)注場(chǎng)景名稱與待標(biāo)注對(duì)象對(duì)應(yīng)角色名字的組合,以及待標(biāo)注對(duì)象的真實(shí)姓名,與待標(biāo)注對(duì)象的真實(shí)姓名對(duì)應(yīng)的搜索結(jié)果圖像集合記為Peri,與標(biāo)注場(chǎng)景名稱與待標(biāo)注對(duì)象對(duì)應(yīng)角色名字的組合對(duì)應(yīng)的搜索結(jié)果圖像集合記為CFitl
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟3包括以下步驟: 步驟31、對(duì)所述搜索結(jié)果圖像集合進(jìn)行人臉檢測(cè),提取每個(gè)待標(biāo)注對(duì)象人臉的視覺屬性,并定位人臉的M個(gè)面部關(guān)鍵區(qū)域,在每個(gè)面部關(guān)鍵區(qū)域提取N維特征向量,得到MXN維的人臉面部視覺特征描述子; 步驟32、對(duì)于每個(gè)待標(biāo)注對(duì)象的圖像集合Peri,分別生成對(duì)應(yīng)于所述視覺屬性的統(tǒng)計(jì)直方圖,并根據(jù)每個(gè)視覺屬性的出現(xiàn)情況對(duì)所述統(tǒng)計(jì)直方圖的相應(yīng)維度進(jìn)行投票,根據(jù)投票結(jié)果判斷每個(gè)視覺屬性的顯著性,當(dāng)且僅當(dāng)某個(gè)待標(biāo)注對(duì)象的所有視覺屬性均為顯著時(shí),該待標(biāo)注對(duì)象被認(rèn)為是可識(shí)別的,并將對(duì)應(yīng)的視覺屬性作為該待標(biāo)注對(duì)象的人物屬性; 步驟33、對(duì)每個(gè)可識(shí)別的待標(biāo)注對(duì)象,在其對(duì)應(yīng)的圖像集合CFi上,基于所述人臉面部視覺特征描述子進(jìn)行人臉聚類,根據(jù)所述人物屬性在每個(gè)聚類結(jié)果類別中的出現(xiàn)比率,得到相應(yīng)待標(biāo)注對(duì)象的候選角色人臉集合; 步驟34、對(duì)于待標(biāo)注對(duì)象的候選角色人臉集合進(jìn)行圖像去重; 步驟35、利用人臉平均視覺相似度,對(duì)于圖像去重后的候選角色人臉集合進(jìn)行人臉去重。
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述視覺屬性包括性別、年齡和人種。
8.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟4包括以下步驟: 步驟41、對(duì)所述標(biāo)注場(chǎng)景進(jìn)行鏡頭邊界檢測(cè),并根據(jù)檢測(cè)結(jié)果將所述標(biāo)注場(chǎng)景分解為s個(gè)鏡頭; 步驟42、對(duì)于s個(gè)鏡頭中的每一個(gè)鏡頭進(jìn)行人臉檢測(cè)和跟蹤,得到所述標(biāo)注場(chǎng)景中所有的人臉序列。
9.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟5包括以下步驟: 步驟51、對(duì)每個(gè)人臉序列中的所有人臉提取顏色直方圖特征,并基于這一特征進(jìn)行聚類; 步驟52、根據(jù)聚類結(jié)果以及人臉序列出現(xiàn)時(shí)間的重疊情況,生成沖突矩陣C ; 步驟53、計(jì)算人臉序列之間的視覺相似度,得到人臉序列相似度的概率傳播矩陣P ;步驟54、計(jì)算角色與人臉序列的匹配置信度矩陣S,其中,矩陣S的元素為人臉序列與角色人臉集合之間的相似度; 步驟55、利用所述沖突矩陣C更新所述匹配置信度矩陣S,避免為出現(xiàn)時(shí)間重疊的人臉序列同時(shí)賦予高匹配置信度; 步驟56、利用更新后的匹配置信度矩陣S、相似閾值Vl和不相似閾值,生成初始標(biāo)注矩陣 L(0); 步驟57、基于所述概率傳播矩陣P和初始標(biāo)注矩陣Lw,通過標(biāo)簽傳播算法更新所述初始標(biāo)注矩陣Lftl)中的不確定元素,直至算法收斂; 步驟58、令1^為算法收斂后的標(biāo)注矩陣,更新L,中元素的標(biāo)注置信度,以融合人臉序列之間的相似度和人臉序列與角色人臉的匹配置信度; 步驟59、依次從更新后的標(biāo)注矩陣L,中查找值最大且滿足一定條件的元素(6.,并更新所述標(biāo)注矩陣L,,重復(fù)上述過程直至所述標(biāo)注矩陣L,中不再存在滿足所述條件的元素,然后對(duì)當(dāng)前置信度最高的人臉序列和角色名組合進(jìn)行標(biāo)注。
10.根據(jù)權(quán)利要求9所述的方法,其特征在于,所述步驟59中的一定條件為:
【文檔編號(hào)】G06F17/30GK103984738SQ201410218854
【公開日】2014年8月13日 申請(qǐng)日期:2014年5月22日 優(yōu)先權(quán)日:2014年5月22日
【發(fā)明者】陳智能, 馮柏嵐, 徐波 申請(qǐng)人:中國科學(xué)院自動(dòng)化研究所