輔助弱視用戶進(jìn)行圖像拍攝和圖像回顧的制作方法
【專利摘要】本發(fā)明提供了用于簡化弱視用戶拍攝和回顧可視圖像的技術(shù)和機(jī)構(gòu)。在一個(gè)實(shí)現(xiàn)中,這些技術(shù)和機(jī)構(gòu)提供了每圖像拍攝功能和拍攝圖像回顧功能。利用每圖像拍攝功能,向用戶提供音頻消息,來幫助用戶適當(dāng)?shù)囟ㄎ粓D像拍攝機(jī)構(gòu),以拍攝一圖片中的希望主體、對圖片內(nèi)的主體適當(dāng)?shù)厝【?、對圖片內(nèi)的主體適當(dāng)?shù)卣{(diào)整大小等。利用圖像回顧功能,向用戶提供音頻消息,來幫助用戶欣賞和“看見”已經(jīng)拍攝并且向用戶顯示的可視圖像。利用這些功能,與當(dāng)前可能程度相比,弱視用戶能夠更大程度地拍攝和回顧圖像。
【專利說明】輔助弱視用戶進(jìn)行圖像拍攝和圖像回顧
【背景技術(shù)】
[0001]如今,許多電子裝置(如移動(dòng)電話、智能電話、平板計(jì)算機(jī),以及膝上型計(jì)算機(jī))都具有使得用戶能夠利用該電子裝置拍攝可視圖像的圖像拍攝裝置(例如,攝像機(jī))。一旦拍攝,該可視圖像就可以在該電子裝置上顯示和/或編輯、發(fā)送至另一裝置、與存儲(chǔ)在該電子裝置中的聯(lián)系人相關(guān)聯(lián)、或者由用戶以其它方式使用。
[0002]當(dāng)前,大多數(shù)(如果不是所有)圖像拍攝和再現(xiàn)裝置被設(shè)計(jì)成由能夠看見的用戶使用。對于弱視用戶來說,很難(如果不是無法)有效使用圖像拍攝和再現(xiàn)裝置。例如,如果弱視用戶要嘗試?yán)脠D像拍攝裝置拍攝圖片,則對于該用戶來說,極難的是:(1)拍攝該圖片內(nèi)的合適主體;(2)將該主體定位在該圖片中央;(3)按正確的距離或縮放級別拍攝該主體,以使該主體具有對于該圖片的恰當(dāng)尺寸;等。最可能的是,用戶必須爭取看得見的人的幫助,以幫助對該圖片內(nèi)的主體取景和調(diào)整大小。
[0003]類似的是,弱視用戶很難(如果不是無法)有意義地回顧和欣賞由圖像再現(xiàn)裝置再現(xiàn)的圖像,則這相當(dāng)困難。該用戶不知道有多少人在該圖片中、誰在該圖片中、不同的人位于該圖片內(nèi)的什么地方等。此外,用戶很可能必須爭取看得見的人的幫助以向他/她描述該圖片。由此,如當(dāng)前設(shè)計(jì)和構(gòu)造的,圖像拍攝和再現(xiàn)裝置對于弱視用戶來說不是非常用戶友好。
【專利附圖】
【附圖說明】
[0004]圖1示出了可以實(shí)現(xiàn)本發(fā)明一個(gè)實(shí)施例的樣本裝置的框圖。
[0005]圖2示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的、在圖像拍攝過程期間由圖1的裝置執(zhí)行的操作的流程圖。
[0006]圖3例示了根據(jù)本發(fā)明的一個(gè)實(shí)施例的幀跟蹤的示例。
[0007]圖4示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的、在圖像回顧過程期間由圖1的裝置執(zhí)行的操作的流程圖。
[0008]圖5示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的、如何將幀劃分成具有九部分的網(wǎng)格。
【具體實(shí)施方式】[0009]概述
[0010]根據(jù)本發(fā)明的一個(gè)實(shí)施例,提供了用于輔助弱視用戶拍攝和回顧可視圖像的技術(shù)和機(jī)構(gòu)。在一個(gè)實(shí)施例中,這些技術(shù)和機(jī)構(gòu)包括圖像預(yù)拍攝功能和拍攝圖像回顧功能。利用圖像預(yù)拍攝功能,向用戶提供音頻消息,以幫助用戶適當(dāng)?shù)囟ㄎ粓D像拍攝機(jī)構(gòu),以拍攝圖片中的希望主體、對圖片內(nèi)的主體適當(dāng)?shù)厝【?、對圖片內(nèi)的主體適當(dāng)?shù)卣{(diào)整大小等。利用圖像回顧功能,向用戶提供音頻消息,來幫助用戶欣賞和“看見”已經(jīng)拍攝并顯示的可視圖像。
[0011]利用圖像預(yù)拍攝功能,用戶可以按場景指示具有圖像拍攝機(jī)構(gòu)(例如,攝像機(jī))的電子裝置。周期性地,或者響應(yīng)于用戶調(diào)用該裝置的某一控制(例如,通過觸摸某一控制部或者進(jìn)行某一姿勢或移動(dòng)),該裝置預(yù)拍攝該場景的圖像。在預(yù)拍攝該圖像之后,裝置分析該圖像。例如,裝置可以應(yīng)用面部檢測技術(shù)以確定該圖像中有多少面部。該裝置還可以識別構(gòu)成每一個(gè)面部的像素,以確定該預(yù)拍攝圖像內(nèi)的每一個(gè)面部的位置。另外,該裝置可以應(yīng)用面部識別技術(shù)來識別這些面部。由此,不是將預(yù)拍攝圖像中的一面部稱為“面部1”,而是該裝置可以將該面部識別為“Zachary”。而且,該裝置可以分析該預(yù)拍攝圖像以確定這些面部中的任一個(gè)是否過于靠近圖片的邊緣(例如,左側(cè)、右側(cè)、上側(cè)以及下側(cè))。該裝置還可以分析該預(yù)拍攝圖像,以確定這些面部相對于圖片的總尺寸的大小。
[0012]在分析該預(yù)拍攝圖像之后,該裝置可以向用戶提供一個(gè)或多個(gè)音頻消息。例如,如果該圖像包含屬于Zachary和Emily的面部,則該裝置可以提供說“兩個(gè)面部”,“Zachary”、“Emily”的音頻消息。該裝置還可以提供有關(guān)該圖像內(nèi)的面部位置的音頻消息。例如,如果面部過于靠近該圖片左邊緣,則裝置可以提供說“面部靠近左邊緣”的音頻消息。如果這些面部在該圖像內(nèi)居中,則該裝置可以提供說“面部居中”的音頻消息。在某些情況下,面部可以靠近多個(gè)邊緣(例如,上邊緣和左邊緣)。在這種情況下,該裝置可以提供說“面部靠近左上邊緣”的音頻消息。該裝置還可以提供有關(guān)該圖像內(nèi)的面部的尺寸的音頻消息。例如,如果面部太小,則該裝置可以提供說“面部太小”的音頻消息。另一方面,如果一面部幾乎填滿整個(gè)圖像,則該裝置可以提供說“面部全寬”的音頻消息??梢詫⑦@些和其它音頻消息提供給用戶。
[0013]響應(yīng)于這些音頻消息,用戶可以改變圖像拍攝機(jī)構(gòu)的定位、更靠近或更遠(yuǎn)離主體移動(dòng)、調(diào)節(jié)圖像拍攝機(jī)構(gòu)的縮放特征等。例如,如果用戶希望拍攝該圖片中的三個(gè)主體,但當(dāng)前僅檢測到兩個(gè)面部,則該用戶可以重定位圖像拍攝機(jī)構(gòu)以拍攝全部三個(gè)主體。而且,如果一面部過于靠近邊緣,則該用戶可以移動(dòng)圖像拍攝機(jī)構(gòu),以將該主體更好居中。而且,如果面部太小或太大,則用戶可以更靠近或更遠(yuǎn)離主體移動(dòng),或者調(diào)節(jié)圖像拍攝機(jī)構(gòu)的縮放因子。這些和其它調(diào)節(jié)可以由用戶進(jìn)行。在進(jìn)行這些調(diào)節(jié)之后,用戶可以等待來自該裝置的更新音頻消息(其將在該裝置在預(yù)拍攝另一圖像并分析該圖像之后提供)。通過響應(yīng)于來自該裝置的音頻消息而進(jìn)行調(diào)節(jié)的迭代過程,用戶可以獲得他/她希望的精確圖像。
[0014]作為調(diào)節(jié)過程的一部分,用戶可能希望獲知各個(gè)主體位于預(yù)拍攝圖像內(nèi)的什么地方。在一個(gè)實(shí)施例中,該裝置具有顯示該預(yù)拍攝圖像的觸敏顯示器。用戶可以觸摸該顯示器的任何部分,并且響應(yīng)于該用戶輸入,該裝置確定該預(yù)拍攝圖像的被用戶觸摸的部分是否對應(yīng)于構(gòu)成該圖片中的面部之一的像素?;谠摯_定,該裝置可以提供恰當(dāng)?shù)囊纛l消息。例如,如果被用戶觸摸的部分不對應(yīng)于圖片中的任何面部,則該裝置可以提供蜂鳴聲音(或用戶選擇的某一其它聲音,或完全接受為意指“沒有什么”的聲音的聲音,或者根本沒有聲音)。另一方面,如果所觸摸部分對應(yīng)于圖片中的一面部,則該裝置可以提供指示其的音頻消息。例如,該音頻消息可以說“面部1”、“面部2”等。如果該面部在面部識別處理期間被識別,則該音頻消息可以更具體。例如,如果所觸摸部分對應(yīng)于Zachary的面部,則該音頻消息可以說“Zachary”。利用該功能,弱視用戶能夠確定主體位于預(yù)拍攝圖像內(nèi)的什么地方,并且它們怎樣彼此相對定位。這使得用戶能夠在永久性拍攝該圖像之前“視覺化”它。
[0015]一旦用戶基于來自該裝置的音頻消息而滿意圖像拍攝機(jī)構(gòu)相對于主體的定位,該用戶就可以使該裝置(例如,通過觸摸某一控制部或進(jìn)行某一姿勢或移動(dòng))永久性拍攝并存儲(chǔ)該圖像。
[0016]在拍攝并存儲(chǔ)該圖像之后,分析其以導(dǎo)出一組元數(shù)據(jù)。在一個(gè)實(shí)施例中,直接在永久性拍攝一圖像之后執(zhí)行該分析。所導(dǎo)出的元數(shù)據(jù)與該圖像一起存儲(chǔ),并且可以被用于增強(qiáng)用戶在回顧所拍攝圖像時(shí)的經(jīng)驗(yàn)。作為一示例,面部檢測技術(shù)可以被應(yīng)用至所拍攝圖像以確定該圖像中有多少面部。所檢測面部的數(shù)量可以被存儲(chǔ)為針對所拍攝圖像的元數(shù)據(jù)的一部分。另外,作為面部檢測過程的一部分,可以識別構(gòu)成面部的像素。利用該信息,可以指定該圖片內(nèi)的面部的位置。該像素信息可以被存儲(chǔ)為針對所拍攝圖像的元數(shù)據(jù)的一部分。而且,可以應(yīng)用面部識別技術(shù)以識別出現(xiàn)在該圖片中的面部。由此,不是僅僅獲知該圖片中存在兩個(gè)面部,而是該裝置例如可以確定其是處于圖片中的Zachary和Emily。該識別信息還可以被存儲(chǔ)為針對所拍攝圖像的元數(shù)據(jù)的一部分。這些和其它元數(shù)據(jù)集可以利用所拍攝圖像導(dǎo)出并與其一起存儲(chǔ)。一旦導(dǎo)出元數(shù)據(jù),其就可以被該裝置用于向用戶提供反饋。在一個(gè)實(shí)施例中,在永久性拍攝一圖像之后,該裝置向用戶提供有關(guān)該圖像的音頻反饋。例如,該裝置可以提供說“兩個(gè)面部”,“ZaChary”、“Emily”的音頻消息。該音頻反饋向用戶提供剛才拍攝了什么圖像的確認(rèn)。
[0017]在某一點(diǎn)上,用戶可能希望顯示并回顧先前拍攝的圖像。在一個(gè)實(shí)施例中,當(dāng)向弱視用戶顯示所拍攝圖像時(shí),與該拍攝圖像一起存儲(chǔ)的元數(shù)據(jù)可以被用于增強(qiáng)用戶的回顧經(jīng)驗(yàn)。例如,當(dāng)該裝置顯示一拍攝圖像時(shí),該裝置可以提供指示該圖像中有多少面部的音頻消息(例如,“兩個(gè)面部”)。如果與所拍攝圖像一起存儲(chǔ)的元數(shù)據(jù)包括針對該圖像中的面部的識別信息,則該裝置可以提供指定誰在該圖片中的音頻消息。例如,該音頻消息可以說“ Zachary”、“ EmiIy ”。
[0018]在顯示所拍攝圖像之后,該裝置可以接收指示用戶在觸摸該圖像的特定部分的輸入(在一個(gè)實(shí)施例中,該拍攝圖像顯示在觸敏顯示器上)。利用元數(shù)據(jù)中的像素信息,該裝置可以確定該圖像的被用戶觸摸的部分是否為構(gòu)成該圖片中的面部之一的像素。基于該確定,該裝置可以提供恰當(dāng)?shù)囊纛l消息。例如,如果被用戶觸摸的部分不對應(yīng)于圖片中的任何面部,則該裝置可以提供蜂鳴聲音(或用戶選擇的某一其它聲音,或完全接受為意指“沒有什么”的聲音的聲音,或者根本沒有聲音)。另一方面,如果所觸摸部分不對應(yīng)于圖片中的一面部,則該裝置可以提供指示其的音頻消息。例如,該音頻消息可以說“面部1”、“面部2”等。如果該元數(shù)據(jù)包括識別信息,則該音頻消息可以更具體。例如,如果所觸摸部分對應(yīng)于Zachary的面部,則該音頻消息可以說“ Zachary ”。利用該功能,弱視用戶能夠確定主體位于所拍攝圖像內(nèi)的什么地方,并且它們怎樣彼此相對定位。這使得弱視用戶能夠“看得見”該圖像(例如,創(chuàng)建該圖像內(nèi)的主體的組成和排列的構(gòu)思模型),由此,產(chǎn)生增強(qiáng)圖像回顧經(jīng)驗(yàn)。
[0019]樣本裝置
[0020]參照圖1,示出了可以實(shí)現(xiàn)本發(fā)明一個(gè)實(shí)施例的樣本裝置100的框圖。如圖所示,裝置100包括用于輔助信息交換的總線102,和耦接至總線102以執(zhí)行指令和處理信息的一個(gè)或多個(gè)處理器104。裝置100還包括耦接至總線102的一個(gè)或多個(gè)存儲(chǔ)部106 (在此還被稱為計(jì)算機(jī)可讀存儲(chǔ)介質(zhì))。存儲(chǔ)部106可以被用于存儲(chǔ)可執(zhí)行程序、永久性數(shù)據(jù)(例如,拍攝圖像、與拍攝圖像相關(guān)聯(lián)的元數(shù)據(jù)等)、在程序執(zhí)行期間生成的臨時(shí)數(shù)據(jù)(例如,預(yù)拍攝圖像等),以及為執(zhí)行計(jì)算機(jī)處理所需的任何其它信息。
[0021]存儲(chǔ)部106可以包括可以被用于執(zhí)行計(jì)算機(jī)處理的任何和所有類型的存儲(chǔ)部。例如,存儲(chǔ)部106可以包括主存儲(chǔ)器(例如,隨機(jī)存取存儲(chǔ)器(RAM)或其它動(dòng)態(tài)存儲(chǔ)裝置)、高速緩沖存儲(chǔ)器、只讀存儲(chǔ)器(ROM)、永久性存儲(chǔ)部(例如,一個(gè)或多個(gè)磁盤或光盤、閃速存儲(chǔ)部等),以及其它類型存儲(chǔ)部。各個(gè)存儲(chǔ)部106可以是易失性或非易失性的。計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)的常見形式例如包括:軟盤、柔性盤、硬盤、磁帶、或任何其它磁介質(zhì),CR-R0M、DVD、或任何其它光學(xué)存儲(chǔ)介質(zhì)、穿孔卡、紙帶、或具有孔圖案的任何其它物理介質(zhì)、RAM、PR0M、EPR0M、FLASH-EPROM或任何其它類型的閃速存儲(chǔ)器、任何存儲(chǔ)器芯片或存儲(chǔ)器卡、以及計(jì)算機(jī)可以讀取的任何其它存儲(chǔ)介質(zhì)。
[0022]如圖1所示,存儲(chǔ)部106至少存儲(chǔ)若干組可執(zhí)行指令,包括操作系統(tǒng)114和一個(gè)或多個(gè)應(yīng)用112。存儲(chǔ)器102執(zhí)行操作系統(tǒng)114以提供其它軟件集可以操作的平臺(tái),并且執(zhí)行應(yīng)用112中的一個(gè)或多個(gè)以提供附加的特定功能。針對本發(fā)明的目的,該應(yīng)用112可例如包括:圖像拍攝應(yīng)用、圖像回顧應(yīng)用、以及其它應(yīng)用。在一個(gè)實(shí)施例中,應(yīng)用112和操作系統(tǒng)114協(xié)作以實(shí)現(xiàn)在此描述的技術(shù)。即,部分該技術(shù)可以通過應(yīng)用112來執(zhí)行,而部分可以通過操作系統(tǒng)114來執(zhí)行。應(yīng)注意到,這只是一個(gè)可能實(shí)施例。作為一另選例,所有這種技術(shù)可以通過操作系統(tǒng)114來執(zhí)行。作為另一另選例,所有技術(shù)可以通過應(yīng)用112中的一個(gè)或多個(gè)來執(zhí)行。所有這種可能實(shí)現(xiàn)都處于本發(fā)明的范圍內(nèi)。
[0023]在圖1所示實(shí)施例中,處理器104和可執(zhí)行指令112、114可以被視為形成實(shí)現(xiàn)在此描述的技術(shù)的圖像處理器。在這種實(shí)現(xiàn)中,處理器104可以被視為由用于執(zhí)行該技術(shù)的可執(zhí)行指令112、114 “構(gòu)成”。這只是用于圖像處理器的一個(gè)可能實(shí)現(xiàn)。作為一另選例,該圖像處理器可以是利用具有包括邏輯部件的一組部件的裝置(例如,可編程邏輯陣列)的硬件,其中,該部件被編程/設(shè)置成實(shí)現(xiàn)在此描述的技術(shù)。作為另一另選例,該圖像處理器可以是通過諸如具有包括邏輯部件的部件的專用集成電路(ASIC)的另一裝置實(shí)現(xiàn)的硬件,其被構(gòu)造/設(shè)置成實(shí)現(xiàn)在此描述的技術(shù)。總的來說,該圖像處理器可以是利用具有包括邏輯部件的部件的任何數(shù)量的裝置實(shí)現(xiàn)的硬件,其被構(gòu)造/設(shè)置成實(shí)現(xiàn)在此描述的技術(shù)。圖像處理器的這些和其它實(shí)現(xiàn)都是可以的。所有這種實(shí)現(xiàn)都處于本發(fā)明的范圍內(nèi)。
[0024]裝置100還包括耦接至總線102的一個(gè)或多個(gè)用戶接口組件108。這些組件108使得裝置100能夠接收來自用戶的輸入并且向用戶提供輸出。在輸入側(cè)上,用戶接口組件108例如可以包括:具有字母數(shù)字混編鍵的鍵盤/小鍵盤、光標(biāo)控制裝置(例如,鼠標(biāo)器、軌跡球、觸摸板等)、能夠接收用戶輸入的觸敏屏、用于接收音頻輸入的麥克風(fēng)等。在輸出側(cè)上,組件108可以包括用于提供可視和音頻內(nèi)容的圖形接口(例如,圖形卡)和音頻接口(例如,聲卡)。用戶接口組件108還可以包括用于呈現(xiàn)可視內(nèi)容的顯示器116 (在一個(gè)實(shí)施例中,顯示器116是觸敏顯示器),和用于呈現(xiàn)音頻內(nèi)容的音頻裝置118 (例如,一個(gè)或多個(gè)揚(yáng)聲器)。在一個(gè)實(shí)施例中,通過處理器104執(zhí)行的操作系統(tǒng)114和一個(gè)或多個(gè)應(yīng)用112可以提供軟件用戶接口,其采取用戶接口組件108的優(yōu)點(diǎn)并且與其交互以接收來自用戶的輸入和向用戶提供輸出。該軟件用戶接口例如可以提供用戶可以利用上述用戶輸入裝置之一、可以經(jīng)由觸摸調(diào)用的軟按鈕、軟鍵盤等導(dǎo)航的菜單。該軟件接口還可以與觸敏顯示器16交互,以接收指示用戶觸摸該顯示器16的哪個(gè)(哪些)位置的信息,并將該信息轉(zhuǎn)換成操作系統(tǒng)114和應(yīng)用112可以使用的輸入(例如,確定觸摸了所顯示圖像的哪個(gè)(哪些)部分,調(diào)用了哪個(gè)菜單項(xiàng)或按鈕等)。這些和其它功能可以通過由操作系統(tǒng)114和應(yīng)用112提供的軟件用戶接口來執(zhí)行。
[0025]在一個(gè)實(shí)施例中,用戶接口組件108還包括一個(gè)或多個(gè)圖像拍攝機(jī)構(gòu)120。針對本發(fā)明的目的,圖像拍攝機(jī)構(gòu)120可以是能夠拍攝可視圖像的任何機(jī)構(gòu)。在一個(gè)實(shí)施例中,圖像拍攝機(jī)構(gòu)120采用數(shù)字?jǐn)z像機(jī)的形式,該數(shù)字?jǐn)z像機(jī)具有一個(gè)或多個(gè)透鏡和用于感測由該一個(gè)或多個(gè)透鏡引導(dǎo)的光的光學(xué)傳感器陣列。該光學(xué)傳感器陣列(其中,每一個(gè)光學(xué)傳感器表示一像素)提供指示所感測光的輸出信號。來自光學(xué)傳感器陣列的輸出信號可以被用于導(dǎo)出所拍攝圖像。針對本發(fā)明的目的,圖像拍攝機(jī)構(gòu)120的透鏡可以是靜止的或可機(jī)械移動(dòng)的以實(shí)現(xiàn)光學(xué)縮放。
[0026]除了上述組件以外,裝置100還可以包括耦接至總線102的一個(gè)或多個(gè)通信接口110。這些接口 110使得裝置100能夠與其它組件通信。該通信接口 110例如可以包括用于使得裝置100能夠向本地網(wǎng)絡(luò)發(fā)送消息和從本地網(wǎng)絡(luò)接收消息的網(wǎng)絡(luò)接口(有線或無線)。通信接口 110還可以包括用于使得該裝置能夠在不利用本地網(wǎng)絡(luò)的情況下接入因特網(wǎng)的3G接口。通信接口 110還可以包括用于使能裝置110能夠進(jìn)行電話通信的電話網(wǎng)絡(luò)接口。通信接口 110還可以包括用于與附近裝置(如無線頭戴式耳機(jī)、耳塞等)無線通信的無線接口(例如,藍(lán)牙(Bluetooth)。)通信接口 110還可以包括用于與一組有線頭戴式受話器、頭戴式耳機(jī)、耳機(jī)等連接的插孔。這些和其它接口可以被包括在裝置100中。
[0027]樣本操作
[0028]考慮到以上描述的裝置并且參照圖1-5,下面,對根據(jù)本發(fā)明一個(gè)實(shí)施例的裝置100的操作進(jìn)行更詳細(xì)描述。在下面的描述中,該操作將被描述為通過裝置100來執(zhí)行。應(yīng)當(dāng)明白,在一個(gè)實(shí)施例中,裝置100通過使處理器104執(zhí)行操作系統(tǒng)114和應(yīng)用112中的一個(gè)或多個(gè)并且使處理器104與各個(gè)其它組件(例如,顯示器116、音頻裝置118、圖像拍攝機(jī)構(gòu)120等)交互來執(zhí)行這些操作。
[0029]圖像預(yù)拍攝功能
[0030]參照圖2,示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的、利用由裝置100執(zhí)行的圖像預(yù)拍攝操作的流程圖。為調(diào)用這些操作,弱視用戶可以與裝置100交互,以設(shè)置用于采取裝置100的音頻和消息發(fā)送能力的優(yōu)點(diǎn)的某些用戶設(shè)置。接著,該用戶可以調(diào)用采取該音頻消息發(fā)送能力的優(yōu)點(diǎn)的應(yīng)用112 (例如,圖像拍攝應(yīng)用)。在進(jìn)行該調(diào)用之后,裝置100將執(zhí)行圖2所示的操作。
[0031]裝置100允許用戶沿用戶希望拍攝的場景的總方向引導(dǎo)圖像拍攝機(jī)構(gòu)120。一旦進(jìn)行該操作,裝置100就利用圖像拍攝機(jī)構(gòu)120預(yù)拍攝(框204)該場景的圖像。該預(yù)拍攝圖像顯示在觸敏顯示器116上。在一個(gè)實(shí)施例中,裝置100自動(dòng)且周期性地預(yù)拍攝一場景的圖像。另選的是,裝置100可以在預(yù)拍攝圖像之前等待某一用戶輸入(例如,觸摸某一控制部或進(jìn)行某一姿勢或移動(dòng))。在一個(gè)實(shí)施例中,該預(yù)拍攝圖像未永久性地存儲(chǔ);相反的是,其臨時(shí)存儲(chǔ),并且只用于幫助用戶適當(dāng)?shù)囟ㄎ?調(diào)節(jié)圖像拍攝機(jī)構(gòu)120以拍攝用戶希望拍攝的圖像的目的。為簡單和方便起見,下面將預(yù)拍攝的圖像稱為幀。
[0032]幀分析
[0033]在拍攝一幀之后,通過裝置100分析其(框208)。針對本發(fā)明的目的,可以在一幀上執(zhí)行任何類型的圖像分析。下面的討論只提供了幾個(gè)示例。
[0034]可以在一幀上執(zhí)行的一類分析是面部檢測。在面部檢測期間,裝置100處理該幀的像素,以尋找暗示存在面部的特定像素圖案。例如,裝置100可以尋找類似眼睛、鼻子、以及嘴的像素圖案,并且確定這些圖案是否按它們形成一面部的這種方式彼此相對定位(注意:按較低程度,裝置100可以尋找可能不被人識別為諸如眼睛、鼻子、或嘴的完全面部特征的像素圖案)。如果找到特定像素圖案,則可以檢測到面部。出于本發(fā)明的目的,任何面部檢測方法都可以應(yīng)用。下面列出的文檔描述了可以使用的一些(而非全部)面部檢測技術(shù)。所有這些文檔通過引用并入于此。
[0035]I λ P.Viola, M Jones, Robust Real-time Object Detection, SecondInternational Workshop on Statistical and Computational Theories of Vision-Modeling,Learning, Computing, and Sampling, Vancouver, Canada, Julyl3, 2001,25pages
[0036]2、P.Viola,M Jones, Robust Real-time Face Detection,InternationalJournal of Computer Vision57 (2),2004,pp.137-154
[0037]3、Fr oba,Kiib I b e ck: Aud i o_an d Video-Based Biometric PersonAuthentication,3rd International Conference,AVBPA2001, Halmstadj Sweden, June2001.Proceedings, Springer.1SBN 3-540-42216-1
[0038]4、KirchbergjJesorskyjFrischholz:1nternational ECCV Workshop onBiometric Authentication, Springer,Lecture Notes in Computer Science, LNCS—2359,pp.103-111,Copenhagen, Denmark, June2002
[0039]5、Yang,Kriegman,Ahuja:Detecting Faces in Images: A Survey, IEEETransactions on Pattern Analysis and Machine Intelligence, Vol.24, N0.1, January2
002
[0040]在一個(gè)實(shí)施例中,裝置100在整個(gè)幀上執(zhí)行面部檢測,以檢測該幀中的所有面部。由此,到面部檢測過程結(jié)束,裝置100將具有對該幀中有多少面部的計(jì)數(shù)。
[0041]在一個(gè)實(shí)施例中,作為面部檢測過程的一部分,裝置100確定哪些像素構(gòu)成每一個(gè)面部。接著,裝置100存儲(chǔ)指示哪些像素與哪個(gè)面部相關(guān)聯(lián)的像素信息。在一個(gè)實(shí)施例中,為最小化需要存儲(chǔ)的像素信息的量,裝置100將每一個(gè)面部近似為一矩形框。那樣,與面部相關(guān)聯(lián)的像素可以僅用針對X和y個(gè)像素坐標(biāo)的一組范圍來表達(dá)。例如,假設(shè)一面部包含特定的一組像素,還假設(shè)該組像素中的最左側(cè)像素具有X坐標(biāo)X1,該組像素中的最右側(cè)像素具有X坐標(biāo)χ2,該組像素中的最上側(cè)像素具有I坐標(biāo)y1;而該組像素中的最下側(cè)像素具有I坐標(biāo)12。在這種情況下,該面部可以被表達(dá)為包含具有X1與X2之間的X坐標(biāo)(含X1與χ2)和與y2之間的I坐標(biāo)(含Y1與I2)的所有像素。雖然這不拍攝構(gòu)成該面部的精確像素,但其足夠接近,并且提供了顯著的存儲(chǔ)節(jié)省。利用該像素信息,不僅裝置100獲知該幀中有多少面部,而且獲知該面部位于幀中的什么地方。
[0042]可以在一幀上執(zhí)行的另一類分析是面部識別。利用面部識別,在幀中檢測到的每一個(gè)面部都被分析以確定該面部是否屬于已經(jīng)被識別給裝置100的人。面部識別可以涉及針對每一個(gè)所檢測面部導(dǎo)出某些面部特征值。接著,可以將這些面部特征值與數(shù)據(jù)庫中的已知被識別面部的面部特征值比較,來確定所檢測面部是否足夠接近一識別面部,以斷定所檢測面部和所識別面部屬于同一人。如果進(jìn)行所檢測面部和所識別面部屬于同一人的斷定,則與該識別面部相關(guān)聯(lián)的身份或姓名可以與所檢測面部相關(guān)聯(lián)。在一個(gè)實(shí)施例中,面部識別被應(yīng)用至該幀中的所有被檢測面部。由此,在面部識別過程結(jié)束時(shí),可以識別所有被檢測面部(假設(shè)它們屬于已經(jīng)被識別給裝置100的人)。
[0043]上面的討論只提供了可以在面部識別過程期間執(zhí)行的高層次描述。出于本發(fā)明的目的,任何面部識別方法都可以應(yīng)用。下面的文獻(xiàn)描述了可以使用的一些(而非全部)面部識別技術(shù)。所有這些文獻(xiàn)通過引用并入于此。
[0044]1、W.Zhao,R.Chellappaj A.Rosenfeldj P.J.Phillips, Face Recognition:ALiterature Survey, ACM Computing Surveys,2003,pp.399-458
[0045]2、G.ShakhnarovichjB.Moghaddamj Face Recognition in Subspaces, Handbookof Face Recognition, Eds.Stan Z.Li and Anil K.Jain, Springer-Verlagj December2004,35pages
[0046]3λ M.Turk, A.Pentlandj Eigenfaces for Recognition, Journal of Cognitive Neurosicence, Vol.3,N0.1,Win.1991,pp.71-86
[0047]4λ R.Brunellij T.Poggioj Face Recognition:Features versus Templates, IEEETransactions on Pattern Analysis and Machine Intelligence, Vol.15, N0.10,October1993,pp.1042-1052
[0048]5、L.Wi skott, J._M.Fel 1usj N.Krueugerj C.von der Mal sburg, FaceRecognition by Elastic Bunch Graph Matching, Chapterllin Intelligent BiometricTechniques in Fingerprint and Face Recognition,Eds.L.C.Jain et al.,CRCPress, 1999,pp.355-396
[0049]可以在幀上執(zhí)行的另一類分析是位置分析。利用位置分析,裝置100處理幀中檢測到的面部,以確定構(gòu)成該面部的像素是否太靠近幀的一個(gè)或多個(gè)邊緣(例如,左側(cè)、右側(cè)、上側(cè)、下側(cè))。在一個(gè)實(shí)施例中,該確定可以通過分析與面部相關(guān)聯(lián)的像素的X和y坐標(biāo)來進(jìn)行。例如,為確定任何面部是否過于靠近該幀的左側(cè)邊緣,裝置100可以選擇該幀中的最左側(cè)面部和構(gòu)成該面部的像素的最左側(cè)X坐標(biāo)。接著,裝置100可以確定該幀的左側(cè)邊緣(具有X坐標(biāo)O)與該面部的最左側(cè)X坐標(biāo)之間的間隔是否低于特定閾值。該閾值可以由用戶或通過裝置100來設(shè)置。如果是這樣,則最左側(cè)面部過于靠近該幀的左側(cè)邊緣。類似的是,為確定任何面部是否過于靠近該幀的右側(cè)邊緣,裝置100可以選擇該幀中的最右側(cè)面部和構(gòu)成該面部的像素的最右側(cè)X坐標(biāo)。接著,裝置100可以確定該幀的右側(cè)邊緣(具有X坐標(biāo)Xfflax)與最右側(cè)X坐標(biāo)之間的間隔是否低于該特定閾值。如果是這樣,則最右側(cè)面部過于靠近該巾貞的右側(cè)邊緣。
[0050]為確定任何面部是否過于靠近該幀的上側(cè)邊緣,裝置100可以選擇該幀中的最上側(cè)面部和構(gòu)成該面部的像素的最上側(cè)I坐標(biāo)。接著,裝置100可以確定該幀的上側(cè)邊緣(具有y坐標(biāo)O)與最上側(cè)y坐標(biāo)之間的間隔是否低于特定閾值(該閾值可以和用于X坐標(biāo)的閾值相同或不同)。如果是這樣,則最上側(cè)面部過于靠近該幀的上側(cè)邊緣。最后,為確定任何面部是否過于靠近該幀的下側(cè)邊緣,裝置100可以選擇該幀中的最下側(cè)面部和構(gòu)成該面部的像素的最下側(cè)I坐標(biāo)。接著,裝置100可以確定該幀的下側(cè)邊緣(具有y坐標(biāo)ymax)與最下側(cè)I坐標(biāo)之間的間隔是否低于該特定閾值。如果是這樣,則最下側(cè)面部過于靠近該幀的下側(cè)邊緣。如果沒有面部過于靠近該幀的任何邊緣,則裝置100可以斷定該幀中的面部居中。
[0051]在某些情況下,一面部可能過于靠近多個(gè)邊緣。例如,面部可能過于靠近上側(cè)邊緣以及左側(cè)邊緣。在這種情況下,裝置100可以確定該面部過于靠近這兩個(gè)邊緣。根據(jù)本發(fā)明的一個(gè)實(shí)施例,下面的列表闡述了裝置100針對一面部可以達(dá)到的九種可能確定。(注意:其它確定也是可以的,并且也在本發(fā)明的范圍內(nèi))。具體來說,裝置100可以確定一面部:
[0052](a)靠近幀的左上側(cè)邊緣(即,該面部過于靠近該幀的上側(cè)邊緣和左側(cè)邊緣兩者);
[0053](b)靠近幀的上側(cè)邊緣(即,該面部僅僅過于靠近該幀的上側(cè)邊緣);
[0054](c)靠近幀的右上側(cè)邊緣(即,該面部過于靠近該幀的上側(cè)邊緣和右側(cè)邊緣兩者);
[0055](d)靠近幀的左側(cè)邊緣(即,該面部僅僅過于靠近該幀的左側(cè)邊緣);
[0056](e)居中;
[0057](f)靠近幀的右側(cè)邊緣(即,該面部僅僅過于靠近該幀的右側(cè)邊緣);
[0058](g)靠近幀的左下側(cè)邊緣(B卩,該面部過于靠近該幀的下側(cè)邊緣和左側(cè)邊緣兩者);
[0059](h)靠近幀的下側(cè)邊緣(S卩,該面部僅僅過于靠近該幀的下側(cè)邊緣);以及
[0060]( i )靠近幀的右下側(cè)邊緣(即,該面部過于靠近該幀的下側(cè)邊緣和右側(cè)邊緣兩者)。
[0061]這九種可能性可以被表示為九種區(qū)域,如圖5所示。這些區(qū)域(A到I)對應(yīng)于幀的各個(gè)區(qū)域。在一個(gè)實(shí)施例中,如果面部的任何部分處于幀的區(qū)域A內(nèi),則裝置100斷定該面部靠近該幀的左上側(cè)邊緣。如果一面部的任何部分處于幀的區(qū)域C內(nèi),則裝置100斷定該面部靠近該幀的右上側(cè)邊緣。如果一面部的任何部分處于幀的區(qū)域G內(nèi),則裝置100斷定該面部靠近該幀的左下側(cè)邊緣,而如果一面部的任何部分處于幀的區(qū)域I內(nèi),則裝置100斷定該面部靠近該幀的右下側(cè)邊緣。
[0062]如果面部的一部分處于區(qū)域B內(nèi)但該面部沒有什么部分處于區(qū)域A或C內(nèi),則裝置100斷定該面部靠近該幀的上側(cè)邊緣。如果面部的一部分處于區(qū)域D內(nèi)但該面部沒有什么部分處于區(qū)域A或G內(nèi),則裝置100斷定該面部靠近幀的左側(cè)邊緣。如果面部的一部分處于區(qū)域F內(nèi)但該面部沒有什么部分處于區(qū)域C或I內(nèi),則裝置100斷定面部靠近幀的右側(cè)邊緣,而如果面部的一部分處于區(qū)域H內(nèi)但該面部沒有什么部分處于區(qū)域G或I內(nèi),則裝置100斷定該面部靠近該幀的下側(cè)邊緣。如果所有面部僅處于區(qū)域E內(nèi),則裝置100斷定這些面部居中。
[0063]圖5所示圖形假定圖像拍攝機(jī)構(gòu)120按橫向取向保持(由此,該幀按橫向取向拍攝)。如果相反地,該幀按縱向取向拍攝,則仍可以使用同一區(qū)域;然而,它們的標(biāo)注將不同。例如,假定圖像拍攝機(jī)構(gòu)120 (并由此,幀)逆時(shí)針旋轉(zhuǎn)90度以導(dǎo)致縱向取向。在這種情況下,區(qū)域C為幀的左上側(cè)邊緣,區(qū)域I為右上側(cè)邊緣,區(qū)域A為左下側(cè)邊緣,而區(qū)域G為右下側(cè)邊緣。在一個(gè)實(shí)施例中,裝置100檢測圖像拍攝裝置120的當(dāng)前取向,并因此調(diào)節(jié)賦予區(qū)域A-1的標(biāo)注。由此,與圖像拍攝機(jī)構(gòu)120的取向無關(guān)地,裝置100按適當(dāng)?shù)嘏c用戶所希望作為左側(cè)、右側(cè)、上側(cè)、下側(cè)等相關(guān)聯(lián)的方式來標(biāo)注區(qū)域。
[0064]可以在幀上執(zhí)行的另一類分析是尺寸分析。利用尺寸分析,裝置100分析在幀中檢測到的一個(gè)或多個(gè)面部的尺寸,并且確定該尺寸是小于特定下限閾值還是大于特定上限閾值(這些閾值可以由用戶指定或者通過裝置100設(shè)置)。如果是這樣,則裝置100可以斷定其需要向用戶發(fā)送該一個(gè)或多個(gè)面部可能太小或太大的警告。出于尺寸分析的目的,裝置100可以分析與所檢測面部相關(guān)聯(lián)的任一個(gè)或多個(gè)尺寸度量。例如,裝置100可以基于面部的寬度、面部的長度、面部的面積等進(jìn)行尺寸分析。
[0065]在一個(gè)實(shí)施例中,裝置100使用幀中的最大面部來執(zhí)行尺寸分析。如果該最大面部的尺寸低于一特定下限閾值,則裝置100可以斷定該幀中的面部太小。如果該最大面部的尺寸高于一特定上限閾值,則該裝置可以斷定該幀中的面部太大。基于最大面部的尺寸分析考慮了其中幀中的一個(gè)面部可能比該幀中的其它面部更加靠近圖像拍攝機(jī)構(gòu)120并由此比其它面部更大得多的情況。在這種情況下,即使該幀可能包含比下限閾值小的許多面部,但不希望裝置100斷定該幀中包含過小的面部。事實(shí)上,最大面部(其很可能是圖像的主要主體)的尺寸可能正好。
[0066]這些和其它類型的分析可以針對該幀執(zhí)行。在一個(gè)實(shí)施例中,在分析該幀之后,存儲(chǔ)屬于該幀的一組元數(shù)據(jù)。該元數(shù)據(jù)例如可以包括:指示幀中檢測到多少面部的信息、指配給這些面部的標(biāo)注或名稱(例如,面部1、Zachary等)、構(gòu)成每一個(gè)面部的像素、有關(guān)每一個(gè)面部的特征信息(例如,尺寸、顏色、面部特征值等)、有關(guān)這些面部的位置信息(例如,這些面部是否居中、過于靠近一邊緣等)、有關(guān)這些面部的尺寸信息(例如,這些面部是可能太小還是太大)等。如在稍后部分中詳細(xì)說明的,該元數(shù)據(jù)將在執(zhí)行隨后處理中使用。
[0067]音頻消息
[0068]在分析該幀之后,裝置100可以經(jīng)由音頻裝置118提供(框212) —個(gè)或多個(gè)音頻消息,以向用戶傳達(dá)分析結(jié)果。這些音頻消息可以是預(yù)記錄消息,或者它們可以利用文本至語音技術(shù)自動(dòng)地生成。
[0069]音頻消息可以包括宣告幀中檢測到的面部數(shù)的音頻消息。例如,如果檢測到兩個(gè)面部,該裝置可以提供說“兩個(gè)面部”的音頻消息。如果在面部識別過程期間,面部被識別,則裝置100可以提供附加的更具體音頻消息。例如,如果該幀中的兩個(gè)面部屬于Zachary和Emily,則該裝置100可以提供說“Zachary”、“Emily”的附加音頻消息。在一個(gè)實(shí)施例中,只有當(dāng)存在來自先前幀的變化時(shí),裝置100才提供這些音頻消息(是否存在來自先前幀的變化可以通過比較來自當(dāng)前幀的元數(shù)據(jù)與來自先前幀的元數(shù)據(jù)來確定)。如果先前幀中僅具有Zachary和Emily,由此意指先前已經(jīng)提供了音頻消息“兩個(gè)面部”、“Zachary”、“Emily”,則裝置100不重復(fù)這些消息。然而,如果當(dāng)前幀現(xiàn)在包含不同數(shù)量或不同組的面部識別,例如,添加屬于Anna的第三面部,則該裝置提供更新音頻消息(例如,“三個(gè)面部”、“Zachary”、“Emily”、“Anna”)。在某些情況下,可以識別該幀中的一些面部而其它面部不識別。在這種情況下,裝置100可以宣告所識別面部的姓名,并且向該一個(gè)或多個(gè)其它面部指配標(biāo)志(例如,“四個(gè)面部”、“Zachary”、“Emily”、“未知面部1”、“未知面部2”)。
[0070]該裝置100還可以提供有關(guān)該幀內(nèi)的面部尺寸的音頻消息。例如,如果面部過于靠近該幀的左側(cè)邊緣,則裝置100可以提供說“面部靠左邊”的音頻消息。如果一面部過于靠近該幀的左側(cè)邊緣和上側(cè)邊緣兩者,則裝置100可以提供說“面部靠左上邊”的音頻消息。如果一面部過于靠近該巾貞的上側(cè)邊緣、右側(cè)邊緣、下側(cè)邊緣、右上側(cè)邊緣、左下側(cè)邊緣,或右下側(cè)邊緣(參見圖5,針對該幀的各個(gè)區(qū)域),則可以提供類似音頻消息。如果這些面部在該幀內(nèi)居中,則裝置100可以提供說“面部居中”的音頻消息(或者根本不提供位置消息)。
[0071]裝置100還可以提供有關(guān)該幀內(nèi)的面部尺寸的音頻消息。例如,如果面部太小,則裝置100可以提供說“面部小”的音頻消息。如果另一方面,一面部幾乎充滿整個(gè)幀,則該裝置可以提供說“面部全寬”的音頻消息。如果面部既不太小也不太大,則裝置100可以根本不提供尺寸消息(或者可以可選地提供說“面部大小適當(dāng)”的音頻消息)。
[0072]可以將這些和其它音頻消息提供給用戶。響應(yīng)于這些音頻消息,用戶可以改變圖像拍攝機(jī)構(gòu)120的定位、更靠近或更遠(yuǎn)離主體移動(dòng)、調(diào)節(jié)圖像拍攝機(jī)構(gòu)120的縮放因子等。例如,如果用戶希望拍攝三個(gè)主體,但當(dāng)前僅檢測到兩個(gè)面部,則用戶可以重定位圖像拍攝機(jī)構(gòu)120以拍攝全部三個(gè)主體。而且,如果面部過于靠近幀的邊緣,則該用戶可以移動(dòng)圖像拍攝機(jī)構(gòu)120,以將該主體更好居中。而且,如果面部太小或太大,則用戶可以更靠近或更遠(yuǎn)離主體移動(dòng),或者調(diào)節(jié)圖像拍攝機(jī)構(gòu)120的縮放因子。這些和其它調(diào)節(jié)可以由用戶進(jìn)行。
[0073]響應(yīng)用戶輸入
[0074]作為調(diào)節(jié)過程的一部分,用戶可能希望獲知各個(gè)面部位于幀內(nèi)的什么地方。在這點(diǎn)上,為幫助用戶,裝置100允許用戶觸摸其上顯示了該幀的觸敏顯示器116。裝置100檢查(框216)該用戶輸入,以確定該用戶當(dāng)前是否在觸摸顯示器116的一部分。如果沒有檢測到這種用戶輸入,則裝置100進(jìn)行至框224。然而,如果檢測到指示用戶當(dāng)前在觸摸顯示器116的一部分的用戶輸入,則裝置100響應(yīng)于該用戶輸入繼續(xù)進(jìn)行以提供恰當(dāng)?shù)囊纛l消息(框220)。在一個(gè)實(shí)施例中,裝置100通過確定觸敏顯示器116的哪部分當(dāng)前被觸摸來這樣做。裝置100將其與幀中的一個(gè)或多個(gè)像素相關(guān)聯(lián)。接著,裝置100確定這些像素是否對應(yīng)于構(gòu)成該幀中的面部之一的像素?;谠摯_定,裝置100向用戶提供恰當(dāng)?shù)囊纛l消息。例如,如果被用戶觸摸的部分不對應(yīng)于該幀中的任何面部,則裝置100可以提供蜂鳴聲音(或用戶選擇的某一其它聲音,或完全接受為意指“沒有什么”的聲音的聲音,或者根本沒有聲音)。另一方面,如果所觸摸部分的確對應(yīng)于該幀中的一面部,則該裝置可以提供指示其的音頻消息。例如,音頻消息可以說“面部I”。如果該面部在面部識別處理期間被識別,則音頻消息可以更具體。例如,如果所觸摸部分對應(yīng)于Zachary的面部,則音頻消息可以說“Zachary”。利用這種功能,用戶能夠確定面部位于幀內(nèi)的什么地方,并且它們怎樣彼此相對定位。這使得用戶能夠在永久性拍攝一圖像之前“視覺化”該幀(例如,創(chuàng)建主體的組成和排列的構(gòu)思模型)。
[0075]在一個(gè)實(shí)施例中,當(dāng)在框220中提供音頻消息之后,裝置循環(huán)回至框216以確定用戶是否仍在觸摸顯示器116。如果是,則裝置100可以進(jìn)行至框220以向用戶提供另一音頻消息。在一個(gè)實(shí)施例中,只有當(dāng)改變了用戶輸入時(shí),裝置100才提供另一音頻消息(例如,用戶在觸摸顯示器116的不同部分)。利用該循環(huán),用戶能夠觸摸顯示器116,將他/她的手指移動(dòng)至幀的各個(gè)部分,并且接收針對他/她觸摸的各個(gè)部分的音頻反饋。在一個(gè)實(shí)施例中,裝置100在進(jìn)行至框224之前,執(zhí)行該循環(huán)達(dá)特定次數(shù)或者特定時(shí)段。
[0076]在框224,裝置110檢查指示用戶希望拍攝圖像拍攝機(jī)構(gòu)120對著的場景的永久性圖像的用戶輸入(例如,觸摸一控制部或進(jìn)行移動(dòng)或手勢)。如果沒有檢測到這種用戶輸入,則裝置100循環(huán)回至框204以重復(fù)上述操作。由此,預(yù)拍攝幀、分析該幀、以及向用戶提供音頻反饋的過程是一迭代過程。每一迭代都提供更新信息以幫助用戶重定位和/或調(diào)節(jié)圖像拍攝機(jī)構(gòu)120,更靠近或更遠(yuǎn)離主體移動(dòng)等。通過響應(yīng)于經(jīng)由該迭代過程接收的音頻消息而進(jìn)行調(diào)節(jié),用戶可以獲得他/她希望的精確圖像。
[0077]幀跟蹤
[0078]如上明確的,該圖像預(yù)拍攝調(diào)節(jié)過程涉及拍攝和分析多個(gè)幀。為防止混淆用戶,一個(gè)幀中的一面部所使用的標(biāo)志應(yīng)當(dāng)在其它幀中保持相同。例如,如果一面部在一個(gè)幀中被稱為“面部1”,則該面部在隨后幀中也應(yīng)被稱為“面部1”,即使該面部在隨后幀中已經(jīng)移動(dòng)至顯著不同的位置。在一個(gè)實(shí)施例中,為保持這種幀至幀的一致性,裝置100執(zhí)行幀跟蹤。利用幀跟蹤,該裝置嘗試從一個(gè)幀至下一個(gè)幀來跟蹤每一個(gè)面部。更具體地說,對于一幀中的每一個(gè)面部,裝置100嘗試關(guān)聯(lián)該面部與前一個(gè)幀中的面部。這可以利用來自當(dāng)前幀的元數(shù)據(jù)和來自前一個(gè)幀的元數(shù)據(jù)來進(jìn)行。
[0079]這種關(guān)聯(lián)可以基于各種因素來進(jìn)行。例如,裝置100可以基于面部具有類似尺寸、形狀、顏色或其它面部特征的事實(shí)來關(guān)聯(lián)一個(gè)幀中的面部與之前幀中的面部。面部關(guān)鍵點(diǎn)還可以被用于跟蹤面部移動(dòng),并且跨多個(gè)幀保持面部關(guān)聯(lián)(例如,即使該面部在移動(dòng),也保持跟蹤該面部為面部I)。關(guān)鍵點(diǎn)是可以被選擇為在跟蹤一對象(例如,面部)的運(yùn)動(dòng)中使用的良好點(diǎn)的圖像特征。關(guān)聯(lián)還可以基于面部在兩個(gè)幀中的相對位置來進(jìn)行。在一面部不太可能從一個(gè)幀到下一幀移動(dòng)非常多的假定下,裝置100可以關(guān)聯(lián)一個(gè)幀中的一面部與之前幀中的位置相對靠近的一面部。如果在當(dāng)前幀中的一面部與前一幀中的一面部之間進(jìn)行關(guān)聯(lián),則用于之前幀中的面部的標(biāo)志將被用于當(dāng)前幀中的關(guān)聯(lián)面部。由此,將面部標(biāo)志從一幀至一幀傳遞,以促進(jìn)一致性。
[0080]為例示面部跟蹤,對圖3的示例進(jìn)行說明,其例示了四個(gè)幀。在幀I中,較大的“面部I”處于左側(cè),而較小的“面部2”處于右側(cè)。在幀2中,較小面部已經(jīng)稍微向上并向左移動(dòng),而較大面部已經(jīng)稍微向下并向右移動(dòng)?;诙鄠€(gè)因素,其可以包括面部的尺寸和它們在幀I與2之間的相對定位,裝置100繼續(xù)將較大面部標(biāo)志為“面部I”而將較小面部標(biāo)志為“面部2”。在幀3中,較小面部已經(jīng)進(jìn)一步移動(dòng)到左側(cè),而較大面部已經(jīng)進(jìn)一步移動(dòng)到右側(cè)。此外,基于多個(gè)因素(可以包括面部的尺寸和它們在幀2與3之間的相對定位),裝置100繼續(xù)將較大面部標(biāo)志為“面部I”而將較小面部標(biāo)志為“面部2”。最后,在幀4中,較小面部已經(jīng)稍微向下移動(dòng),而較大面部已經(jīng)稍微向上移動(dòng)。此外,基于多個(gè)因素,其可以包括面部的尺寸和它們在幀3與4之間的相對定位,裝置100繼續(xù)將較大面部標(biāo)志為“面部I”而將較小面部標(biāo)志為“面部2”。由此,即使這兩個(gè)面部完成交換位置,裝置100也因幀跟蹤而獲知,仍繼續(xù)將較大面部標(biāo)志為“面部I”而將較小面部標(biāo)志為“面部2”。該功能幫助防止在用戶收聽由裝置100提供的音頻消息時(shí)混淆用戶。
[0081]圖像拍攝
[0082]有時(shí),用戶將滿意處于幀中的圖像。此時(shí),用戶提供指示用戶希望拍攝該場景的永久性圖像的某一輸入(例如,觸摸一控制部或進(jìn)行移動(dòng)或手勢)。該輸入在框224處通過裝置100檢測,并且作為響應(yīng),該裝置拍攝(框228)該圖像(利用圖像拍攝機(jī)構(gòu)120),并將該圖像永久性地存儲(chǔ)在存儲(chǔ)部106中。
[0083]在一個(gè)實(shí)施例中,一拍攝永久性圖像,裝置100就分析該圖像,以導(dǎo)出(框232) —組元數(shù)據(jù)(該元數(shù)據(jù)可以被稱為面部/對象位置和識別元數(shù)據(jù))。此后,將該元數(shù)據(jù)存儲(chǔ)。在一個(gè)實(shí)施例中,該元數(shù)據(jù)與該圖像一起存儲(chǔ)(為例示起見,在下面的討論中,假定元數(shù)據(jù)與圖像一起存儲(chǔ))。另選的是,該元數(shù)據(jù)可以存儲(chǔ)在儲(chǔ)存庫(例如,數(shù)據(jù)庫、文件系統(tǒng)等)中,并且與該圖像相關(guān)聯(lián)。如果該圖像的元數(shù)據(jù)已經(jīng)預(yù)先導(dǎo)出(例如,作為在圖像取景過程期間向用戶提供音頻反饋的一部分),則該元數(shù)據(jù)(其之前被存儲(chǔ))可以被用作所拍攝圖像的元數(shù)據(jù)。另外,所拍攝圖像的元數(shù)據(jù)可以新導(dǎo)出。在導(dǎo)出元數(shù)據(jù)時(shí),裝置100可以執(zhí)行若干功能。例如,裝置100可以向所拍攝圖像應(yīng)用面部檢測技術(shù)(按先前描述的方式)以確定圖像中有多少面部。所檢測面部的數(shù)量可以被存儲(chǔ)為所拍攝圖像的元數(shù)據(jù)的一部分。另外,作為面部檢測過程的一部分,裝置100可以識別(按先前描述的方式)構(gòu)成該圖像中的面部的像素。利用該信息,裝置100將能夠在稍后時(shí)間確定這些面部位于所拍攝圖像內(nèi)的什么地方。另外,裝置100可以將該面部內(nèi)的特定像素組識別為面部的子組分(例如,眼睛、鼻子、嘴等)。全部該像素信息可以被存儲(chǔ)為所拍攝圖像的元數(shù)據(jù)的一部分。而且,裝置100可以應(yīng)用面部識別技術(shù)(按先前描述的方式)以識別呈現(xiàn)在所拍攝圖像中的面部。利用該信息,裝置100可能夠關(guān)聯(lián)姓名與所拍攝圖像中的面部。該識別信息還可以被存儲(chǔ)為所拍攝圖像的元數(shù)據(jù)的一部分。這些和其它元數(shù)據(jù)集可以導(dǎo)出并與所拍攝圖像一起存儲(chǔ)。
[0084]一旦導(dǎo)出元數(shù)據(jù),其就可以被裝置100使用。在一個(gè)實(shí)施例中,恰好在永久性拍攝該圖像之后或此后不久,裝置100使用該元數(shù)據(jù)來向用戶提供有關(guān)所拍攝圖像的音頻反饋(框236)。例如,如果元數(shù)據(jù)指示所拍攝圖像具有屬于Zachary和Emily的兩個(gè)面部,貝Ij裝置可以向用戶提供說“兩個(gè)面部”、“ZaChary”、“Emily”的音頻消息。該音頻反饋向用戶提供剛才拍攝了什么圖像的確認(rèn)。在一個(gè)實(shí)施例中,在提供該音頻反饋之后,裝置100循環(huán)回至框204以幫助用戶準(zhǔn)備拍攝另一圖像。
[0085]拍攝圖像回顧功能
[0086]在永久性拍攝并存儲(chǔ)一圖像之后的某個(gè)時(shí)間,用戶可能希望回顧該圖像。參照圖4,示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的、例示由裝置100執(zhí)行的用于幫助用戶回顧圖像的操作的流程圖。為調(diào)用這些操作,弱視用戶可以與裝置100交互,以設(shè)置用于利用裝置100的音頻消息發(fā)送能力的某些用戶設(shè)置(如果這尚未進(jìn)行過)。接著,該用戶可以調(diào)用利用音頻消息發(fā)送能力的應(yīng)用112 (例如,圖像回顧應(yīng)用)。在進(jìn)行該調(diào)用之后,裝置100將執(zhí)行圖4所示操作。
[0087]最初,裝置100檢索并在觸敏顯示器116上顯示(框404)所拍攝圖像。作為該檢索的一部分,裝置100還存取與該圖像一起存儲(chǔ)的元數(shù)據(jù)。基于該元數(shù)據(jù),裝置100向用戶提供(框408)—個(gè)或多個(gè)音頻消息以向用戶通知該圖像的內(nèi)容。例如,裝置100可以提供指示該圖像中有多少面部的音頻消息。如果該圖像中存在兩個(gè)面部,則音頻消息可以說“兩個(gè)面部”。如果與所拍攝圖像一起存儲(chǔ)的元數(shù)據(jù)包括針對圖像中的面部的識別信息,則裝置可以提供指定誰處于該圖片中的一個(gè)或多個(gè)音頻消息。例如,如果該圖像中的面部屬于Zachary和Emily,則裝置100可以提供說“Zachary”、“Emily”的音頻消息。在某些情況下,可以識別該圖像中的一些面部而其它面部不識別。在這種情況下,裝置100可以宣告所識別面部的姓名,并且向該一個(gè)或多個(gè)其它面部分配標(biāo)志。例如,裝置100可以提供說“Zachary”、“Emily”、“未知面部1”、“未知面部2”的音頻消息。
[0088]屬于其它元數(shù)據(jù)的其它音頻消息也可以提供給用戶。例如,裝置100可以提供宣告圖像拍攝的日期、圖像拍攝的地點(diǎn)、圖像所關(guān)聯(lián)的相冊等的音頻消息。所有這種信息都提供幫助用戶欣賞該圖像的上下文。
[0089]作為回顧該圖像的一部分,用戶可希望獲知各個(gè)面部位于圖像內(nèi)的什么地方。在這點(diǎn)上,為幫助用戶,裝置100允許用戶觸摸其上顯示了該圖像的觸敏顯示器116。裝置100檢查(框412)該用戶輸入以確定該用戶當(dāng)前是否在觸摸顯示器116的一部分。如果沒有檢測到這種用戶輸入,則裝置100循環(huán)并繼續(xù)檢查用戶輸入。然而,如果檢測到指示用戶當(dāng)前在觸摸顯示器116的一部分的用戶輸入,則裝置100響應(yīng)于該用戶輸入繼續(xù)進(jìn)行以提供(框416)恰當(dāng)?shù)囊纛l消息。在一個(gè)實(shí)施例中,裝置100通過確定哪部分,并由此確定該圖像的哪些像素當(dāng)前被用戶觸摸來進(jìn)行這些操作。接著,裝置100確定這些像素是否對應(yīng)于構(gòu)成圖片中的面部之一的像素。該確定可以利用與圖像一起存儲(chǔ)的像素元數(shù)據(jù)來進(jìn)行(該像素元數(shù)據(jù)指定構(gòu)成圖像中的每一個(gè)面部的像素)?;谠摯_定,裝置100向用戶提供恰當(dāng)?shù)囊纛l消息。例如,如果被用戶觸摸的部分不對應(yīng)于幀中的任何面部,則裝置100可以提供蜂鳴聲音(或用戶選擇的某一其它聲音,或完全接受為意指“什么都沒有”的聲音的聲音,或者根本沒有聲音)。另一方面,如果所觸摸部分的確對應(yīng)于該幀中的一面部,則該裝置可以提供指示其的音頻消息。例如,該音頻消息可以說“未知面部I”。如果該面部在面部識別處理期間被識別,則該音頻消息可以更具體。例如,如果所觸摸部分對應(yīng)于Zachary的面部,則該音頻消息可以說“Zachary”。而且,如果該面部的所觸摸部分對應(yīng)于該面部的子組分之一(例如,眼睛、鼻子、嘴等),則該裝置可以提供甚至更加具體的音頻消息。例如,如果所觸摸部分對應(yīng)于Zachary的嘴,則裝置100可以提供說“Zachary”、“嘴”的音頻消息。利用該功能,用戶能夠確定面部位于圖像內(nèi)的什么地方,并且它們怎樣彼此相對定位。這使得用戶能夠“看得見”圖像。
[0090]在一個(gè)實(shí)施例中,在在框416中提供音頻消息之后,裝置100循環(huán)回至框412以確定用戶是否仍在觸摸顯示器116。如果是這樣,裝置100可以進(jìn)行至框416以向用戶提供另一音頻消息。在一個(gè)實(shí)施例中,只有當(dāng)改變了用戶輸入時(shí),裝置100才提供另一音頻消息(例如,用戶在觸摸顯示器116的不同部分)。利用該循環(huán),用戶能夠觸摸顯示器116,將他/她的手指移動(dòng)至圖像的各個(gè)部分,并且接收針對他/她觸摸的各個(gè)部分的音頻反饋。利用這種功能,弱視用戶能夠確定面部位于所拍攝圖像內(nèi)的什么地方,并且它們怎樣彼此相對定位。這使得用戶能夠“視覺化”該圖像(例如,創(chuàng)建該圖像內(nèi)的主體的組成和排列的構(gòu)思模型),由此產(chǎn)生增強(qiáng)的圖像回顧體驗(yàn)。
[0091]不僅在圖像回顧期間,而且在其它背景下也可以向用戶提供音頻反饋。例如,音頻反饋可以在用戶在編輯(不是僅回顧)圖像的同時(shí)提供給該用戶。例如,如果用戶在與剪裁調(diào)節(jié)交互,則可以提供音頻消息以向用戶通知已經(jīng)改變了面部的數(shù)量(例如,作為剪裁操作的結(jié)果,以此前相比,現(xiàn)在該圖像中存在更少的面部)。總的來說,在圖像預(yù)拍攝過程期間提供的所有音頻消息可以在編輯/裁剪過程期間提供。在這些和其它背景中使用音頻反饋處于本發(fā)明的范圍內(nèi)。
[0092]在上面的討論中,假定用戶回顧的圖像是利用裝置100拍攝的圖像;因此,針對該圖像的面部/對象位置和識別元數(shù)據(jù)已經(jīng)生成并存儲(chǔ)。然而,可能存在其中圖像可能沒有任何面部/對象位置和識別元數(shù)據(jù)的情況。例如,該圖像可以是在沒有任何這種元數(shù)據(jù)的情況下接收的圖像,或者利用不生成這種元數(shù)據(jù)的裝置拍攝的圖像。如果該圖像沒有任何關(guān)聯(lián)面部/對象位置和識別元數(shù)據(jù),則裝置100可以按先前描述的方法分析該圖像(例如,利用面部檢測和識別分析),以生成所需求的面部/對象位置和識別元數(shù)據(jù)。一旦導(dǎo)出,該元數(shù)據(jù)就可以被裝置100用于按上述方式向用戶提供音頻反饋。
[0093]修改例/增強(qiáng)例
[0094]在上面的描述中,應(yīng)用該檢測和識別技術(shù)以檢測并且識別面部。應(yīng)注意到,本發(fā)明并不因而受限。相反地,該檢測和識別技術(shù)同樣可以被應(yīng)用于檢測和識別其它項(xiàng)目,如接合至面部的身體、圖像中的其它物體和區(qū)域(例如,房子、汽車、樹木、天空、草等)等。而且,該檢測和識別可以擴(kuò)展至任何希望顆粒度。例如,它們可以不僅被用于檢測接合至面部的身體,而是也被用于區(qū)分身體的軀干與腿和胳膊,以區(qū)分手指與胳膊等。另外,收集并存儲(chǔ)的像素信息可以更加詳細(xì)說明。利用更詳細(xì)的像素信息,并且利用敘述該像素信息的更多音頻消息,用戶可以在他/她觸摸其上顯示了一圖像的觸敏顯示器時(shí)獲得更多信息。例如,當(dāng)用戶觸摸示出了一棵樹的圖像的一部分時(shí),裝置100可以說“樹”。當(dāng)用戶觸摸諸如天空或草的區(qū)域時(shí),可以播放一個(gè)或多個(gè)音頻消息,以允許用戶在探測該圖像時(shí)聽到這些要素。當(dāng)用戶觸摸與Zachary的胳膊相對應(yīng)的一部分時(shí),裝置100可以說“Zachary的胳膊”。通過跟蹤胳膊的位置,用戶能夠覺察該胳膊是抬高還是放低。胳膊末端的手指是否在做“安靜”手勢等。利用該附加細(xì)節(jié),用戶可以獲得拍攝圖像的設(shè)置和該圖像中的主體在做什么的更清晰概念。可以制成這些和其它修改例和增強(qiáng)例,并且處于本發(fā)明的范圍內(nèi)。
[0095]在前述說明書中,本發(fā)明的實(shí)施例已經(jīng)參照可以從實(shí)現(xiàn)至實(shí)現(xiàn)改變的許多具體細(xì)節(jié)進(jìn)行了描述。由此,作為本
【發(fā)明內(nèi)容】
、并且是本發(fā)明的 申請人:所希望的單獨(dú)且排它的指示是,采用發(fā)布這種權(quán)利要求的具體形式(包括任何隨后修正)的、根據(jù)該申請發(fā)布的該組權(quán)利要求。在此針對包含在這種權(quán)利要求中的術(shù)語明確地闡述的任何定義應(yīng)約束如在權(quán)利要求中使用的這種術(shù)語的含義。因此,權(quán)利要求書中未明確記載的限制、要素、特性、特征、優(yōu)點(diǎn)或?qū)傩詿o論如何都不應(yīng)限制這種權(quán)利要求書的范圍。本說明書和附圖因此按例示性意義而非限制性意義來考慮。
【權(quán)利要求】
1.一種裝置,包括: 圖像拍攝機(jī)構(gòu);和 圖像處理器,耦接至圖像拍攝機(jī)構(gòu),其中,圖像處理器被配置成使所述裝置執(zhí)行以下操作: 拍攝包括一個(gè)或多個(gè)面部的場景的圖像; 分析該圖像,其中,分析該圖像的步驟包括:檢測該圖像中的所述一個(gè)或多個(gè)面部;以及 向用戶提供具有有關(guān)所述一個(gè)或多個(gè)面部的信息的一個(gè)或多個(gè)音頻消息。
2.根據(jù)權(quán)利要求1所述的裝置,其中,提供一個(gè)或多個(gè)音頻消息包括:向用戶提供指示在圖像中檢測到多少面部的音頻消息。
3.根據(jù)權(quán)利要求1所述的裝置,其中,分析該圖像包括:執(zhí)行面部識別以識別所述一個(gè)或多個(gè)面部中的一個(gè)或多個(gè),并且其中,提供一個(gè)或多個(gè)音頻消息包括:向用戶提供有關(guān)所述一個(gè)或多個(gè)面部中的一個(gè)或多個(gè)的識別信息的一個(gè)或多個(gè)音頻消息。
4.根據(jù)權(quán)利要求1所述的裝置,其中,分析該圖像包括:確定所述一個(gè)或多個(gè)面部如何相對于圖像的一個(gè)或多個(gè)邊緣定位,并且其中,提供一個(gè)或多個(gè)音頻消息包括:向用戶提供指示所述一個(gè)或多個(gè)面部如何相對于圖像的一個(gè)或多個(gè)邊緣定位的音頻消息。
5.根據(jù)權(quán)利要求4`所述的裝置,其中,向用戶提供指示所述一個(gè)或多個(gè)面部如何相對于圖像的一個(gè)或多個(gè)邊緣定位的音頻消息包括:向用戶提供指示所述一個(gè)或多個(gè)面部靠近圖像的一個(gè)或多個(gè)邊緣的音頻消息。
6.根據(jù)權(quán)利要求4所述的裝置,其中,向用戶提供指示所述一個(gè)或多個(gè)面部如何相對于圖像的一個(gè)或多個(gè)邊緣定位的音頻消息包括:向用戶提供指示所述一個(gè)或多個(gè)面部處于圖像的中央部分內(nèi)的音頻消息。
7.根據(jù)權(quán)利要求4所述的裝置,其中,確定所述一個(gè)或多個(gè)面部如何相對于圖像的一個(gè)或多個(gè)邊緣定位包括:確定所述一個(gè)或多個(gè)面部中的一特定面部與圖像的一特定邊緣之間的間隔是否低于一閾值。
8.根據(jù)權(quán)利要求1所述的裝置,其中,分析該圖像包括:確定所述一個(gè)或多個(gè)面部中的至少一特定面部的尺寸,并且其中,提供一個(gè)或多個(gè)音頻消息包括:向用戶提供指示該特定面部的尺寸的音頻消息。
9.根據(jù)權(quán)利要求8所述的裝置,其中,確定該特定面部的尺寸包括:確定該特定面部的尺寸是小于一下限值還是大于一上限值,并且其中,向用戶提供指示該特定面部的尺寸的音頻消息包括:提供以下音頻消息之一: Ca)指示該特定面部小于下限值的音頻消息;或者 (b)指示該特定面部大于上限值的音頻消息。
10.根據(jù)權(quán)利要求1所述的裝置,其中,所述裝置還包括觸敏輸入機(jī)構(gòu),并且其中,所述圖像處理器被配置成使所述裝置還執(zhí)行以下操作: 檢測到用戶正在觸摸輸入機(jī)構(gòu)的特定部分; 關(guān)聯(lián)所述輸入機(jī)構(gòu)的特定部分與圖像的一特定部分; 確定所述圖像的特定部分是否對應(yīng)于所述一個(gè)或多個(gè)面部中的一個(gè)面部;以及 響應(yīng)于確定所述圖像的特定部分對應(yīng)于所述一個(gè)或多個(gè)面部中的一個(gè)面部,向用戶提供具有有關(guān)所述圖像的特定部分所對應(yīng)的面部的信息的一個(gè)或多個(gè)音頻消息。
11.根據(jù)權(quán)利要求10所述的裝置,其中,分析該圖像包括:執(zhí)行面部識別以識別圖像中的所述一個(gè)或多個(gè)面部中的一個(gè)或多個(gè),并且其中,向用戶提供具有有關(guān)所述圖像的特定部分所對應(yīng)的面部的信息的一個(gè)或多個(gè)音頻消息包括:向用戶提供有關(guān)所述圖像的特定部分所對應(yīng)的面部的識別信息的音頻消息。
12.根據(jù)權(quán)利要求1所述的裝置,其中,所述圖像是初始圖像,其中,所述一個(gè)或多個(gè)面部包括一特定面部,并且其中,所述圖像處理器被配置成使所述裝置還執(zhí)行以下操作: 拍攝所述場景的包括該特定面部的隨后圖像; 檢測隨后圖像中的該特定面部; 關(guān)聯(lián)初始圖像中該特定面部與隨后圖像中的該特定面部;以及 關(guān)聯(lián)分配給初始圖像中的該特定面部的標(biāo)志與隨后圖像中的該特定面部,以使對于跨多個(gè)圖像的該特定面部使用同一標(biāo)志。
13.根據(jù)權(quán)利要求1所述的裝置,其中,所述圖像是未存儲(chǔ)為永久性圖像的初始臨時(shí)圖像,并且其中,所述圖像處理器被配置成使所述裝置還執(zhí)行以下操作: 在用戶已經(jīng)響應(yīng)于所述一個(gè)或多個(gè)音頻消息而進(jìn)行了場景取景調(diào)節(jié)之后,拍攝該場景的隨后臨時(shí)圖像,其中,該隨后臨時(shí)圖像未存儲(chǔ)為永久性圖像; 分析隨后臨時(shí)圖像,其中,分析隨后臨時(shí)圖像包括:檢測隨后臨時(shí)圖像中的一個(gè)或多個(gè)面部; 向用戶提供具有有關(guān)隨后臨時(shí)圖像中的所述一個(gè)或多個(gè)面部的信息的一個(gè)或多個(gè)音頻消息; 檢測指示用戶希望拍攝如當(dāng)前取景的場景的永久性圖像的用戶輸入;以及 響應(yīng)于用戶輸入,拍攝如當(dāng)前取景的場景的永久性圖像。
14.根據(jù)權(quán)利要求1所述的裝置,其中,所述圖像處理器包括一個(gè)或多個(gè)處理器和存儲(chǔ)指令的一個(gè)或多個(gè)存儲(chǔ)部,所述指令在通過所述一個(gè)或多個(gè)處理器執(zhí)行時(shí)使所述一個(gè)或多個(gè)處理器使所述裝置執(zhí)行根據(jù)權(quán)利要求1所述的操作。
15.根據(jù)權(quán)利要求1所述的裝置,其中,所述圖像處理器包括多個(gè)部件,包括邏輯部件,其被配置成使所述裝置執(zhí)行根據(jù)權(quán)利要求1所述的操作。
16.一種存儲(chǔ)指令的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述指令在通過裝置的一個(gè)或多個(gè)處理器執(zhí)行時(shí)使所述裝置執(zhí)行以下操作: 拍攝包括一個(gè)或多個(gè)面部的一場景的圖像; 分析該圖像,其中,分析該圖像包括:檢測該圖像中的一個(gè)或多個(gè)面部;以及 向用戶提供具有有關(guān)所述一個(gè)或多個(gè)面部的信息的一個(gè)或多個(gè)音頻消息。
17.根據(jù)權(quán)利要求16所述的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中,提供一個(gè)或多個(gè)音頻消息包括:向用戶提供指示在該圖像中檢測到多少面部的音頻消息。
18.根據(jù)權(quán)利要求16所述的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中,分析該圖像包括:執(zhí)行面部識別以識別所述一個(gè)或多個(gè)面部中的一個(gè)或多個(gè),并且其中,提供一個(gè)或多個(gè)音頻消息包括:向用戶提供有關(guān)所述一個(gè)或多個(gè)面部中的一個(gè)或多個(gè)的識別信息的一個(gè)或多個(gè)音頻消息。
19.根據(jù)權(quán)利要求16所述的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中,分析該圖像包括:確定所述一個(gè)或多個(gè)面部中的至少一特定面部的尺寸,并且其中,提供一個(gè)或多個(gè)音頻消息包括:向用戶提供指示該特定面部的尺寸的音頻消息。
20.根據(jù)權(quán)利要求19所述的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中,確定該特定面部的尺寸包括:確定該特定面部的尺寸是小于一下限值還是大于一上限值,并且其中,向用戶提供指示該特定面部的尺寸的音頻消息包括:提供以下音頻消息之一: Ca)指示該特定面部小于下限值的音頻消息;或者 (b)指示該特定面部大于上限值的音頻消息。
21.根據(jù)權(quán)利要求16所述的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中,所述指令使所述裝置還執(zhí)行以下操作: 檢測到用戶在觸摸輸入機(jī)構(gòu)的特定部分; 關(guān)聯(lián)輸入機(jī)構(gòu)的該特定部分與所述圖像的特定部分; 確定所述圖像的該特定部分是否對應(yīng)于所述一個(gè)或多個(gè)面部中的一個(gè)面部;以及響應(yīng)于確定所述圖像的該特定部分對應(yīng)于所述一個(gè)或多個(gè)面部中的一個(gè)面部,向用戶提供具有有關(guān)所述圖像的該特定部分所對應(yīng)的面部的信息的一個(gè)或多個(gè)音頻消息。
22.根據(jù)權(quán)利要求21所述的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中,分析該圖像包括:執(zhí)行面部識別以識別所述圖像中的所述一個(gè)或多個(gè)面部中的一個(gè)或多個(gè),并且其中,向用戶提供具有有關(guān)所述圖像的該特定部分所對應(yīng)的面部的信息的一個(gè)或多個(gè)音頻消息包括:向用戶提供有關(guān)所述圖像的該特定部分所對應(yīng)的面部的識別信息的音頻消息。
23.一種裝置,包括: 攝像機(jī); 音頻裝置;以及 圖像處理器,耦接至攝像機(jī)和音頻裝置,其中,所述圖像處理器被配置成使所述裝置執(zhí)行以下操作: 拍攝包括一個(gè)或多個(gè)面部的一場景的圖像; 檢測所述圖像中的一個(gè)或多個(gè)面部; 確定所述一個(gè)或多個(gè)面部相距所述圖像的一個(gè)或多個(gè)邊緣是否小于一閾值距離;以及響應(yīng)于確定所述一個(gè)或多個(gè)面部相距所述圖像的一個(gè)或多個(gè)邊緣小于閾值距離,向用戶提供指示所述一個(gè)或多個(gè)面部靠近所述圖像的一個(gè)或多個(gè)邊緣的音頻消息。
24.根據(jù)權(quán)利要求23所述的裝置, 其中,確定所述一個(gè)或多個(gè)面部相距所述圖像的一個(gè)或多個(gè)邊緣是否小于一閾值距離包括: 確定所述一個(gè)或多個(gè)面部相距所述圖像的哪個(gè)或哪些特定邊緣小于閾值距離; 其中,向用戶提供指示所述一個(gè)或多個(gè)面部靠近所述圖像的一個(gè)或多個(gè)邊緣的音頻消息包括: 在音頻消息中指定一個(gè)或多個(gè)特定邊緣。
25.根據(jù)權(quán)利要求23所述的裝置,其中,所述圖像處理器被配置成使所述裝置還執(zhí)行以下操作: 響應(yīng)于確定所述一個(gè)或多個(gè)面部相距所述圖像的任何邊緣不小于閾值距離,向用戶提供指示所述一個(gè)或多個(gè)面部位于所述圖像的中央部分內(nèi)的音頻消息。
26.根據(jù)權(quán)利要求23所述的裝置,其中,所述圖像處理器被配置成使所述裝置還執(zhí)行以下操作: 確定所述一個(gè)或多個(gè)面部中的至少一特定面部的尺寸;以及 向用戶提供指示該特定面部的尺寸的音頻消息。
27.根據(jù)權(quán)利要求26所述的裝置, 其中,確定該特定面部的尺寸包括: 確定該特定面部的尺寸是小于一下限值還是大于一上限值; 其中,向用戶提供指示該特定面部的尺寸的音頻消息包括:提供以下之一: Ca)指示該特定面部小于下限值的音頻消息;或者 (b)指示該特定面部大于上限值的音頻消息。
28.根據(jù)權(quán)利要求23所述的裝置,其中,所述圖像處理器被配置成使所述裝置還執(zhí)行以下操作: 針對所述一個(gè)或多個(gè)面部執(zhí)行面部識別以識別所述一個(gè)或多個(gè)面部中的一個(gè)或多個(gè);并且 向用戶提供有關(guān)所述一個(gè)或多個(gè)面部中的一個(gè)或多個(gè)的識別信息的一個(gè)或多個(gè)音頻消息。
29.根據(jù)權(quán)利要求23所述的裝置,其中,所述裝置還包括觸敏輸入機(jī)構(gòu),并且其中,所述圖像處理器被配置成使所述裝置還執(zhí)行以下操作: 檢測到用戶在觸摸輸入機(jī)構(gòu)的特定部分; 關(guān)聯(lián)所述輸入機(jī)構(gòu)的該特定部分與所述圖像的特定部分; 確定所述圖像的該特定部分是否對應(yīng)于所述一個(gè)或多個(gè)面部中的一個(gè)面部;以及響應(yīng)于確定所述圖像的該特定部分對應(yīng)于所述一個(gè)或多個(gè)面部中的一個(gè)面部,向用戶提供具有有關(guān)所述圖像的該特定部分所對應(yīng)的面部的信息的音頻消息。
30.一種存儲(chǔ)指令的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述指令在通過一裝置的一個(gè)或多個(gè)處理器執(zhí)行時(shí)使所述裝置執(zhí)行以下操作: 拍攝包括一個(gè)或多個(gè)面部的一場景的圖像; 檢測所述圖像中的所述一個(gè)或多個(gè)面部; 確定所述一個(gè)或多個(gè)面部相距所述圖像的一個(gè)或多個(gè)邊緣是否小于一閾值距離;以及響應(yīng)于確定所述一個(gè)或多個(gè)面部相距所述圖像的一個(gè)或多個(gè)邊緣小于閾值距離,向用戶提供指示所述一個(gè)或多個(gè)面部靠近所述圖像的一個(gè)或多個(gè)邊緣的音頻消息。
31.根據(jù)權(quán)利要求30所述的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì), 其中,確定所述一個(gè)或多個(gè)面部相距所述圖像的一個(gè)或多個(gè)邊緣是否小于一閾值距離包括: 確定所述一個(gè)或多個(gè)面部相距所述圖像的哪個(gè)或哪些特定邊緣小于閾值距離; 其中,向用戶提供指示所述一個(gè)或多個(gè)面部靠近所述圖像的一個(gè)或多個(gè)邊緣的音頻消息包括: 指定所述音頻消息中的一個(gè)或多個(gè)特定邊緣。
32.根據(jù)權(quán)利要求30所述的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中,所述指令使所述裝置還執(zhí)行以下操作: 響應(yīng)于確定所述一個(gè)或多個(gè)面部相距所述圖像的任何邊緣不小于閾值距離,向用戶提供指示所述一個(gè)或多個(gè)面部位于所述圖像的中央部分內(nèi)的音頻消息。
33.根據(jù)權(quán)利要求30所述的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中,所述指令使所述裝置還執(zhí)行以下操作: 確定所述一個(gè)或多個(gè)面部中的至少一特定面部的尺寸;以及 向用戶提供指示該特定面部的尺寸的音頻消息。
34.根據(jù)權(quán)利要求33所述的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中,確定該特定面部的尺寸包括: 確定該特定面部的尺寸是小于一下限值還是大于一上限值; 其中,向用戶提供指示該特定面部的尺寸的音頻消息包括:提供以下之一: (a)指示該特定面部小于下限值的音頻消息;或者 (b)指示該特定面部大于上限值的音頻消息。
35.根據(jù)權(quán)利要求30所述的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中,所述指令使所述裝置還執(zhí)行以下操作: 針對所述一個(gè)或多個(gè)面部執(zhí)行面部識別以識別所述一個(gè)或多個(gè)面部中的一個(gè)或多個(gè);以及 向用戶提供具有有關(guān)所述一個(gè)或多個(gè)面部中的一個(gè)或多個(gè)的識別信息的一個(gè)或多個(gè)音頻消息。
36.根據(jù)權(quán)利要求30所述的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中,所述指令使所述裝置還執(zhí)行以下操作: 檢測到用戶正在觸摸輸入機(jī)構(gòu)的特定部分; 關(guān)聯(lián)所述輸入機(jī)構(gòu)的該特定部分與所述圖像的特定部分; 確定所述圖像的該特定部分是否對應(yīng)于所述一個(gè)或多個(gè)面部中的一個(gè)面部;以及響應(yīng)于確定所述圖像的該特定部分對應(yīng)于所述一個(gè)或多個(gè)面部中的一個(gè)面部,向用戶提供具有有關(guān)所述圖像的該特定部分所對應(yīng)的面部的信息的音頻消息。
37.一種裝置,包括: 攝像機(jī); 音頻裝置;以及 圖像處理器,耦接至攝像機(jī)和音頻裝置,其中,所述圖像處理器被配置成使所述裝置執(zhí)行以下操作: 拍攝包括一個(gè)或多個(gè)面部的一場景的圖像; 檢測所述圖像中的所述一個(gè)或多個(gè)面部; 向用戶提供指示在所述圖像中檢測到多少面部的一個(gè)或多個(gè)音頻消息; 確定所述一個(gè)或多個(gè)面部如何相對于所述圖像的一個(gè)或多個(gè)邊緣定位; 向用戶提供指示所 述一個(gè)或多個(gè)面部如何相對于所述圖像的一個(gè)或多個(gè)邊緣定位的一個(gè)或多個(gè)音頻消息; 確定所述一個(gè)或多個(gè)面部中的至少一特定面部的尺寸;以及 向用戶提供指示該特定面部的尺寸的音頻消息。
38.根據(jù)權(quán)利要求37所述的裝置,其中,所述裝置還包括觸敏輸入機(jī)構(gòu),并且其中,所述圖像處理器被配置成使所述裝置還執(zhí)行以下操作: 檢測到用戶正在觸摸輸入機(jī)構(gòu)的特定部分;關(guān)聯(lián)所述輸入機(jī)構(gòu)的該特定部分與所述圖像的特定部分; 確定所述圖像的該特定部分是否對應(yīng)于所述一個(gè)或多個(gè)面部中的一個(gè)面部;以及響應(yīng)于確定所述圖像的該特定部分對應(yīng)于所述一個(gè)或多個(gè)面部中的一個(gè)面部,向用戶提供具有有關(guān)所述圖像的該特`定部分所對應(yīng)的面部的信息的一個(gè)或多個(gè)音頻消息。
【文檔編號】G06K9/00GK103688273SQ201280022569
【公開日】2014年3月26日 申請日期:2012年5月10日 優(yōu)先權(quán)日:2011年6月24日
【發(fā)明者】J·霍蘭德, E·塞默爾, C·弗雷扎齊, D·胡德森 申請人:蘋果公司