專利名稱:分離和評(píng)估音頻和視頻源數(shù)據(jù)的技術(shù)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明的實(shí)施例一般涉及音頻識(shí)別,尤其涉及使用結(jié)合音頻的視頻特征以改善語(yǔ)音處理的技術(shù)。
背景技術(shù):
語(yǔ)音識(shí)別在軟件技術(shù)領(lǐng)域中持續(xù)取得進(jìn)展。主要由于硬件的改善,這些進(jìn)展已成為可能。例如,處理器變得更快速和廉價(jià),且處理器內(nèi)的存儲(chǔ)容量變得更大且更充足。結(jié)果,在處理和存儲(chǔ)器裝置內(nèi)進(jìn)行精確檢測(cè)和處理語(yǔ)音的方面取得了顯著的進(jìn)展。
然而,即使采用最強(qiáng)大的處理器和充足的存儲(chǔ)器,在許多方面中語(yǔ)音識(shí)別仍存在問題。例如,當(dāng)從特定發(fā)言者俘獲音頻時(shí),常有與發(fā)言者環(huán)境相關(guān)聯(lián)的各種背景噪聲。該背景噪聲使得很難檢測(cè)發(fā)言者何時(shí)在說話、并很難檢測(cè)被俘獲音頻的哪些部分應(yīng)歸因于發(fā)言者,而不是被俘獲音頻中屬于背景噪聲的應(yīng)被忽略的部分。
當(dāng)語(yǔ)音識(shí)別系統(tǒng)正監(jiān)視一個(gè)以上的發(fā)言者時(shí),出現(xiàn)另一問題。這可能在諸如在視頻會(huì)議期間兩個(gè)或更多的人通話時(shí)出現(xiàn)。語(yǔ)音可以從通話中適當(dāng)?shù)厥占荒苷_地與發(fā)言者中的特定一個(gè)相關(guān)聯(lián)。此外,在這種存在多個(gè)發(fā)言者的環(huán)境中,兩個(gè)或更多發(fā)言者可能實(shí)際上同時(shí)說話,這對(duì)現(xiàn)有的傳統(tǒng)語(yǔ)音識(shí)別系統(tǒng)產(chǎn)生了值得注意的分辨問題。
最常規(guī)的語(yǔ)音識(shí)別技術(shù)已嘗試通過主要關(guān)注被俘獲的音頻并使用大量的軟件分析以作出某些確定和分辨來解決這些及其它問題。然而,當(dāng)發(fā)生談話時(shí),會(huì)隨發(fā)言者出現(xiàn)視覺變化,即發(fā)言者的嘴部上下移動(dòng)。這些視覺特征可用于提升常規(guī)的語(yǔ)音識(shí)別技術(shù)并用于生成更穩(wěn)健和準(zhǔn)確的語(yǔ)音識(shí)別技術(shù)。
因此,需要相互呼應(yīng)地分離并評(píng)估音頻和視頻的改進(jìn)的語(yǔ)音識(shí)別技術(shù)。
圖1A是用于音頻和視頻分離和評(píng)估的方法的流程圖。
圖1B是具有從圖1A的方法中產(chǎn)生的模型參數(shù)的示例性貝葉斯網(wǎng)絡(luò)的示圖。
圖2是用于音頻和視頻分離和評(píng)估的另一方法的流程圖。
圖3是用于音頻和視頻分離和評(píng)估的又一方法的流程圖。
圖4是音頻和視頻源分離和分析系統(tǒng)的示圖。
圖5是音頻和視頻源分離和分析裝置的示圖。
具體實(shí)施例方式
圖1A是用于分離和評(píng)估音頻和視頻的一種方法的流程圖100A。該方法在計(jì)算機(jī)可訪問媒介中實(shí)現(xiàn)。在一個(gè)實(shí)施例中,處理是駐留在一個(gè)或多個(gè)處理器中并在其中執(zhí)行的一個(gè)或多個(gè)軟件應(yīng)用程序。在一些實(shí)施例中,將軟件應(yīng)用程序包含于用于分發(fā)的可拆卸計(jì)算機(jī)可讀媒介上,并當(dāng)與處理設(shè)備連接時(shí)被載入處理設(shè)備用于執(zhí)行。在另一實(shí)施例中,在網(wǎng)絡(luò)上的諸如服務(wù)器或遠(yuǎn)程服務(wù)的遠(yuǎn)程處理設(shè)備上處理軟件應(yīng)用程序。
在又一實(shí)施例中,軟件指令的一個(gè)或多個(gè)部分從遠(yuǎn)程裝置通過網(wǎng)絡(luò)下載,被安裝于本地處理設(shè)備上并在其上執(zhí)行。對(duì)軟件指令的訪問可通過任何硬連線、無(wú)線或硬連線和無(wú)線網(wǎng)絡(luò)的組合進(jìn)行。此外,在一個(gè)實(shí)施例中,方法處理的一些部分可在處理設(shè)備的固件內(nèi)實(shí)現(xiàn)或者在處理設(shè)備上處理的操作系統(tǒng)內(nèi)實(shí)現(xiàn)。
最初,提供一種環(huán)境,其中將攝像機(jī)和麥克風(fēng)連接到包含方法100A的處理設(shè)備。在一些實(shí)施例中,攝像機(jī)和麥克風(fēng)集成于同一設(shè)備內(nèi)。在其它實(shí)施例中,攝像機(jī)、麥克風(fēng)和具有方法100A的處理設(shè)備全部集成于該處理設(shè)備內(nèi)。如果攝像機(jī)和/或麥克風(fēng)不直接集成入執(zhí)行方法100A的處理設(shè)備,則可經(jīng)由任何硬連線、無(wú)線或者硬連線和無(wú)線連接或變化的組合將視頻和音頻傳遞到處理器。攝像機(jī)電子地俘獲視頻(例如,隨時(shí)間變化的圖像)且麥克風(fēng)電子地俘獲音頻。
處理方法100A的用途是學(xué)習(xí)與貝葉斯網(wǎng)絡(luò)相關(guān)聯(lián)的參數(shù),該貝葉斯網(wǎng)絡(luò)實(shí)際上聯(lián)系與一個(gè)或多個(gè)發(fā)言者相關(guān)聯(lián)的合適音頻(語(yǔ)音),以及還更準(zhǔn)確地識(shí)別和排除與發(fā)言者的環(huán)境相關(guān)聯(lián)的噪聲。為此,該方法在訓(xùn)練期間采樣與發(fā)言者相關(guān)聯(lián)的被俘獲電子音頻和視頻,其中音頻由麥克風(fēng)電子地俘獲而視頻由攝像機(jī)電子地俘獲。音頻-視覺數(shù)據(jù)序列起始于時(shí)間0并持續(xù)到時(shí)間T,其中T是大于0的任意整數(shù)。時(shí)間單位可以是毫秒、微秒、秒、分鐘、小時(shí)等。訓(xùn)練對(duì)話的長(zhǎng)度和時(shí)間單位對(duì)于方法100A來說是可配置參數(shù),并非旨在限制于本發(fā)明的任何特定實(shí)施例。
110處,攝像機(jī)俘獲在其視界內(nèi)與一個(gè)或多個(gè)發(fā)言者相關(guān)聯(lián)的視頻。該視頻與幀相關(guān)聯(lián),且每個(gè)幀與訓(xùn)練對(duì)話的特殊時(shí)間單位相關(guān)聯(lián)。同時(shí),在俘獲視頻時(shí),111處,麥克風(fēng)俘獲與發(fā)言者相關(guān)聯(lián)的音頻。110和111處的視頻和音頻在執(zhí)行方法100A的處理設(shè)備可訪問的環(huán)境內(nèi)被電子地俘獲。
在俘獲視頻幀時(shí),在112處分析或評(píng)估這些視頻幀,以檢測(cè)這些幀內(nèi)俘獲的發(fā)言者的面部和嘴部。檢測(cè)每一幀內(nèi)的面部和嘴部以確定一個(gè)幀何時(shí)指示發(fā)言者的嘴部正在移動(dòng)以及何時(shí)發(fā)言者的嘴部不在移動(dòng)。最初,檢測(cè)面部通過將每一被分析幀的像素區(qū)域限制于被識(shí)別為發(fā)言者面部的區(qū)域來幫助降低檢測(cè)與嘴部相關(guān)聯(lián)的移動(dòng)的復(fù)雜度。
在一個(gè)實(shí)施例中,使用被訓(xùn)練為識(shí)別幀內(nèi)的面部的神經(jīng)網(wǎng)絡(luò)來實(shí)現(xiàn)面部檢測(cè)。對(duì)神經(jīng)網(wǎng)絡(luò)的輸入是具有多個(gè)像素的幀,且輸出是識(shí)別發(fā)言者面部的具有較少像素的原始幀的較小部分。隨后,將表示面部的像素傳遞到像素矢量匹配和分類器,它識(shí)別面部?jī)?nèi)的嘴部并監(jiān)視提供用于進(jìn)行隨后的分析的來自每一面部的嘴部變化。
針對(duì)該步驟的一種技術(shù)是計(jì)算構(gòu)成嘴部區(qū)的像素的總數(shù),對(duì)該區(qū)域連續(xù)幀產(chǎn)生的絕對(duì)差增加了可配置閾值。該閾值是可配置的,且如果超過該閾值,則指示嘴部移動(dòng),而如果未超出,則指示嘴部不在移動(dòng)。被處理幀的序列可用以該閾值可配置的濾波器大小(例如9或其它)進(jìn)行低通濾波,以生成與視覺特征相關(guān)聯(lián)的二進(jìn)制序列。
在113處生成視覺特征,并使其與幀相關(guān)聯(lián)以指示哪些幀具有嘴部移動(dòng)并指示哪些幀中的嘴部沒有移動(dòng)。這樣,跟蹤并監(jiān)視每個(gè)幀,以在為所俘獲的視頻處理各幀時(shí)確定發(fā)言者的嘴部何時(shí)移動(dòng)何時(shí)不移動(dòng)。
以上的用于在視頻幀內(nèi)識(shí)別發(fā)言者何時(shí)說話和不說話的示例技術(shù)并非旨在限制本發(fā)明的實(shí)施例。諸示例被提供用于說明目的,且用于識(shí)別幀內(nèi)的嘴部何時(shí)相對(duì)于先前處理的幀移動(dòng)或不移動(dòng)的任何技術(shù)都被認(rèn)為落在本發(fā)明的實(shí)施例內(nèi)。
120處,使用來自麥克風(fēng)的音頻數(shù)據(jù)和視覺特征兩者將混合的音頻和視頻相互分開。使音頻與直接對(duì)應(yīng)于未采樣的俘獲的視頻幀的時(shí)間線相關(guān)聯(lián)。應(yīng)注意,視頻幀以與聲音信號(hào)不同的速率進(jìn)行俘獲(當(dāng)前的設(shè)備常允許以14.4Kfps(千幀每秒)俘獲音頻時(shí)以30fps(幀每秒)俘獲視頻)。此外,視頻的每一幀都包括視覺特征,它標(biāo)識(shí)發(fā)言者的嘴部何時(shí)移動(dòng)和不移動(dòng)。接著,為具有指示發(fā)言者嘴部移動(dòng)的視覺特征的相應(yīng)幀的同一時(shí)間片選擇音頻。即,130處,在與這些幀和音頻兩者相關(guān)聯(lián)的相同時(shí)間片期間,將與這些幀相關(guān)聯(lián)的視覺特征與音頻相匹配。
結(jié)果是用于語(yǔ)音分析的音頻的更準(zhǔn)確的表示,因?yàn)橐纛l反映了發(fā)言者何時(shí)在說話。此外,當(dāng)攝像機(jī)俘獲一個(gè)以上的發(fā)言者時(shí),音頻可屬于特定的發(fā)言者。這允許從同不同音頻特征相關(guān)聯(lián)的不同發(fā)言者的話音中辨認(rèn)出與個(gè)別音頻特征相關(guān)聯(lián)的一個(gè)發(fā)言者的話音。此外,可容易地識(shí)別來自其它幀(不示出嘴部移動(dòng)的幀)的潛在噪聲以及其頻帶,并通過發(fā)言者說話時(shí)與發(fā)言者相關(guān)聯(lián)的頻帶進(jìn)行編輯。這樣,實(shí)現(xiàn)了語(yǔ)音的更準(zhǔn)確的反映并將其從發(fā)言者的環(huán)境中過濾出,且即使在兩個(gè)發(fā)言者同時(shí)說話時(shí)也可更準(zhǔn)確地鑒別與不同發(fā)言者相關(guān)聯(lián)的語(yǔ)音。
與準(zhǔn)確地分開音頻和視頻相關(guān)聯(lián)并適當(dāng)?shù)貙⒁纛l與特定發(fā)言者的音頻選擇部分再匹配相關(guān)聯(lián)的屬性和參數(shù)可被公式化和表示,用于在貝葉斯網(wǎng)絡(luò)中將該分離和再匹配建模。例如,音頻和視頻觀察可表示為Zjt=[WitXit...WitXMt]T,t=1-T(其中T是整數(shù)),這可作為混合音頻觀察Xjt(j=1-M,其中M是麥克風(fēng)數(shù))和視覺特征Wit(i=1-N,其中N是音頻-視覺源或發(fā)言者的數(shù)量)之間的乘法獲得。通過允許在未觀察到視覺語(yǔ)音時(shí)急劇減小音頻信號(hào),音頻和視覺觀察的這種選擇改善了無(wú)聲檢測(cè)。音頻和視覺語(yǔ)音混合處理可由以下的等式給出(1).P(st)=ΠiP(sit);]]>(2).P(sit)~N(O,Cs);(3).P(sit|sit-1)~N(bsit-1,Css);(4).P(xit|sit)~IN(∑aijsjt,Cx);和(5).P(zit|sit)~IN(Vist,Cz).
在等式(1)-(5)中,sit是與時(shí)間t時(shí)的第i個(gè)發(fā)言者相對(duì)應(yīng)的音頻樣本,且Cs是音頻樣本的協(xié)方差矩陣。等式(1)描述了音頻源的統(tǒng)計(jì)獨(dú)立性。等式(2)描述了平均數(shù)0的高斯密度函數(shù)且協(xié)方差Cs描述了每個(gè)源的聲音樣本。等式(3)中的參數(shù)b描述了與同一發(fā)言者相對(duì)應(yīng)的連續(xù)音頻樣本之間的線性關(guān)系,且Css是連續(xù)時(shí)刻處聲音樣本的協(xié)方差矩陣。等式(4)示出了描述聲音混合處理的高斯密度函數(shù),其中A=[aij](i=1-N,j=1-M)是音頻混合矩陣且Cx是混合的被觀察音頻信號(hào)的協(xié)方差矩陣。Vi是使得音頻-視覺觀察Zit與未知分離源信號(hào)相關(guān)的M×N矩陣,且Cz是音頻-視覺觀察zit的協(xié)方差矩陣。該音頻和視覺貝葉斯混合模型可被視為具有源獨(dú)立約束(以上等式(1)中所標(biāo)識(shí))的卡爾曼濾波器。在學(xué)習(xí)模型參數(shù)過程中,音頻觀察的加白(whitening)提供了矩陣A的初步估計(jì)。使用最大似然估計(jì)法學(xué)習(xí)模型參數(shù)A、V、bi、Cs、Css和Cz。此外,使用約束的卡爾曼濾波器和學(xué)習(xí)到的參數(shù)來估計(jì)這些源。這些參數(shù)可用于配置根據(jù)視覺觀察和噪聲將發(fā)言者語(yǔ)音建模的貝葉斯網(wǎng)絡(luò)。具有模型參數(shù)的樣本貝葉斯網(wǎng)絡(luò)在圖1B中的示圖100B中描述。
圖2是用于音頻和視頻分離和評(píng)估的另一方法200的流程圖。方法200在計(jì)算機(jī)可讀和可訪問媒介中實(shí)現(xiàn)。方法200的處理可在操作系統(tǒng)內(nèi)、固件內(nèi)、與執(zhí)行方法200的處理設(shè)備相關(guān)聯(lián)的存儲(chǔ)器或存儲(chǔ)設(shè)備內(nèi)、或者上述方法用作遠(yuǎn)程服務(wù)的遠(yuǎn)程處理設(shè)備內(nèi)的可拆卸計(jì)算機(jī)可讀媒體上整體或部分地實(shí)現(xiàn)。與方法200相關(guān)聯(lián)的指令可在網(wǎng)絡(luò)上訪問,該網(wǎng)絡(luò)可以是硬連線的、無(wú)線的或者硬連線和無(wú)線的組合。
最初,配置一個(gè)攝像機(jī)和一個(gè)麥克風(fēng)或者多個(gè)攝像機(jī)和麥克風(fēng),以監(jiān)視并俘獲與一個(gè)或多個(gè)發(fā)言者相關(guān)聯(lián)的視頻和音頻。音頻和視覺信息在210處被電子俘獲或記錄。接著,211處,將視頻與音頻分離,但視頻和音頻保持使時(shí)間與每一視頻幀并與每一記錄音頻相關(guān)聯(lián)的元數(shù)據(jù),使得在需要時(shí)可在以后的階段將視頻和音頻再混合。例如,可將視頻的幀1與時(shí)間1相關(guān)聯(lián),且在時(shí)間1,具有與音頻相關(guān)聯(lián)的音頻片1。該時(shí)間相關(guān)是與視頻和音頻相關(guān)聯(lián)的元數(shù)據(jù),并可用于將視頻和音頻再混合或再集成到單個(gè)多媒體數(shù)據(jù)文件中。
接著,在220和221處,為獲取視覺特征并使該特征與每一個(gè)幀相關(guān)聯(lián)而分析視頻幀。視覺特征識(shí)別發(fā)言者的嘴部何時(shí)移動(dòng)或不移動(dòng),給出關(guān)于發(fā)言者何時(shí)說話的視覺線索。在一些實(shí)施例中,在211處分離視頻和音頻之前俘獲或確定視覺特征。
在一個(gè)實(shí)施例中,通過在222處處理神經(jīng)網(wǎng)絡(luò)以將每個(gè)幀內(nèi)處理所需的像素減少到表示發(fā)言者面部的一組像素,使視覺線索與每一視頻幀相關(guān)聯(lián)。一旦知道面部區(qū)域,在223處,被處理的幀的面部像素被傳到檢測(cè)發(fā)言者的嘴部何時(shí)移動(dòng)或不移動(dòng)的過濾算法。過濾算法跟蹤先前處理的幀,以便當(dāng)檢測(cè)到發(fā)言者嘴部移動(dòng)(張開)時(shí),可以相對(duì)于先前處理的幀確定發(fā)言者正在說話。與每個(gè)視頻幀相關(guān)聯(lián)的元數(shù)據(jù)包括視覺特征,它識(shí)別發(fā)言者的嘴部何時(shí)移動(dòng)或不移動(dòng)。
一旦處理了所有視頻幀,如果音頻和視頻未被分開則在211處分開它們,隨后在230處可以將視頻和音頻相互再匹配或再混合。在匹配處理期間,在231處,將具有指示發(fā)言者嘴部移動(dòng)的視覺特征的幀與同一時(shí)間片內(nèi)的音頻再混合。例如,假定視頻幀5具有指示發(fā)言者在說話的視覺特征且?guī)?記錄于時(shí)間10且獲取時(shí)間10處的音頻片并將其與幀5再混合。
在一些實(shí)施例中,匹配處理可以更穩(wěn)健,以使與沒有指示發(fā)言者在說話的視覺特征的幀內(nèi)音頻相關(guān)聯(lián)的頻帶能被標(biāo)注為潛在噪聲,240處,并在指示發(fā)言者在說話的幀中用于從與發(fā)言者說話的幀相匹配的音頻中消除相同的噪聲。
例如,假定在發(fā)言者不說話的幀1-9處的音頻內(nèi)檢測(cè)第一頻帶并假定在幀10中發(fā)言者說話。也出現(xiàn)具有匹配幀10的相應(yīng)音頻的第一頻帶。幀10也與具有第二頻帶的音頻相匹配。因此,由于確定第一頻帶是噪聲,則可從與幀10匹配的音頻中濾去該第一頻帶。結(jié)果是與幀10相匹配的更準(zhǔn)確的音頻片,且這將改善對(duì)音頻片執(zhí)行的語(yǔ)音識(shí)別技術(shù)。
按類似的方式,匹配可用于在同一幀內(nèi)的兩個(gè)不同發(fā)言者說話之間進(jìn)行辨別。例如,考慮在幀3處第一發(fā)言者說話且在幀5處第二發(fā)言者說話的情況。接著,考慮在幀10處第一和第二發(fā)言者同時(shí)說話的情況。與幀3相關(guān)聯(lián)的音頻片具有第一組視覺特征,且?guī)?處的音頻片具有第二組視覺特征。因此,幀10處,音頻片可被過濾為兩個(gè)分開的片段,其中每個(gè)分開的片段與不同的發(fā)言者相關(guān)聯(lián)。上述用于噪聲消除的技術(shù)也可集成并增強(qiáng)用于在同時(shí)發(fā)言的分開的發(fā)言者之間進(jìn)行區(qū)分的技術(shù),以進(jìn)一步提升所俘獲音頻的清晰度。這允許語(yǔ)音識(shí)別系統(tǒng)具有更可靠的音頻用于分析。
在一些實(shí)施例中,如以上參考圖1A所討論的,可使匹配處理公式化以生成可在241處用于配置貝葉斯網(wǎng)絡(luò)的參數(shù)。用這些參數(shù)配置的貝葉斯網(wǎng)絡(luò)可用于隨后與發(fā)言者交互并進(jìn)行動(dòng)態(tài)確定,以消除噪聲并在不同發(fā)言者之間進(jìn)行辨別并在同時(shí)說話的不同發(fā)言者之間進(jìn)行辨別。隨后,當(dāng)在任何給定的處理時(shí)刻識(shí)別出音頻是潛在噪聲時(shí),貝葉斯網(wǎng)絡(luò)可對(duì)該音頻濾出或產(chǎn)生零輸出。
圖3是用于分開并評(píng)估音頻和視頻的又一方法300的流程圖。該方法在計(jì)算機(jī)可讀和可訪問媒介中實(shí)現(xiàn)為軟件指令、固件指令或軟件和固件指令的組合。這些指令可安裝于任何網(wǎng)絡(luò)連接上的遠(yuǎn)程的處理設(shè)備上、預(yù)安裝在操作系統(tǒng)內(nèi)、或者從一個(gè)或多個(gè)可拆卸計(jì)算機(jī)可讀媒體安裝。執(zhí)行方法300的指令的處理設(shè)備還與分開的攝像機(jī)或麥克風(fēng)設(shè)備、合成麥克風(fēng)和攝像機(jī)設(shè)備、或者與處理設(shè)備集成的攝像機(jī)和麥克風(fēng)設(shè)備接口。
310處,監(jiān)視與正在說話的第一發(fā)言者和第二發(fā)言者相關(guān)聯(lián)的視頻。與所監(jiān)視的視頻同時(shí)地,在310A處俘獲與第一和第二發(fā)言者的話音相關(guān)聯(lián)并與同發(fā)言者環(huán)境相關(guān)的任何背景噪聲相關(guān)聯(lián)的音頻。視頻設(shè)備俘獲發(fā)言者及一部分環(huán)境的圖像且音頻設(shè)備俘獲與發(fā)言者及其環(huán)境相關(guān)聯(lián)的語(yǔ)音。
320處,將視頻分解為幀;每個(gè)幀都與記錄幀的特定時(shí)間相關(guān)聯(lián)。此外,分析每個(gè)幀以檢測(cè)發(fā)言者嘴部的移動(dòng)或不移動(dòng)。在一些實(shí)施例中,在321處,這是通過將幀分解為較小的片,隨后使視覺特征與每個(gè)幀相關(guān)聯(lián)來實(shí)現(xiàn)的。視覺特征指示哪個(gè)發(fā)言者正在說話以及哪個(gè)發(fā)言者不在說話。在一種情形中,這可以使用訓(xùn)練過的神經(jīng)網(wǎng)絡(luò)首先識(shí)別每個(gè)被處理幀內(nèi)的發(fā)言者面部并隨后將這些面部傳到查找相對(duì)于先前處理的幀與這些面部相關(guān)聯(lián)的嘴部移動(dòng)的矢量分類或匹配算法來完成。
322處,在為獲取視覺特征分析每個(gè)幀后,將音頻和視頻分開。每個(gè)視頻幀或音頻片都包括與初始俘獲或記錄它的時(shí)間相關(guān)聯(lián)的時(shí)標(biāo)。該時(shí)標(biāo)允許音頻在需要時(shí)與合適的幀再混合并允許該音頻更準(zhǔn)確地匹配特定一個(gè)發(fā)言者并允許減小或消除噪聲。
330處,將音頻的諸部分與第一發(fā)言者相匹配并將音頻的諸部分與第二發(fā)言者相匹配。這可以基于每一被處理幀及其視覺特征以各種方式完成。在331處,基于分離音頻和視頻的時(shí)間相關(guān)性發(fā)生匹配。例如,與具有相同時(shí)標(biāo)的音頻相匹配的幀(其中那些幀具有指示沒有發(fā)言者正在說話的視覺特征)可用于識(shí)別與發(fā)言者環(huán)境內(nèi)發(fā)生的噪聲相關(guān)聯(lián)的頻帶,如332處所述。所識(shí)別的噪聲頻帶可在幀及相應(yīng)的音頻片中使用以使得檢測(cè)到的語(yǔ)音更清晰或清脆。此外,與音頻匹配的幀(其中僅一個(gè)發(fā)言者說話)可用于利用獨(dú)特的音頻特征辨別在不同的幀中兩個(gè)發(fā)言者何時(shí)說話。
在一些實(shí)施例中,在340處,可以為與發(fā)言者發(fā)生的后續(xù)交互而將320和330的分析和/或匹配處理建模。即,可用定義分析和匹配的參數(shù)配置貝葉斯網(wǎng)絡(luò),以使貝葉斯模型可在隨后遇到與第一和第二發(fā)言者的會(huì)話時(shí)確定和改善語(yǔ)音分離和識(shí)別。
圖4是音頻和視頻源分離和分析系統(tǒng)400的示圖。音頻和視頻源分離和分析系統(tǒng)400在計(jì)算機(jī)可訪問媒介中實(shí)現(xiàn)并分別實(shí)現(xiàn)了以上針對(duì)圖1A-3和方法100A、200和300討論的技術(shù)。通過結(jié)合技術(shù)以與該視頻期間發(fā)言者所發(fā)出的音頻相一致地評(píng)估與發(fā)言者相關(guān)聯(lián)的視頻,該音頻和視頻源分離和分析系統(tǒng)400操作上改善了語(yǔ)音識(shí)別。
音頻和視頻源分離和分析系統(tǒng)400包括攝像機(jī)401、麥克風(fēng)402和處理設(shè)備403。在一些實(shí)施例中,三個(gè)設(shè)備401-403集成于單個(gè)合成設(shè)備。在其它實(shí)施例中,這三個(gè)設(shè)備401-403通過本地或連網(wǎng)連接而相互連接和通信。通信可經(jīng)由硬連線連接、無(wú)線連接或它們的組合發(fā)生。此外,在一些實(shí)施例中,攝像機(jī)401和麥克風(fēng)402被集成于單個(gè)合成設(shè)備(例如,攝影機(jī)等)并連接到處理設(shè)備403。
處理設(shè)備403包括指令404,這些指令404分別實(shí)現(xiàn)了圖1A-3的方法100A、200和300中所述的技術(shù)。指令經(jīng)由處理器403及其相關(guān)存儲(chǔ)器或通信指令接收來自攝像機(jī)401的視頻和來自麥克風(fēng)402的音頻。視頻描述了說話或不說話的一個(gè)或多個(gè)發(fā)言者的幀,且音頻描述了與背景噪聲和與發(fā)言者有關(guān)的語(yǔ)音相關(guān)聯(lián)的音頻。
指令404分析每個(gè)音頻幀,以使視覺特征與每個(gè)幀相關(guān)聯(lián)。視覺特征識(shí)別特定發(fā)言者或兩個(gè)發(fā)言者何時(shí)說話以及它們何時(shí)不說話。在一些實(shí)施例中,指令404與其它應(yīng)用程序或指令集協(xié)同來實(shí)現(xiàn)該操作。例如,每個(gè)幀可具有用經(jīng)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)應(yīng)用軟件404A識(shí)別的發(fā)言者的面部。各幀內(nèi)的面部可傳送到矢量匹配應(yīng)用程序404B,該程序相對(duì)于先前處理的幀的面部評(píng)估這些幀內(nèi)的面部以檢測(cè)這些面部的嘴部是否移動(dòng)。
指令404在使視覺特征與每個(gè)視頻幀相關(guān)聯(lián)之后分離音頻和視頻幀。每一音頻片和視頻幀包括時(shí)標(biāo)。時(shí)標(biāo)可由攝像機(jī)401、麥克風(fēng)402或處理器403分配?;蛘撸?dāng)指令404分離視頻和音頻時(shí),指令404在該時(shí)間點(diǎn)分配時(shí)標(biāo)。時(shí)標(biāo)提供可用于再混合和再匹配被分離的音頻和視頻的時(shí)間相關(guān)性。
接著,指令404獨(dú)立地評(píng)估幀和音頻片。因此,具有指示沒有發(fā)言者說話的視覺特征的幀可用于識(shí)別匹配音頻片和它們的相應(yīng)頻帶,以識(shí)別潛在噪聲??蓮木哂兄甘景l(fā)言者正在說話的視覺特征的幀中濾去潛在噪聲,以改善音頻片的清晰度;該清晰度將改進(jìn)評(píng)估該音頻片的語(yǔ)音識(shí)別系統(tǒng)。指令404還可用于評(píng)估并辨別與每一個(gè)發(fā)言者相關(guān)聯(lián)的獨(dú)特音頻特征。這些獨(dú)特的音頻特征還可用于將單個(gè)音頻片分入各自具有與唯一發(fā)言者相關(guān)聯(lián)的唯一音頻特征的兩個(gè)音頻片。因此,指令404可在多個(gè)發(fā)言者同時(shí)說話時(shí)檢測(cè)各發(fā)言者。
在一些實(shí)施例中,指令404通過初始地經(jīng)由攝像機(jī)401和麥克風(fēng)402與一個(gè)或多個(gè)發(fā)言者交互而學(xué)習(xí)和執(zhí)行的處理可被公式化為可在貝葉斯網(wǎng)絡(luò)應(yīng)用程序404C內(nèi)配置的參數(shù)數(shù)據(jù)。這允許貝葉斯網(wǎng)絡(luò)應(yīng)用程序404C在后續(xù)與發(fā)言者的語(yǔ)音會(huì)話時(shí)獨(dú)立于指令404地與攝像機(jī)401、麥克風(fēng)402和處理器403交互。如果發(fā)言者處于新環(huán)境中,則指令404可再次由貝葉斯網(wǎng)絡(luò)應(yīng)用程序404C用于改善其性能。
圖5是音頻和視頻源分離和分析裝置500的示圖。音頻和視頻源分離和分析裝置500駐留在計(jì)算機(jī)可讀媒介501中并實(shí)現(xiàn)為軟件、固件或其組合。音頻和視頻源分離和分析裝置500在被載入一個(gè)或多個(gè)處理設(shè)備時(shí)通過結(jié)合發(fā)生談話時(shí)同時(shí)監(jiān)視的音頻而改善與一個(gè)或多個(gè)發(fā)言者相關(guān)聯(lián)的語(yǔ)音識(shí)別。音頻和視頻源分離和分析裝置500可整體駐留在一個(gè)或多個(gè)計(jì)算機(jī)可拆卸媒體或遠(yuǎn)程存儲(chǔ)位置上,且隨后傳遞到處理設(shè)備用于執(zhí)行。
音頻和視頻源分離和分析裝置500包括音頻和視頻源分離邏輯502、面部檢測(cè)邏輯503、嘴部檢測(cè)邏輯504以及音頻和視頻匹配邏輯505。面部檢測(cè)邏輯503檢測(cè)視頻幀內(nèi)的面部位置。在一個(gè)實(shí)施例中,面部檢測(cè)邏輯503是被設(shè)計(jì)為獲取像素幀并將這些像素的子集標(biāo)識(shí)為一個(gè)或多個(gè)面部的經(jīng)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)。
嘴部檢測(cè)邏輯504獲取與面部相關(guān)聯(lián)的像素并識(shí)別與面部中的嘴部相關(guān)聯(lián)的像素。嘴部檢測(cè)邏輯504還相互評(píng)估多個(gè)面部幀,以確定面部中的嘴部何時(shí)移動(dòng)或不移動(dòng)。嘴部檢測(cè)邏輯504的結(jié)果與由音頻視頻匹配邏輯所耗用的作為視覺特征的每個(gè)視頻幀相關(guān)聯(lián)。
一旦嘴部檢測(cè)邏輯504使視覺特征與每個(gè)視頻幀相關(guān)聯(lián),音頻和視頻分離邏輯503從音頻中分離出視頻。在一些實(shí)施例中,在嘴部檢測(cè)邏輯504處理每個(gè)幀之前,音頻和視頻分離邏輯503從音頻中分離出視頻。每個(gè)視頻幀和每個(gè)音頻片包括時(shí)標(biāo)。這些時(shí)標(biāo)可由音頻和視頻分離邏輯502在分離時(shí)分配或者可由另一處理分配,諸如由俘獲視頻的攝像機(jī)和俘獲音頻的麥克風(fēng)分配?;蛘?,俘獲視頻和音頻的處理器可使用指令來對(duì)視頻和音頻進(jìn)行時(shí)標(biāo)。
音頻和視頻匹配邏輯505接收分離的加時(shí)標(biāo)的視頻幀和音頻的流,視頻幀具有由嘴部檢測(cè)邏輯504分配的相關(guān)聯(lián)的視覺特征。隨后,評(píng)估每個(gè)幀和片,以識(shí)別噪聲、識(shí)別與特定和單獨(dú)的發(fā)言者相關(guān)聯(lián)的語(yǔ)音。與該匹配和選擇性再混合相關(guān)聯(lián)的參數(shù)可用于配置對(duì)發(fā)言者發(fā)言建模的貝葉斯網(wǎng)絡(luò)。
音頻和視頻源分離和分析裝置500的一些組件可結(jié)合入其它組件,且可以添加圖5中未包含的一些附加組件。因此,圖5被提供僅用于說明而非限制本發(fā)明的以上描述是說明性而非限制性的。通過閱讀以上描述,許多其它實(shí)施例對(duì)于本領(lǐng)域的熟練技術(shù)人員來說是顯而易見的。因而,本發(fā)明實(shí)施例的范圍應(yīng)參考所附權(quán)利要求書并連同權(quán)利要求書的等效技術(shù)方案的完整范圍加以確定。
摘要被提供用于符合要求允許讀者快速確認(rèn)技術(shù)公開內(nèi)容的性質(zhì)和要點(diǎn)的摘要的37C.F.R.ξ1.72(b)??梢岳斫?,它不用于解釋或限制權(quán)利要求書的范圍或含義。
在以上實(shí)施例的描述中,將各種特點(diǎn)一起組合在單個(gè)實(shí)施例中,以貫穿公開內(nèi)容。公開的方法不被解釋為所聲明的本發(fā)明的實(shí)施例需要比每個(gè)權(quán)項(xiàng)中所述的特征更多的特征。相反,如以下權(quán)利要求所反映的,發(fā)明主題在于少于單個(gè)公開實(shí)施例的全部特征。因此,以下權(quán)利要求書被結(jié)合入實(shí)施例的描述,其中每個(gè)權(quán)項(xiàng)獨(dú)立作為一單獨(dú)的示例性實(shí)施例。
權(quán)利要求
1.一種方法,包括電子地俘獲與發(fā)言者說話相關(guān)聯(lián)的視覺特征;電子地俘獲音頻;將所述音頻的選擇部分與所述視覺特征匹配;以及將所述音頻的其余部分識(shí)別為與所述發(fā)言者說話無(wú)關(guān)的潛在噪聲。
2.如權(quán)利要求1所述的方法,其特征在于,還包括電子地俘獲與不同的發(fā)言者說話相關(guān)聯(lián)的附加視覺特征;以及將來自所述潛在噪聲的所述音頻其余部分中的一些與所述附加發(fā)言者說話匹配。
3.如權(quán)利要求1所述的方法,其特征在于,還包括生成與所述匹配和識(shí)別相關(guān)聯(lián)的參數(shù),并將所述參數(shù)提供到對(duì)所述發(fā)言者說話進(jìn)行建模的貝葉斯網(wǎng)絡(luò)。
4.如權(quán)利要求1所述的方法,其特征在于,電子地俘獲所述視覺特征還包括對(duì)與所述發(fā)言者說話相關(guān)聯(lián)的電子視頻處理神經(jīng)網(wǎng)絡(luò),其中所述神經(jīng)網(wǎng)絡(luò)被訓(xùn)練以檢測(cè)并監(jiān)視所述發(fā)言者的面部。
5.如權(quán)利要求4所述的方法,其特征在于,還包括過濾所述發(fā)言者的被測(cè)面部以檢測(cè)所述發(fā)言者嘴部的移動(dòng)或不移動(dòng)。
6.如權(quán)利要求1所述的方法,其特征在于,匹配還包括針對(duì)同一時(shí)間片內(nèi)所俘獲音頻的各部分比較所俘獲視覺特征的各部分。
7.如權(quán)利要求1所述的方法,其特征在于,還包括在所俘獲視覺特征的選定一些指示發(fā)言者未說話的時(shí)間段內(nèi)中止所述音頻的俘獲。
8.一種方法,包括監(jiān)視第一發(fā)言者和第二發(fā)言者的電子視頻;同時(shí)俘獲與所述第一和第二發(fā)言者說話相關(guān)聯(lián)的音頻;分析所述視頻以檢測(cè)所述第一和第二發(fā)言者何時(shí)移動(dòng)他們各自的嘴部;以及基于所述分析將所俘獲音頻的一些部分與第一發(fā)言者相匹配并將其它部分與第二發(fā)言者相匹配。
9.如權(quán)利要求8所述的方法,其特征在于,還包括對(duì)所述分析建模以隨后與所述第一和第二發(fā)言者交互。
10.如權(quán)利要求8所述的方法,其特征在于,分析還包括處理一神經(jīng)網(wǎng)絡(luò),以檢測(cè)所述第一和第二發(fā)言者的面部,并處理矢量分類算法以檢測(cè)所述第一和第二發(fā)言者的各自嘴部何時(shí)移動(dòng)或不移動(dòng)。
11.如權(quán)利要求8所述的方法,其特征在于,還包括為分析作準(zhǔn)備而從同時(shí)俘獲的音頻中分離出所述電子視頻。
12.如權(quán)利要求8所述的方法,其特征在于,還包括當(dāng)所述分析未檢測(cè)到所述第一和第二發(fā)言者的嘴部移動(dòng)時(shí)中止所述音頻的俘獲。
13.如權(quán)利要求8所述的方法,其特征在于,還包括如果所述選擇部分不匹配所述第一發(fā)言者或第二發(fā)言者,則將所述俘獲音頻的選擇部分識(shí)別為噪聲。
14.如權(quán)利要求8所述的方法,其特征在于,匹配還包括識(shí)別與何時(shí)監(jiān)控所述電子視頻的選擇部分以及何時(shí)俘獲所述音頻的選擇部分相關(guān)聯(lián)的時(shí)間相關(guān)性。
15.一種系統(tǒng),包括攝像機(jī);麥克風(fēng);以及處理設(shè)備,其中所述攝像機(jī)俘獲發(fā)言者的視頻并將所述視頻傳送到所述處理設(shè)備,所述麥克風(fēng)俘獲與所述發(fā)言者及其環(huán)境相關(guān)聯(lián)的音頻并將所述音頻傳送到所述處理設(shè)備,所述處理設(shè)備包括識(shí)別所述發(fā)言者說話時(shí)所述視頻的視覺特征的指令并使用時(shí)間相關(guān)性使所述音頻的一些部分與那些視覺特征相匹配。
16.如權(quán)利要求15所述的系統(tǒng),其特征在于,所述被俘獲的視頻還包括第二發(fā)言者的圖像且所述音頻包括與所述第二發(fā)言者相關(guān)聯(lián)的聲音,且其中當(dāng)所述視覺特征中的一些指示所述第二發(fā)言者在說話時(shí),所述指令將所述音頻中的一些部分與所述第二發(fā)言者相匹配。
17.如權(quán)利要求15所述的系統(tǒng),其特征在于,所述指令與神經(jīng)網(wǎng)絡(luò)交互,以從所俘獲的視頻中檢測(cè)所述發(fā)言者的面部。
18.如權(quán)利要求17所述的系統(tǒng),其特征在于,所述指令與像素矢量算法交互以檢測(cè)在所俘獲的視頻內(nèi)與所述面部相關(guān)聯(lián)的嘴部何時(shí)移動(dòng)或不移動(dòng)。
19.如權(quán)利要求18所述的系統(tǒng),其特征在于,所述指令生成配置貝葉斯網(wǎng)絡(luò)的參數(shù)數(shù)據(jù),所述貝葉斯網(wǎng)絡(luò)對(duì)與所述發(fā)言者的后續(xù)交互建模以確定所述發(fā)言者何時(shí)說話并確定適當(dāng)?shù)囊纛l與所述后續(xù)交互中的發(fā)言者說話相關(guān)聯(lián)。
20.一種具有相關(guān)指令的機(jī)器可訪問媒介,在被訪問時(shí)使得機(jī)器執(zhí)行分離與發(fā)言者說話相關(guān)聯(lián)的音頻和視頻;識(shí)別指示所述發(fā)言者的嘴部移動(dòng)或不移動(dòng)的來自所述視頻的視覺特征;以及使所述音頻的一些部分與指示所述嘴部移動(dòng)的所述視覺特征的選擇一些相關(guān)聯(lián)。
21.如權(quán)利要求20所述的媒介,其特征在于,還包括指令用于使得所述音頻的其它部分與指示所述嘴部不移動(dòng)的視覺特征的不同一些相關(guān)聯(lián)。
22.如權(quán)利要求20所述的媒介,其特征在于,還包括指令用于識(shí)別指示另一發(fā)言者的不同嘴部移動(dòng)或不移動(dòng)的來自視頻的第二視覺特征;以及使所述音頻的不同部分與指示所述不同嘴部移動(dòng)的第二視覺特征的選擇一些相關(guān)聯(lián)。
23.如權(quán)利要求20所述的媒介,其特征在于,用于識(shí)別的指令還包括指令用于處理一神經(jīng)網(wǎng)絡(luò)以檢測(cè)所述發(fā)言者的面部;以及處理一矢量匹配算法以檢測(cè)所述檢測(cè)到的面部?jī)?nèi)的所述發(fā)言者嘴部的移動(dòng)。
24.如權(quán)利要求20所述的媒介,其特征在于,用于關(guān)聯(lián)的指令還包括指令用于將與俘獲所述音頻的一些部分的時(shí)間相關(guān)聯(lián)的相同時(shí)間片和所述視頻內(nèi)俘獲所述視覺特征的選擇一些的相同時(shí)間相匹配。
25.一種駐留在計(jì)算機(jī)可訪問媒介中的裝置,包括面部檢測(cè)邏輯;嘴部檢測(cè)邏輯;以及音頻-視頻匹配邏輯,其中所述面部檢測(cè)邏輯檢測(cè)視頻內(nèi)發(fā)言者的面部,所述嘴部檢測(cè)邏輯檢測(cè)并監(jiān)視所述視頻的面部?jī)?nèi)包含的嘴部的移動(dòng)和不移動(dòng),且所述音頻-視頻匹配邏輯將所俘獲音頻的一些部分與由所述嘴部檢測(cè)邏輯所識(shí)別的任何移動(dòng)相匹配。
26.如權(quán)利要求25所述的裝置,其特征在于,所述裝置用于配置對(duì)所述發(fā)言者說話建模的貝葉斯網(wǎng)絡(luò)。
27.如權(quán)利要求25所述的裝置,其特征在于,所述面部檢測(cè)邏輯包括一神經(jīng)網(wǎng)絡(luò)。
28.如權(quán)利要求25所述的裝置,其特征在于,所述裝置駐留在處理設(shè)備上,且所述處理設(shè)備與攝像機(jī)和麥克風(fēng)相連接。
全文摘要
提供了一些方法、系統(tǒng)和裝置以分離并評(píng)估音頻和視頻。俘獲音頻和視頻;評(píng)估視頻以檢測(cè)一個(gè)或多個(gè)發(fā)言者說話。使視覺特征與發(fā)言者說話相關(guān)聯(lián)。分離音頻和視頻并將音頻的相應(yīng)部分映射到視覺特征以隔離與每個(gè)發(fā)言者相關(guān)聯(lián)的音頻并濾出與音頻相關(guān)聯(lián)的噪聲。
文檔編號(hào)G10L15/24GK1930575SQ200580007902
公開日2007年3月14日 申請(qǐng)日期2005年3月25日 優(yōu)先權(quán)日2004年3月30日
發(fā)明者A·納菲安, S·拉賈蘭姆 申請(qǐng)人:英特爾公司