分離和評(píng)估音頻和視頻源數(shù)據(jù)的技術(shù)的制作方法

文檔序號(hào)：2828987閱讀：248來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專(zhuān)利名稱(chēng)：分離和評(píng)估音頻和視頻源數(shù)據(jù)的技術(shù)的制作方法
技術(shù)領(lǐng)域：
本發(fā)明的實(shí)施例一般涉及音頻識(shí)別，尤其涉及使用結(jié)合音頻的視頻特征以改善語(yǔ)音處理的技術(shù)。
背景技術(shù)：
語(yǔ)音識(shí)別在軟件技術(shù)領(lǐng)域中持續(xù)取得進(jìn)展。主要由于硬件的改善，這些進(jìn)展已成為可能。例如，處理器變得更快速和廉價(jià)，且處理器內(nèi)的存儲(chǔ)容量變得更大且更充足。結(jié)果，在處理和存儲(chǔ)器裝置內(nèi)進(jìn)行精確檢測(cè)和處理語(yǔ)音的方面取得了顯著的進(jìn)展。
然而，即使采用最強(qiáng)大的處理器和充足的存儲(chǔ)器，在許多方面中語(yǔ)音識(shí)別仍存在問(wèn)題。例如，當(dāng)從特定發(fā)言者俘獲音頻時(shí)，常有與發(fā)言者環(huán)境相關(guān)聯(lián)的各種背景噪聲。該背景噪聲使得很難檢測(cè)發(fā)言者何時(shí)在說(shuō)話、并很難檢測(cè)被俘獲音頻的哪些部分應(yīng)歸因于發(fā)言者，而不是被俘獲音頻中屬于背景噪聲的應(yīng)被忽略的部分。
當(dāng)語(yǔ)音識(shí)別系統(tǒng)正監(jiān)視一個(gè)以上的發(fā)言者時(shí)，出現(xiàn)另一問(wèn)題。這可能在諸如在視頻會(huì)議期間兩個(gè)或更多的人通話時(shí)出現(xiàn)。語(yǔ)音可以從通話中適當(dāng)?shù)厥占荒苷_地與發(fā)言者中的特定一個(gè)相關(guān)聯(lián)。此外，在這種存在多個(gè)發(fā)言者的環(huán)境中，兩個(gè)或更多發(fā)言者可能實(shí)際上同時(shí)說(shuō)話，這對(duì)現(xiàn)有的傳統(tǒng)語(yǔ)音識(shí)別系統(tǒng)產(chǎn)生了值得注意的分辨問(wèn)題。
最常規(guī)的語(yǔ)音識(shí)別技術(shù)已嘗試通過(guò)主要關(guān)注被俘獲的音頻并使用大量的軟件分析以作出某些確定和分辨來(lái)解決這些及其它問(wèn)題。然而，當(dāng)發(fā)生談話時(shí)，會(huì)隨發(fā)言者出現(xiàn)視覺(jué)變化，即發(fā)言者的嘴部上下移動(dòng)。這些視覺(jué)特征可用于提升常規(guī)的語(yǔ)音識(shí)別技術(shù)并用于生成更穩(wěn)健和準(zhǔn)確的語(yǔ)音識(shí)別技術(shù)。
因此，需要相互呼應(yīng)地分離并評(píng)估音頻和視頻的改進(jìn)的語(yǔ)音識(shí)別技術(shù)。

圖1A是用于音頻和視頻分離和評(píng)估的方法的流程圖。
圖1B是具有從圖1A的方法中產(chǎn)生的模型參數(shù)的示例性貝葉斯網(wǎng)絡(luò)的示圖。
圖2是用于音頻和視頻分離和評(píng)估的另一方法的流程圖。
圖3是用于音頻和視頻分離和評(píng)估的又一方法的流程圖。
圖4是音頻和視頻源分離和分析系統(tǒng)的示圖。
圖5是音頻和視頻源分離和分析裝置的示圖。
具體實(shí)施例方式
圖1A是用于分離和評(píng)估音頻和視頻的一種方法的流程圖100A。該方法在計(jì)算機(jī)可訪問(wèn)媒介中實(shí)現(xiàn)。在一個(gè)實(shí)施例中，處理是駐留在一個(gè)或多個(gè)處理器中并在其中執(zhí)行的一個(gè)或多個(gè)軟件應(yīng)用程序。在一些實(shí)施例中，將軟件應(yīng)用程序包含于用于分發(fā)的可拆卸計(jì)算機(jī)可讀媒介上，并當(dāng)與處理設(shè)備連接時(shí)被載入處理設(shè)備用于執(zhí)行。在另一實(shí)施例中，在網(wǎng)絡(luò)上的諸如服務(wù)器或遠(yuǎn)程服務(wù)的遠(yuǎn)程處理設(shè)備上處理軟件應(yīng)用程序。
在又一實(shí)施例中，軟件指令的一個(gè)或多個(gè)部分從遠(yuǎn)程裝置通過(guò)網(wǎng)絡(luò)下載，被安裝于本地處理設(shè)備上并在其上執(zhí)行。對(duì)軟件指令的訪問(wèn)可通過(guò)任何硬連線、無(wú)線或硬連線和無(wú)線網(wǎng)絡(luò)的組合進(jìn)行。此外，在一個(gè)實(shí)施例中，方法處理的一些部分可在處理設(shè)備的固件內(nèi)實(shí)現(xiàn)或者在處理設(shè)備上處理的操作系統(tǒng)內(nèi)實(shí)現(xiàn)。
最初，提供一種環(huán)境，其中將攝像機(jī)和麥克風(fēng)連接到包含方法100A的處理設(shè)備。在一些實(shí)施例中，攝像機(jī)和麥克風(fēng)集成于同一設(shè)備內(nèi)。在其它實(shí)施例中，攝像機(jī)、麥克風(fēng)和具有方法100A的處理設(shè)備全部集成于該處理設(shè)備內(nèi)。如果攝像機(jī)和/或麥克風(fēng)不直接集成入執(zhí)行方法100A的處理設(shè)備，則可經(jīng)由任何硬連線、無(wú)線或者硬連線和無(wú)線連接或變化的組合將視頻和音頻傳遞到處理器。攝像機(jī)電子地俘獲視頻(例如，隨時(shí)間變化的圖像)且麥克風(fēng)電子地俘獲音頻。
處理方法100A的用途是學(xué)習(xí)與貝葉斯網(wǎng)絡(luò)相關(guān)聯(lián)的參數(shù)，該貝葉斯網(wǎng)絡(luò)實(shí)際上聯(lián)系與一個(gè)或多個(gè)發(fā)言者相關(guān)聯(lián)的合適音頻(語(yǔ)音)，以及還更準(zhǔn)確地識(shí)別和排除與發(fā)言者的環(huán)境相關(guān)聯(lián)的噪聲。為此，該方法在訓(xùn)練期間采樣與發(fā)言者相關(guān)聯(lián)的被俘獲電子音頻和視頻，其中音頻由麥克風(fēng)電子地俘獲而視頻由攝像機(jī)電子地俘獲。音頻-視覺(jué)數(shù)據(jù)序列起始于時(shí)間0并持續(xù)到時(shí)間T，其中T是大于0的任意整數(shù)。時(shí)間單位可以是毫秒、微秒、秒、分鐘、小時(shí)等。訓(xùn)練對(duì)話的長(zhǎng)度和時(shí)間單位對(duì)于方法100A來(lái)說(shuō)是可配置參數(shù)，并非旨在限制于本發(fā)明的任何特定實(shí)施例。
110處，攝像機(jī)俘獲在其視界內(nèi)與一個(gè)或多個(gè)發(fā)言者相關(guān)聯(lián)的視頻。該視頻與幀相關(guān)聯(lián)，且每個(gè)幀與訓(xùn)練對(duì)話的特殊時(shí)間單位相關(guān)聯(lián)。同時(shí)，在俘獲視頻時(shí)，111處，麥克風(fēng)俘獲與發(fā)言者相關(guān)聯(lián)的音頻。110和111處的視頻和音頻在執(zhí)行方法100A的處理設(shè)備可訪問(wèn)的環(huán)境內(nèi)被電子地俘獲。
在俘獲視頻幀時(shí)，在112處分析或評(píng)估這些視頻幀，以檢測(cè)這些幀內(nèi)俘獲的發(fā)言者的面部和嘴部。檢測(cè)每一幀內(nèi)的面部和嘴部以確定一個(gè)幀何時(shí)指示發(fā)言者的嘴部正在移動(dòng)以及何時(shí)發(fā)言者的嘴部不在移動(dòng)。最初，檢測(cè)面部通過(guò)將每一被分析幀的像素區(qū)域限制于被識(shí)別為發(fā)言者面部的區(qū)域來(lái)幫助降低檢測(cè)與嘴部相關(guān)聯(lián)的移動(dòng)的復(fù)雜度。
在一個(gè)實(shí)施例中，使用被訓(xùn)練為識(shí)別幀內(nèi)的面部的神經(jīng)網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)面部檢測(cè)。對(duì)神經(jīng)網(wǎng)絡(luò)的輸入是具有多個(gè)像素的幀，且輸出是識(shí)別發(fā)言者面部的具有較少像素的原始幀的較小部分。隨后，將表示面部的像素傳遞到像素矢量匹配和分類(lèi)器，它識(shí)別面部?jī)?nèi)的嘴部并監(jiān)視提供用于進(jìn)行隨后的分析的來(lái)自每一面部的嘴部變化。
針對(duì)該步驟的一種技術(shù)是計(jì)算構(gòu)成嘴部區(qū)的像素的總數(shù)，對(duì)該區(qū)域連續(xù)幀產(chǎn)生的絕對(duì)差增加了可配置閾值。該閾值是可配置的，且如果超過(guò)該閾值，則指示嘴部移動(dòng)，而如果未超出，則指示嘴部不在移動(dòng)。被處理幀的序列可用以該閾值可配置的濾波器大小(例如9或其它)進(jìn)行低通濾波，以生成與視覺(jué)特征相關(guān)聯(lián)的二進(jìn)制序列。
在113處生成視覺(jué)特征，并使其與幀相關(guān)聯(lián)以指示哪些幀具有嘴部移動(dòng)并指示哪些幀中的嘴部沒(méi)有移動(dòng)。這樣，跟蹤并監(jiān)視每個(gè)幀，以在為所俘獲的視頻處理各幀時(shí)確定發(fā)言者的嘴部何時(shí)移動(dòng)何時(shí)不移動(dòng)。
以上的用于在視頻幀內(nèi)識(shí)別發(fā)言者何時(shí)說(shuō)話和不說(shuō)話的示例技術(shù)并非旨在限制本發(fā)明的實(shí)施例。諸示例被提供用于說(shuō)明目的，且用于識(shí)別幀內(nèi)的嘴部何時(shí)相對(duì)于先前處理的幀移動(dòng)或不移動(dòng)的任何技術(shù)都被認(rèn)為落在本發(fā)明的實(shí)施例內(nèi)。
120處，使用來(lái)自麥克風(fēng)的音頻數(shù)據(jù)和視覺(jué)特征兩者將混合的音頻和視頻相互分開(kāi)。使音頻與直接對(duì)應(yīng)于未采樣的俘獲的視頻幀的時(shí)間線相關(guān)聯(lián)。應(yīng)注意，視頻幀以與聲音信號(hào)不同的速率進(jìn)行俘獲(當(dāng)前的設(shè)備常允許以14.4Kfps(千幀每秒)俘獲音頻時(shí)以30fps(幀每秒)俘獲視頻)。此外，視頻的每一幀都包括視覺(jué)特征，它標(biāo)識(shí)發(fā)言者的嘴部何時(shí)移動(dòng)和不移動(dòng)。接著，為具有指示發(fā)言者嘴部移動(dòng)的視覺(jué)特征的相應(yīng)幀的同一時(shí)間片選擇音頻。即，130處，在與這些幀和音頻兩者相關(guān)聯(lián)的相同時(shí)間片期間，將與這些幀相關(guān)聯(lián)的視覺(jué)特征與音頻相匹配。
結(jié)果是用于語(yǔ)音分析的音頻的更準(zhǔn)確的表示，因?yàn)橐纛l反映了發(fā)言者何時(shí)在說(shuō)話。此外，當(dāng)攝像機(jī)俘獲一個(gè)以上的發(fā)言者時(shí)，音頻可屬于特定的發(fā)言者。這允許從同不同音頻特征相關(guān)聯(lián)的不同發(fā)言者的話音中辨認(rèn)出與個(gè)別音頻特征相關(guān)聯(lián)的一個(gè)發(fā)言者的話音。此外，可容易地識(shí)別來(lái)自其它幀(不示出嘴部移動(dòng)的幀)的潛在噪聲以及其頻帶，并通過(guò)發(fā)言者說(shuō)話時(shí)與發(fā)言者相關(guān)聯(lián)的頻帶進(jìn)行編輯。這樣，實(shí)現(xiàn)了語(yǔ)音的更準(zhǔn)確的反映并將其從發(fā)言者的環(huán)境中過(guò)濾出，且即使在兩個(gè)發(fā)言者同時(shí)說(shuō)話時(shí)也可更準(zhǔn)確地鑒別與不同發(fā)言者相關(guān)聯(lián)的語(yǔ)音。
與準(zhǔn)確地分開(kāi)音頻和視頻相關(guān)聯(lián)并適當(dāng)?shù)貙⒁纛l與特定發(fā)言者的音頻選擇部分再匹配相關(guān)聯(lián)的屬性和參數(shù)可被公式化和表示，用于在貝葉斯網(wǎng)絡(luò)中將該分離和再匹配建模。例如，音頻和視頻觀察可表示為Zjt＝[WitXit...WitXMt]T，t＝1-T(其中T是整數(shù))，這可作為混合音頻觀察Xjt(j＝1-M，其中M是麥克風(fēng)數(shù))和視覺(jué)特征Wit(i＝1-N，其中N是音頻-視覺(jué)源或發(fā)言者的數(shù)量)之間的乘法獲得。通過(guò)允許在未觀察到視覺(jué)語(yǔ)音時(shí)急劇減小音頻信號(hào)，音頻和視覺(jué)觀察的這種選擇改善了無(wú)聲檢測(cè)。音頻和視覺(jué)語(yǔ)音混合處理可由以下的等式給出(1).P(st)=ΠiP(sit);]]>(2).P(sit)~N(O，Cs)；(3).P(sit|sit-1)~N(bsit-1，Css)；(4).P(xit|sit)~IN(∑aijsjt，Cx)；和(5).P(zit|sit)~IN(Vist，Cz).
在等式(1)-(5)中，sit是與時(shí)間t時(shí)的第i個(gè)發(fā)言者相對(duì)應(yīng)的音頻樣本，且Cs是音頻樣本的協(xié)方差矩陣。等式(1)描述了音頻源的統(tǒng)計(jì)獨(dú)立性。等式(2)描述了平均數(shù)0的高斯密度函數(shù)且協(xié)方差Cs描述了每個(gè)源的聲音樣本。等式(3)中的參數(shù)b描述了與同一發(fā)言者相對(duì)應(yīng)的連續(xù)音頻樣本之間的線性關(guān)系，且Css是連續(xù)時(shí)刻處聲音樣本的協(xié)方差矩陣。等式(4)示出了描述聲音混合處理的高斯密度函數(shù)，其中A＝[aij](i＝1-N，j＝1-M)是音頻混合矩陣且Cx是混合的被觀察音頻信號(hào)的協(xié)方差矩陣。Vi是使得音頻-視覺(jué)觀察Zit與未知分離源信號(hào)相關(guān)的M×N矩陣，且Cz是音頻-視覺(jué)觀察zit的協(xié)方差矩陣。該音頻和視覺(jué)貝葉斯混合模型可被視為具有源獨(dú)立約束(以上等式(1)中所標(biāo)識(shí))的卡爾曼濾波器。在學(xué)習(xí)模型參數(shù)過(guò)程中，音頻觀察的加白(whitening)提供了矩陣A的初步估計(jì)。使用最大似然估計(jì)法學(xué)習(xí)模型參數(shù)A、V、bi、Cs、Css和Cz。此外，使用約束的卡爾曼濾波器和學(xué)習(xí)到的參數(shù)來(lái)估計(jì)這些源。這些參數(shù)可用于配置根據(jù)視覺(jué)觀察和噪聲將發(fā)言者語(yǔ)音建模的貝葉斯網(wǎng)絡(luò)。具有模型參數(shù)的樣本貝葉斯網(wǎng)絡(luò)在圖1B中的示圖100B中描述。
圖2是用于音頻和視頻分離和評(píng)估的另一方法200的流程圖。方法200在計(jì)算機(jī)可讀和可訪問(wèn)媒介中實(shí)現(xiàn)。方法200的處理可在操作系統(tǒng)內(nèi)、固件內(nèi)、與執(zhí)行方法200的處理設(shè)備相關(guān)聯(lián)的存儲(chǔ)器或存儲(chǔ)設(shè)備內(nèi)、或者上述方法用作遠(yuǎn)程服務(wù)的遠(yuǎn)程處理設(shè)備內(nèi)的可拆卸計(jì)算機(jī)可讀媒體上整體或部分地實(shí)現(xiàn)。與方法200相關(guān)聯(lián)的指令可在網(wǎng)絡(luò)上訪問(wèn)，該網(wǎng)絡(luò)可以是硬連線的、無(wú)線的或者硬連線和無(wú)線的組合。
最初，配置一個(gè)攝像機(jī)和一個(gè)麥克風(fēng)或者多個(gè)攝像機(jī)和麥克風(fēng)，以監(jiān)視并俘獲與一個(gè)或多個(gè)發(fā)言者相關(guān)聯(lián)的視頻和音頻。音頻和視覺(jué)信息在210處被電子俘獲或記錄。接著，211處，將視頻與音頻分離，但視頻和音頻保持使時(shí)間與每一視頻幀并與每一記錄音頻相關(guān)聯(lián)的元數(shù)據(jù)，使得在需要時(shí)可在以后的階段將視頻和音頻再混合。例如，可將視頻的幀1與時(shí)間1相關(guān)聯(lián)，且在時(shí)間1，具有與音頻相關(guān)聯(lián)的音頻片1。該時(shí)間相關(guān)是與視頻和音頻相關(guān)聯(lián)的元數(shù)據(jù)，并可用于將視頻和音頻再混合或再集成到單個(gè)多媒體數(shù)據(jù)文件中。
接著，在220和221處，為獲取視覺(jué)特征并使該特征與每一個(gè)幀相關(guān)聯(lián)而分析視頻幀。視覺(jué)特征識(shí)別發(fā)言者的嘴部何時(shí)移動(dòng)或不移動(dòng)，給出關(guān)于發(fā)言者何時(shí)說(shuō)話的視覺(jué)線索。在一些實(shí)施例中，在211處分離視頻和音頻之前俘獲或確定視覺(jué)特征。
在一個(gè)實(shí)施例中，通過(guò)在222處處理神經(jīng)網(wǎng)絡(luò)以將每個(gè)幀內(nèi)處理所需的像素減少到表示發(fā)言者面部的一組像素，使視覺(jué)線索與每一視頻幀相關(guān)聯(lián)。一旦知道面部區(qū)域，在223處，被處理的幀的面部像素被傳到檢測(cè)發(fā)言者的嘴部何時(shí)移動(dòng)或不移動(dòng)的過(guò)濾算法。過(guò)濾算法跟蹤先前處理的幀，以便當(dāng)檢測(cè)到發(fā)言者嘴部移動(dòng)(張開(kāi))時(shí)，可以相對(duì)于先前處理的幀確定發(fā)言者正在說(shuō)話。與每個(gè)視頻幀相關(guān)聯(lián)的元數(shù)據(jù)包括視覺(jué)特征，它識(shí)別發(fā)言者的嘴部何時(shí)移動(dòng)或不移動(dòng)。
一旦處理了所有視頻幀，如果音頻和視頻未被分開(kāi)則在211處分開(kāi)它們，隨后在230處可以將視頻和音頻相互再匹配或再混合。在匹配處理期間，在231處，將具有指示發(fā)言者嘴部移動(dòng)的視覺(jué)特征的幀與同一時(shí)間片內(nèi)的音頻再混合。例如，假定視頻幀5具有指示發(fā)言者在說(shuō)話的視覺(jué)特征且?guī)?記錄于時(shí)間10且獲取時(shí)間10處的音頻片并將其與幀5再混合。
在一些實(shí)施例中，匹配處理可以更穩(wěn)健，以使與沒(méi)有指示發(fā)言者在說(shuō)話的視覺(jué)特征的幀內(nèi)音頻相關(guān)聯(lián)的頻帶能被標(biāo)注為潛在噪聲，240處，并在指示發(fā)言者在說(shuō)話的幀中用于從與發(fā)言者說(shuō)話的幀相匹配的音頻中消除相同的噪聲。
例如，假定在發(fā)言者不說(shuō)話的幀1-9處的音頻內(nèi)檢測(cè)第一頻帶并假定在幀10中發(fā)言者說(shuō)話。也出現(xiàn)具有匹配幀10的相應(yīng)音頻的第一頻帶。幀10也與具有第二頻帶的音頻相匹配。因此，由于確定第一頻帶是噪聲，則可從與幀10匹配的音頻中濾去該第一頻帶。結(jié)果是與幀10相匹配的更準(zhǔn)確的音頻片，且這將改善對(duì)音頻片執(zhí)行的語(yǔ)音識(shí)別技術(shù)。
按類(lèi)似的方式，匹配可用于在同一幀內(nèi)的兩個(gè)不同發(fā)言者說(shuō)話之間進(jìn)行辨別。例如，考慮在幀3處第一發(fā)言者說(shuō)話且在幀5處第二發(fā)言者說(shuō)話的情況。接著，考慮在幀10處第一和第二發(fā)言者同時(shí)說(shuō)話的情況。與幀3相關(guān)聯(lián)的音頻片具有第一組視覺(jué)特征，且?guī)?處的音頻片具有第二組視覺(jué)特征。因此，幀10處，音頻片可被過(guò)濾為兩個(gè)分開(kāi)的片段，其中每個(gè)分開(kāi)的片段與不同的發(fā)言者相關(guān)聯(lián)。上述用于噪聲消除的技術(shù)也可集成并增強(qiáng)用于在同時(shí)發(fā)言的分開(kāi)的發(fā)言者之間進(jìn)行區(qū)分的技術(shù)，以進(jìn)一步提升所俘獲音頻的清晰度。這允許語(yǔ)音識(shí)別系統(tǒng)具有更可靠的音頻用于分析。
在一些實(shí)施例中，如以上參考圖1A所討論的，可使匹配處理公式化以生成可在241處用于配置貝葉斯網(wǎng)絡(luò)的參數(shù)。用這些參數(shù)配置的貝葉斯網(wǎng)絡(luò)可用于隨后與發(fā)言者交互并進(jìn)行動(dòng)態(tài)確定，以消除噪聲并在不同發(fā)言者之間進(jìn)行辨別并在同時(shí)說(shuō)話的不同發(fā)言者之間進(jìn)行辨別。隨后，當(dāng)在任何給定的處理時(shí)刻識(shí)別出音頻是潛在噪聲時(shí)，貝葉斯網(wǎng)絡(luò)可對(duì)該音頻濾出或產(chǎn)生零輸出。
圖3是用于分開(kāi)并評(píng)估音頻和視頻的又一方法300的流程圖。該方法在計(jì)算機(jī)可讀和可訪問(wèn)媒介中實(shí)現(xiàn)為軟件指令、固件指令或軟件和固件指令的組合。這些指令可安裝于任何網(wǎng)絡(luò)連接上的遠(yuǎn)程的處理設(shè)備上、預(yù)安裝在操作系統(tǒng)內(nèi)、或者從一個(gè)或多個(gè)可拆卸計(jì)算機(jī)可讀媒體安裝。執(zhí)行方法300的指令的處理設(shè)備還與分開(kāi)的攝像機(jī)或麥克風(fēng)設(shè)備、合成麥克風(fēng)和攝像機(jī)設(shè)備、或者與處理設(shè)備集成的攝像機(jī)和麥克風(fēng)設(shè)備接口。
310處，監(jiān)視與正在說(shuō)話的第一發(fā)言者和第二發(fā)言者相關(guān)聯(lián)的視頻。與所監(jiān)視的視頻同時(shí)地，在310A處俘獲與第一和第二發(fā)言者的話音相關(guān)聯(lián)并與同發(fā)言者環(huán)境相關(guān)的任何背景噪聲相關(guān)聯(lián)的音頻。視頻設(shè)備俘獲發(fā)言者及一部分環(huán)境的圖像且音頻設(shè)備俘獲與發(fā)言者及其環(huán)境相關(guān)聯(lián)的語(yǔ)音。
320處，將視頻分解為幀；每個(gè)幀都與記錄幀的特定時(shí)間相關(guān)聯(lián)。此外，分析每個(gè)幀以檢測(cè)發(fā)言者嘴部的移動(dòng)或不移動(dòng)。在一些實(shí)施例中，在321處，這是通過(guò)將幀分解為較小的片，隨后使視覺(jué)特征與每個(gè)幀相關(guān)聯(lián)來(lái)實(shí)現(xiàn)的。視覺(jué)特征指示哪個(gè)發(fā)言者正在說(shuō)話以及哪個(gè)發(fā)言者不在說(shuō)話。在一種情形中，這可以使用訓(xùn)練過(guò)的神經(jīng)網(wǎng)絡(luò)首先識(shí)別每個(gè)被處理幀內(nèi)的發(fā)言者面部并隨后將這些面部傳到查找相對(duì)于先前處理的幀與這些面部相關(guān)聯(lián)的嘴部移動(dòng)的矢量分類(lèi)或匹配算法來(lái)完成。
322處，在為獲取視覺(jué)特征分析每個(gè)幀后，將音頻和視頻分開(kāi)。每個(gè)視頻幀或音頻片都包括與初始俘獲或記錄它的時(shí)間相關(guān)聯(lián)的時(shí)標(biāo)。該時(shí)標(biāo)允許音頻在需要時(shí)與合適的幀再混合并允許該音頻更準(zhǔn)確地匹配特定一個(gè)發(fā)言者并允許減小或消除噪聲。
330處，將音頻的諸部分與第一發(fā)言者相匹配并將音頻的諸部分與第二發(fā)言者相匹配。這可以基于每一被處理幀及其視覺(jué)特征以各種方式完成。在331處，基于分離音頻和視頻的時(shí)間相關(guān)性發(fā)生匹配。例如，與具有相同時(shí)標(biāo)的音頻相匹配的幀(其中那些幀具有指示沒(méi)有發(fā)言者正在說(shuō)話的視覺(jué)特征)可用于識(shí)別與發(fā)言者環(huán)境內(nèi)發(fā)生的噪聲相關(guān)聯(lián)的頻帶，如332處所述。所識(shí)別的噪聲頻帶可在幀及相應(yīng)的音頻片中使用以使得檢測(cè)到的語(yǔ)音更清晰或清脆。此外，與音頻匹配的幀(其中僅一個(gè)發(fā)言者說(shuō)話)可用于利用獨(dú)特的音頻特征辨別在不同的幀中兩個(gè)發(fā)言者何時(shí)說(shuō)話。
在一些實(shí)施例中，在340處，可以為與發(fā)言者發(fā)生的后續(xù)交互而將320和330的分析和/或匹配處理建模。即，可用定義分析和匹配的參數(shù)配置貝葉斯網(wǎng)絡(luò)，以使貝葉斯模型可在隨后遇到與第一和第二發(fā)言者的會(huì)話時(shí)確定和改善語(yǔ)音分離和識(shí)別。
圖4是音頻和視頻源分離和分析系統(tǒng)400的示圖。音頻和視頻源分離和分析系統(tǒng)400在計(jì)算機(jī)可訪問(wèn)媒介中實(shí)現(xiàn)并分別實(shí)現(xiàn)了以上針對(duì)圖1A-3和方法100A、200和300討論的技術(shù)。通過(guò)結(jié)合技術(shù)以與該視頻期間發(fā)言者所發(fā)出的音頻相一致地評(píng)估與發(fā)言者相關(guān)聯(lián)的視頻，該音頻和視頻源分離和分析系統(tǒng)400操作上改善了語(yǔ)音識(shí)別。
音頻和視頻源分離和分析系統(tǒng)400包括攝像機(jī)401、麥克風(fēng)402和處理設(shè)備403。在一些實(shí)施例中，三個(gè)設(shè)備401-403集成于單個(gè)合成設(shè)備。在其它實(shí)施例中，這三個(gè)設(shè)備401-403通過(guò)本地或連網(wǎng)連接而相互連接和通信。通信可經(jīng)由硬連線連接、無(wú)線連接或它們的組合發(fā)生。此外，在一些實(shí)施例中，攝像機(jī)401和麥克風(fēng)402被集成于單個(gè)合成設(shè)備(例如，攝影機(jī)等)并連接到處理設(shè)備403。
處理設(shè)備403包括指令404，這些指令404分別實(shí)現(xiàn)了圖1A-3的方法100A、200和300中所述的技術(shù)。指令經(jīng)由處理器403及其相關(guān)存儲(chǔ)器或通信指令接收來(lái)自攝像機(jī)401的視頻和來(lái)自麥克風(fēng)402的音頻。視頻描述了說(shuō)話或不說(shuō)話的一個(gè)或多個(gè)發(fā)言者的幀，且音頻描述了與背景噪聲和與發(fā)言者有關(guān)的語(yǔ)音相關(guān)聯(lián)的音頻。
指令404分析每個(gè)音頻幀，以使視覺(jué)特征與每個(gè)幀相關(guān)聯(lián)。視覺(jué)特征識(shí)別特定發(fā)言者或兩個(gè)發(fā)言者何時(shí)說(shuō)話以及它們何時(shí)不說(shuō)話。在一些實(shí)施例中，指令404與其它應(yīng)用程序或指令集協(xié)同來(lái)實(shí)現(xiàn)該操作。例如，每個(gè)幀可具有用經(jīng)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)應(yīng)用軟件404A識(shí)別的發(fā)言者的面部。各幀內(nèi)的面部可傳送到矢量匹配應(yīng)用程序404B，該程序相對(duì)于先前處理的幀的面部評(píng)估這些幀內(nèi)的面部以檢測(cè)這些面部的嘴部是否移動(dòng)。
指令404在使視覺(jué)特征與每個(gè)視頻幀相關(guān)聯(lián)之后分離音頻和視頻幀。每一音頻片和視頻幀包括時(shí)標(biāo)。時(shí)標(biāo)可由攝像機(jī)401、麥克風(fēng)402或處理器403分配?；蛘?，當(dāng)指令404分離視頻和音頻時(shí)，指令404在該時(shí)間點(diǎn)分配時(shí)標(biāo)。時(shí)標(biāo)提供可用于再混合和再匹配被分離的音頻和視頻的時(shí)間相關(guān)性。
接著，指令404獨(dú)立地評(píng)估幀和音頻片。因此，具有指示沒(méi)有發(fā)言者說(shuō)話的視覺(jué)特征的幀可用于識(shí)別匹配音頻片和它們的相應(yīng)頻帶，以識(shí)別潛在噪聲?？蓮木哂兄甘景l(fā)言者正在說(shuō)話的視覺(jué)特征的幀中濾去潛在噪聲，以改善音頻片的清晰度；該清晰度將改進(jìn)評(píng)估該音頻片的語(yǔ)音識(shí)別系統(tǒng)。指令404還可用于評(píng)估并辨別與每一個(gè)發(fā)言者相關(guān)聯(lián)的獨(dú)特音頻特征。這些獨(dú)特的音頻特征還可用于將單個(gè)音頻片分入各自具有與唯一發(fā)言者相關(guān)聯(lián)的唯一音頻特征的兩個(gè)音頻片。因此，指令404可在多個(gè)發(fā)言者同時(shí)說(shuō)話時(shí)檢測(cè)各發(fā)言者。
在一些實(shí)施例中，指令404通過(guò)初始地經(jīng)由攝像機(jī)401和麥克風(fēng)402與一個(gè)或多個(gè)發(fā)言者交互而學(xué)習(xí)和執(zhí)行的處理可被公式化為可在貝葉斯網(wǎng)絡(luò)應(yīng)用程序404C內(nèi)配置的參數(shù)數(shù)據(jù)。這允許貝葉斯網(wǎng)絡(luò)應(yīng)用程序404C在后續(xù)與發(fā)言者的語(yǔ)音會(huì)話時(shí)獨(dú)立于指令404地與攝像機(jī)401、麥克風(fēng)402和處理器403交互。如果發(fā)言者處于新環(huán)境中，則指令404可再次由貝葉斯網(wǎng)絡(luò)應(yīng)用程序404C用于改善其性能。
圖5是音頻和視頻源分離和分析裝置500的示圖。音頻和視頻源分離和分析裝置500駐留在計(jì)算機(jī)可讀媒介501中并實(shí)現(xiàn)為軟件、固件或其組合。音頻和視頻源分離和分析裝置500在被載入一個(gè)或多個(gè)處理設(shè)備時(shí)通過(guò)結(jié)合發(fā)生談話時(shí)同時(shí)監(jiān)視的音頻而改善與一個(gè)或多個(gè)發(fā)言者相關(guān)聯(lián)的語(yǔ)音識(shí)別。音頻和視頻源分離和分析裝置500可整體駐留在一個(gè)或多個(gè)計(jì)算機(jī)可拆卸媒體或遠(yuǎn)程存儲(chǔ)位置上，且隨后傳遞到處理設(shè)備用于執(zhí)行。
音頻和視頻源分離和分析裝置500包括音頻和視頻源分離邏輯502、面部檢測(cè)邏輯503、嘴部檢測(cè)邏輯504以及音頻和視頻匹配邏輯505。面部檢測(cè)邏輯503檢測(cè)視頻幀內(nèi)的面部位置。在一個(gè)實(shí)施例中，面部檢測(cè)邏輯503是被設(shè)計(jì)為獲取像素幀并將這些像素的子集標(biāo)識(shí)為一個(gè)或多個(gè)面部的經(jīng)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)。
嘴部檢測(cè)邏輯504獲取與面部相關(guān)聯(lián)的像素并識(shí)別與面部中的嘴部相關(guān)聯(lián)的像素。嘴部檢測(cè)邏輯504還相互評(píng)估多個(gè)面部幀，以確定面部中的嘴部何時(shí)移動(dòng)或不移動(dòng)。嘴部檢測(cè)邏輯504的結(jié)果與由音頻視頻匹配邏輯所耗用的作為視覺(jué)特征的每個(gè)視頻幀相關(guān)聯(lián)。
一旦嘴部檢測(cè)邏輯504使視覺(jué)特征與每個(gè)視頻幀相關(guān)聯(lián)，音頻和視頻分離邏輯503從音頻中分離出視頻。在一些實(shí)施例中，在嘴部檢測(cè)邏輯504處理每個(gè)幀之前，音頻和視頻分離邏輯503從音頻中分離出視頻。每個(gè)視頻幀和每個(gè)音頻片包括時(shí)標(biāo)。這些時(shí)標(biāo)可由音頻和視頻分離邏輯502在分離時(shí)分配或者可由另一處理分配，諸如由俘獲視頻的攝像機(jī)和俘獲音頻的麥克風(fēng)分配。或者，俘獲視頻和音頻的處理器可使用指令來(lái)對(duì)視頻和音頻進(jìn)行時(shí)標(biāo)。
音頻和視頻匹配邏輯505接收分離的加時(shí)標(biāo)的視頻幀和音頻的流，視頻幀具有由嘴部檢測(cè)邏輯504分配的相關(guān)聯(lián)的視覺(jué)特征。隨后，評(píng)估每個(gè)幀和片，以識(shí)別噪聲、識(shí)別與特定和單獨(dú)的發(fā)言者相關(guān)聯(lián)的語(yǔ)音。與該匹配和選擇性再混合相關(guān)聯(lián)的參數(shù)可用于配置對(duì)發(fā)言者發(fā)言建模的貝葉斯網(wǎng)絡(luò)。
音頻和視頻源分離和分析裝置500的一些組件可結(jié)合入其它組件，且可以添加圖5中未包含的一些附加組件。因此，圖5被提供僅用于說(shuō)明而非限制本發(fā)明的以上描述是說(shuō)明性而非限制性的。通過(guò)閱讀以上描述，許多其它實(shí)施例對(duì)于本領(lǐng)域的熟練技術(shù)人員來(lái)說(shuō)是顯而易見(jiàn)的。因而，本發(fā)明實(shí)施例的范圍應(yīng)參考所附權(quán)利要求書(shū)并連同權(quán)利要求書(shū)的等效技術(shù)方案的完整范圍加以確定。
摘要被提供用于符合要求允許讀者快速確認(rèn)技術(shù)公開(kāi)內(nèi)容的性質(zhì)和要點(diǎn)的摘要的37C.F.R.ξ1.72(b)。可以理解，它不用于解釋或限制權(quán)利要求書(shū)的范圍或含義。
在以上實(shí)施例的描述中，將各種特點(diǎn)一起組合在單個(gè)實(shí)施例中，以貫穿公開(kāi)內(nèi)容。公開(kāi)的方法不被解釋為所聲明的本發(fā)明的實(shí)施例需要比每個(gè)權(quán)項(xiàng)中所述的特征更多的特征。相反，如以下權(quán)利要求所反映的，發(fā)明主題在于少于單個(gè)公開(kāi)實(shí)施例的全部特征。因此，以下權(quán)利要求書(shū)被結(jié)合入實(shí)施例的描述，其中每個(gè)權(quán)項(xiàng)獨(dú)立作為一單獨(dú)的示例性實(shí)施例。
權(quán)利要求
1.一種方法，包括電子地俘獲與發(fā)言者說(shuō)話相關(guān)聯(lián)的視覺(jué)特征；電子地俘獲音頻；將所述音頻的選擇部分與所述視覺(jué)特征匹配；以及將所述音頻的其余部分識(shí)別為與所述發(fā)言者說(shuō)話無(wú)關(guān)的潛在噪聲。
2.如權(quán)利要求1所述的方法，其特征在于，還包括電子地俘獲與不同的發(fā)言者說(shuō)話相關(guān)聯(lián)的附加視覺(jué)特征；以及將來(lái)自所述潛在噪聲的所述音頻其余部分中的一些與所述附加發(fā)言者說(shuō)話匹配。
3.如權(quán)利要求1所述的方法，其特征在于，還包括生成與所述匹配和識(shí)別相關(guān)聯(lián)的參數(shù)，并將所述參數(shù)提供到對(duì)所述發(fā)言者說(shuō)話進(jìn)行建模的貝葉斯網(wǎng)絡(luò)。
4.如權(quán)利要求1所述的方法，其特征在于，電子地俘獲所述視覺(jué)特征還包括對(duì)與所述發(fā)言者說(shuō)話相關(guān)聯(lián)的電子視頻處理神經(jīng)網(wǎng)絡(luò)，其中所述神經(jīng)網(wǎng)絡(luò)被訓(xùn)練以檢測(cè)并監(jiān)視所述發(fā)言者的面部。
5.如權(quán)利要求4所述的方法，其特征在于，還包括過(guò)濾所述發(fā)言者的被測(cè)面部以檢測(cè)所述發(fā)言者嘴部的移動(dòng)或不移動(dòng)。
6.如權(quán)利要求1所述的方法，其特征在于，匹配還包括針對(duì)同一時(shí)間片內(nèi)所俘獲音頻的各部分比較所俘獲視覺(jué)特征的各部分。
7.如權(quán)利要求1所述的方法，其特征在于，還包括在所俘獲視覺(jué)特征的選定一些指示發(fā)言者未說(shuō)話的時(shí)間段內(nèi)中止所述音頻的俘獲。
8.一種方法，包括監(jiān)視第一發(fā)言者和第二發(fā)言者的電子視頻；同時(shí)俘獲與所述第一和第二發(fā)言者說(shuō)話相關(guān)聯(lián)的音頻；分析所述視頻以檢測(cè)所述第一和第二發(fā)言者何時(shí)移動(dòng)他們各自的嘴部；以及基于所述分析將所俘獲音頻的一些部分與第一發(fā)言者相匹配并將其它部分與第二發(fā)言者相匹配。
9.如權(quán)利要求8所述的方法，其特征在于，還包括對(duì)所述分析建模以隨后與所述第一和第二發(fā)言者交互。
10.如權(quán)利要求8所述的方法，其特征在于，分析還包括處理一神經(jīng)網(wǎng)絡(luò)，以檢測(cè)所述第一和第二發(fā)言者的面部，并處理矢量分類(lèi)算法以檢測(cè)所述第一和第二發(fā)言者的各自嘴部何時(shí)移動(dòng)或不移動(dòng)。
11.如權(quán)利要求8所述的方法，其特征在于，還包括為分析作準(zhǔn)備而從同時(shí)俘獲的音頻中分離出所述電子視頻。
12.如權(quán)利要求8所述的方法，其特征在于，還包括當(dāng)所述分析未檢測(cè)到所述第一和第二發(fā)言者的嘴部移動(dòng)時(shí)中止所述音頻的俘獲。
13.如權(quán)利要求8所述的方法，其特征在于，還包括如果所述選擇部分不匹配所述第一發(fā)言者或第二發(fā)言者，則將所述俘獲音頻的選擇部分識(shí)別為噪聲。
14.如權(quán)利要求8所述的方法，其特征在于，匹配還包括識(shí)別與何時(shí)監(jiān)控所述電子視頻的選擇部分以及何時(shí)俘獲所述音頻的選擇部分相關(guān)聯(lián)的時(shí)間相關(guān)性。
15.一種系統(tǒng)，包括攝像機(jī)；麥克風(fēng)；以及處理設(shè)備，其中所述攝像機(jī)俘獲發(fā)言者的視頻并將所述視頻傳送到所述處理設(shè)備，所述麥克風(fēng)俘獲與所述發(fā)言者及其環(huán)境相關(guān)聯(lián)的音頻并將所述音頻傳送到所述處理設(shè)備，所述處理設(shè)備包括識(shí)別所述發(fā)言者說(shuō)話時(shí)所述視頻的視覺(jué)特征的指令并使用時(shí)間相關(guān)性使所述音頻的一些部分與那些視覺(jué)特征相匹配。
16.如權(quán)利要求15所述的系統(tǒng)，其特征在于，所述被俘獲的視頻還包括第二發(fā)言者的圖像且所述音頻包括與所述第二發(fā)言者相關(guān)聯(lián)的聲音，且其中當(dāng)所述視覺(jué)特征中的一些指示所述第二發(fā)言者在說(shuō)話時(shí)，所述指令將所述音頻中的一些部分與所述第二發(fā)言者相匹配。
17.如權(quán)利要求15所述的系統(tǒng)，其特征在于，所述指令與神經(jīng)網(wǎng)絡(luò)交互，以從所俘獲的視頻中檢測(cè)所述發(fā)言者的面部。
18.如權(quán)利要求17所述的系統(tǒng)，其特征在于，所述指令與像素矢量算法交互以檢測(cè)在所俘獲的視頻內(nèi)與所述面部相關(guān)聯(lián)的嘴部何時(shí)移動(dòng)或不移動(dòng)。
19.如權(quán)利要求18所述的系統(tǒng)，其特征在于，所述指令生成配置貝葉斯網(wǎng)絡(luò)的參數(shù)數(shù)據(jù)，所述貝葉斯網(wǎng)絡(luò)對(duì)與所述發(fā)言者的后續(xù)交互建模以確定所述發(fā)言者何時(shí)說(shuō)話并確定適當(dāng)?shù)囊纛l與所述后續(xù)交互中的發(fā)言者說(shuō)話相關(guān)聯(lián)。
20.一種具有相關(guān)指令的機(jī)器可訪問(wèn)媒介，在被訪問(wèn)時(shí)使得機(jī)器執(zhí)行分離與發(fā)言者說(shuō)話相關(guān)聯(lián)的音頻和視頻；識(shí)別指示所述發(fā)言者的嘴部移動(dòng)或不移動(dòng)的來(lái)自所述視頻的視覺(jué)特征；以及使所述音頻的一些部分與指示所述嘴部移動(dòng)的所述視覺(jué)特征的選擇一些相關(guān)聯(lián)。
21.如權(quán)利要求20所述的媒介，其特征在于，還包括指令用于使得所述音頻的其它部分與指示所述嘴部不移動(dòng)的視覺(jué)特征的不同一些相關(guān)聯(lián)。
22.如權(quán)利要求20所述的媒介，其特征在于，還包括指令用于識(shí)別指示另一發(fā)言者的不同嘴部移動(dòng)或不移動(dòng)的來(lái)自視頻的第二視覺(jué)特征；以及使所述音頻的不同部分與指示所述不同嘴部移動(dòng)的第二視覺(jué)特征的選擇一些相關(guān)聯(lián)。
23.如權(quán)利要求20所述的媒介，其特征在于，用于識(shí)別的指令還包括指令用于處理一神經(jīng)網(wǎng)絡(luò)以檢測(cè)所述發(fā)言者的面部；以及處理一矢量匹配算法以檢測(cè)所述檢測(cè)到的面部?jī)?nèi)的所述發(fā)言者嘴部的移動(dòng)。
24.如權(quán)利要求20所述的媒介，其特征在于，用于關(guān)聯(lián)的指令還包括指令用于將與俘獲所述音頻的一些部分的時(shí)間相關(guān)聯(lián)的相同時(shí)間片和所述視頻內(nèi)俘獲所述視覺(jué)特征的選擇一些的相同時(shí)間相匹配。
25.一種駐留在計(jì)算機(jī)可訪問(wèn)媒介中的裝置，包括面部檢測(cè)邏輯；嘴部檢測(cè)邏輯；以及音頻-視頻匹配邏輯，其中所述面部檢測(cè)邏輯檢測(cè)視頻內(nèi)發(fā)言者的面部，所述嘴部檢測(cè)邏輯檢測(cè)并監(jiān)視所述視頻的面部?jī)?nèi)包含的嘴部的移動(dòng)和不移動(dòng)，且所述音頻-視頻匹配邏輯將所俘獲音頻的一些部分與由所述嘴部檢測(cè)邏輯所識(shí)別的任何移動(dòng)相匹配。
26.如權(quán)利要求25所述的裝置，其特征在于，所述裝置用于配置對(duì)所述發(fā)言者說(shuō)話建模的貝葉斯網(wǎng)絡(luò)。
27.如權(quán)利要求25所述的裝置，其特征在于，所述面部檢測(cè)邏輯包括一神經(jīng)網(wǎng)絡(luò)。
28.如權(quán)利要求25所述的裝置，其特征在于，所述裝置駐留在處理設(shè)備上，且所述處理設(shè)備與攝像機(jī)和麥克風(fēng)相連接。
全文摘要
提供了一些方法、系統(tǒng)和裝置以分離并評(píng)估音頻和視頻。俘獲音頻和視頻；評(píng)估視頻以檢測(cè)一個(gè)或多個(gè)發(fā)言者說(shuō)話。使視覺(jué)特征與發(fā)言者說(shuō)話相關(guān)聯(lián)。分離音頻和視頻并將音頻的相應(yīng)部分映射到視覺(jué)特征以隔離與每個(gè)發(fā)言者相關(guān)聯(lián)的音頻并濾出與音頻相關(guān)聯(lián)的噪聲。
文檔編號(hào)G10L15/24GK1930575SQ200580007902
公開(kāi)日2007年3月14日申請(qǐng)日期2005年3月25日優(yōu)先權(quán)日2004年3月30日
發(fā)明者A·納菲安, S·拉賈蘭姆申請(qǐng)人:英特爾公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：Ａ.納菲安;Ｓ.拉賈蘭姆
技術(shù)所有人：英特爾公司
我是此專(zhuān)利的發(fā)明人

上一篇：電子手鼓的制作方法
上一篇：音樂(lè)內(nèi)容再現(xiàn)裝置的制作方法

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

視頻音頻分離軟件相關(guān)技術(shù)

hdmi音頻分離器相關(guān)技術(shù)

音頻分離相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

分離和評(píng)估音頻和視頻源數(shù)據(jù)的技術(shù)的制作方法