一種實時定位錄音裝置及方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及聲源定位采集技術(shù)領(lǐng)域,特別是指一種實時定位錄音裝置及方法。
【背景技術(shù)】
[0002]聲源定位采集技術(shù)是目標(biāo)定位技術(shù)中一個新的分支,具有廣泛的應(yīng)用前景及科研價值,在近年來受到廣泛的關(guān)注及研究。在一個設(shè)定的目標(biāo)區(qū)域內(nèi),比如教室、會議室、廣場,在熱烈的討論,紛紛發(fā)言中,聲音采集必須得有取舍,處身在視頻之外的觀察者希望看到的總是視頻攝像頭指向的一個點的聲音,而忽略或者降低攝像頭焦點之外的聲音。
[0003]公開號為CN103414988A的中國發(fā)明專利,公開了一種室內(nèi)擴聲錄音設(shè)備及語音追蹤調(diào)整方法,方法包括以下步驟:一、通過拾音器陣列采集室內(nèi)的聲音信號,經(jīng)過智能采集模塊后輸入音頻分析模塊,通過智能篩選的方式尋找出有效信號輸入源和參考信號輸入源;二、通過智能混音的方式處理有效輸入信號;三、通過比較的方式將有效輸入信號中的環(huán)境音過濾;過濾后的信號輸入錄音模塊;四:根據(jù)選定的有效輸入拾音器對可控輸出矩陣進行動態(tài)調(diào)整;五:調(diào)整的結(jié)果通過揚聲器陣列輸出。該方法未能明確如何定位,定位區(qū)域范圍指定為講壇上的教師,未能實現(xiàn)整個教室范圍音頻定位。偏向于現(xiàn)場處理現(xiàn)場播放。未能提供一個很好的定位方法,沒有攝像頭參與,無法聲音和圖像同步,不適合網(wǎng)絡(luò)應(yīng)用環(huán)境。
【發(fā)明內(nèi)容】
[0004]本發(fā)明提出一種實時定位錄音裝置及方法,解決實時采集攝像頭焦點位置的實質(zhì)聲音,用于音視頻同步,提供更加接近現(xiàn)實的聽覺效果,用于錄制成視頻文件或者實時的網(wǎng)絡(luò)傳輸。
[0005]本發(fā)明的技術(shù)方案是這樣實現(xiàn)的:
[0006]—種實時定位錄音裝置,包括拾音器矩陣、攝像頭、攝像頭焦點定位及音頻處理模塊、多媒體文件模塊和網(wǎng)絡(luò)發(fā)送模塊;攝像頭焦點定位及音頻處理模塊包括攝像頭定位分析模塊、拾音器音頻過濾模塊和音頻處理模塊;拾音器矩陣包括設(shè)在同一平面的若干拾音器,攝像頭開始工作后,由攝像頭定位分析模塊確定其落在拾音器矩陣上的焦點,拾音器矩陣根據(jù)該焦點發(fā)送音頻信息至拾音器音頻過濾模塊和音頻處理模塊,音頻處理模塊將處理后的音頻文件分別發(fā)送至多媒體文件模塊和網(wǎng)絡(luò)發(fā)送模塊。
[0007]進一步的,音頻處理模塊包括音頻降噪模塊和音頻增益模塊。
[0008]進一步的,拾音器矩陣為矩形排列或圓形排列。
[0009]進一步的,攝像頭和拾音器矩陣之間的夾角為p,p大于O。
[0010]—種實時定位錄音方法,包括以下步驟:
[0011](I)在時間點t,計算攝像機的攝像頭焦點落在在拾音器矩陣平面的投影點的坐標(biāo);
[0012](2)拾音器矩陣根據(jù)投影點的坐標(biāo),控制投影點周圍的四只拾音器作為有效信號輸入源;
[0013](3)根據(jù)四只拾音器與投影點之間的距離進行混音處理有效音頻輸入信號;
[0014](4)混音后的音頻信號經(jīng)過去噪、增益后關(guān)聯(lián)到時間點t的視頻信號中,然后錄制多媒體文件或者通過網(wǎng)絡(luò)發(fā)送出去。
[0015]進一步的,步驟(I)中,拾音器等距離分布,組成拾音器矩陣,攝像頭與拾音器矩陣平面之間的夾角為P,攝像頭與拾音器矩陣平面的垂直面的偏轉(zhuǎn)夾角為q,攝像頭標(biāo)記為a,攝像頭焦點落在在拾音器矩陣平面的投影點標(biāo)記為C,在時間變化的時候,夾角ρ和偏轉(zhuǎn)夾角q也隨之變化,將拾音器矩陣平面標(biāo)記為be,設(shè)攝像頭a和拾音器矩陣平面之間的距離為ab,距離ab固定并且已知,Sab = x,be = y,y = x*tanp,設(shè)b坐標(biāo)為(0,0),投影點c的坐標(biāo)為(y*cosq,y*sinq)。
[0016]進一步的,步驟(2)中,拾音器矩陣中的每個拾音器的坐標(biāo)已經(jīng)確定,根據(jù)投影點c的坐標(biāo),拾音器矩陣確定投影點c附近的4個拾音器作為有效信號輸入源。
[0017]進一步的,計算拾音器與投影點c之間的距離,距離最小的4個拾音器為有效信號輸入源。
[0018]進一步的,步驟(3)中,設(shè)4個有效信號輸入源捕獲到的音量分別為si,s2,s3和s4,每個有效信號輸入源與投影點c之間的距離為r I,r2,r3和r4,混音后的最終音量為rO =(rl/sl+r2/s2+r3/s3+r4/s4)*(rl+r2+r3+r4)。
[0019]本發(fā)明的有益效果在于:本發(fā)明設(shè)計一套分布式拾音陣列根據(jù)攝像頭焦點定位實時拾音合成裝置,根據(jù)攝像頭的焦點落在空間的位置來實時確定拾音器陣列采集到的聲音合成,并實時關(guān)聯(lián)到視頻信號中。
【附圖說明】
[0020]為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0021]圖1為本發(fā)明一種實時定位錄音裝置的電路方框圖;
[0022]圖2為圖1中拾音器矩陣的俯視圖。
[0023]圖中,1-攝像頭;2-拾音器矩陣;3-攝像頭焦點定位及音頻處理模塊;4-多媒體文件模塊;5-網(wǎng)絡(luò)發(fā)送模塊;6-攝像頭定位分析模塊;7-拾音器音頻過濾模塊;8-音頻處理模塊。
【具體實施方式】
[0024]下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
[0025]如圖1所示,本發(fā)明提出了一種實時定位錄音裝置,包括拾音器矩陣2、攝像頭1、攝像頭焦點定位及音頻處理模塊3、多媒體文件模塊4和網(wǎng)絡(luò)發(fā)送模塊5;攝像頭焦點定位及音頻處理模塊3包括攝像頭定位分析模塊6、拾音器音頻過濾模塊7和音頻處理模塊8;拾音器矩陣2包括設(shè)在同一平面的若干拾音器,攝像頭I開始工作后,由攝像頭定位分析模塊6確定其落在拾音器矩陣2上的焦點,拾音器矩陣2根據(jù)該焦點發(fā)送音頻信息至拾音器音頻過濾模塊7和音頻處理模塊8,音頻處理模塊8將處理后的音頻文件分別發(fā)送至多媒體文件模塊4和網(wǎng)絡(luò)發(fā)送模塊6。
[0026]如圖2所示,每個粗線矩形框代表一個會議桌子,桌子上每個黑色實心圓點代表一個臺式麥克風(fēng)即拾音器,所有麥克風(fēng)由細線連成拾音器陣列。拾音器矩陣覆蓋會議廣場的實際會議場所大小。設(shè)拾音器陣列的左下角點為原點b(0,0)由此確定每個麥克風(fēng)的坐標(biāo)。拾音器陣列的每個拾音器坐標(biāo)存儲在攝像頭焦點定位及音頻處理模塊,作為將來定位視頻視野中性點在拾音器陣列平面的投影點坐標(biāo),攝像頭安裝在原點b正上方的a點。在時刻點t,攝像頭在拾音器矩陣的平面投影偏轉(zhuǎn)角為q,原點b與攝像頭的投影點c之間的距離為rO,因此確定離(3點最近的四個麥克風(fēng)距離為^^2^3^4。它們此時捕獲到