基于神經(jīng)網(wǎng)絡(luò)的手機(jī)定位方法及定位裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及通話(huà)過(guò)程中對(duì)手機(jī)的空間定位的技術(shù)領(lǐng)域,尤其涉及一種基于神經(jīng)網(wǎng) 絡(luò)的手機(jī)定位方法及定位裝置。
【背景技術(shù)】
[0002] 使用手機(jī)通話(huà)在日常生活中隨處可見(jiàn),因個(gè)人習(xí)慣的不同,每個(gè)人手握手機(jī)的姿 勢(shì)也大不相同,通話(huà)過(guò)程中手機(jī)的轉(zhuǎn)動(dòng)會(huì)對(duì)雙麥克風(fēng)語(yǔ)音活動(dòng)檢測(cè)和噪聲抑制、聽(tīng)筒位置 的主動(dòng)降噪、手機(jī)上的傳感器的性能等產(chǎn)生影響。在通話(huà)過(guò)程中準(zhǔn)確定位手機(jī)的空間位置 能夠幫助系統(tǒng)及時(shí)進(jìn)行調(diào)整避免性能的下降。現(xiàn)有的雙麥克風(fēng)目標(biāo)聲源定位方法利用目標(biāo) 語(yǔ)音在兩個(gè)麥克風(fēng)之間的時(shí)延和能量差作為特征,只能夠在2維空間中進(jìn)行定位,而手機(jī) 的旋轉(zhuǎn)是3維空間的,如果想要利用現(xiàn)有的特征在3維空間中準(zhǔn)確的定位手機(jī)的位置可能 需要3個(gè)以上的麥克風(fēng),考慮到手機(jī)的尺寸,功耗和計(jì)算復(fù)雜度,現(xiàn)有的手機(jī)中主要使用的 是雙麥克風(fēng)的語(yǔ)音增強(qiáng)系統(tǒng)。如何利用手機(jī)的兩個(gè)麥克風(fēng)準(zhǔn)確的在3維空間中定位手機(jī)的 位置是一個(gè)急需解決且非常有意義的問(wèn)題。
【發(fā)明內(nèi)容】
[0003] 發(fā)明目的:本發(fā)明為了解決現(xiàn)有技術(shù)的不足,提供了一種基于神經(jīng)網(wǎng)絡(luò)的手機(jī)定 位方法及定位裝置,解決了現(xiàn)有的雙麥克風(fēng)定位方法只能夠在2維空間中定位的問(wèn)題,在 不增加麥克風(fēng)個(gè)數(shù)的前提下提高手機(jī)的定位性能。
[0004] 技術(shù)方案:為解決上述技術(shù)問(wèn)題,本發(fā)明提供一種基于神經(jīng)網(wǎng)絡(luò)的手機(jī)定位方法, 其特征在于,包括以下步驟:
[0005] 1)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練:在若干個(gè)不同的手機(jī)空間位置,通過(guò)手機(jī)的主、次麥克風(fēng)采 集模擬的帶噪語(yǔ)音信號(hào),并分別對(duì)主、次麥克風(fēng)采集的信號(hào)進(jìn)行模數(shù)轉(zhuǎn)換得到主麥克風(fēng)訓(xùn) 練數(shù)字信號(hào)和次麥克風(fēng)訓(xùn)練數(shù)字信號(hào),統(tǒng)稱(chēng)為訓(xùn)練樣本;提取所述主、次麥克風(fēng)訓(xùn)練數(shù)字信 號(hào)的特征;對(duì)所述主麥克風(fēng)訓(xùn)練數(shù)字信號(hào)進(jìn)行語(yǔ)音活動(dòng)檢測(cè)確定語(yǔ)音幀;在所述語(yǔ)音幀利 用所述特征和手機(jī)空間位置的標(biāo)簽對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,得到訓(xùn)練好的神經(jīng)網(wǎng)絡(luò);
[0006] 2)基于訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)進(jìn)行手機(jī)定位:通過(guò)手機(jī)的主、次麥克風(fēng)采集待測(cè)手機(jī) 空間位置處的模擬帶噪語(yǔ)音信號(hào),并分別進(jìn)行模數(shù)轉(zhuǎn)換得到主麥克風(fēng)待測(cè)數(shù)字信號(hào)和次麥 克風(fēng)待測(cè)數(shù)字信號(hào);對(duì)所述主麥克風(fēng)待測(cè)數(shù)字信號(hào)和次麥克風(fēng)待測(cè)數(shù)字信號(hào)提取特征;對(duì) 所述主麥克風(fēng)待測(cè)數(shù)字信號(hào)進(jìn)行語(yǔ)音活動(dòng)檢測(cè)確定語(yǔ)音幀;在所述語(yǔ)音幀將特征送入步驟 1)訓(xùn)練好的神經(jīng)網(wǎng)絡(luò),由神經(jīng)網(wǎng)絡(luò)輸出待測(cè)手機(jī)空間位置的標(biāo)簽;
[0007] 所述步驟1)和步驟2)中的特征包括互通道時(shí)延和子帶互通道能量差。
[0008] 其中,所述互通道時(shí)延的特征提取,具體如下:
[0009] 利用廣義互通道相關(guān)函數(shù)計(jì)算互通道時(shí)延如下式所示:
[0011] 式中,Ψ (f)是頻域加權(quán)函數(shù),Y1 (f)和Y2(f)分別為頻域主、次麥克風(fēng)數(shù)字信號(hào); 所述頻域加權(quán)函數(shù)ψ (f)的表達(dá)式如下:
[0013] 式中,ΨΡΗΑΤ(?·)是互通道功率譜,則所述互通道時(shí)延τΡΗΑΤ的表達(dá)式如下:
[0015] 所述主、次麥克風(fēng)數(shù)字信號(hào)在步驟1)的神經(jīng)網(wǎng)絡(luò)訓(xùn)練中分別為主麥克風(fēng)訓(xùn)練數(shù) 字信號(hào)和次麥克風(fēng)訓(xùn)練數(shù)字信號(hào);在步驟2)的基于訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)進(jìn)行手機(jī)定位中分 別為主麥克風(fēng)待測(cè)數(shù)字信號(hào)和次麥克風(fēng)待測(cè)數(shù)字信號(hào)。
[0016] 其中,所述子帶互通道能量差的特征提取,具體如下:
[0017] 使用短時(shí)傅里葉變化分別將主麥克風(fēng)數(shù)字信號(hào)和次麥克風(fēng)數(shù)字信號(hào)轉(zhuǎn)化到頻域, 使用12個(gè)ERB (Equivalent Rectangular Bandwidth)頻帶對(duì)頻域進(jìn)行劃分,對(duì)每一幀信 號(hào),先分別計(jì)算主、次麥克風(fēng)數(shù)字信號(hào)的信號(hào)功率譜,再計(jì)算信號(hào)功率譜在每個(gè)頻點(diǎn)的比 值;對(duì)每個(gè)子帶,將子帶內(nèi)每個(gè)頻點(diǎn)的功率比值取對(duì)數(shù)相加求和再除以子帶的頻點(diǎn)數(shù)進(jìn)行 平均,然后得到每個(gè)子帶的互通道能量差作為訓(xùn)練神經(jīng)網(wǎng)絡(luò)的特征;其中第b個(gè)子帶互通 道能量差為:
[0019] 式中,uh (b)和U1 (b)分別為第b個(gè)子帶的上下邊界,
分別為主 麥克風(fēng)和次麥克風(fēng)數(shù)字信號(hào)的功率譜,k代表頻率點(diǎn),η代表語(yǔ)音幀標(biāo)號(hào),?%[.和1?的下標(biāo)1 和2分別為主、次麥克風(fēng)的標(biāo)號(hào);
[0020] 所述主、次麥克風(fēng)數(shù)字信號(hào)在步驟1)的神經(jīng)網(wǎng)絡(luò)訓(xùn)練中分別為主麥克風(fēng)訓(xùn)練數(shù) 字信號(hào)和次麥克風(fēng)訓(xùn)練數(shù)字信號(hào);在步驟2)的基于訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)進(jìn)行手機(jī)定位中分 別為主麥克風(fēng)待測(cè)數(shù)字信號(hào)和次麥克風(fēng)待測(cè)數(shù)字信號(hào)。
[0021] 其中,步驟1)中利用特征和手機(jī)空間位置的標(biāo)簽對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,具體包 括:
[0022] 將所述訓(xùn)練樣本劃分為訓(xùn)練集和驗(yàn)證集;
[0023] 訓(xùn)練步驟:將從訓(xùn)練集中提取的特征作為神經(jīng)網(wǎng)絡(luò)的輸入,對(duì)應(yīng)的手機(jī)空間位置 標(biāo)簽作為神經(jīng)網(wǎng)絡(luò)的輸出目標(biāo),計(jì)算神經(jīng)網(wǎng)絡(luò)的輸出結(jié)果與輸出目標(biāo)之間的誤差,通過(guò)誤 差反向傳播算法調(diào)整神經(jīng)網(wǎng)絡(luò)的權(quán)值,如果誤差小于誤差閾值或者訓(xùn)練迭代次數(shù)達(dá)到最大 迭代次數(shù)則停止神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,否則繼續(xù)調(diào)整權(quán)值;
[0024] 驗(yàn)證步驟:使用驗(yàn)證集驗(yàn)證神經(jīng)網(wǎng)絡(luò)的結(jié)果,將從驗(yàn)證集中提取的特征作為神經(jīng) 網(wǎng)絡(luò)的輸入,神經(jīng)網(wǎng)絡(luò)的輸出結(jié)果和對(duì)應(yīng)驗(yàn)證集的輸出目標(biāo)進(jìn)行比較,統(tǒng)計(jì)神經(jīng)網(wǎng)絡(luò)輸出 結(jié)果的正確率,如果正確率優(yōu)于之前訓(xùn)練得到的結(jié)果,則將神經(jīng)元的個(gè)數(shù)更新為當(dāng)前神經(jīng) 元個(gè)數(shù),將神經(jīng)網(wǎng)絡(luò)的權(quán)值更新為相應(yīng)的神經(jīng)網(wǎng)絡(luò)權(quán)值,否則不做更新;
[0025] 在預(yù)先設(shè)定的神經(jīng)元個(gè)數(shù)范圍內(nèi),每次增加一個(gè)神經(jīng)元重復(fù)所述訓(xùn)練步驟和驗(yàn)證 步驟,直到達(dá)到預(yù)先設(shè)定的神經(jīng)元個(gè)數(shù)上限,將驗(yàn)證步驟中神經(jīng)網(wǎng)絡(luò)輸出結(jié)果的正確率最 優(yōu)時(shí)對(duì)應(yīng)的神經(jīng)元個(gè)數(shù)和神經(jīng)網(wǎng)絡(luò)權(quán)值進(jìn)行存儲(chǔ),得到訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)。
[0026] 其中,所述語(yǔ)音檢測(cè)包括以下步驟:
[0027] (1)從主麥克風(fēng)數(shù)字信號(hào)的功率譜ES (k,η)中減去平穩(wěn)噪聲功率譜得到純凈語(yǔ)音 信號(hào)和非平穩(wěn)噪聲混合信號(hào)的功率譜ESsp+nn (k,η);
[0028] (6)將 ESsp+nn (k,η)轉(zhuǎn)化為對(duì)數(shù)能量譜 LES '(k,η);
[0029] (7)將對(duì)數(shù)能量譜LES '(k,η)進(jìn)行歸一化處理得到LES (k,η);
[0030] (8)將歸一化處理后得到的對(duì)數(shù)能量譜LES(k,η)的每個(gè)頻點(diǎn)的能量按照從大到 小進(jìn)行排序,將前5個(gè)最大的能量求和取平均得到最大平均能量MNLP n;
[0031] (9)將最大平均能量MNLPn與預(yù)設(shè)閾值δ = 〇. 16進(jìn)行比較,如果大于δ則認(rèn)為 當(dāng)前幀為語(yǔ)音幀,否則為噪聲幀;
[0032] 所述主麥克風(fēng)數(shù)字信號(hào)在步驟1)的神經(jīng)網(wǎng)絡(luò)訓(xùn)練中為主麥克風(fēng)訓(xùn)練數(shù)字信號(hào), 在步驟2)的基于訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)進(jìn)行手機(jī)定位中為主麥克風(fēng)待測(cè)數(shù)字信號(hào)。
[0033] 相應(yīng)地,本發(fā)明還提供一種基于神經(jīng)網(wǎng)絡(luò)的手機(jī)定位裝置,包括:
[0034] 1?數(shù)轉(zhuǎn)換1?塊,連接手機(jī)的主麥克風(fēng)和次麥克風(fēng),對(duì)主麥克風(fēng)和次麥克風(fēng)接收到 的模擬帶噪信號(hào)分別進(jìn)行模數(shù)轉(zhuǎn)換得到主麥克風(fēng)數(shù)字信號(hào)和次麥克風(fēng)數(shù)字信號(hào);
[0035] 特征提取模塊,對(duì)所述主麥克風(fēng)數(shù)字信號(hào)和次麥克風(fēng)數(shù)字信號(hào)提取特征,所述特 征為互通道時(shí)延和分頻帶能量差;
[0036] 語(yǔ)音活動(dòng)檢測(cè)模塊,對(duì)所述主麥克風(fēng)數(shù)字信號(hào)進(jìn)行語(yǔ)音活動(dòng)檢測(cè)并標(biāo)記語(yǔ)音幀; 所述主、次麥克風(fēng)數(shù)字信號(hào)在神經(jīng)網(wǎng)絡(luò)訓(xùn)練中分別為主麥克風(fēng)訓(xùn)練數(shù)字信號(hào)和次麥克風(fēng)訓(xùn) 練數(shù)字信號(hào),統(tǒng)稱(chēng)為訓(xùn)練樣本;在基于訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)進(jìn)