基于圓形麥克風陣列的智能交互方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及語音信號處理領(lǐng)域,具體涉及一種基于圓形麥克風陣列的智能交互方 法及系統(tǒng)。
【背景技術(shù)】
[0002] 隨著信息技術(shù)的突飛猛進式發(fā)展,越來越多的智能交互產(chǎn)品問世。語音作為人類 信息最自然、最便捷的交互方式,是現(xiàn)今智能交互產(chǎn)品最主流的交互方式。
[0003] 現(xiàn)有常見的智能交互產(chǎn)品中,多是以特定的喚醒詞識別觸發(fā)交互系統(tǒng),即智能系 統(tǒng)實時獲取用戶喚醒詞語音信號。然而,由于現(xiàn)實環(huán)境較為復雜,存在環(huán)境噪聲、混響及 其他說話人的人聲干擾,需要進行語音降噪以提高智能系統(tǒng)獲取用戶喚醒詞語音信號的能 力。
[0004] 傳統(tǒng)的語音降噪系統(tǒng)多是基于單個麥克風采用譜減法或維納濾波等技術(shù)來抑制 噪聲;或基于線性麥克風陣列利用麥克風空間位置差異提取期望方向信號,抑制其余方向 信號,從而實現(xiàn)降噪。然而,線性麥克風陣列受到陣列形狀的限制,只能對陣列法線方向進 行較好的拾音,而對于軸線方向的拾音效果較差,使得智能交互產(chǎn)品存在準確性和穩(wěn)定性 較差的缺點。
[0005] 為此,現(xiàn)有技術(shù)中提出了基于圓陣的語音增強方法,設(shè)計結(jié)構(gòu)為陣元均勻排列于 圓形或圓弧上,使用相位、幅度加權(quán)的方法,按照陣列需要處理的音頻信號的中心頻率計算 出各個陣元的加權(quán)值以及某一弧度范圍內(nèi)入射方向?qū)募訖?quán)向量,并利用循環(huán)移位操作 得到整個圓陣或部分圓陣其他方向的加權(quán)向量,最后對各個陣元的信號按加權(quán)值進行加權(quán) 求和。該方案采用延時-相加〇)elay-and-Sum)形式的波束形成方法,這種方法得到的信 號對其他方向干擾抑制有限,導致其余方向信號泄漏過多,波束指向性較差。另外,由于麥 克風陣元存在幅度誤差和相位誤差,當輸入信號中的噪聲較大時,麥克風陣列波束輸出的 語音信號的信噪比較低,影響語音識別。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明實施例提供一種基于圓形麥克風陣列的智能交互方法及系統(tǒng),以解決現(xiàn)有 智能交互產(chǎn)品存在的因噪聲影響語音識別效果而帶來的系統(tǒng)準確性及穩(wěn)定性較差的問題。
[0007] 為此,本發(fā)明實施例提供如下技術(shù)方案:
[0008] -種基于圓形麥克風陣列的智能交互方法,包括:
[0009] 通過圓形麥克風陣列接收用戶語音信號;
[0010] 對所述語音信號進行去噪處理,得到去噪后的語音信號;
[0011] 對去噪后的不同波束方向的語音信號進行預識別,并選擇識別得分最高的語音信 號的波束方向作為目標說話人方向,對后續(xù)在所述目標說話人方向上去噪后的語音信號進 行語音識別,得到語音識別結(jié)果;
[0012] 根據(jù)所述語音識別結(jié)果執(zhí)行操作。
[0013] 可選的,所述對所述語音信號進行去噪處理,得到去噪后的語音信號包括:
[0014] 將所述語音信號轉(zhuǎn)換為頻域信號;
[0015] 計算所述頻域信號的優(yōu)化參數(shù),所述優(yōu)化參數(shù)包括:指向性參數(shù)和白噪聲增益,所 述指向性參數(shù)是指期望信號相對于全向噪聲的輸入信噪比和麥克風的輸入信噪比的比值, 所述白噪聲增益是指所述圓形麥克風陣列輸出信噪比與輸入信噪比的比值;
[0016] 根據(jù)所述優(yōu)化參數(shù)對所述頻域信號進行優(yōu)化,得到去噪后的語音信號。
[0017] 可選的,所述根據(jù)所述優(yōu)化參數(shù)對所述頻域信號進行優(yōu)化還包括:
[0018] 在根據(jù)所述優(yōu)化參數(shù)對所述頻域信號進行優(yōu)化時,對期望方向以外的其它方向波 束陷零。
[0019] 可選的,所述方法還包括:
[0020] 從去噪后的語音信號的波束中選擇能量大于設(shè)定閾值的波束作為優(yōu)選波束;
[0021] 所述對去噪后的不同波束方向的語音信號進行預識別包括:
[0022] 對所述優(yōu)選波束方向的語音信號進行預識別。
[0023] 可選的,所述對所述優(yōu)選波束方向的語音信號進行預識別包括:
[0024] 對所述優(yōu)選波束方向的語音信號進行語音識別和/或聲紋識別,得到特定命令詞 和/或特定說話人。
[0025] 可選的,所述對所述優(yōu)選波束方向的語音信號進行預識別包括:
[0026] 對所述優(yōu)選波束方向的語音信號進行語音識別,得到語音識別結(jié)果。
[0027] -種基于圓形麥克風陣列的智能交互系統(tǒng),包括:
[0028] 接收模塊,用于通過圓形麥克風陣列接收用戶語音信號;
[0029] 去噪模塊,用于對所述語音信號進行去噪處理,得到去噪后的語音信號;
[0030] 識別模塊,用于對去噪后的不同波束方向的語音信號進行預識別,并選擇識別得 分最高的語音信號的波束方向作為目標說話人方向,對后續(xù)在所述目標說話人方向上去噪 后的語音信號進行語音識別,得到語音識別結(jié)果;
[0031] 交互處理模塊,用于根據(jù)所述識別模塊的語音識別結(jié)果執(zhí)行操作。
[0032] 可選的,所述去噪模塊包括:
[0033] 信號轉(zhuǎn)換單元,用于將所述語音信號轉(zhuǎn)換為頻域信號;
[0034] 計算單元,用于計算所述頻域信號的優(yōu)化參數(shù),所述優(yōu)化參數(shù)包括:指向性參數(shù) 和白噪聲增益,所述指向性參數(shù)是指期望信號相對于全向噪聲的輸入信噪比和麥克風的輸 入信噪比的比值,所述白噪聲增益是指所述圓形麥克風陣列輸出信噪比與輸入信噪比的比 值;
[0035] 第一優(yōu)化單元,用于根據(jù)所述優(yōu)化參數(shù)對所述頻域信號進行優(yōu)化,得到去噪后的 語音信號。
[0036] 可選的,所述去噪模塊還包括:
[0037] 第二優(yōu)化單元,用于在所述第一優(yōu)化單元根據(jù)所述優(yōu)化參數(shù)對所述頻域信號進行 優(yōu)化時,對期望方向以外的其它方向波束陷零。
[0038] 可選的,所述系統(tǒng)還包括:
[0039] 篩選模塊,用于從去噪后的語音信號的波束中選擇能量大于設(shè)定閾值的波束作為 優(yōu)選波束;
[0040] 所述識別模塊,具體用于對所述優(yōu)選波束方向的語音信號進行預識別,以確定目 標說話人方向。
[0041] 可選的,所述識別模塊,具體用于對所述優(yōu)選波束方向的語音信號進行語音識別, 在識別到特定命令詞后,選擇識別得分最高的語音信號的波束方向作為目標說話人方向, 并對后續(xù)在所述目標說話人方向上去噪后的語音信號進行語音識別,得到語音識別結(jié)果。
[0042] 可選的,所述識別模塊包括:聲紋識別單元和語音識別單元;所述聲紋識別單元 對所述優(yōu)選波束方向的語音信號進行聲紋識別,得到特定說話人,并選擇識別得分最高的 語音信號的波束方向作為目標說話人方向,并觸發(fā)所述語音識別單元對后續(xù)在所述目標說 話人方向上去噪后的語音信號進行語音識別,得到語音識別結(jié)果。
[0043] 可選的,所述識別模塊,具體用于對所述優(yōu)選波束方向的語音信號進行語音識別, 在得到語音識別結(jié)果后,選擇識別得分最高的語音信號的波束方向作為目標說話人方向, 并對后續(xù)在所述目標說話人方向上去噪后的語音信號進行語音識別,得到后續(xù)語音信號的 語音識別結(jié)果。
[0044] 可選的,所述圓形麥克風陣列中的多個麥克風為均勾分布或非均勾分布。
[0045] 可選的,所述圓形麥克風陣列的中心還設(shè)有一個麥克風。
[0046] 本發(fā)明實施例提供的基于圓形麥克風陣列的智能交互方法及系統(tǒng),首先,通過圓 形麥克風陣列接收用戶語音信號,然后對語音信號進行去