專利名稱:聲處理系統(tǒng)、聲處理裝置、聲處理方法、聲處理程序及存儲媒體的制作方法
技術領域:
本發(fā)明涉及聲處理系統(tǒng)、聲處理裝置、聲處理方法、聲處理程序及存儲媒體,特別涉及抑制聲信號的回波分量、處理抑制了回波分量的聲信號的聲處理系統(tǒng)、聲處理裝置、聲處理方法、聲處理程序及存儲媒體。
背景技術:
以往,作為這種聲處理裝置,已知有下述電視會議系統(tǒng)或免提通話系統(tǒng)等在從揚聲器輸出遠端話者的語音或音樂等聲音的環(huán)境下,用話筒拾取從揚聲器輸出的聲音和近端話者的語音,將拾取的聲音作為近端話者的語音發(fā)送到遠端話者。
在這種現(xiàn)有的聲處理裝置中,為了解決從揚聲器輸出的聲音作為回聲混入到話筒中這一問題,采用了回波消除器來抑制拾取的聲音中的回波分量。
所謂回波消除器,是利用從揚聲器輸出的聲音是已知的這一事實、根據(jù)從揚聲器輸出的已知聲音和輸入到話筒中的聲音用自適應濾波器來估計輸入到話筒中的聲音中混入的的回波分量、抑制回波分量的裝置。采用了該回波消除器的聲處理裝置例如在(日本)電子情報通信學會(編)《音響システムとデイジタル処理》(pp.209-218,コロナ社,1995)或(日本)北脅信彥(編著)《デイジタル音聲·オ—デイオ技術》(オ—ム社,pp.221-257,1999)等中有詳細說明。
此外,在包括語音識別部來識別話者語音的語音對話系統(tǒng)中,例如在汽車導航系統(tǒng)的語音對話部中,在從揚聲器例如輸出了“您有什么事?”這一引導語音時,為了不與“您有什么事?”這一引導語音混合來識別話者的語音“想去A游樂場?!?,也要求降低回波分量。
此外,在現(xiàn)有的語音對話系統(tǒng)中,有下述制約在輸出引導語音期間,不執(zhí)行話筒取入的聲音的語音識別,在未輸出引導語音期間執(zhí)行話筒取入的聲音的語音識別。
然而,等待引導語音結束容易使人煩躁。近來,為了在輸出引導語音期間插入話者的語音,提出了稱為強插(Barge-in)的各種插入方法。(例如(日本)北脅信彥(編著)《音のコミユニケ—シヨン工學》(コロナ社,pp.128-130,1996))。
用語音對話系統(tǒng)來實現(xiàn)強插時的問題是,如果包含引導語音作為回波分量,則對話者的語音的語音識別造成惡劣影響,容易誤識別,所以利用回波消除器來減少回波分量。然而,仍有殘留回波,難以減少回波分量。
例如,在(日本)特開平8-107375號公報(第4-5頁,圖1)中記載的“聲信號記錄再生裝置”及(日本)特開平8-51385號公報(第3-4頁,圖1)中記載的“信息處理裝置”中,如圖33所表示,包括聲信號輸入部件1、揚聲器2、話筒3、回波消除器4、以及聲信號輸出部件5,回波抑制部件4減少回波分量。此外,在(日本)特開2001-94379號公報(第3-4頁,圖1)中記載的“語音輸入方式”中,通過從回波消除器處理過的信號中只提取語音部分,再次從揚聲器輸出,使話者確認發(fā)聲內容。然而,由于是在噪聲環(huán)境下、或者回波路徑隨時間變化等原因而使回波分量的估計精度降低,所以不能減少殘留回波。
此外,在(日本)特開2001-134275號公報(第3-4頁,圖5)中記載的“語音識別裝置”中,如圖34所表示,包括聲信號輸入部件1、揚聲器2、話筒3、回波消除器4、聲信號輸出部件5、以及語音區(qū)間檢測部件6,回波消除器4判定是否存在話者的語音,語音區(qū)間檢測部件6提取語音區(qū)間,但是提取存在話者的語音的區(qū)間產生時延,所以在話者結束發(fā)聲之前,不能對該發(fā)聲的語音開始語音識別。
此外,在(日本)特開平5-323993號公報(第3-4頁,圖1)中記載的“語音對話系統(tǒng)”、(日本)特許第3229335號公報(第4頁,圖2)中記載的“語音處理裝置及方法”、及(日本)特開平7-264103號公報(第4頁,圖1)中記載的“語音的疊加檢測方法及裝置和利用該檢測裝置的語音輸入輸出裝置”中,都判斷在輸入的聲信號中是否包含話者發(fā)聲的語音,在判斷為包含時,分別開始語音識別,或者結束自適應濾波器的學習,或者結束適合回波消除器的學習的數(shù)據(jù)的取得。
然而,在這種現(xiàn)有的聲處理裝置中有下述問題將從開始輸入話者發(fā)聲的語音、到判斷為輸入了話者發(fā)聲的語音的時間中輸入的話者發(fā)聲的語音誤識別為背景噪聲或回聲分量等,其結果是回波分量的估計精度降低,不能減少殘留回波。
本發(fā)明就是為了解決這種問題而提出的,其目的在于提供一種聲處理裝置,能夠縮短輸出抑制了回波的聲信號所需的延時,而且降低殘留回波。
發(fā)明內容
第1發(fā)明的聲處理裝置具有下述結構,包括揚聲器,將第1聲信號變換為聲音,輸出變換出的聲音;聲信號生成部件,拾取上述揚聲器輸出的聲音和話者的語音,生成第2聲信號,該第2聲信號包含了表示上述揚聲器輸出的聲音的回波分量和表示上述話者語音的語音分量;回波抑制部件,根據(jù)上述第1聲信號和上述第2聲信號來抑制上述第2聲信號的回波分量,將抑制了上述回波分量的第2聲信號作為第3聲信號來輸出;聲信號存儲部件,存儲上述第3聲信號;語音檢測部件,從上述回波抑制部件輸出的第3聲信號中檢測上述話者的語音的始端;以及控制部件,控制上述聲信號存儲部件,以便使上述聲信號存儲部件將上述聲信號存儲部件存儲的第3聲信號內的、從上述語音檢測部件檢測出的上述話者的語音的始端回溯了預先設定的時間的時刻以后的第3聲信號作為第4聲信號來輸出。
通過該結構,聲處理裝置的語音檢測部件檢測出話者的語音的始端后,控制部件將回溯了預先設定的時間的時刻作為上述話者的語音的始端使聲信號存儲部件輸出第4聲信號,所以從開始輸入話者發(fā)聲的語音、到判斷為輸入了話者發(fā)聲的語音的時間中輸入的話者發(fā)聲的語音也作為第4聲信號來輸出,從而能夠高精度地估計回波分量,減少殘留回波。此外,不等待話者的語音結束就開始輸出第4聲信號,所以能夠縮短輸出抑制了回波的聲信號所需的延時。
第2發(fā)明的聲處理裝置具有下述結構,上述回波抑制部件包含自適應濾波器,估計上述第2聲信號的回波分量,生成用于表示估計出的回波分量的偽回波信號;以及減法器,生成用于表示上述聲信號生成部件生成的第2聲信號和上述自適應濾波器生成的偽回波信號之差的差信號;上述自適應濾波器根據(jù)上述第1聲信號和上述差信號來生成偽回波信號;上述回波抑制部件將上述減法器生成的差信號作為第3聲信號來輸出。
通過該結構,回波抑制部件能夠抑制聲信號生成部件生成的第2聲信號的回波分量。
第3發(fā)明的聲處理裝置具有下述結構,上述回波抑制部件包含自適應濾波器,估計濾波器系數(shù);卷積處理部,根據(jù)上述自適應濾波器估計出的濾波器系數(shù)對上述第1聲信號實施卷積處理,生成偽回波信號;系數(shù)傳送部,判定上述自適應濾波器估計出的濾波器系數(shù)是否穩(wěn)定,在上述濾波器系數(shù)穩(wěn)定的情況下,向上述卷積處理部傳送上述自適應濾波器估計出的濾波器系數(shù);以及減法器,生成用于表示上述聲信號生成部件生成的第2聲信號和上述卷積處理部生成的偽回波信號之差的差信號;上述自適應濾波器根據(jù)上述第1聲信號和上述差信號來估計濾波器系數(shù);上述回波抑制部件將上述減法器生成的差信號作為第3聲信號來輸出。
通過該結構,自適應濾波器根據(jù)第1聲信號和第2聲信號來估計濾波器系數(shù),系數(shù)傳送部在濾波器系數(shù)穩(wěn)定的情況下向卷積處理部傳送濾波器系數(shù),所以回波抑制部件能夠用卷積處理部生成的偽回波信號來高精度地抑制回波分量。
第4發(fā)明的聲處理裝置具有下述結構,上述回波抑制部件包含自適應濾波器,估計濾波器系數(shù);第1聲信號存儲部,按先入先出的順序來存儲上述第1聲信號,以便向第1聲信號施加延遲并輸出;第2聲信號存儲部,按先入先出的順序來存儲上述第2聲信號,以便向第2聲信號施加延遲并輸出;卷積處理部,根據(jù)上述自適應濾波器估計出的濾波器系數(shù)對上述第1聲信號存儲部輸出的第1聲信號實施卷積處理,生成偽回波信號;系數(shù)傳送部,判定上述自適應濾波器估計出的濾波器系數(shù)是否穩(wěn)定,在上述濾波器系數(shù)穩(wěn)定的情況下,向上述卷積處理部傳送上述自適應濾波器估計出的濾波器系數(shù);以及減法器,生成用于表示上述第2聲信號存儲部輸出的第2聲信號和上述卷積處理部生成的偽回波信號之差的差信號;上述自適應濾波器根據(jù)上述第1聲信號和上述差信號來估計濾波器系數(shù);上述回波抑制部件將上述減法器生成的差信號作為第3聲信號來輸出。
通過該結構,卷積處理部等待自適應濾波器系數(shù)收斂后生成偽回波信號,所以回波抑制部件能夠高精度地抑制第2聲信號的回波分量。
第5發(fā)明的聲處理裝置具有下述結構,上述回波抑制部件包含第1學習數(shù)據(jù)存儲部,將上述第1聲信號作為第1學習數(shù)據(jù)來存儲;第2學習數(shù)據(jù)存儲部,將上述聲信號生成部件生成的第2聲信號作為第2學習數(shù)據(jù)來存儲;控制部,控制上述第1學習數(shù)據(jù)存儲部和上述第2學習數(shù)據(jù)存儲部,以便相對應地存儲上述第1聲信號和上述第2聲信號;自適應濾波器,根據(jù)上述第1學習數(shù)據(jù)存儲部中存儲的第1聲信號和上述第2學習數(shù)據(jù)存儲部中存儲的第2聲信號來估計濾波器系數(shù);卷積處理部,根據(jù)上述自適應濾波器估計出的濾波器系數(shù)對上述第1聲信號實施卷積處理,生成偽回波信號;系數(shù)傳送部,判定上述自適應濾波器估計出的濾波器系數(shù)是否穩(wěn)定,在上述濾波器系數(shù)穩(wěn)定的情況下,向上述卷積處理部傳送上述自適應濾波器估計出的濾波器系數(shù);以及減法器,生成用于表示上述聲信號生成部件生成的第2聲信號和上述卷積處理部生成的偽回波信號之差的差信號;上述回波抑制部件將上述減法器生成的差信號作為第3聲信號來輸出。
通過該結構,回波抑制部件即使在不能得到足以使自適應濾波器算出的濾波器系數(shù)收斂的數(shù)據(jù)的情況下,也通過重復使用為學習而保存的數(shù)據(jù)而使濾波器系數(shù)收斂,卷積處理部用收斂的濾波器系數(shù)來生成偽回波信號,所以能夠高精度地抑制第2聲信號的回波分量。
第6發(fā)明的聲處理裝置具有下述結構,包括通信部件,與具有生成第1聲信號的聲信號生成部件的外部設備經(jīng)網(wǎng)絡進行通信,從上述外部設備接收上述第1聲信號;揚聲器,將該通信部件接收到的第1聲信號變換為聲音,輸出變換出的聲音;聲信號生成部件,拾取上述揚聲器輸出的聲音和話者的語音,生成第2聲信號,該第2聲信號包含了表示上述揚聲器輸出的聲音的回波分量和表示上述話者語音的語音分量;回波抑制部件,抑制上述聲信號生成部件生成的第2聲信號的回波分量,將抑制了上述回波分量的第2聲信號作為第3聲信號來輸出;聲信號存儲部件,存儲上述第3聲信號;語音檢測部件,從上述回波抑制部件輸出的第3聲信號中檢測上述話者的語音的始端;以及控制部件,控制上述聲信號存儲部件,以便使上述聲信號存儲部件將上述聲信號存儲部件存儲的第3聲信號內的、從上述語音檢測部件檢測出的上述話者的語音的始端回溯了預先設定的時間的時刻以后的第3聲信號作為第4聲信號來輸出。
通過該結構,聲處理裝置能夠構成與外部設備經(jīng)網(wǎng)絡相連的聲處理系統(tǒng)。
第7發(fā)明的聲處理裝置具有下述結構,包括通信部件,與外部設備經(jīng)網(wǎng)絡進行通信,為了使上述外部設備的揚聲器輸出上述第1聲信號所表示的聲音而將上述第1聲信號發(fā)送到上述外部設備,接收上述外部設備的聲信號生成部件生成的第2聲信號;該外部設備具有揚聲器,將第1聲信號變換為聲音,輸出變換出的聲音;以及聲信號生成部件,拾取上述揚聲器輸出的聲音和話者的語音,生成第2聲信號,該第2聲信號包含了表示上述揚聲器輸出的聲音的回波分量和表示上述話者語音的語音分量;回波抑制部件,抑制該通信部件接收到的第2聲信號的回波分量,將抑制了上述回波分量的第2聲信號作為第3聲信號來輸出;聲信號存儲部件,存儲上述第3聲信號;語音檢測部件,從上述回波抑制部件輸出的第3聲信號中檢測上述話者的語音的始端;以及控制部件,控制上述聲信號存儲部件,以便使上述聲信號存儲部件將上述聲信號存儲部件存儲的第3聲信號內的、從上述語音檢測部件檢測出的上述話者的語音的始端回溯了預先設定的時間的時刻以后的第3聲信號作為第4聲信號來輸出。
通過該結構,聲處理裝置能夠構成與外部設備經(jīng)網(wǎng)絡相連的聲處理系統(tǒng)。
第8發(fā)明的聲處理裝置具有下述結構,上述語音檢測部件計測上述第1聲信號的信號電平和上述第3聲信號的信號電平,比較計測到的第1聲信號的信號電平及第3聲信號的信號電平和預先設定的閾值,檢測上述話者的語音的始端。
通過該結構,語音檢測部件能夠根據(jù)第1聲信號的信號電平、第3聲信號的信號電平、以及預先設定的閾值,來高精度地檢測第3聲信號的話者的語音的始端。
第9發(fā)明的聲處理裝置具有下述結構,上述語音檢測部件計測上述第3聲信號的噪聲分量,按照計測到的噪聲分量來更新預先設定的閾值,比較上述第1聲信號的信號電平及上述第3聲信號的信號電平和更新過的閾值,檢測上述話者的語音的始端。
通過該結構,語音檢測部件即使在第3聲信號中包含噪聲分量的情況下,也能夠高精度地檢測第3聲信號的話者的語音的始端。
第10發(fā)明的聲處理裝置具有下述結構,上述語音檢測部件判定上述揚聲器是否輸出了語音,根據(jù)該判定來更新預先設定的閾值,比較上述第1聲信號的信號電平及上述第3聲信號的信號電平和更新過的閾值,檢測上述話者的語音的始端。
通過該結構,語音檢測部件能夠根據(jù)揚聲器輸出的聲音來更新閾值,所以能夠高精度地檢測第3聲信號的話者的語音的始端。
第11發(fā)明的聲處理裝置具有下述結構,上述語音檢測部件計測上述揚聲器輸出的聲音的持續(xù)時間,根據(jù)上述持續(xù)時間來更新預先設定的閾值,比較上述第1聲信號的信號電平及上述第3聲信號的信號電平和更新過的閾值,檢測上述話者的語音的始端。
通過該結構,語音檢測部件即使在從揚聲器輸出的聲音的合計時間短時,也能夠通過更新閾值,來高精度地檢測第3聲信號的話者的語音的始端。
第12發(fā)明的聲處理裝置具有下述結構,上述語音檢測部件計算表示上述第1聲信號的功率的第1功率值和表示上述第3聲信號的功率的第3功率值,比較算出的第1功率值及第3功率值和預先設定的閾值,檢測上述話者的語音的始端。
通過該結構,語音檢測部件能夠根據(jù)容易測定的信號的功率,來高精度地檢測第3聲信號的話者的語音的始端。
第13發(fā)明的聲處理裝置具有下述結構,上述語音檢測部件執(zhí)行上述第1聲信號及第3聲信號的頻率分析,根據(jù)該頻率分析的結果來檢測上述話者的語音的始端。
通過該結構,語音檢測部件根據(jù)第3聲信號的頻率分析的結果來檢測話者的語音,所以能夠高精度地檢測第3聲信號的話者的語音的始端。
第14發(fā)明的聲處理裝置具有下述結構,上述語音檢測部件計測上述第2聲信號的信號電平和上述第3聲信號的信號電平,比較計測到的第2聲信號的信號電平及第3聲信號的信號電平和預先設定的閾值,檢測上述話者的語音的始端。
通過該結構,語音檢測部件能夠根據(jù)第2聲信號的信號電平、第3聲信號的信號電平、以及預先設定的閾值,來高精度地檢測第3聲信號的話者的語音的始端。
第15發(fā)明的聲處理裝置具有下述結構,上述語音檢測部件計算表示上述第2聲信號的功率的第2功率值和表示上述第3聲信號的功率的第3功率值,比較算出的第2功率值及第3功率值和預先設定的閾值,檢測上述話者的語音的始端。
通過該結構,語音檢測部件能夠根據(jù)第2聲信號的功率、第3聲信號的功率、以及預先設定的閾值,來高精度地檢測第3聲信號的話者的語音的始端。
第16發(fā)明的聲處理裝置具有下述結構,上述語音檢測部件執(zhí)行上述第2聲信號及上述第3聲信號的頻率分析,根據(jù)該頻率分析的結果來檢測上述話者的語音的始端。
通過該結構,語音檢測部件根據(jù)第2聲信號及第3聲信號的頻率分析的結果來檢測話者的語音,所以能夠高精度地檢測第3聲信號的話者的語音的始端。
第17發(fā)明的聲處理裝置具有下述結構,上述語音檢測部件計測上述第1聲信號至上述第3聲信號的各信號電平,比較計測到的第1聲信號至第3聲信號的各信號電平和預先設定的閾值,檢測上述話者的語音的始端。
通過該結構,語音檢測部件能夠根據(jù)第1聲信號至第3聲信號的各信號電平和預先設定的閾值,來高精度地檢測第3聲信號的話者的語音的始端。
第18發(fā)明的聲處理裝置具有下述結構,上述語音檢測部件計算分別表示上述第1聲信號至上述第3聲信號的各功率的第1功率值、第2功率值及第3功率值,比較算出的第1聲信號至第3聲信號的各功率值和預先設定的閾值,檢測上述話者的語音的始端。
通過該結構,語音檢測部件能夠根據(jù)第1聲信號至第3聲信號的各功率和預先設定的閾值,來高精度地檢測第3聲信號的話者的語音的始端。
第19發(fā)明的聲處理裝置具有下述結構,上述語音檢測部件執(zhí)行上述第1聲信號至上述第3聲信號的頻率分析,根據(jù)該頻率分析的結果來檢測上述話者的語音的始端。
通過該結構,語音檢測部件根據(jù)第1聲信號至第3聲信號的頻率分析來檢測話者的語音,所以能夠高精度地檢測第3聲信號的話者的語音的始端。
第20發(fā)明的聲處理裝置具有下述結構,包括音量調整部件,調整上述第1聲信號的信號電平,調整上述揚聲器輸出的聲音的音量;上述語音檢測部件計測上述音量調整部件調整過的第1聲信號的信號電平和上述回波抑制部件輸出的第3聲信號的信號電平,比較計測到的第1聲信號的信號電平及第3聲信號的信號電平和預先設定的閾值,檢測上述話者的語音的始端。
通過該結構,語音檢測部件根據(jù)音量調節(jié)部件調節(jié)過的第1聲信號的信號電平、第3聲信號的信號電平、以及預先設定的閾值來檢測話者的語音,所以能夠高精度地檢測第3聲信號的話者的語音的始端。
第21發(fā)明的聲處理裝置具有下述結構,包括音量調整部件,調整上述第1聲信號的信號電平,調整上述揚聲器輸出的聲音的音量;上述語音檢測部件計算表示上述音量調整部件調整過的第1聲信號的功率的第1功率值和表示上述回波抑制部件輸出的第3聲信號的功率的第3功率值,比較算出的第1功率值及第3功率值和預先設定的閾值,檢測上述話者的語音的始端。
通過該結構,語音檢測部件根據(jù)音量調節(jié)部件調節(jié)過信號電平的第1聲信號的功率、第3聲信號的功率、以及預先設定的閾值來檢測話者的語音,所以能夠高精度地檢測第3聲信號的話者的語音的始端。
第22發(fā)明的聲處理裝置具有下述結構,包括音量調整部件,調整上述第1聲信號的信號電平,調整上述揚聲器輸出的聲音的音量;上述語音檢測部件執(zhí)行上述音量調整部件調整過的第1聲信號及上述回波抑制部件輸出的第3聲信號的頻率分析,根據(jù)該頻率分析的結果來檢測上述話者的語音的始端。
通過該結構,語音檢測部件根據(jù)音量調節(jié)部件調節(jié)過信號電平的第1聲信號和第3聲信號的頻率分析的結果來檢測話者的語音,所以能夠高精度地檢測第3聲信號的話者的語音的始端。
第23發(fā)明的聲處理裝置具有下述結構,包括觸發(fā)信號生成部件,生成與應檢測上述話者的語音的始端的時刻相關聯(lián)的觸發(fā)信號;上述語音檢測部件根據(jù)上述觸發(fā)信號生成部件生成的觸發(fā)信號從上述第3聲信號中檢測上述話者的語音的始端。
通過該結構,語音檢測部件能夠根據(jù)觸發(fā)信號生成部件生成的觸發(fā)信號,來高精度地檢測第3聲信號的話者的語音的始端。
第24發(fā)明的聲處理裝置具有下述結構,上述觸發(fā)信號生成部件生成與應檢測上述話者的語音的始端的時刻相關聯(lián)的觸發(fā)信號;上述語音檢測部件根據(jù)上述觸發(fā)信號生成部件生成的觸發(fā)信號從上述第3聲信號中檢測上述話者的語音的始端。
通過該結構,語音檢測部件能夠根據(jù)觸發(fā)信號生成部件生成的觸發(fā)信號,來高精度地檢測第3聲信號的話者的語音的始端。
第25發(fā)明的聲處理裝置具有下述結構,上述聲信號生成部件包括多個話筒元件,拾取上述揚聲器輸出的聲音和上述話者的語音,分別生成多個聲信號,多個聲信號包含了表示上述揚聲器輸出的聲音的回波分量和表示上述話者語音的語音分量;以及聲信號合成部,合成上述多個話筒元件分別生成的多個聲信號,生成第2聲信號;上述聲信號生成部件將上述聲信號合成部生成的第2聲信號輸出到回波抑制部件;上述語音檢測部件計測上述聲信號合成部生成的第2聲信號的信號電平,比較計測到的第2聲信號的信號電平和預先設定的閾值,檢測上述話者的語音的始端。
通過該結構,聲處理裝置能夠提高話者發(fā)聲的語音的信噪比,同時能夠降低從揚聲器輸出、輸入到聲信號生成部件中的第2聲信號的回波分量,所以語音檢測部件能夠根據(jù)第2聲信號的信號電平和預先設定的閾值來高精度地檢測第3聲信號的話者的語音的始端。
第26發(fā)明的聲處理裝置具有下述結構,上述聲信號生成部件包括多個話筒元件,拾取上述揚聲器輸出的聲音和上述話者的語音,分別生成多個聲信號,多個聲信號包含了表示上述揚聲器輸出的聲音的回波分量和表示上述話者語音的語音分量;以及聲信號合成部,合成上述多個話筒元件分別生成的多個聲信號,生成第2聲信號;上述聲信號生成部件將上述聲信號合成部生成的第2聲信號輸出到回波抑制部件;上述語音檢測部件計算表示上述聲信號合成部生成的第2聲信號的功率的第2功率值,比較算出的第2功率值和預先設定的閾值,檢測上述話者的語音的始端。
通過該結構,聲處理裝置能夠提高話者發(fā)聲的語音的信噪比,同時能夠降低表示從揚聲器輸出、輸入到聲信號生成部件中的聲音的第2聲信號的回波分量,所以語音檢測部件能夠根據(jù)第2聲信號的功率和預先設定的閾值來高精度地檢測第3聲信號的話者的語音的始端。
第27發(fā)明的聲處理裝置具有下述結構,上述聲信號生成部件包括多個話筒元件,拾取上述揚聲器輸出的聲音和上述話者的語音,分別生成多個聲信號,多個聲信號包含了表示上述揚聲器輸出的聲音的回波分量和表示上述話者語音的語音分量;以及聲信號合成部,合成上述多個話筒元件分別生成的多個聲信號,生成第2聲信號;上述聲信號生成部件將上述聲信號合成部生成的第2聲信號輸出到回波抑制部件;上述語音檢測部件執(zhí)行上述聲信號合成部生成的第2聲信號的頻率分析,根據(jù)該頻率分析的結果來檢測上述話者的語音的始端。
通過該結構,聲處理裝置提高話者發(fā)聲的語音的信噪比,同時降低表示從揚聲器輸出、輸入到聲信號生成部件中的聲音的第2聲信號的回波分量,根據(jù)第2聲信號的頻率分析來檢測話者的語音,所以能夠高精度地檢測第3聲信號的話者的語音的始端。
第28發(fā)明的聲處理裝置具有下述結構,包括噪聲抑制部件,抑制上述回波抑制部件輸出的第3聲信號的噪聲分量;上述語音檢測部件計測抑制了上述噪聲分量的第3聲信號的信號電平,比較計測到的第3聲信號的信號電平和預先設定的閾值,檢測上述話者的語音的始端。
通過該結構,語音檢測部件根據(jù)噪聲抑制部件抑制了噪聲分量的第3聲信號的信號電平和預先設定的閾值來檢測話者的語音,所以能夠高精度地檢測第3聲信號的話者的語音的始端。
第29發(fā)明的聲處理裝置具有下述結構,包括噪聲抑制部件,抑制上述回波抑制部件輸出的第3聲信號的噪聲分量;上述語音檢測部件計算表示抑制了上述噪聲分量的第3聲信號的功率的第3功率值,比較算出的第3功率值和預先設定的閾值,檢測上述話者的語音的始端。
通過該結構,語音檢測部件根據(jù)噪聲抑制部件抑制了噪聲分量的第3聲信號的功率和預先設定的閾值來檢測話者的語音,所以能夠高精度地檢測第3聲信號的話者的語音的始端。
第30發(fā)明的聲處理裝置具有下述結構,包括噪聲抑制部件,抑制上述回波抑制部件輸出的第3聲信號的噪聲分量;上述語音檢測部件執(zhí)行抑制了上述噪聲分量的第3聲信號的頻率分析,根據(jù)該頻率分析的結果來檢測上述話者的語音的始端。
通過該結構,語音檢測部件根據(jù)噪聲抑制部件抑制了噪聲分量的第3聲信號的頻率分析的結果來檢測話者的語音,所以能夠高精度地檢測第3聲信號的話者的語音的始端。
第31發(fā)明的聲處理裝置具有下述結構,在上述系數(shù)傳送部判定為上述濾波器系數(shù)穩(wěn)定時,上述語音檢測部件計測上述第2聲信號的信號電平,比較計測到的第2聲信號的信號電平和預先設定的閾值,檢測上述話者的語音的始端。
通過該結構,語音檢測部件根據(jù)高精度地抑制了回波分量的第2聲信號的信號電平和預先設定的閾值來檢測話者的語音,所以能夠高精度地檢測第3聲信號的話者的語音的始端。
第32發(fā)明的聲處理裝置具有下述結構,在上述系數(shù)傳送部判定為上述濾波器系數(shù)穩(wěn)定時,上述語音檢測部件計算表示上述第2聲信號的功率的第2功率值,比較算出的第2功率值和預先設定的閾值,檢測上述話者的語音的始端。
通過該結構,語音檢測部件根據(jù)高精度地抑制了回波分量的第2聲信號的功率和預先設定的閾值來檢測話者的語音,所以能夠高精度地檢測第3聲信號的話者的語音的始端。
第33發(fā)明的聲處理裝置具有下述結構,在上述系數(shù)傳送部判定為上述濾波器系數(shù)穩(wěn)定時,上述語音檢測部件執(zhí)行上述第2聲信號的頻率分析,根據(jù)該頻率分析的結果來檢測上述話者的語音的始端。
通過該結構,語音檢測部件根據(jù)高精度地抑制了回波分量的第2聲信號的頻率分析的結果來檢測話者的語音,所以能夠高精度地檢測第3聲信號的話者的語音的始端。
第34發(fā)明的聲處理系統(tǒng)具有下述結構,包括包含第1及第2聲處理裝置的至少2個聲處理裝置;第1聲處理裝置具有揚聲器,將輸入的第1聲信號變換為聲音,輸出變換出的聲音;聲信號生成部件,拾取上述揚聲器輸出的聲音和話者的語音,生成第2聲信號,該第2聲信號包含了表示上述揚聲器輸出的聲音的回波分量和表示上述話者語音的語音分量;回波抑制部件,抑制上述第2聲信號的回波分量,將抑制了上述回波分量的第2聲信號作為第3聲信號來輸出;聲信號存儲部件,存儲上述第3聲信號;語音檢測部件,從上述回波抑制部件輸出的第3聲信號中檢測上述話者的語音;控制部件,控制上述聲信號存儲部件,以便上述聲信號存儲部件將上述聲信號存儲部件中存儲的第3聲信號內的、檢測出上述話者的語音的區(qū)間的第3聲信號作為第4聲信號來輸出;以及通信部件,將上述第1聲信號發(fā)送到上述第2聲處理裝置;第2聲處理裝置具有揚聲器,將輸入的第1聲信號變換為聲音,輸出變換出的聲音;聲信號生成部件,拾取上述揚聲器輸出的聲音和上述話者的語音,生成第2聲信號,該第2聲信號包含了表示上述揚聲器輸出的聲音的回波分量和表示上述話者語音的語音分量;回波抑制部件,抑制上述第2聲信號的回波分量,將抑制了上述回波分量的第2聲信號作為第3聲信號來輸出;聲信號存儲部件,存儲上述第3聲信號;語音檢測部件,從上述回波抑制部件輸出的第3聲信號中檢測上述話者的語音;控制部件,控制上述聲信號存儲部件,以便上述聲信號存儲部件將上述聲信號存儲部件中存儲的第3聲信號內的、檢測出上述話者的語音的區(qū)間的第3聲信號作為第4聲信號來輸出;以及通信部件,將上述第1聲信號發(fā)送到上述第1聲處理裝置;在上述第1聲處理裝置的語音檢測部件檢測出上述話者的語音的始端時,上述第1聲處理裝置的控制部件進行控制,以便將從檢測出上述話者的語音的時刻回溯了預先設定的時間的時刻作為上述話者的語音的始端使上述第1聲處理裝置的聲信號存儲部件輸出上述第4聲信號;在上述第2聲處理裝置的語音檢測部件檢測出上述話者的語音的始端時,上述第2聲處理裝置的控制部件進行控制,以便將從檢測出上述話者的語音的時刻回溯了預先設定的時間的時刻作為上述話者的語音的始端使上述第2聲處理裝置的聲信號存儲部件輸出上述第4聲信號。
通過該結構,即使在第1聲處理裝置及第2聲處理裝置未直接連接的狀態(tài)下第1聲處理裝置及第2聲處理裝置的聲信號生成部件分別拾取雙方的聲處理裝置的揚聲器輸出的聲音的情況下,雙方的第1聲信號也分別輸入到雙方的回波抑制部件,所以能夠實現(xiàn)任一個聲處理裝置的回波處理部件都能夠分別抑制第2聲信號的回波分量的系統(tǒng)。
第35發(fā)明的聲處理系統(tǒng)具有下述結構,上述第1聲處理裝置的回波抑制部件根據(jù)輸入到上述第1聲處理裝置中的第1聲信號、上述第1聲處理裝置的聲信號生成部件生成的第2聲信號、以及從上述第2聲處理裝置接收到的第1聲信號來抑制上述第1聲處理裝置的聲信號生成部件生成的第2聲信號的回波分量;上述第2聲處理裝置的回波抑制部件根據(jù)輸入到上述第2聲處理裝置中的第1聲信號、上述第2聲處理裝置的聲信號生成部件生成的第2聲信號、以及從上述第1聲處理裝置接收到的第1聲信號來抑制上述第2聲處理裝置的聲信號生成部件生成的第2聲信號的回波分量。
通過該結構,即使在第1聲處理裝置及第2聲處理裝置的聲信號生成部件分別拾取雙方的聲處理裝置的揚聲器輸出的聲音的情況下,雙方的第1聲信號也分別輸入到雙方的回波抑制部件,所以能夠實現(xiàn)任一個聲處理裝置的回波處理部件都能夠分別抑制第2聲信號的回波分量的系統(tǒng)。
第36發(fā)明的聲處理系統(tǒng)具有下述結構,包括音頻裝置,生成第1聲信號;以及聲處理裝置,具有揚聲器,取得上述音頻裝置生成的第1聲信號,將取得的第1聲信號變換為聲音,輸出變換出的聲音;聲信號生成部件,拾取上述揚聲器輸出的聲音和話者的語音,生成第2聲信號,該第2聲信號包含了表示上述揚聲器輸出的聲音的回波分量和表示上述話者語音的語音分量;回波抑制部件,抑制上述第2聲信號的回波分量,將抑制了上述回波分量的第2聲信號作為第3聲信號來輸出;聲信號存儲部件,存儲上述第3聲信號;語音檢測部件,從上述回波抑制部件輸出的第3聲信號中檢測上述話者的語音;以及控制部件,控制上述聲信號存儲部件,以便上述聲信號存儲部件將上述聲信號存儲部件中存儲的第3聲信號內的、檢測出上述話者的語音的區(qū)間的第3聲信號作為第4聲信號來輸出;在上述語音檢測部件檢測出上述話者的語音的始端時,上述控制部件進行控制,以便將從檢測出上述話者的語音的時刻回溯了預先設定的時間的時刻作為上述話者的語音的始端使上述聲信號存儲部件輸出上述第4聲信號;包括聲信號記錄裝置,取得上述聲處理裝置的聲信號存儲部件輸出的第4聲信號,記錄取得的第4聲信號。
通過該結構,聲處理裝置即使在揚聲器將音頻裝置生成的第1聲信號作為聲音來輸出、聲信號生成部件生成包含表示揚聲器輸出的聲音的回波分量和表示話者語音的語音分量的第2聲信號的情況下,語音檢測部件也能夠高精度地檢測第3聲信號的話者的語音的始端,聲信號記錄裝置也能夠記錄聲處理裝置輸出的第4聲信號。
第37發(fā)明的聲處理系統(tǒng)具有下述結構,包括汽車導航裝置,具有導航信息生成部件,生成導航信息;以及聲信號生成部件,生成第1聲信號作為與導航有關的引導語音;以及聲處理裝置,具有揚聲器,取得上述汽車導航裝置的聲信號生成部件生成的第1聲信號,將取得的第1聲信號變換為聲音,將變換出的聲音作為上述汽車導航裝置的引導語音來輸出;聲信號生成部件,拾取上述揚聲器輸出的聲音和話者的語音,生成第2聲信號,該第2聲信號包含了表示上述揚聲器輸出的聲音的回波分量和表示上述話者語音的語音分量;回波抑制部件,抑制上述第2聲信號的回波分量,將抑制了上述回波分量的第2聲信號作為第3聲信號來輸出;聲信號存儲部件,存儲上述第3聲信號;語音檢測部件,從上述回波抑制部件輸出的第3聲信號中檢測上述話者的語音;以及控制部件,控制上述聲信號存儲部件,以便上述聲信號存儲部件將上述聲信號存儲部件中存儲的第3聲信號內的、檢測出上述話者的語音的區(qū)間的第3聲信號作為第4聲信號來輸出;在上述語音檢測部件檢測出上述話者的語音的始端時,上述控制部件進行控制,以便將從檢測出上述話者的語音的時刻回溯了預先設定的時間的時刻作為上述話者的語音的始端使上述聲信號存儲部件輸出上述第4聲信號;上述汽車導航裝置還具有語音識別部件,為了判定話者是否響應上述引導語音發(fā)出了特定的語音,而執(zhí)行上述聲處理裝置的聲信號存儲部件輸出的第4聲信號的語音識別;在用上述汽車導航裝置的語音識別部件判定為上述話者發(fā)出了特定的語音時,上述汽車導航裝置的導航信息生成部件生成與上述特定的語音相應的導航信息。
通過該結構,聲處理裝置即使在揚聲器將汽車導航裝置生成的第1聲信號作為聲音來輸出、聲信號生成部件生成包含表示揚聲器輸出的聲音的回波分量和表示話者語音的語音分量的第2聲信號的情況下,語音檢測部件也能夠高精度地檢測第3聲信號的話者的語音的始端,導航裝置也能夠輸入聲處理裝置輸出的第4聲信號來執(zhí)行語音識別。
第38發(fā)明的聲處理系統(tǒng)具有下述結構,包括外部設備,具有聲信號生成部件,生成用于表示語音的第1聲信號;以及聲處理裝置,具有揚聲器,取得上述外部設備的聲信號生成部件生成的第1聲信號,將取得的第1聲信號變換為聲音,將變換出的聲音作為上述外部設備的語音來輸出;聲信號生成部件,拾取上述揚聲器輸出的聲音和話者的語音,生成第2聲信號,該第2聲信號包含了表示上述揚聲器輸出的聲音的回波分量和表示上述話者語音的語音分量;回波抑制部件,抑制上述第2聲信號的回波分量,將抑制了上述回波分量的第2聲信號作為第3聲信號來輸出;聲信號存儲部件,存儲上述第3聲信號;語音檢測部件,從上述回波抑制部件輸出的第3聲信號中檢測上述話者的語音;以及控制部件,控制上述聲信號存儲部件,以便上述聲信號存儲部件將上述聲信號存儲部件中存儲的第3聲信號內的、檢測出上述話者的語音的區(qū)間的第3聲信號作為第4聲信號來輸出;在上述語音檢測部件檢測出上述話者的語音的始端時,上述控制部件進行控制,以便將從檢測出上述話者的語音的時刻回溯了預先設定的時間的時刻作為上述話者的語音的始端使上述聲信號存儲部件輸出上述第4聲信號;上述外部設備還具有語音識別部件,為了判定話者是否響應上述揚聲器輸出的語音發(fā)出了語音,而執(zhí)行上述聲處理裝置的聲信號存儲部件輸出的第4聲信號的語音識別;上述外部設備的聲信號生成部件根據(jù)上述語音識別部件的語音識別來生成用于表示響應語音的第1聲信號,以便響應上述話者發(fā)出的語音。
通過該結構,聲處理系統(tǒng)即使在揚聲器將外部設備生成的第1聲信號作為聲音來輸出、聲信號生成部件生成包含表示揚聲器輸出的聲音的回波分量和表示話者語音的語音分量的第2聲信號的情況下,語音檢測部件也能夠高精度地檢測第3聲信號的話者的語音的始端,外部設備也能夠輸入聲處理裝置輸出的第4聲信號來執(zhí)行語音識別,根據(jù)語音識別的結果來生成用于表示響應話者發(fā)出的語音的響應語音的第1聲信號。
第39發(fā)明的聲處理方法具有下述結構,包括準備步驟,準備聲處理裝置,該聲處理裝置具有揚聲器,將第1聲信號變換為聲音,輸出變換出的聲音;聲信號生成部件,拾取上述揚聲器輸出的聲音和話者的語音,生成第2聲信號,該第2聲信號包含了表示上述揚聲器輸出的聲音的回波分量和表示上述話者語音的語音分量;回波抑制部件,根據(jù)上述第1聲信號和上述第2聲信號來抑制上述第2聲信號的回波分量,將抑制了上述回波分量的第2聲信號作為第3聲信號來輸出;聲信號存儲部件,與時間信息相關聯(lián)來存儲上述第3聲信號;語音檢測部件,從上述回波抑制部件輸出的第3聲信號中檢測上述話者的語音;以及控制部件,控制上述聲信號存儲部件,以便上述聲信號存儲部件將上述聲信號存儲部件中存儲的第3聲信號內的、檢測出上述話者的語音的區(qū)間的第3聲信號作為第4聲信號來輸出;在上述語音檢測部件檢測出上述話者的語音的始端時,上述控制部件進行控制,以便將從檢測出上述話者的語音的時刻回溯了預先設定的時間的時刻作為上述話者的語音的始端使上述聲信號存儲部件輸出上述第4聲信號;回波抑制步驟,上述回波抑制部件根據(jù)第1聲信號和上述第2聲信號來抑制上述第2聲信號的回波分量;存儲步驟,上述聲信號存儲部件與時間信息相關聯(lián)來存儲第3聲信號;語音檢測步驟,上述語音檢測部件從上述第3聲信號中檢測上述話者的語音;以及控制步驟,上述控制部件控制上述聲信號存儲部件,以便上述聲信號存儲部件將上述聲信號存儲部件中存儲的第3聲信號內的、檢測出上述話者的語音的區(qū)間的第3聲信號作為第4聲信號來輸出;在上述控制步驟中,在上述語音檢測部件檢測出上述話者的語音的始端時,上述控制部件進行控制,以便將從檢測出上述話者的語音的時刻回溯了預先設定的時間的時刻作為上述話者的語音的始端使上述聲信號存儲部件輸出上述第4聲信號。
通過該結構,語音檢測步驟檢測出話者的語音的始端后,控制部件將回溯了預先設定的時間的時刻作為上述話者的語音的始端使聲信號存儲部件輸出第4聲信號,所以能夠實現(xiàn)一種聲處理方法,能夠不等待話者的發(fā)聲結束就開始輸出第4聲信號,而且能夠將從開始輸入話者發(fā)聲的語音、到判斷為輸入了話者發(fā)聲的語音的時間中輸入的話者發(fā)聲的語音也作為第4聲信號來輸出。
第40發(fā)明的聲處理程序具有下述結構,能夠使計算機執(zhí)行,包括回波抑制步驟,根據(jù)第1聲信號和第2聲信號來抑制上述第2聲信號的回波分量,將抑制了上述回波分量的第2聲信號作為第3聲信號來輸出;存儲步驟,與時間信息相關聯(lián)來存儲上述第3聲信號;語音檢測步驟,從上述第3聲信號中檢測話者的語音;以及控制步驟,控制上述聲信號存儲部件,以便上述聲信號存儲部件將上述聲信號存儲部件中存儲的第3聲信號內的、檢測出上述話者的語音的區(qū)間的第3聲信號作為第4聲信號來輸出;在上述控制步驟中,在上述語音檢測部件檢測出上述話者的語音的始端時,上述控制部件進行控制,以便將從檢測出上述話者的語音的時刻回溯了預先設定的時間的時刻作為上述話者的語音的始端使上述聲信號存儲部件輸出上述第4聲信號。
通過該結構,語音檢測步驟檢測出話者的語音的始端,控制步驟將回溯了預先設定的時間的時刻作為上述話者的語音的始端使聲信號存儲部件輸出第4聲信號,所以能夠實現(xiàn)一種聲處理程序,能夠不等待話者的發(fā)聲結束就開始輸出第4聲信號,而且能夠將從開始輸入話者發(fā)聲的語音、到判斷為輸入了話者發(fā)聲的語音的時間中輸入的話者發(fā)聲的語音也作為第4聲信號來輸出。
第41發(fā)明的記錄媒體具有下述結構,記錄著計算機可執(zhí)行的聲處理程序,上述聲處理程序包括回波抑制步驟,根據(jù)第1聲信號和第2聲信號來抑制上述第2聲信號的回波分量,將抑制了上述回波分量的第2聲信號作為第3聲信號來輸出;存儲步驟,與時間信息相關聯(lián)來存儲上述第3聲信號;語音檢測步驟,從上述第3聲信號中檢測話者的語音;以及控制步驟,控制上述聲信號存儲部件,以便上述聲信號存儲部件將上述聲信號存儲部件中存儲的第3聲信號內的、檢測出上述話者的語音的區(qū)間的第3聲信號作為第4聲信號來輸出;在上述控制步驟中,在上述語音檢測部件檢測出上述話者的語音的始端時,上述控制部件進行控制,以便將從檢測出上述話者的語音的時刻回溯了預先設定的時間的時刻作為上述話者的語音的始端使上述聲信號存儲部件輸出上述第4聲信號。
通過該結構,語音檢測步驟檢測出話者的語音的始端,控制步驟將回溯了預先設定的時間的時刻作為上述話者的語音的始端使聲信號存儲部件輸出第4聲信號,所以能夠實現(xiàn)一種存儲著聲處理程序的存儲媒體,能夠不等待話者的發(fā)聲結束就開始輸出第4聲信號,而且能夠將從開始輸入話者發(fā)聲的語音、到判斷為輸入了話者發(fā)聲的語音的時間中輸入的話者發(fā)聲的語音也作為第4聲信號來輸出。
通過后面結合以下附圖進行的描述,本發(fā)明的聲處理裝置的特征及優(yōu)點將會變得很明顯。
圖1是本發(fā)明第1實施方式的聲處理裝置的結構的方框圖。
圖2是本發(fā)明第1實施方式的聲處理裝置的回波消除器的一例的方框圖。
圖3是本發(fā)明第1實施方式的聲處理裝置的回波消除器的一例的方框圖。
圖4是用于表示回波消除器的效果的時間信號波形的示例圖。
圖5是語音檢測部件的工作示例圖。
圖6是本發(fā)明第1實施方式第1其他形態(tài)的聲處理裝置的結構的方框圖。
圖7是本發(fā)明第1實施方式第1其他形態(tài)的聲處理裝置的外形圖。
圖8是本發(fā)明第1實施方式第2其他形態(tài)的聲處理裝置的方框圖。
圖9是語音對話系統(tǒng)的示例圖。
圖10是語音對話系統(tǒng)的示例圖。
圖11是本發(fā)明第2實施方式的聲處理裝置的結構的方框圖。
圖12是本發(fā)明第2實施方式的聲處理裝置的語音檢測部件設定閾值的閾值設定方法的示例圖。
圖13是對本發(fā)明第2實施方式的聲處理裝置輸出的聲信號進行語音識別的情況下的語音識別率和對現(xiàn)有的聲處理裝置輸出的聲信號進行語音識別的情況下的語音識別率之間進行比較的比較圖。
圖14是本發(fā)明第3實施方式的聲處理裝置的結構的方框圖。
圖15是本發(fā)明第4實施方式的聲處理裝置的結構的方框圖。
圖16是本發(fā)明第5實施方式的聲處理裝置的結構的方框圖。
圖17是本發(fā)明第6實施方式的聲處理裝置的結構的方框圖。
圖18是本發(fā)明第7實施方式的聲處理裝置的結構的方框圖。
圖19是本發(fā)明第8實施方式的聲處理裝置的結構的方框圖。
圖20是本發(fā)明第9實施方式的聲處理裝置的結構的方框圖。
圖21是本發(fā)明第10實施方式的聲處理裝置的結構的方框圖。
圖22是本發(fā)明第11實施方式的聲處理裝置的結構的方框圖。
圖23是本發(fā)明第12實施方式的聲處理裝置的結構的方框圖。
圖24是本發(fā)明第13實施方式的聲處理裝置的結構的方框圖。
圖25是本發(fā)明第14實施方式的聲處理系統(tǒng)的結構的方框圖。
圖26是本發(fā)明第14實施方式的聲處理系統(tǒng)的回波消除器的結構的方框圖。
圖27是本發(fā)明第14實施方式的聲處理系統(tǒng)的回波消除器的結構的方框圖。
圖28是本發(fā)明第14實施方式的另一對應的聲處理系統(tǒng)的結構的方框圖。
圖29是將本發(fā)明的聲處理裝置應用于電視操作系統(tǒng)的示例圖。
圖30是將本發(fā)明的聲處理裝置應用于與機器人的語音對話系統(tǒng)的示例圖。
圖31是本發(fā)明第15實施方式的聲處理裝置的方框圖。
圖32是本發(fā)明第15實施方式的聲處理裝置的各步驟的流程圖。
圖33是現(xiàn)有的聲處理裝置的方框圖。
圖34是現(xiàn)有的聲處理裝置的方框圖。
具體實施例方式
以下參照圖1至圖32來說明本發(fā)明實施方式的聲處理裝置。
(第1實施方式)第1實施方式的聲處理裝置10如圖1所表示,包括聲信號輸入部件11,輸入表示聲音的第1聲信號;揚聲器12,將該聲信號輸入部件11輸入的第1聲信號變換為聲音,輸出變換出的聲音;以及話筒13,拾取該揚聲器12輸出的聲音和話者的語音,生成第2聲信號。
這里,話筒13構成聲信號生成部件。此外,第2聲信號包含表示話者語音的語音分量、通過拾取揚聲器12輸出的聲音而生成的回波分量、以及從話筒13周邊的聲源生成的噪聲分量。
聲處理裝置10還包括回波消除器14,根據(jù)聲信號輸入部件11輸入的第1聲信號和話筒13生成的第2聲信號來抑制第2聲信號的回波分量,將抑制了回波分量的第2聲信號作為第3聲信號來輸出;聲信號存儲部件15,存儲回波消除器14輸出的第3聲信號;語音檢測部件16,從回波消除器14輸出的第3聲信號中檢測話者的語音的始端;以及控制部件17,控制聲信號存儲部件15,以便使聲信號存儲部件15將聲信號存儲部件15存儲的第3聲信號內的、從語音檢測部件16檢測出的話者的語音的始端回溯了預先設定的時間的時刻以后的第3聲信號作為第4聲信號來輸出。
這里,回波消除器14構成回波抑制部件。
回波消除器14如圖2所表示,包含自適應濾波器19,估計第2聲信號的回波分量,生成用于表示估計出的回波分量的偽回波信號;以及減法器20,生成用于表示話筒13生成的第2聲信號和自適應濾波器19生成的偽回波信號之間的差分的差信號;回波消除器14將減法器20生成的差信號作為第3聲信號來輸出。自適應濾波器19根據(jù)第1聲信號和減法器20生成的差信號來生成偽回波信號。
這里,也可以將圖2所表示的本實施方式的回波消除器14置換為圖3所表示的回波消除器24。回波消除器24如圖3所表示,包含自適應濾波器19,估計濾波器系數(shù);卷積處理部22,根據(jù)該自適應濾波器19估計出的濾波器系數(shù)對第1聲信號進行卷積處理,生成偽回波信號;系數(shù)傳送部21,向卷積處理部22傳送自適應濾波器19估計出的濾波器系數(shù);以及第1減法器23,生成用于表示話筒13生成的第2聲信號和卷積處理部22生成的偽回波信號之間的差分的差信號;自適應濾波器19根據(jù)第1聲信號和第1減法器23生成的差信號來估計濾波器系數(shù)。
此外,回波消除器24將第1減法器23生成的差信號作為第3聲信號來輸出。另一方面,自適應濾波器19估計濾波器系數(shù),并且生成偽回波信號。
回波消除器24還包含第2減法器25,生成用于表示話筒13生成的第2聲信號和自適應濾波器19生成的偽回波信號之間的差分的差信號。另一方面,自適應濾波器19反饋第2減法器25生成的差信號,更新濾波器系數(shù)。
系數(shù)傳送部21判定自適應濾波器19估計出的濾波器系數(shù)是否穩(wěn)定,在濾波器系數(shù)穩(wěn)定的情況下,向卷積處理部22傳送自適應濾波器19估計出的濾波器系數(shù),更新卷積處理部22的濾波器系數(shù)。另一方面,卷積處理部22根據(jù)系數(shù)傳送部21更新過的濾波器系數(shù)來生成偽回波信號。
圖3所表示的回波消除器24例如記載于非專利文獻1《デユアルフイルタ構成エコ—抑圧における係數(shù)転送方式について》(王、松井、寺田、中山著日本音響學會講演論文集,3-p-10,pp.491-492,Oct.1999)中。此外,對于圖3所表示的回波消除器24中的自適應濾波器19的算法,在前述非專利文獻1或(日本)非專利文獻2《適応フイルタ入門》(S.ヘイキン著,武部干(譯)現(xiàn)代工學社,1987)中記載了各種手法,省略其詳細說明。
此外,為了表示除揚聲器12及話筒13以外的各部處理離散的時間序列信號,第1聲信號及第2聲信號分別用標號x(i)及d(i)來表示,i表示是離散的時間序列信號中的第i個信號。此外,假設第2聲信號的回波分量為y(i),第2聲信號的語音分量為s(i),第2聲信號的噪聲分量為n(i),則第2聲信號d(i)可表示為d(i)=s(i)+y(i)+n(i)。
這里,說明下述情況例如在本實施方式的聲處理裝置10上連接汽車導航裝置,聲信號輸入部件11將表示該汽車導航裝置的引導語音的聲信號作為第1聲信號來接收,將接收到的第1聲信號輸出到揚聲器12。
其中,圖4示出了話筒13生成的第2聲信號d(i)的回波分量y(i)、第2聲信號d(i)的語音分量s(i)、第2聲信號d(i)=y(tǒng)(i)+s(i)、回波消除器14生成的第3聲信號e(i)的時間波形的一例。此外,為了容易理解已抑制了回波分量,示出了可將背景噪聲n(i)看作零時的時間波形。
此外,對于回波消除器14輸出的第3聲信號e(i),比較了濾波器系數(shù)不穩(wěn)定時(濾波器系數(shù)的變動未收斂時)回波消除器14抑制了回波分量的情況下的第3聲信號e1(i)、和濾波器系數(shù)穩(wěn)定時(濾波器系數(shù)的變動收斂時)抑制了回波分量、從回波消除器14輸出的第3聲信號e2(i)。
如圖4(d)、(e)所表示,在濾波器系數(shù)不穩(wěn)定時,未充分抑制回波分量,在第3聲信號e1中存在著殘留回波。另一方面,在濾波器系數(shù)穩(wěn)定時,充分抑制了回波分量,在第3聲信號e2中不存在殘留回波。
語音檢測部件16計測第3聲信號e(i)的信號電平,比較計測到的第3聲信號e(i)的信號電平和預先設定的閾值,檢測話者的語音的始端,生成用于將是否是在第3聲信號中存在話者的語音的區(qū)間的判定結果通知給控制部件17的控制信號。
這里,語音檢測部件16也可以判定揚聲器11是否輸出了聲音,根據(jù)該判定來更新預先設定的閾值,比較第3聲信號e(i)的信號電平和更新過的閾值,檢測話者的語音的始端。
此外,語音檢測部件16也可以計測揚聲器輸出的聲音的持續(xù)時間,根據(jù)該持續(xù)時間來更新預先設定的閾值,比較第3聲信號e(i)的信號電平和更新過的閾值,檢測話者的語音的始端。
圖5比較示出了存在殘留回波及話者的語音的區(qū)間的第3聲信號e(i)和語音檢測部件16生成的控制信號。
語音檢測部件16生成的控制信號,在語音檢測部件16未檢測出話者的語音的區(qū)間中生成用于表示OFF(“關”)狀態(tài)的控制信號,從檢測出話者的語音的始端時起變化為ON(“開”)狀態(tài),在檢測出話者的語音的區(qū)間中生成用于表示ON狀態(tài)的控制信號,輸出到控制部件17。
如圖5所表示,通常在比話者的發(fā)聲開始略晚的定時生成用于表示ON狀態(tài)的控制信號。因此,設發(fā)聲語音的檢測結果從OFF變?yōu)镺N的瞬間的時刻為Ton,聲信號存儲部件15由控制部件17控制,將從時刻Ton回溯了時間Tm的時刻Ts以后的信號e(i)作為第4聲信號來輸出。
因此,從聲信號存儲部件15中存儲的信號中減少回聲分量,通過聲信號輸出部件18來輸出包含用戶發(fā)聲的語音分量的信號。
接著,說明本實施方式的聲處理裝置10的工作。
首先,例如將表示“您去哪兒?”這一引導語音的第1聲信號輸入到聲信號輸入部件11中。接著,將第1聲信號輸入到回波消除器14中,由揚聲器12將引導語音輸出到空中。
在話者響應引導語音、例如發(fā)出了“想去A游樂場?!睍r,話筒13拾取話者的語音以及引導語音,生成包含表示話者語音的語音分量和表示作為回波而拾取的引導語音的回波分量的第2聲信號。該引導語音成為回聲,在對話者發(fā)聲的語音進行語音處理的情況下成為干擾音,所以由回波消除器14進行消除回聲的處理。
以下,以圖2為例來說明回波消除器14進行的回聲消除處理。
假設由聲信號輸入部件11輸入的引導語音的時間序列信號為x(i),該引導語音x(i)從揚聲器12混入到話筒13中的信號、即回聲為y(i),用戶發(fā)聲的信號為s(i),背景噪聲信號為n(i),則輸入到話筒13中的信號d(i)可用d(i)=s(i)+y(i)+n(i)來表現(xiàn)。
此時,自適應濾波器19計算d(i)中包含的引導信號分量y(i)的估計值yd(i),作為回波消除器14的處理而進行e(i)=d(i)-yd(i)。這樣得到消除了從話筒13輸入的信號d(i)中包含的引導語音分量的第3聲信號e(i),由聲信號存儲部件15來存儲。
將如前所述從回波消除器14輸出的第3聲信號e(i)臨時存儲到聲信號存儲部件15中。此時,同時將來自回波消除器14的第3聲信號e(i)送至語音檢測部件16,進行在第3聲信號e(i)中檢測用戶發(fā)聲的語音分量的檢測處理。該檢測處理例如根據(jù)信號的功率來進行,觀測第3聲信號e(i)的平均功率P(i),在功率P(i)超過閾值TH時判斷為在e(i)中包含用戶發(fā)聲的語音分量。
接著,進一步詳細說明存在話者的語音的區(qū)間的提取。
如圖5所表示,回波消除器14輸出的第3聲信號e(i)表示引導語音的殘余即殘留回波、和該殘留回波之后接著的話者的語音。圖5示出了回波消除器14輸出的第3聲信號以及語音檢測部件16生成的控制信號。該控制信號取“H”電平和“L”電平這2個值,在檢測第3聲信號的話者的語音時,將“H”電平與判定為存在話者的語音的區(qū)間相對應,將“L”電平與判定為不存在話者的語音的區(qū)間相對應。因此,從“L”電平上升到“H”電平的時刻“Ton”是判定為存在話者的語音的區(qū)間的始端。
此外,如圖5所表示,在比話者的語音開始略晚的定時,控制信號上升到“H”電平,所以控制部件17將回波消除器14輸出的第3聲信號存儲到聲信號存儲部件15中,將從控制信號上升的時刻“Ton”回溯了預先設定的時間“Tm”的時刻以后聲信號存儲部件15存儲的第3聲信號作為第4聲信號從聲信號存儲部件15輸出。
因此,控制部件17將只提取出存在話者的語音的區(qū)間的第4聲信號從聲信號存儲部件15輸出到聲信號輸出部件18,所以聲信號輸出部件18能夠向外部設備輸出減少了回波分量的第4聲信號。
如上所述,本實施方式的聲處理裝置10從檢測出存在話者的語音的區(qū)間的始端時起向外部設備輸出減少了回波分量的聲信號,所以與檢測出存在話者的語音的區(qū)間的末端后向外部設備輸出減少了回波分量的聲信號的現(xiàn)有的聲處理裝置相比,能夠縮短回波抑制處理所需的時間。
此外,本實施方式的聲處理裝置10即使在不能充分抑制回波分量的環(huán)境下,也能夠在回波消除器輸出的第3聲信號中比較準確地提取存在話者的語音的區(qū)間,作為第4聲信號輸出到外部設備。
此外,在組合使用本實施方式的聲處理裝置和語音識別裝置的情況下,聲處理裝置將存在話者的語音的區(qū)間作為第4聲信號輸出到語音識別裝置,所以語音識別裝置能夠高效率地執(zhí)行話者的語音的語音識別。
接著,參照圖6及圖7來說明本實施方式第1另一方式的聲處理裝置30。
如圖6及圖7所表示,聲處理裝置30在與再生樂曲的音頻裝置31的組合中,執(zhí)行回波抑制處理,將從聲信號存儲部件15輸出的第4聲信號經(jīng)聲信號輸出部件18輸出到聲信號記錄裝置32。
通過該結構,在用戶按照從揚聲器12輸出的樂曲將語音或歌聲錄音到聲信號記錄裝置32中時,能夠從話筒13生成的聲信號中減少回波分量,將減少了回波分量的聲信號輸出到聲信號記錄裝置32。
接著,參照圖8至圖10來說明本實施方式第2另一形態(tài)的聲處理裝置40。
如圖8至圖10所表示,本實施方式第2另一形態(tài)的聲處理裝置40被包含在具有生成引導語音的聲信號生成部件41、和對從聲信號輸出部件18輸出的聲信號執(zhí)行語音識別的語音識別部件42的電子設備中,執(zhí)行回波抑制處理。
通過該結構,聲處理裝置執(zhí)行回波抑制處理,提取存在話者的語音的區(qū)間的聲信號,所以語音識別部件能夠高效率地執(zhí)行話者的語音的語音識別。
此外,如圖9及圖10所表示,通過在該電子設備的監(jiān)視器43上顯示動畫角色,按照引導語音及話者的語音的識別結果來變化動畫角色的表情,操作者能夠以人際對話的感覺與電子設備進行對話,例如搜索或記錄信息。
(第2實施方式)作為用于實施發(fā)明的最佳方式,說明了第1實施方式的聲處理裝置。然而,為了完成本申請的課題,也可以是第2實施方式的聲處理裝置。
以下,參照圖11至圖13來說明本發(fā)明第2實施方式的聲處理裝置。
本實施方式的聲處理裝置50如圖11所表示,包括聲信號輸入部件51;揚聲器52;話筒53;回波消除器54;聲信號存儲部件55;聲信號輸出部件58;語音檢測部件56,響應聲信號輸入部件51輸入的第1聲信號和回波消除器輸出的第3聲信號來檢測話者的語音的始端;以及控制部件57,控制聲信號存儲部件55,以便使聲信號存儲部件55將聲信號存儲部件55存儲的第3聲信號內的、從語音檢測部件56檢測出的話者的語音的始端回溯了預先設定的時間的時刻以后的第3聲信號作為第4聲信號來輸出。
語音檢測部件56計測第1聲信號的信號電平和第3聲信號的信號電平,比較計測到的第1聲信號的信號電平及第3聲信號的信號電平與預先設定的閾值,檢測話者的語音的始端。
在本實施方式的聲處理裝置50中,如上所述,語音檢測部件56計測第1聲信號的信號電平和第3聲信號的信號電平,比較計測到的第1聲信號的信號電平及第3聲信號的信號電平與預先設定的閾值,檢測話者的語音的始端;但是語音檢測部件也可以計算表示第1聲信號的功率的第1功率值和表示第3聲信號的功率的第3功率值,比較算出的第1功率值及第3功率值和預先設定的閾值,檢測話者的語音的始端。此外,語音檢測部件也可以執(zhí)行第1聲信號及第3聲信號的頻率分析,根據(jù)該頻率分析的結果來檢測話者的語音的始端。再者,語音檢測部件也可以計測第3聲信號的噪聲分量,按照計測到的噪聲分量來更新預先設定的閾值,比較第1聲信號的信號電平及第3聲信號的信號電平和更新過的閾值,檢測話者的語音的始端。
如上所述,語音檢測部件56根據(jù)聲信號輸入部件51輸入的第1聲信號和回波消除器54輸出的第3聲信號來判定是否是話者的語音,所以能夠以比較高的精度來檢測話者的語音的始端。
此外,語音檢測部件56在根據(jù)聲信號輸入部件51輸入的第1聲信號而判定為揚聲器52輸出了聲音時,將預先設定的閾值更新得略高,所以能夠以比較高的精度來檢測話者的語音的始端。
此外,語音檢測部件56對回波消除器54輸出的第3聲信號e(i)進行平滑,計測平滑過的第3聲信號的信號電平Pe(i),將不存在話者的語音時的第3聲信號的信號電平作為背景噪聲的平滑值Pn(i)來記錄,逐幀計算平滑過的第3聲信號的信號電平Pe(i)和背景噪聲的平滑值Pn(i)之間的差分L(i)=Pe(i)-Pn(i),在算出的差分L(i)超過預先設定的閾值TH時,判定為存在話者的語音。
此外,語音檢測部件56最好計測揚聲器輸出的聲音的持續(xù)時間,根據(jù)該持續(xù)時間來更新預先設定的閾值,比較第1聲信號的信號電平及第3聲信號的信號電平和更新過的閾值。此外,語音檢測部件最好判定揚聲器52是否輸出了聲音,根據(jù)該判定來來更新預先設定的閾值,比較第1聲信號的信號電平及第3聲信號的信號電平和更新過的閾值。此外,如圖12所表示,第3聲信號的語音分量的大小、或者第3聲信號的回波分量的消去量根據(jù)背景噪聲的大小來變化,所以語音檢測部件56最好也根據(jù)平滑過的第3聲信號的信號電平Pe(i)來更新閾值。
在圖12中,閾值設定方法1示出了不依賴于背景噪聲的平滑值Pn(i)、采用了恒定的閾值TH的一例。另一方面,閾值設定方法2示出了與背景噪聲的平滑值Pn(i)成正比來增加閾值TH的值的一例。此外,閾值設定方法3示出了閾值TH根據(jù)噪聲電平Pn(i)來增加、但是在某個Pn(i)的范圍內閾值TH不變化的例子。圖12所表示的3種閾值設定方法只是一例,最好按照系統(tǒng)用最佳的方法來設定。
這里,補充說明用于有效地進行回波抑制處理的閾值TH的設定。首先通過根據(jù)背景噪聲電平來變化閾值TH,能夠有效地進行回波抑制處理。例如,噪聲電平上升后,一般用戶的發(fā)聲電平也上升,所以在噪聲電平高時,最好將發(fā)聲檢測的閾值TH設定得略高。
此外,也可以根據(jù)是否從揚聲器52輸出了聲音來變化閾值TH,在從揚聲器52輸出了聲音的情況下,如果將閾值TH設定得較小,則能夠有效地進行回波抑制處理。
再者,也可以根據(jù)從揚聲器52輸出的聲信號的合計時間來變化閾值TH。這是因為,回波消除器54的性能往往是在從揚聲器52輸出的聲信號的合計時間短時回波抑制處理不夠。因此,在從揚聲器52輸出的聲信號的合計時間短時,最好將閾值TH設定得略大。
如上所述,能夠設定閾值TH來檢測用戶的發(fā)聲,減小回聲信號,來輸出包含用戶產生的聲信號的信號。
接著,描述在本實施方式的聲處理裝置50的聲信號輸出部件58上連接了語音識別部件42的情況下調查語音識別部件42的語音識別性能的實驗結果。
圖13示出了汽車導航裝置進行語音識別處理的情況下的性能評價結果。在該語音識別實驗中,求出了在輸出引導語音的期間用戶發(fā)出設施名時的語音識別率。條件假定是非特定人型的單詞識別,詞典為2600個單詞的詞典,在與空載相當?shù)腟N比為25dB的環(huán)境下使用。
圖13的橫軸是發(fā)聲的定時,縱軸顯示了引導輸出開始時刻為0.5秒、用戶的發(fā)聲定時為U秒時的語音識別率。由該結果可知,與不用回波抑制來進行語音識別時的識別率61相比,對從聲信號輸出部件58輸出的信號進行語音識別時的識別率62的語音識別性能大幅度改善了。
接著,說明本實施方式的聲處理裝置50的工作。其中,除了語音檢測部件56的工作,本實施方式的聲處理裝置50的工作與第1實施方式的聲處理裝置10的工作相同,這里,說明語音檢測部件56的工作。
將聲信號輸入部件51輸入的第1聲信號和回波消除器54生成的第3聲信號輸入到語音檢測部件56中。語音檢測部件56根據(jù)第1聲信號和第3聲信號來檢測存在話者的語音的區(qū)間的始端,將表示檢測出始端的意思的控制信號輸出到控制部件57。
接著,進一步詳細說明存在話者的語音的區(qū)間的檢測。
語音檢測部件56根據(jù)來自聲信號輸入部件51的輸入信號x(i)、和來自回波消除器54的輸出信號e(i)來檢測用戶的發(fā)聲。在本實施方式中,以用信號的平滑值來檢測發(fā)聲的方法為例。其中,所謂信號的平滑值,是指信號振幅的絕對值的時間平均值。
測定從回波消除器54得到的信號e(i)的平滑值Pe(i),將沒有用戶的發(fā)聲語音時的值作為背景噪聲的平滑值Pn(i)來記錄。然后,對根據(jù)預定的時間劃分的每個幀來連續(xù)測定L(i)=Pe(i)-Pn(i),在該L(i)超過閾值TH時,認為有用戶的發(fā)聲語音。
如上所述,本實施方式的聲處理裝置的語音檢測部件根據(jù)回波消除器輸出的第3聲信號和聲信號輸入部件輸入的第1聲信號來檢測話者的語音的始端,所以即使在不能充分抑制回波分量的環(huán)境下,也能夠在回波消除器輸出的第3聲信號中比較準確地提取存在話者的語音的區(qū)間,作為第4聲信號輸出到外部設備。
此外,在組合使用本實施方式的聲處理裝置和語音識別裝置的情況下,聲處理裝置將存在話者的語音的區(qū)間作為第4聲信號輸出到語音識別裝置,所以語音識別裝置能夠高效率地執(zhí)行話者的語音的語音識別。
(第3實施方式)作為用于實施發(fā)明的最佳方式,說明了第1及第2實施方式的聲處理裝置。然而,為了完成本申請的課題,也可以是第3實施方式的聲處理裝置。
以下,參照圖14來說明本發(fā)明第3實施方式的聲處理裝置。
本實施方式的聲處理裝置70如圖14所表示,包括聲信號輸入部件71;揚聲器72;話筒73;回波消除器74;聲信號存儲部件75;聲信號輸出部件78;語音檢測部件76,根據(jù)話筒73生成的第2聲信號和回波消除器74生成的第3聲信號來檢測存在話者的語音的區(qū)間的始端;以及控制部件77。
此外,控制部件77將回波消除器74輸出的第3聲信號存儲到聲信號存儲部件75中,將從語音檢測部件76生成的控制信號上升的時刻“Ton”回溯了預先設定的時間“Tm”的時刻以后聲信號存儲部件75存儲的第3聲信號作為第4聲信號從聲信號存儲部件75輸出。此外,控制部件77控制聲信號存儲部件75,使得從控制信號上升的時刻“Ton”起開始輸出第4聲信號。
語音檢測部件76取得與聲信號輸入部件71輸入的第1聲信號的信號電平的變化、頻率特性、話者的語音有關的信息,所以能夠以比較高的精度來判定是否是話者的語音。例如,在聲信號輸入部件71輸入的第1聲信號中檢測語音分量,在能夠判斷為輸出了引導語音的情況下,將預先設定的閾值更新得略高,判定話者的語音分量是否超過更新過的閾值。
接著,說明本實施方式的聲處理裝置70的工作。其中,除了語音檢測部件76的工作,本實施方式的聲處理裝置70的工作與第1實施方式的聲處理裝置10的工作相同,這里,說明語音檢測部件76的工作。
將話筒73生成的第2聲信號和回波消除器74生成的第3聲信號輸入到語音檢測部件76中。語音檢測部件76根據(jù)第2聲信號和第3聲信號來檢測存在話者的語音的區(qū)間的始端,將表示檢測出始端的意思的控制信號輸出到控制部件77。
如上所述,本實施方式的聲處理裝置的語音檢測部件根據(jù)話筒生成的第2聲信號和回波消除器輸出的第3聲信號來檢測存在話者的語音的區(qū)間,所以回波消除器74能夠測定在多大程度上抑制了回波分量。
此外,本實施方式的聲處理裝置根據(jù)第2聲信號和第3聲信號來檢測存在話者的語音的區(qū)間的始端,所以即使在不能充分抑制回波分量的環(huán)境下,也能夠在回波消除器輸出的第3聲信號中比較準確地提取存在話者的語音的區(qū)間,作為第4聲信號輸出到外部設備。
語音檢測部件例如在輸入到回波消除器74中的第2聲信號的信號電平比較高、而且回波消除器74輸出的第3聲信號的信號電平也比較高的情況下,能夠判定為存在話者的語音,所以控制部件能夠向語音信號存儲部件中比較準確地輸出存在語音的區(qū)間。
此外,在組合使用本實施方式的聲處理裝置和語音識別裝置的情況下,聲處理裝置將存在話者的語音的區(qū)間作為第4聲信號輸出到語音識別裝置,所以語音識別裝置能夠高效率地執(zhí)行話者的語音的語音識別。
(第4實施方式)
作為用于實施發(fā)明的最佳方式,說明了第3實施方式的聲處理裝置。然而,為了完成本申請的課題,也可以是第4實施方式的聲處理裝置。
以下,參照圖15來說明本發(fā)明第4實施方式的聲處理裝置。
本實施方式的聲處理裝置80如圖15所表示,包括聲信號輸入部件81;揚聲器82;話筒83;回波消除器84;聲信號存儲部件85;聲信號輸出部件88;語音檢測部件86,根據(jù)聲信號輸入部件81輸入的第1聲信號、話筒83生成的第2聲信號以及回波消除器生成的第3聲信號來檢測存在話者的語音的區(qū)間的始端;以及控制部件87。
此外,控制部件87將回波消除器84輸出的第3聲信號存儲到聲信號存儲部件85中,將從語音檢測部件86生成的控制信號上升的時刻“Ton”回溯了預先設定的時間“Tm”的時刻以后聲信號存儲部件85存儲的第3聲信號作為第4聲信號從聲信號存儲部件85輸出。
語音檢測部件86從聲信號輸入部件81輸入的第1聲信號中取得與信號電平的變化、頻率特性、發(fā)聲內容有關的信息,所以能夠以比較高的精度來判定是否是話者的語音。例如,在聲信號輸入部件81輸入的第1聲信號中檢測出語音分量的情況下,判斷為輸出了引導語音,將預先設定的閾值更新得略高,判定話者的語音分量是否超過更新過的閾值。
接著,說明本實施方式的聲處理裝置80的工作。其中,除了語音檢測部件86的工作,本實施方式的聲處理裝置80的工作與第3實施方式的聲處理裝置70的工作相同,這里,說明語音檢測部件86的工作。
將聲信號輸入部件81輸入的第1聲信號、話筒83生成的第2聲信號以及回波消除器生成的第3聲信號輸入到語音檢測部件86中。語音檢測部件76根據(jù)第1聲信號、第2聲信號以及第3聲信號來檢測存在話者的語音的區(qū)間的始端,將表示檢測出始端的時刻的控制信號輸出到控制部件87。
如上所述,本實施方式的聲處理裝置根據(jù)聲信號輸入部件81輸入的第1聲信號、話筒83生成的第2聲信號以及回波消除器生成的第3聲信號來檢測存在話者的語音的區(qū)間的始端,所以即使在不能充分抑制回波分量的環(huán)境下,也能夠在回波消除器輸出的第3聲信號中比較準確地提取存在話者的語音的區(qū)間,作為第4聲信號輸出到外部設備。
此外,在組合使用本實施方式的聲處理裝置和語音識別裝置的情況下,聲處理裝置將存在話者的語音的區(qū)間作為第4聲信號輸出到語音識別裝置,所以語音識別裝置能夠高效率地執(zhí)行話者的語音的語音識別。
(第5實施方式)作為用于實施發(fā)明的最佳方式,說明了第1至第4實施方式的聲處理裝置。然而,為了完成本申請的課題,也可以是第5實施方式的聲處理裝置。
以下,參照圖16來說明本發(fā)明第5實施方式的聲處理裝置。
本實施方式的聲處理裝置90如圖16所表示,包括聲信號輸入部件91;揚聲器92;話筒93;回波消除器94;聲信號存儲部件95;聲信號輸出部件98;音量調整部件99,為了調整揚聲器92輸出的聲音的音量,而調整聲信號輸入部件91輸出到揚聲器92的第1聲信號的信號電平;語音檢測部件96,根據(jù)音量調整部件99輸出的第1聲信號和回波消除器94生成的第3聲信號來檢測存在話者的語音的區(qū)間的始端;以及控制部件97。
此外,控制部件97將回波消除器94輸出的第3聲信號存儲到聲信號存儲部件95中,將從語音檢測部件96生成的控制信號上升的時刻“Ton”回溯了預先設定的時間“Tm”的時刻以后聲信號存儲部件95存儲的第3聲信號作為第4聲信號從聲信號存儲部件95輸出。
語音檢測部件96從聲信號輸入部件91輸入的第1聲信號中取得與信號電平的變化、頻率特性、發(fā)聲內容有關的信息,所以能夠以比較高的精度來判定是否是話者的語音。例如,在聲信號輸入部件91輸入的第1聲信號中檢測出語音分量的情況下,將預先設定的閾值更新得略高,判定話者的語音分量是否超過更新過的閾值。
接著,說明本實施方式的聲處理裝置90的工作。其中,除了語音檢測部件96及音量調整部件99的工作,本實施方式的聲處理裝置90的工作與第1實施方式的聲處理裝置10的工作相同,這里,只說明語音檢測部件96及音量調整部件99的工作。
音量調整部件99調整從聲信號輸入部件91輸入的聲信號的輸出電平。因此,從揚聲器92輸出的聲音的音量的輸出電平按照音量調整部件99的調整來增減,回聲分量也增減。
另一方面,語音檢測部件96根據(jù)從回波消除器94輸出的消除處理后的聲信號和音量調整部件99的調整信息的信號來進行用戶發(fā)聲的語音分量的檢測處理。
如上所述,本實施方式的聲處理裝置的語音檢測部件根據(jù)音量調整部件99調整過信號電平的第1聲信號和回波消除器輸出的第3聲信號來檢測話者的語音的始端,所以即使在不能充分抑制回波分量的環(huán)境下,也能夠在回波消除器輸出的第3聲信號中比較準確地提取存在話者的語音的區(qū)間,作為第4聲信號來輸出。
此外,在組合使用本實施方式的聲處理裝置和語音識別裝置的情況下,聲處理裝置將存在話者的語音的區(qū)間作為第4聲信號輸出到語音識別裝置,所以語音識別裝置能夠高效率地執(zhí)行話者的語音的語音識別。
(第6實施方式)作為用于實施發(fā)明的最佳方式,說明了第1至第5實施方式的聲處理裝置。然而,為了完成本申請的課題,也可以是第6實施方式的聲處理裝置。
以下,參照圖17來說明本發(fā)明第6實施方式的聲處理裝置。
本實施方式的聲處理裝置100如圖17所表示,包括聲信號輸入部件101;揚聲器102;話筒103;回波消除器104;聲信號存儲部件105;聲信號輸出部件108;發(fā)聲檢測輔助開關109,檢測話者發(fā)出語音的定時,響應檢測出的定時來生成觸發(fā)信號;語音檢測部件106,根據(jù)該發(fā)聲檢測輔助開關109生成的觸發(fā)信號和回波消除器104生成的第3聲信號來判定第3聲信號的話者的語音分量是否超過預先設定的閾值;以及控制部件107,根據(jù)該語音檢測部件106判定出的判定結果來控制聲信號存儲部件105,使得聲信號存儲部件105輸出第3聲信號。
語音檢測部件106響應發(fā)聲檢測輔助開關109生成的觸發(fā)信號,所以能夠以比較高的精度來判定第3聲信號的信號電平是否增加了。
其中,發(fā)聲檢測輔助開關109構成觸發(fā)信號生成部件。此外,作為發(fā)聲檢測輔助開關109的具體例,有按鈕開關、觸摸傳感器、用攝像機檢測嘴唇的運動的系統(tǒng)等。
接著,說明本實施方式的聲處理裝置100的工作。其中,只說明發(fā)聲檢測輔助開關109的工作。
發(fā)聲檢測輔助開關109在話者開始發(fā)聲時“開”,將該信號輸出到語音檢測部件106。語音檢測部件106通過從發(fā)聲檢測輔助開關109接收“開”信號,來取得話者的發(fā)聲定時。
如上所述,本實施方式的聲處理裝置100即使在不能充分抑制回波分量的環(huán)境下,也能夠根據(jù)觸發(fā)信號生成部件109生成的觸發(fā)信號和回波消除器104輸出的第3聲信號來比較準確地檢測話者的語音的始端。
此外,本實施方式的聲處理裝置100將存在話者的語音的區(qū)間作為第4聲信號來輸出,所以能夠排除殘留回波。
此外,在組合使用本實施方式的聲處理裝置100和語音識別裝置的情況下,聲處理裝置100將存在話者的語音的區(qū)間作為第4聲信號輸出到語音識別裝置,所以語音識別裝置能夠高效率地執(zhí)行話者的語音的語音識別。
(第7實施方式)作為用于實施發(fā)明的最佳方式,說明了第1至第6實施方式的聲處理裝置。然而,為了完成本申請的課題,也可以是第7實施方式的聲處理裝置。
以下,參照圖18來說明本發(fā)明第7實施方式的聲處理裝置。
本實施方式的聲處理裝置110如圖18所表示,包括聲信號輸入部件111;揚聲器112;多個話筒元件113c至113n,拾取話者的語音,分別生成多個聲信號;聲信號合成部件119,合成多個話筒元件113c至113n分別生成的多個聲信號以便增強話者的語音分量,生成第2聲信號;回波消除器114,減少該聲信號合成部件119生成的第2聲信號的回波分量;聲信號存儲部件115;聲信號輸出部件118;語音檢測部件116,根據(jù)聲信號合成部件119生成的第2聲信號和回波消除器114生成的第3聲信號來判定第3聲信號的話者的語音分量是否超過預先設定的閾值;以及控制部件117,根據(jù)該語音檢測部件116判定出的判定結果來控制聲信號存儲部件115,使得聲信號存儲部件115輸出第3聲信號。這里,話筒元件113c至113n構成話筒陣列113。
語音檢測部件116能夠根據(jù)聲信號合成部件119生成的第2聲信號和回波消除器114生成的第3聲信號用話者的語音以比較高的精度來判定第3聲信號的信號電平是否增加了。
此外,多個話筒元件113c至113n以預先設定的間隔來配置,所以聲信號合成部件119能夠增強第2聲信號的語音分量,減少第2聲信號的回波分量。
接著,說明本實施方式的聲處理裝置110的工作。其中,只說明話筒陣列113及聲信號合成部件119的工作。
話筒陣列113拾取話者的語音,將聲信號輸出到聲信號合成部件119。聲信號合成部件119增強話者的聲信號,將增強了的聲信號輸出到語音檢測部件116。語音檢測部件116根據(jù)增強了的聲信號和回波抑制處理過的信號來進行話者發(fā)聲的語音分量的檢測處理。
如上所述,本實施方式的聲處理裝置110即使在不能充分抑制回波分量的環(huán)境下,也能夠根據(jù)聲信號合成部件119生成的第2聲信號和回波消除器114輸出的第3聲信號來比較準確地檢測話者的語音的始端。
此外,本實施方式的聲處理裝置110將存在話者的語音的區(qū)間作為第4聲信號來輸出,所以能夠排除殘留回波。
此外,在組合使用本實施方式的聲處理裝置110和語音識別裝置的情況下,聲處理裝置110將存在話者的語音的區(qū)間作為第4聲信號輸出到語音識別裝置,所以語音識別裝置能夠高效率地執(zhí)行話者的語音的語音識別。
(第8實施方式)作為用于實施發(fā)明的最佳方式,說明了第1至第7實施方式的聲處理裝置。然而,為了完成本申請的課題,也可以是第8實施方式的聲處理裝置。
以下,參照圖19來說明本發(fā)明第8實施方式的聲處理裝置。
本實施方式的聲處理裝置120如圖19所表示,包括聲信號輸入部件121;揚聲器122;話筒123;回波消除器124;噪聲抑制部件129,抑制回波消除器124輸出的第3聲信號的噪聲分量;聲信號存儲部件125,存儲該噪聲抑制部件129抑制了噪聲分量的第3聲信號;聲信號輸出部件128;語音檢測部件126,根據(jù)噪聲抑制部件129抑制了噪聲分量的第3聲信號來檢測存在話者的語音的區(qū)間的始端;以及控制部件127。
語音檢測部件126根據(jù)噪聲抑制部件129抑制了噪聲分量的第3聲信號來檢測存在話者的語音的區(qū)間的始端,所以能夠用話者的語音以比較高的精度來判定第3聲信號的信號電平是否增加了。
接著,說明本實施方式的聲處理裝置120的工作。其中,只說明噪聲抑制部件129的工作。
從回波消除器124輸出的第3聲信號的噪聲分量由噪聲抑制部件129來抑制。接著,抑制了噪聲分量的第3聲信號由聲信號存儲部件125來存儲。另一方面,從抑制了噪聲分量的第3聲信號中檢測存在話者的語音的區(qū)間的始端。另一方面,從聲信號存儲部件125中存儲的第3聲信號內的、從存在話者的語音的區(qū)間的始端回溯了預先設定的時間的時刻的第3聲信號起依次輸出。
如上所述,本實施方式的聲處理裝置120即使在不能充分抑制回波分量的環(huán)境下,也能夠根據(jù)噪聲抑制部件129抑制了噪聲分量的第3聲信號來比較準確地檢測話者的語音的始端。
此外,本實施方式的聲處理裝置120的語音檢測部件126從抑制了噪聲分量的第3聲信號中檢測存在話者的語音的區(qū)間的始端,控制部件將聲信號存儲部件中存在話者的語音的區(qū)間作為第4聲信號來輸出,所以能夠排除殘留回波。
此外,在組合使用本實施方式的聲處理裝置120和語音識別裝置的情況下,聲處理裝置120將存在話者的語音的區(qū)間作為第4聲信號輸出到語音識別裝置,所以語音識別裝置能夠高效率地執(zhí)行話者的語音的語音識別。
(第9實施方式)作為用于實施發(fā)明的最佳方式,說明了第1至第8實施方式的聲處理裝置。然而,為了完成本申請的課題,也可以是第9實施方式的聲處理裝置。
以下,參照圖20來說明本發(fā)明第9實施方式的聲處理裝置。
本實施方式的聲處理裝置130如圖20所表示,包括通信部件132,為了接收表示遠端的話者的語音的第1聲信號,而經(jīng)通信網(wǎng)133與外部設備136進行通信;聲信號輸入部件141,輸入該通信部件132接收到的第1聲信號;揚聲器142,將第1聲信號變換為表示遠端的話者的語音的聲音,輸出變換出的聲音;話筒143,拾取近端的話者的語音,生成第2聲信號;回波消除器144;噪聲抑制部件149,抑制回波消除器144輸出的第3聲信號的噪聲分量;聲信號存儲部件145;語音檢測部件146;控制部件147;以及聲信號輸出部件148。
通信部件132將聲信號輸出部件148輸出的第4聲信號經(jīng)通信網(wǎng)133發(fā)送到外部設備136。
此外,外部設備136包括通信部件134,發(fā)送第1聲信號,并且為了從聲處理裝置130接收第4聲信號而與聲處理裝置130進行通信;以及語音處理部件135,處理該通信部件134接收到的第4聲信號。
上述通信網(wǎng)133可以是電話線路或因特網(wǎng)(注冊商標)等有線通信網(wǎng)、或者電波或紅外線等無線通信網(wǎng)。
接著,說明本實施方式的聲處理裝置130的工作。
聲信號輸入部件141經(jīng)通信網(wǎng)133從語音處理部件135輸入聲信號。另一方面,來自聲信號輸出部件148的信號經(jīng)通信網(wǎng)133輸出到語音處理部件135。通信部件132及通信部件134與通信網(wǎng)133進行聲信號的發(fā)送接收的控制。
如上所述,本實施方式的聲處理裝置130即使在不能充分抑制回波分量的環(huán)境下,也能夠根據(jù)回波消除器144輸出的第3聲信號來比較準確地檢測話者的語音的始端。
此外,本實施方式的聲處理裝置130將存在話者的語音的區(qū)間的第3聲信號作為第4聲信號來輸出,所以能夠排除殘留回波。
再者,本實施方式的聲處理裝置130包括與外部設備136進行通信的通信部件132,所以能夠向外部設備輸出第4聲信號。
此外,在組合使用本實施方式的聲處理裝置130和語音識別裝置的情況下,聲處理裝置130將存在話者的語音的區(qū)間作為第4聲信號輸出到語音識別裝置,所以語音識別裝置能夠高效率地執(zhí)行話者的語音的語音識別。
(第10實施方式)作為用于實施發(fā)明的最佳方式,說明了第1至第9實施方式的聲處理裝置。然而,為了完成本申請的課題,也可以是第10實施方式的聲處理裝置。
以下,參照圖21來說明本發(fā)明第10實施方式的聲處理裝置。
本實施方式的聲處理裝置151如圖21所表示,包括聲信號輸入部件161,輸入第1聲信號;以及通信部件154,為了將聲信號輸入部件161輸入的第1聲信號經(jīng)通信網(wǎng)153發(fā)送到外部設備156,而與外部設備156進行通信。
外部設備156包括通信部件152,為了接收第1聲信號,而與聲處理裝置151進行通信;揚聲器162,將該通信部件152接收到的第1聲信號變換為聲音,輸出變換出的聲音;以及話筒163,拾取話者的語音,生成第2聲信號。
外部設備的通信部件152將話筒163生成的第2聲信號發(fā)送到聲處理裝置151。另一方面,聲處理裝置151的通信部件154從外部設備156接收第2聲信號。
聲處理裝置151還包括回波消除器164,抑制通信部件154接收到的第2聲信號的回波分量;聲信號存儲部件165;語音檢測部件166;控制部件167;以及聲信號輸出部件168。
上述通信網(wǎng)153可以是電話線路或因特網(wǎng)(注冊商標)等有線通信網(wǎng)、或者電波或紅外線等無線通信網(wǎng)。
接著,說明本實施方式的聲處理系統(tǒng)150的工作。
揚聲器162經(jīng)通信網(wǎng)153從回波消除器164輸入聲信號,輸出聲信號所表示的語音。另一方面,來自話筒163的聲信號經(jīng)通信網(wǎng)153輸出到回波消除器164。通信部件152及通信部件154與通信網(wǎng)153進行聲信號的發(fā)送接收。
如上所述,本實施方式的聲處理裝置151即使在不能充分抑制回波分量的環(huán)境下,也能夠根據(jù)回波消除器164輸出的第3聲信號來比較準確地檢測話者的語音的始端。
此外,本實施方式的聲處理裝置151包括與具有揚聲器和話筒的外部設備進行通信的通信部件,通信部件向外部設備發(fā)送第1聲信號,使外部設備的揚聲器輸出第1聲信號所表示的聲音,并且接收外部設備的話筒生成的第2聲信號,所以能夠抑制接收到的第2聲信號的回波分量。
此外,在組合使用本實施方式的聲處理裝置151和語音識別裝置的情況下,聲處理裝置151將存在話者的語音的區(qū)間作為第4聲信號輸出到語音識別裝置,所以語音識別裝置能夠高效率地執(zhí)行話者的語音的語音識別。
再者,也能夠分離位于用戶附近的揚聲器162及話筒163和回波消除器164,能夠實現(xiàn)更便利的聲處理,例如能夠用具有揚聲器162及話筒163的小型終端來實現(xiàn)能可靠地進行回波抑制處理的聲處理裝置等。
(第11實施方式)作為用于實施發(fā)明的最佳方式,說明了第1至第10實施方式的聲處理裝置。然而,為了完成本申請的課題,也可以是第11實施方式的聲處理裝置。
以下,參照圖22來說明本發(fā)明第11實施方式的聲處理裝置。
本實施方式的聲處理裝置170如圖22所表示,包括聲信號輸入部件181;揚聲器182;話筒183;自適應濾波器189,生成第1偽回波信號;以及第2減法器195,從話筒183生成的第2聲信號中減去自適應濾波器189生成的第1偽回波信號。
此外,自適應濾波器189根據(jù)聲信號輸入部件181輸入的第1聲信號和第2減法器195的減法結果來更新濾波器系數(shù),生成與更新過的濾波器系數(shù)相應的第1偽回波信號。
本實施方式的聲處理裝置170包括第1聲信號存儲部171,為了輸出延遲了預先設定的延遲量的第1聲信號,而存儲話筒183生成的第1聲信號;第2聲信號存儲部172,為了輸出延遲了預先設定的延遲量的第2聲信號,而存儲話筒183生成的第2聲信號;卷積處理部192,為了生成第2偽回波信號,而執(zhí)行卷積處理;第1減法器193,從第2聲信號存儲部172輸出的第2聲信號中減去卷積處理部192生成的第2偽回波信號;以及系數(shù)傳送部191,判定自適應濾波器189更新過的濾波器系數(shù)是否穩(wěn)定,在能夠判定為穩(wěn)定的情況下,將更新過的濾波器系數(shù)傳送到卷積處理部192。
此外,卷積處理部192執(zhí)行第1聲信號存儲部171輸出的第1聲信號和系數(shù)傳送部191傳送的濾波器系數(shù)之間的卷積處理,生成第2偽回波信號。
接著,說明本實施方式的聲處理裝置170的工作。
回波消除器174通過設置第1聲信號存儲部171及第2聲信號存儲部172,等待自適應濾波器189估計出的濾波器系數(shù)充分收斂,來進行回波抑制處理。即,在向回波消除器174輸入信號后濾波器系數(shù)短時間內未收斂的情況下,通過現(xiàn)有的回波抑制在輸出信號后短時間內包含很多殘留回波,但是本實施方式的聲處理裝置170等待自適應濾波器系數(shù)收斂后消除回波,所以能夠抑制殘留回波的產生。
如上所述,本實施方式的聲處理裝置170即使在不能充分抑制回波分量的環(huán)境下,也能夠根據(jù)回波消除器174輸出的第3聲信號來比較準確地檢測話者的語音的始端。
此外,本實施方式的聲處理裝置170的回波消除器174包括第1聲信號存儲部171,為了輸出延遲了預先設定的延遲量的第1聲信號,而存儲話筒183生成的第1聲信號;以及第2聲信號存儲部172,為了輸出延遲了預先設定的延遲量的第2聲信號,而存儲話筒183生成的第2聲信號;所以能夠等待自適應濾波器系數(shù)收斂后抑制回波分量,也能夠抑制殘留回波的產生。
此外,在組合使用本實施方式的聲處理裝置170和語音識別裝置的情況下,聲處理裝置170將存在話者的語音的區(qū)間作為第4聲信號輸出到語音識別裝置,所以語音識別裝置能夠高效率地執(zhí)行話者的語音的語音識別。
其中,通過將第1至第10實施方式的聲處理裝置的回波消除器14置換為本實施方式的聲處理裝置170的回波消除器174,能夠更可靠地抑制回波分量。
(第12實施方式)
作為用于實施發(fā)明的最佳方式,說明了第1至第11實施方式的聲處理裝置。然而,為了完成本申請的課題,也可以是第12實施方式的聲處理裝置。
以下,參照圖23來說明本發(fā)明第12實施方式的聲處理裝置。
本實施方式的聲處理裝置200如圖23所表示,包括聲信號輸入部件211;揚聲器212;話筒213;自適應濾波器219,生成第1偽回波信號;第1學習數(shù)據(jù)存儲部201,存儲第1聲信號;第2學習數(shù)據(jù)存儲部202,與第1學習數(shù)據(jù)存儲部201存儲第1聲信號的定時同步來存儲第2聲信號;控制部203,控制第1學習數(shù)據(jù)存儲部201及第2學習數(shù)據(jù)存儲部202的存儲工作,使得在檢測出適合自適應濾波器219的學習的數(shù)據(jù)時,將該數(shù)據(jù)以相同的定時保存或更新到第1學習數(shù)據(jù)存儲部201及第2學習數(shù)據(jù)存儲部202中;以及第2減法器225,從話筒213生成的第2聲信號中減去自適應濾波器219生成的第1偽回波信號。
本實施方式的聲處理裝置200還包括第1聲信號存儲部231,為了輸出延遲了預先設定的延遲量的第1聲信號,而存儲聲信號輸入部件211生成的第1聲信號;第2聲信號存儲部232,為了輸出延遲了預先設定的延遲量的第2聲信號,而存儲話筒213生成的第2聲信號;卷積處理部222,為了生成第2偽回波信號,而執(zhí)行卷積處理;第1減法器223,從第2聲信號存儲部232輸出的第2聲信號中減去卷積處理部222生成的第2偽回波信號;以及系數(shù)傳送部221,判定自適應濾波器219更新過的濾波器系數(shù)是否穩(wěn)定,在能夠判定為穩(wěn)定的情況下,將更新過的濾波器系數(shù)傳送到卷積處理部222。
此外,卷積處理部222執(zhí)行第1聲信號存儲部231輸出的第1聲信號和系數(shù)傳送部221傳送的濾波器系數(shù)之間的卷積處理,生成第2偽回波信號。
接著,說明本實施方式的聲處理裝置200的工作。
控制部203進行控制,使得在檢測出適合自適應濾波器219的學習的數(shù)據(jù)時,將該數(shù)據(jù)以相同的定時保存或更新到第1學習數(shù)據(jù)存儲部201及第2學習數(shù)據(jù)存儲部202中。自適應濾波器219根據(jù)第1學習數(shù)據(jù)存儲部201及第2學習數(shù)據(jù)存儲部202中保存的數(shù)據(jù),來重復進行估計濾波器系數(shù)的學習。由此,用很少的數(shù)據(jù)也能得到收斂了的濾波器系數(shù)。其中,用第1學習數(shù)據(jù)存儲部201及第2學習數(shù)據(jù)存儲部202中存儲的數(shù)據(jù)學習到的濾波器系數(shù)有效是在傳遞特性變化不大時,所以最好用控制部203盡可能地更新學習所使用的數(shù)據(jù)。
如上所述,本實施方式的聲處理裝置200即使在不能充分抑制回波分量的環(huán)境下,也能夠根據(jù)回波消除器204輸出的第3聲信號來比較準確地檢測話者的語音的始端。
此外,本實施方式的聲處理裝置200的回波消除器204包括第1聲信號存儲部231,為了輸出延遲了預先設定的延遲量的第1聲信號,而存儲話筒213生成的第1聲信號;以及第2聲信號存儲部232,為了輸出延遲了預先設定的延遲量的第2聲信號,而存儲話筒213生成的第2聲信號;所以能夠等待自適應濾波器系數(shù)收斂后抑制回波分量,抑制殘留回波的產生。
此外,在組合使用本實施方式的聲處理裝置200和語音識別裝置的情況下,聲處理裝置200將存在話者的語音的區(qū)間作為第4聲信號輸出到語音識別裝置,所以語音識別裝置能夠高效率地執(zhí)行話者的語音的語音識別。
其中,通過將第1至第10實施方式的聲處理裝置的回波消除器14置換為本實施方式的聲處理裝置的回波消除器204,能夠更可靠地抑制回波分量。
(第13實施方式)作為用于實施發(fā)明的最佳方式,說明了第1至第12實施方式的聲處理裝置。然而,為了完成本申請的課題,也可以是第13實施方式的聲處理系統(tǒng)。
以下,參照圖24來說明本發(fā)明第13實施方式的聲處理系統(tǒng)。
本實施方式的聲處理裝置240如圖24所表示,包括汽車導航裝置242,具有生成用于表示與導航有關的引導語音的第1聲信號的聲信號生成部件261;以及聲處理裝置241。
聲處理裝置241包含聲信號輸入部件251,從汽車導航裝置242的聲信號生成部件261取得第1聲信號;揚聲器252,將聲信號輸入部件251取得的第1聲信號變換為聲音,將變換出的聲音作為汽車導航裝置242的引導語音來輸出;話筒253,拾取揚聲器252輸出的聲音和話者的語音,生成第2聲信號;回波消除器254,抑制第2聲信號的回波分量,將抑制了回波分量的第2聲信號作為第3聲信號來輸出;聲信號存儲部件255,存儲第3聲信號;語音檢測部件256,從回波消除器254輸出的第3聲信號中檢測話者的語音;控制部件257,控制聲信號存儲部件255,以便將聲信號存儲部件255存儲的第3聲信號內的、檢測出話者的語音的區(qū)間的第3聲信號從聲信號存儲部件255作為第4聲信號來輸出。
在語音檢測部件256檢測出存在話者的語音的區(qū)間的始端時,控制部件257將從該始端的時刻回溯了預先設定的時間的時刻以后聲信號存儲部件255存儲的第3聲信號作為第4聲信號來輸出。另一方面,汽車導航裝置242還具有為了判定話者是否響應引導語音發(fā)出了特定的語音而執(zhí)行聲處理裝置241的聲信號存儲部件255輸出的第4聲信號的語音識別的語音識別部件262;在汽車導航裝置的語音識別部件262識別出話者的特定的語音時,汽車導航裝置的未圖示的導航信息生成部件生成與特定的語音相應的導航信息。
此外,語音檢測部件256根據(jù)回波消除器輸出的第3聲信號來生成用于表示存在話者的語音的區(qū)間的始端的時刻的控制信號,輸出到控制部件257及語音識別部件262。
此外,在本實施方式的聲處理系統(tǒng)240的工作中,除了將語音檢測部件256的控制信號輸出到汽車導航裝置242的語音識別部件262,本實施方式的聲處理系統(tǒng)240的語音檢測部件256及控制部件257的工作與第1實施方式的語音檢測部件256及控制部件257的工作相同,省略本實施方式的聲處理系統(tǒng)240的工作的說明。
如上所述,本實施方式的聲處理系統(tǒng)即使在不能充分抑制回波分量的環(huán)境下,語音檢測部件也能夠從回波消除器輸出的第3聲信號中檢測話者的語音的始端,在回波消除器輸出的第3聲信號中比較準確地提取存在話者的語音的區(qū)間,作為第4聲信號來輸出。
此外,在像本實施方式的聲處理系統(tǒng)這樣組合使用聲處理裝置和具有語音識別部件的汽車導航裝置的情況下,聲處理裝置將第4聲信號輸出到汽車導航裝置,所以能夠高效率地執(zhí)行話者的語音的語音識別,并且能夠提高語音識別性能。
(第14實施方式)首先,說明本發(fā)明第14實施方式的聲處理系統(tǒng)的結構。
作為用于實施發(fā)明的最佳方式,說明了第1至第13實施方式的聲處理裝置。然而,為了完成本申請的課題,也可以是第14實施方式的聲處理系統(tǒng)。
以下,參照圖25來說明本發(fā)明第14實施方式的聲處理系統(tǒng)。
本實施方式的聲處理系統(tǒng)300如圖25所表示,包括第1聲處理裝置310和第2聲處理裝置330。這些第1及第2聲處理裝置310及330除了回波消除器314及334,分別與第1實施方式的聲處理裝置10在結構上相同。
第1聲處理裝置310包括聲信號輸入部件311、揚聲器312、話筒313、回波消除器314、聲信號存儲部件315、語音檢測部件316、控制部件317、以及聲信號輸出部件318。另一方面,第2聲處理裝置330包括聲信號輸入部件331、揚聲器332、話筒333、回波消除器334、聲信號存儲部件335、語音檢測部件336、控制部件337、以及聲信號輸出部件338。
第1聲處理裝置310的話筒313拾取第1聲處理裝置310的揚聲器312輸出的聲音和第2聲處理裝置330的揚聲器332輸出的聲音和話者的語音,生成第2聲信號。此外,第1聲處理裝置310的回波消除器314按照第1聲處理裝置310的聲信號輸入部件311輸入的第1聲信號和第2聲處理裝置330的聲信號輸入部件331輸入的第1聲信號來抑制第1聲處理裝置310的話筒313生成的第2聲信號的回波分量。
另一方面,第1聲處理裝置310的話筒333拾取第1聲處理裝置310的揚聲器312輸出的聲音和第2聲處理裝置330的揚聲器332輸出的聲音和話者的語音,生成第2聲信號。此外,第2聲處理裝置330的回波消除器334按照第1聲處理裝置310的聲信號輸入部件311輸入的第1聲信號和第2聲處理裝置330的聲信號輸入部件331輸入的第1聲信號來抑制第2聲處理裝置330的話筒333生成的第2聲信號的回波分量。
此外,聲處理系統(tǒng)300還包括第1及第2外部設備324及344。
第1外部設備324包含聲信號生成部件321,生成用于表示引導語音的第1聲信號;以及語音識別部件322,執(zhí)行第1聲處理裝置310的聲信號輸出部件318輸出的第4聲信號的語音識別。此外,第1聲處理裝置310的聲信號輸入部件311從第1外部設備324的聲信號生成部件321取得第1聲信號。另一方面,第2外部設備344包含聲信號生成部件341,生成用于表示引導語音的第1聲信號;以及語音識別部件342,執(zhí)行第2聲處理裝置330的聲信號輸出部件338輸出的第4聲信號的語音識別。此外,第2聲處理裝置330的聲信號輸入部件331從第2外部設備344的聲信號生成部件341取得第1聲信號。
第1聲處理裝置310的回波消除器314如圖26所表示,包含自適應濾波器349,根據(jù)聲信號輸入部件311輸入的第1聲信號和話筒313生成的第2聲信號來估計話筒313生成的第2聲信號的回波分量,生成用于表示估計出的回波分量的偽回波信號;第1減法器350,生成用于表示話筒313生成的第2聲信號和自適應濾波器349生成的偽回波信號之差的差信號;自適應濾波器359,根據(jù)聲信號輸入部件311輸入的第1聲信號和話筒313生成的第2聲信號來估計話筒313生成的第2聲信號的回波分量,生成用于表示估計出的回波分量的偽回波信號;第2減法器360,生成用于表示第1減法器350生成的差信號和自適應濾波器359生成的偽回波信號之差的差信號;第1聲處理裝置310的回波消除器314將第2減法器360生成的差信號作為第3聲信號來輸出。
第2聲處理裝置330的回波消除器334也與第1聲處理裝置310的回波消除器314同樣,包含自適應濾波器349、第1減法器350、自適應濾波器359、以及第2減法器360,第2聲處理裝置330的回波消除器334將第2減法器生成的差信號作為第3聲信號來輸出。
接著,說明本實施方式的聲處理系統(tǒng)300的工作。
在第1聲處理裝置310中,首先,第1外部設備324的聲信號生成部件321生成用于表示引導語音的第1聲信號,從揚聲器312輸出引導語音。此外,第2外部設備344的聲信號生成部件341生成用于表示引導語音的第1聲信號,從揚聲器332輸出引導語音。另一方面,話筒313生成第2聲信號。接著,回波消除器314抑制第2聲信號的回波分量,將抑制了回波分量的第2聲信號作為第3聲信號來輸出。聲信號存儲部件315逐次存儲第3聲信號。此外,語音檢測部件316從第3聲信號中檢測存在話者的語音的區(qū)間的始端。將聲信號存儲部件315存儲的第3聲信號內的、從該始端回溯了預先設定的時間的時刻以后聲信號存儲部件315存儲的第3聲信號依次作為第4聲信號來輸出。接著,第1外部設備324的語音識別部件322執(zhí)行第4聲信號的語音識別。
第2聲處理裝置330也與第1聲處理裝置310同樣,第2外部設備344的聲信號生成部件341生成用于表示引導語音的第1聲信號,從揚聲器332輸出引導語音。此外,第1外部設備324的聲信號生成部件321生成用于表示引導語音的第1聲信號,從揚聲器312輸出引導語音。另一方面,話筒333生成第2聲信號。接著,回波消除器334抑制第2聲信號的回波分量,將抑制了回波分量的第2聲信號作為第3聲信號來輸出。聲信號存儲部件335逐次存儲第3聲信號。此外,語音檢測部件336從第3聲信號中檢測存在話者的語音的區(qū)間的始端。將聲信號存儲部件335存儲的第3聲信號內的、從該始端回溯了預先設定的時間的時刻以后聲信號存儲部件335存儲的第3聲信號依次作為第4聲信號來輸出。接著,第2外部設備344的語音識別部件342執(zhí)行第4聲信號的語音識別。
接著,將本實施方式的另一形態(tài)的聲處理系統(tǒng)400示于圖28。聲處理系統(tǒng)400是部分變更了圖25所表示的聲處理系統(tǒng)300的結構而成的。即,第1聲處理裝置401包括與第2聲處理裝置402進行通信的通信部件412,執(zhí)行第1聲信號的接收及第2聲信號的發(fā)送。另一方面,第2聲處理裝置402包括與第1聲處理裝置401進行通信的通信部件414,執(zhí)行第1聲信號的接收及第2聲信號的發(fā)送。因此,即使2個聲處理裝置未直接連接,也能夠有效地進行回波抑制處理。
例如,可以如圖29所表示,將第1及第2聲處理裝置401及402中的一個包含在電視機中,將第1及第2聲處理裝置401及402中的另一個包含在遙控電視機的電視控制終端中。電視控制終端為了確認操作者是否希望變更電視機的頻道,而執(zhí)行與操作者的會話,在操作者希望變更電視機的頻道的情況下,遙控電視機變更到操作者希望的頻道。
電視控制終端在執(zhí)行與操作者的會話時,與話者的語音一起來拾取從電視機的揚聲器312輸出的音樂415及電視控制終端的引導語音,所以抑制了話筒333生成的第2聲信號內的、與從電視機的揚聲器312輸出的音樂415及電視控制終端的引導語音有關的分量,只取出存在話者的語音的區(qū)間來執(zhí)行語音識別。
此外,如圖30所表示,也可以將聲處理系統(tǒng)400應用于多個機器人分別與操作者進行對話的對話系統(tǒng)。
如上所述,本實施方式的聲處理系統(tǒng)300即使在不能充分抑制回波分量的環(huán)境下,第1聲處理裝置310及第2聲處理裝置330的各回波消除器314及334也抑制揚聲器312產生的回波分量和揚聲器332產生的回波分量,各語音檢測部件316及336也檢測存在話者的語音的區(qū)間的始端,所以能夠在第3聲信號中比較準確地提取存在話者的語音的區(qū)間,作為第4聲信號來輸出。
此外,在組合使用本實施方式的聲處理裝置和語音識別裝置的情況下,聲處理裝置將存在話者的語音的區(qū)間作為第4聲信號輸出到語音識別裝置,所以語音識別裝置能夠高效率地執(zhí)行話者的語音的語音識別。
在本實施方式中,說明了包括2個聲處理裝置的聲處理系統(tǒng),但是在包括3個以上的聲處理裝置的聲處理系統(tǒng)中,也能夠得到同樣的效果。
此外,在本實施方式的聲處理系統(tǒng)300中,第1聲處理裝置310及第2聲處理裝置330也可以具有圖27所表示的回波消除器364,來取代圖26所表示的回波消除器14。
也可以使得第1聲處理裝置310的回波消除器364如圖27所表示,包含自適應濾波器369,根據(jù)聲信號輸入部件311輸入的第1聲信號和話筒313生成的第2聲信號來估計濾波器系數(shù);卷積處理部372,根據(jù)自適應濾波器369估計出的濾波器系數(shù)對第1聲信號實施卷積處理,生成偽回波信號;系數(shù)傳送部371,判定自適應濾波器369估計出的濾波器系數(shù)是否穩(wěn)定,在濾波器系數(shù)穩(wěn)定的情況下,向卷積處理部372傳送自適應濾波器369估計出的濾波器系數(shù);第1減法器373,生成用于表示話筒313生成的第2聲信號和卷積處理部372生成的偽回波信號之差的差信號;自適應濾波器379,根據(jù)聲信號輸入部件331輸入的第1聲信號和話筒313生成的第2聲信號來估計濾波器系數(shù);卷積處理部382,根據(jù)自適應濾波器379估計出的濾波器系數(shù)對第1聲信號實施卷積處理,生成偽回波信號;系數(shù)傳送部381,判定自適應濾波器379估計出的濾波器系數(shù)是否穩(wěn)定,在濾波器系數(shù)穩(wěn)定的情況下,向卷積處理部382傳送自適應濾波器369估計出的濾波器系數(shù);以及第2減法器383,生成用于表示第1減法器373生成的差信號和卷積處理部382生成的偽回波信號之差的差信號;回波消除器364將第2減法器383生成的差信號作為第3聲信號來輸出。
(第15實施方式)作為用于實施發(fā)明的最佳方式,說明了第1至第14實施方式的聲處理裝置。然而,為了完成本申請的課題,也可以是第15實施方式的聲處理系統(tǒng)。
以下,參照圖31來說明本發(fā)明第15實施方式的聲處理系統(tǒng)。
本實施方式的聲處理系統(tǒng)420如圖31所表示,構成筆記本型個人計算機421的一部分。該個人計算機421包括揚聲器422、話筒423、監(jiān)視器433、未圖示的微處理器、半導體存儲器、硬盤,執(zhí)行作為應用程序而預先安裝的聲處理程序。該聲處理程序被存儲在磁盤、光盤、半導體存儲器等存儲媒體432上。
聲處理程序包括第1聲信號生成步驟,生成第1聲信號;第2聲信號取得步驟,從話筒423取得第2聲信號;回波抑制步驟,根據(jù)第1聲信號和第2聲信號來抑制第2聲信號的回波分量,將抑制了回波分量的第2聲信號作為第3聲信號來輸出;聲信號存儲步驟,將第3聲信號存儲到硬盤上;語音檢測步驟,從回波抑制步驟輸出的第3聲信號中檢測存在話者的語音的區(qū)間的始端;控制步驟,進行控制,以便將硬盤上存儲的第3聲信號內的、從存在話者的語音的區(qū)間的始端回溯了預先設定的時間的時刻以后的第3聲信號作為第4聲信號從硬盤輸出;以及語音識別步驟,執(zhí)行從硬盤輸出的第4聲信號的語音識別。
此外,回波抑制步驟包含偽回波信號生成步驟,根據(jù)第1聲信號和第2聲信號來估計第2聲信號的回波分量,生成用于表示估計出的回波分量的偽回波信號;以及差信號生成步驟,生成用于表示第2聲信號取得步驟取得的第2聲信號和偽回波信號生成步驟生成的偽回波信號之差的差信號。
此外,在控制步驟中,將從存在話者的語音的區(qū)間的始端回溯了預先設定的時間“Tm”的時刻以后硬盤上存儲的第3聲信號作為第4聲信號從硬盤輸出。
語音檢測步驟從第1聲信號中取得與信號電平的變化、頻率特性、發(fā)聲內容有關的信息,所以能夠以比較高的精度來判定是否是話者的語音。
接著,說明本實施方式的聲處理系統(tǒng)420的工作。
如圖32所表示,首先,生成用于表示引導語音的第1聲信號,從揚聲器422輸出引導語音(步驟S11)。另一方面,話筒423生成包含表示話者語音的語音分量和表示引導語音的回波的回波分量的第2聲信號(步驟S12)。接著,從話筒423取得第2聲信號,抑制第2聲信號的回波分量,將抑制了回波分量的第2聲信號作為第3聲信號來輸出(步驟S13)。逐次將第3聲信號存儲到硬盤上(步驟S14)。此外,從第3聲信號中檢測存在話者的語音的區(qū)間的始端(步驟S15)。將硬盤上存儲的第3聲信號內的、從該始端回溯了預先設定的時間的時刻以后硬盤上存儲的第3聲信號依次作為第4聲信號來輸出(步驟S16)。接著,開始從硬盤輸出的第4聲信號的語音識別(步驟S17)。
如上所述,在本實施方式的聲處理系統(tǒng)420中,個人計算機421執(zhí)行聲處理程序,所以能夠以低成本來實現(xiàn)效率比較高的聲處理裝置。
其中,本實施方式的聲處理系統(tǒng)420由個人計算機421來實現(xiàn)。然而,也可以由手機來實現(xiàn)。此外,在經(jīng)由網(wǎng)絡的多個個人計算機之間,也可以實現(xiàn)聲處理系統(tǒng)。
如上所述,本實施方式的聲處理系統(tǒng)即使在不能充分抑制回波分量的環(huán)境下,也能夠比較準確地提取存在話者的語音的區(qū)間,所以能夠高效率地執(zhí)行提取出的區(qū)間的語音識別。
產業(yè)上的可利用性如上所述,本發(fā)明的聲處理裝置具有能夠縮短從回波消除器處理聲信號到輸出的時間這一效果,作為使用回波消除器的聲處理裝置、方法、程序及存儲媒體等很有用。
權利要求
1.一種聲處理裝置,其特征在于,包括揚聲器,將第1聲信號變換為聲音,輸出變換出的聲音;聲信號生成部件,拾取上述揚聲器輸出的聲音和話者的語音,生成第2聲信號,該第2聲信號包含了表示上述揚聲器輸出的聲音的回波分量和表示上述話者語音的語音分量;回波抑制部件,根據(jù)上述第1聲信號和上述第2聲信號來抑制上述第2聲信號的回波分量,將抑制了上述回波分量的第2聲信號作為第3聲信號來輸出;聲信號存儲部件,存儲上述第3聲信號;語音檢測部件,從上述回波抑制部件輸出的第3聲信號中檢測上述話者的語音的始端;以及控制部件,控制上述聲信號存儲部件,以便使上述聲信號存儲部件將上述聲信號存儲部件存儲的第3聲信號內的、從上述語音檢測部件檢測出的上述話者的語音的始端回溯了預先設定的時間的時刻以后的第3聲信號作為第4聲信號來輸出。
2.如權利要求1所述的聲處理裝置,其特征在于,上述回波抑制部件包含自適應濾波器,估計上述第2聲信號的回波分量,生成用于表示估計出的回波分量的偽回波信號;以及減法器,生成用于表示上述聲信號生成部件生成的第2聲信號和上述自適應濾波器生成的偽回波信號之差的差信號;上述自適應濾波器根據(jù)上述第1聲信號和上述差信號來生成偽回波信號;上述回波抑制部件將上述減法器生成的差信號作為第3聲信號來輸出。
3.如權利要求1所述的聲處理裝置,其特征在于,上述回波抑制部件包含自適應濾波器,估計濾波器系數(shù);卷積處理部,根據(jù)上述自適應濾波器估計出的濾波器系數(shù)對上述第1聲信號實施卷積處理,生成偽回波信號;系數(shù)傳送部,判定上述自適應濾波器估計出的濾波器系數(shù)是否穩(wěn)定,在上述濾波器系數(shù)穩(wěn)定的情況下,向上述卷積處理部傳送上述自適應濾波器估計出的濾波器系數(shù);以及減法器,生成用于表示上述聲信號生成部件生成的第2聲信號和上述卷積處理部生成的偽回波信號之差的差信號,上述自適應濾波器根據(jù)上述第1聲信號和上述差信號來估計濾波器系數(shù),上述回波抑制部件將上述減法器生成的差信號作為第3聲信號來輸出。
4.如權利要求1所述的聲處理裝置,其特征在于,上述回波抑制部件包含自適應濾波器,估計濾波器系數(shù);第1聲信號存儲部,按先入先出的順序來存儲上述第1聲信號,以便向第1聲信號施加延遲并輸出;第2聲信號存儲部,按先入先出的順序來存儲上述第2聲信號,以便向第2聲信號施加延遲并輸出;卷積處理部,根據(jù)上述自適應濾波器估計出的濾波器系數(shù)對上述第1聲信號存儲部輸出的第1聲信號實施卷積處理,生成偽回波信號;系數(shù)傳送部,判定上述自適應濾波器估計出的濾波器系數(shù)是否穩(wěn)定,在上述濾波器系數(shù)穩(wěn)定的情況下,向上述卷積處理部傳送上述自適應濾波器估計出的濾波器系數(shù);以及減法器,生成用于表示上述第2聲信號存儲部輸出的第2聲信號和上述卷積處理部生成的偽回波信號之差的差信號;上述自適應濾波器根據(jù)上述第1聲信號和上述差信號來估計濾波器系數(shù);上述回波抑制部件將上述減法器生成的差信號作為第3聲信號來輸出。
5.如權利要求1所述的聲處理裝置,其特征在于,上述回波抑制部件包含第1學習數(shù)據(jù)存儲部,將上述第1聲信號作為第1學習數(shù)據(jù)來存儲;第2學習數(shù)據(jù)存儲部,將上述聲信號生成部件生成的第2聲信號作為第2學習數(shù)據(jù)來存儲;控制部,控制上述第1學習數(shù)據(jù)存儲部和上述第2學習數(shù)據(jù)存儲部,以便相對應地存儲上述第1聲信號和上述第2聲信號;自適應濾波器,根據(jù)上述第1學習數(shù)據(jù)存儲部中存儲的第1聲信號和上述第2學習數(shù)據(jù)存儲部中存儲的第2聲信號來估計濾波器系數(shù);卷積處理部,根據(jù)上述自適應濾波器估計出的濾波器系數(shù)對上述第1聲信號實施卷積處理,生成偽回波信號;系數(shù)傳送部,判定上述自適應濾波器估計出的濾波器系數(shù)是否穩(wěn)定,在上述濾波器系數(shù)穩(wěn)定的情況下,向上述卷積處理部傳送上述自適應濾波器估計出的濾波器系數(shù);以及減法器,生成用于表示上述聲信號生成部件生成的第2聲信號和上述卷積處理部生成的偽回波信號之差的差信號;上述回波抑制部件將上述減法器生成的差信號作為第3聲信號來輸出。
6.一種聲處理裝置,其特征在于,包括通信部件,與具有生成第1聲信號的聲信號生成部件的外部設備經(jīng)網(wǎng)絡進行通信,從上述外部設備接收上述第1聲信號;揚聲器,將該通信部件接收到的第1聲信號變換為聲音,輸出變換出的聲音;聲信號生成部件,拾取上述揚聲器輸出的聲音和話者的語音,生成第2聲信號,該第2聲信號包含了表示上述揚聲器輸出的聲音的回波分量和表示上述話者語音的語音分量;回波抑制部件,抑制上述聲信號生成部件生成的第2聲信號的回波分量,將抑制了上述回波分量的第2聲信號作為第3聲信號來輸出;聲信號存儲部件,存儲上述第3聲信號;語音檢測部件,從上述回波抑制部件輸出的第3聲信號中檢測上述話者的語音的始端;以及控制部件,控制上述聲信號存儲部件,以便使上述聲信號存儲部件將上述聲信號存儲部件存儲的第3聲信號內的、從上述語音檢測部件檢測出的上述話者的語音的始端回溯了預先設定的時間的時刻以后的第3聲信號作為第4聲信號來輸出。
7.一種聲處理裝置,其特征在于,包括通信部件,與外部設備經(jīng)網(wǎng)絡進行通信,為了使上述外部設備的揚聲器輸出上述第1聲信號所表示的聲音而將上述第1聲信號發(fā)送到上述外部設備,接收上述外部設備的聲信號生成部件生成的第2聲信號;該外部設備具有揚聲器,將第1聲信號變換為聲音,輸出變換出的聲音;以及聲信號生成部件,拾取上述揚聲器輸出的聲音和話者的語音,生成第2聲信號,該第2聲信號包含了表示上述揚聲器輸出的聲音的回波分量和表示上述話者語音的語音分量;回波抑制部件,抑制該通信部件接收到的第2聲信號的回波分量,將抑制了上述回波分量的第2聲信號作為第3聲信號來輸出;聲信號存儲部件,存儲上述第3聲信號;語音檢測部件,從上述回波抑制部件輸出的第3聲信號中檢測上述話者的語音的始端;以及控制部件,控制上述聲信號存儲部件,以便使上述聲信號存儲部件將上述聲信號存儲部件存儲的第3聲信號內的、從上述語音檢測部件檢測出的上述話者的語音的始端回溯了預先設定的時間的時刻以后的第3聲信號作為第4聲信號來輸出。
8.如權利要求1所述的聲處理裝置,其特征在于,上述語音檢測部件計測上述第1聲信號的信號電平和上述第3聲信號的信號電平,比較計測到的第1聲信號的信號電平及第3聲信號的信號電平和預先設定的閾值,檢測上述話者的語音的始端。
9.如權利要求1所述的聲處理裝置,其特征在于,上述語音檢測部件計測上述第3聲信號的噪聲分量,按照計測到的噪聲分量來更新預先設定的閾值,比較上述第1聲信號的信號電平及上述第3聲信號的信號電平和更新過的閾值,檢測上述話者的語音的始端。
10.如權利要求1所述的聲處理裝置,其特征在于,上述語音檢測部件判定上述揚聲器是否輸出了語音,根據(jù)該判定來更新預先設定的閾值,比較上述第1聲信號的信號電平及上述第3聲信號的信號電平和更新過的閾值,檢測上述話者的語音的始端。
11.如權利要求1所述的聲處理裝置,其特征在于,上述語音檢測部件計測上述揚聲器輸出的聲音的持續(xù)時間,根據(jù)上述持續(xù)時間來更新預先設定的閾值,比較上述第1聲信號的信號電平及上述第3聲信號的信號電平和更新過的閾值,檢測上述話者的語音的始端。
12.如權利要求1所述的聲處理裝置,其特征在于,上述語音檢測部件計算表示上述第1聲信號的功率的第1功率值和表示上述第3聲信號的功率的第3功率值,比較算出的第1功率值及第3功率值和預先設定的閾值,檢測上述話者的語音的始端。
13.如權利要求1所述的聲處理裝置,其特征在于,上述語音檢測部件執(zhí)行上述第1聲信號及第3聲信號的頻率分析,根據(jù)該頻率分析的結果來檢測上述話者的語音的始端。
14.如權利要求1所述的聲處理裝置,其特征在于,上述語音檢測部件計測上述第2聲信號的信號電平和上述第3聲信號的信號電平,比較計測到的第2聲信號的信號電平及第3聲信號的信號電平和預先設定的閾值,檢測上述話者的語音的始端。
15.如權利要求1所述的聲處理裝置,其特征在于,上述語音檢測部件計算表示上述第2聲信號的功率的第2功率值和表示上述第3聲信號的功率的第3功率值,比較算出的第2功率值及第3功率值和預先設定的閾值,檢測上述話者的語音的始端。
16.如權利要求1所述的聲處理裝置,其特征在于,上述語音檢測部件執(zhí)行上述第2聲信號及上述第3聲信號的頻率分析,根據(jù)該頻率分析的結果來檢測上述話者的語音的始端。
17.如權利要求1所述的聲處理裝置,其特征在于,上述語音檢測部件計測上述第1聲信號至上述第3聲信號的各信號電平,比較計測到的第1聲信號至第3聲信號的各信號電平和預先設定的閾值,檢測上述話者的語音的始端。
18.如權利要求1所述的聲處理裝置,其特征在于,上述語音檢測部件計算分別表示上述第1聲信號至上述第3聲信號的各功率的第1功率值、第2功率值及第3功率值,比較算出的第1聲信號至第3聲信號的各功率值和預先設定的閾值,檢測上述話者的語音的始端。
19.如權利要求1所述的聲處理裝置,其特征在于,上述語音檢測部件執(zhí)行上述第1聲信號至上述第3聲信號的頻率分析,根據(jù)該頻率分析的結果來檢測上述話者的語音的始端。
20.如權利要求1所述的聲處理裝置,其特征在于,包括音量調整部件,調整上述第1聲信號的信號電平,調整上述揚聲器輸出的聲音的音量;上述語音檢測部件計測上述音量調整部件調整過的第1聲信號的信號電平和上述回波抑制部件輸出的第3聲信號的信號電平,比較計測到的第1聲信號的信號電平及第3聲信號的信號電平和預先設定的閾值,檢測上述話者的語音的始端。
21.如權利要求1所述的聲處理裝置,其特征在于,包括音量調整部件,調整上述第1聲信號的信號電平,調整上述揚聲器輸出的聲音的音量;上述語音檢測部件計算表示上述音量調整部件調整過的第1聲信號的功率的第1功率值和表示上述回波抑制部件輸出的第3聲信號的功率的第3功率值,比較算出的第1功率值及第3功率值和預先設定的閾值,檢測上述話者的語音的始端。
22.如權利要求1所述的聲處理裝置,其特征在于,包括音量調整部件,調整上述第1聲信號的信號電平,調整上述揚聲器輸出的聲音的音量;上述語音檢測部件執(zhí)行上述音量調整部件調整過的第1聲信號及上述回波抑制部件輸出的第3聲信號的頻率分析,根據(jù)該頻率分析的結果來檢測上述話者的語音的始端。
23.如權利要求1所述的聲處理裝置,其特征在于,包括觸發(fā)信號生成部件,生成與應檢測上述話者的語音的始端的時刻相關聯(lián)的觸發(fā)信號;上述語音檢測部件根據(jù)上述觸發(fā)信號生成部件生成的觸發(fā)信號從上述第3聲信號中檢測上述話者的語音的始端。
24.如權利要求23所述的聲處理裝置,其特征在于,上述觸發(fā)信號生成部件生成與應檢測上述話者的語音的始端的時刻相關聯(lián)的觸發(fā)信號;上述語音檢測部件根據(jù)上述觸發(fā)信號生成部件生成的觸發(fā)信號從上述第3聲信號中檢測上述話者的語音的始端。
25.如權利要求1所述的聲處理裝置,其特征在于,上述聲信號生成部件包括多個話筒元件,拾取上述揚聲器輸出的聲音和上述話者的語音,分別生成包含表示上述揚聲器輸出的聲音的回波分量和表示上述話者語音的語音分量的多個聲信號;以及聲信號合成部,合成上述多個話筒元件分別生成的多個聲信號,生成第2聲信號,上述聲信號生成部件將上述聲信號合成部生成的第2聲信號輸出到回波抑制部件;上述語音檢測部件計測上述聲信號合成部生成的第2聲信號的信號電平,比較計測到的第2聲信號的信號電平和預先設定的閾值,檢測上述話者的語音的始端。
26.如權利要求1所述的聲處理裝置,其特征在于,上述聲信號生成部件包括多個話筒元件,拾取上述揚聲器輸出的聲音和上述話者的語音,分別生成多個聲信號,多個聲信號包含了表示上述揚聲器輸出的聲音的回波分量和表示上述話者語音的語音分量;以及聲信號合成部,合成上述多個話筒元件分別生成的多個聲信號,生成第2聲信號;上述聲信號生成部件將上述聲信號合成部生成的第2聲信號輸出到回波抑制部件;上述語音檢測部件計算表示上述聲信號合成部生成的第2聲信號的功率的第2功率值,比較算出的第2功率值和預先設定的閾值,檢測上述話者的語音的始端。
27.如權利要求1所述的聲處理裝置,其特征在于,上述聲信號生成部件包括多個話筒元件,拾取上述揚聲器輸出的聲音和上述話者的語音,分別生成多個聲信號,多個聲信號包含了表示上述揚聲器輸出的聲音的回波分量和表示上述話者語音的語音分量;以及聲信號合成部,合成上述多個話筒元件分別生成的多個聲信號,生成第2聲信號;上述聲信號生成部件將上述聲信號合成部生成的第2聲信號輸出到回波抑制部件;上述語音檢測部件執(zhí)行上述聲信號合成部生成的第2聲信號的頻率分析,根據(jù)該頻率分析的結果來檢測上述話者的語音的始端。
28.如權利要求1所述的聲處理裝置,其特征在于,包括噪聲抑制部件,抑制上述回波抑制部件輸出的第3聲信號的噪聲分量;上述語音檢測部件計測抑制了上述噪聲分量的第3聲信號的信號電平,比較計測到的第3聲信號的信號電平和預先設定的閾值,檢測上述話者的語音的始端。
29.如權利要求1所述的聲處理裝置,其特征在于,包括噪聲抑制部件,抑制上述回波抑制部件輸出的第3聲信號的噪聲分量,上述語音檢測部件計算表示抑制了上述噪聲分量的第3聲信號的功率的第3功率值,比較算出的第3功率值和預先設定的閾值,檢測上述話者的語音的始端。
30.如權利要求1所述的聲處理裝置,其特征在于,包括噪聲抑制部件,抑制上述回波抑制部件輸出的第3聲信號的噪聲分量,上述語音檢測部件執(zhí)行抑制了上述噪聲分量的第3聲信號的頻率分析,根據(jù)該頻率分析的結果來檢測上述話者的語音的始端。
31.如權利要求3所述的聲處理裝置,其特征在于,在上述系數(shù)傳送部判定為上述濾波器系數(shù)穩(wěn)定時,上述語音檢測部件計測上述第2聲信號的信號電平,比較計測到的第2聲信號的信號電平和預先設定的閾值,檢測上述話者的語音的始端。
32.如權利要求3所述的聲處理裝置,其特征在于,在上述系數(shù)傳送部判定為上述濾波器系數(shù)穩(wěn)定時,上述語音檢測部件計算表示上述第2聲信號的功率的第2功率值,比較算出的第2功率值和預先設定的閾值,檢測上述話者的語音的始端。
33.如權利要求3所述的聲處理裝置,其特征在于,在上述系數(shù)傳送部判定為上述濾波器系數(shù)穩(wěn)定時,上述語音檢測部件執(zhí)行上述第2聲信號的頻率分析,根據(jù)該頻率分析的結果來檢測上述話者的語音的始端。
34.一種聲處理系統(tǒng),其特征在于,包括具有第1及第2聲處理裝置的至少2個聲處理裝置;第1聲處理裝置具有揚聲器,將輸入的第1聲信號變換為聲音,輸出變換出的聲音;聲信號生成部件,拾取上述揚聲器輸出的聲音和話者的語音,生成第2聲信號,該第2聲信號包含了表示上述揚聲器輸出的聲音的回波分量和表示上述話者語音的語音分量;回波抑制部件,抑制上述第2聲信號的回波分量,將抑制了上述回波分量的第2聲信號作為第3聲信號來輸出;聲信號存儲部件,存儲上述第3聲信號;語音檢測部件,從上述回波抑制部件輸出的第3聲信號中檢測上述話者的語音;控制部件,控制上述聲信號存儲部件,以便上述聲信號存儲部件將上述聲信號存儲部件中存儲的第3聲信號內的、檢測出上述話者的語音的區(qū)間的第3聲信號作為第4聲信號來輸出;以及通信部件,將上述第1聲信號發(fā)送到上述第2聲處理裝置;第2聲處理裝置具有揚聲器,將輸入的第1聲信號變換為聲音,輸出變換出的聲音;聲信號生成部件,拾取上述揚聲器輸出的聲音和上述話者的語音,生成第2聲信號,該第2聲信號包含了表示上述揚聲器輸出的聲音的回波分量和表示上述話者語音的語音分量;回波抑制部件,抑制上述第2聲信號的回波分量,將抑制了上述回波分量的第2聲信號作為第3聲信號來輸出;聲信號存儲部件,存儲上述第3聲信號;語音檢測部件,從上述回波抑制部件輸出的第3聲信號中檢測上述話者的語音;控制部件,控制上述聲信號存儲部件,以便上述聲信號存儲部件將上述聲信號存儲部件中存儲的第3聲信號內的、檢測出上述話者的語音的區(qū)間的第3聲信號作為第4聲信號來輸出;以及通信部件,將上述第1聲信號發(fā)送到上述第1聲處理裝置;在上述第1聲處理裝置的語音檢測部件檢測出上述話者的語音的始端時,上述第1聲處理裝置的控制部件進行控制,以便將從檢測出上述話者的語音的時刻回溯了預先設定的時間的時刻作為上述話者的語音的始端使上述第2聲處理裝置的聲信號存儲部件輸出上述第4聲信號;在上述第2聲處理裝置的語音檢測部件檢測出上述話者的語音的始端時,上述第2聲處理裝置的控制部件進行控制,以便使上述第1聲處理裝置的聲信號存儲部件將從檢測出上述話者的語音的時刻回溯了預先設定的時間的時刻作為上述話者的語音的始端來輸出上述第4聲信號。
35.如權利要求34所述的聲處理系統(tǒng),其特征在于,上述第1聲處理裝置的回波抑制部件根據(jù)輸入到上述第1聲處理裝置中的第1聲信號、上述第1聲處理裝置的聲信號生成部件生成的第2聲信號、以及從上述第2聲處理裝置接收到的第1聲信號來抑制上述第1聲處理裝置的聲信號生成部件生成的第2聲信號的回波分量;上述第2聲處理裝置的回波抑制部件根據(jù)輸入到上述第2聲處理裝置中的第1聲信號、上述第2聲處理裝置的聲信號生成部件生成的第2聲信號、以及從上述第1聲處理裝置接收到的第1聲信號來抑制上述第2聲處理裝置的聲信號生成部件生成的第2聲信號的回波分量。
36.一種聲處理系統(tǒng),其特征在于,包括音頻裝置,生成第1聲信號;以及聲處理裝置,具有揚聲器,取得上述音頻裝置生成的第1聲信號,將取得的第1聲信號變換為聲音,輸出變換出的聲音;聲信號生成部件,拾取上述揚聲器輸出的聲音和話者的語音,生成第2聲信號,該第2聲信號包含了表示上述揚聲器輸出的聲音的回波分量和表示上述話者語音的語音分量;回波抑制部件,抑制上述第2聲信號的回波分量,將抑制了上述回波分量的第2聲信號作為第3聲信號來輸出;聲信號存儲部件,存儲上述第3聲信號;語音檢測部件,從上述回波抑制部件輸出的第3聲信號中檢測上述話者的語音;以及控制部件,控制上述聲信號存儲部件,以便上述聲信號存儲部件將上述聲信號存儲部件中存儲的第3聲信號內的、檢測出上述話者的語音的區(qū)間的第3聲信號作為第4聲信號來輸出;在上述語音檢測部件檢測出上述話者的語音的始端時,上述控制部件進行控制,以便將從檢測出上述話者的語音的時刻回溯了預先設定的時間的時刻作為上述話者的語音的始端使上述聲信號存儲部件輸出上述第4聲信號;包括聲信號記錄裝置,取得上述聲處理裝置的聲信號存儲部件輸出的第4聲信號,記錄取得的第4聲信號。
37.一種聲處理系統(tǒng),其特征在于,包括汽車導航裝置,具有導航信息生成部件,生成導航信息;以及聲信號生成部件,生成第1聲信號作為與導航有關的引導語音;以及聲處理裝置,具有揚聲器,取得上述汽車導航裝置的聲信號生成部件生成的第1聲信號,將取得的第1聲信號變換為聲音,將變換出的聲音作為上述汽車導航裝置的引導語音來輸出;聲信號生成部件,拾取上述揚聲器輸出的聲音和話者的語音,生成第2聲信號,該第2聲信號包含了表示上述揚聲器輸出的聲音的回波分量和表示上述話者語音的語音分量;回波抑制部件,抑制上述第2聲信號的回波分量,將抑制了上述回波分量的第2聲信號作為第3聲信號來輸出;聲信號存儲部件,存儲上述第3聲信號;語音檢測部件,從上述回波抑制部件輸出的第3聲信號中檢測上述話者的語音;以及控制部件,控制上述聲信號存儲部件,以便上述聲信號存儲部件將上述聲信號存儲部件中存儲的第3聲信號內的、檢測出上述話者的語音的區(qū)間的第3聲信號作為第4聲信號來輸出;在上述語音檢測部件檢測出上述話者的語音的始端時,上述控制部件進行控制,以便將從檢測出上述話者的語音的時刻回溯了預先設定的時間的時刻作為上述話者的語音的始端使上述聲信號存儲部件輸出上述第4聲信號;上述汽車導航裝置還具有語音識別部件,為了判定話者是否響應上述引導語音發(fā)出了特定的語音,而執(zhí)行上述聲處理裝置的聲信號存儲部件輸出的第4聲信號的語音識別;在用上述汽車導航裝置的語音識別部件判定為上述話者發(fā)出了特定的語音時,上述汽車導航裝置的導航信息生成部件生成與上述特定的語音相應的導航信息。
38.一種聲處理系統(tǒng),其特征在于,包括外部設備,具有聲信號生成部件,生成用于表示語音的第1聲信號;以及聲處理裝置,具有揚聲器,取得上述外部設備的聲信號生成部件生成的第1聲信號,將取得的第1聲信號變換為聲音,將變換出的聲音作為上述外部設備的語音來輸出;聲信號生成部件,拾取上述揚聲器輸出的聲音和話者的語音,生成第2聲信號,該第2聲信號包含了表示上述揚聲器輸出的聲音的回波分量和表示上述話者語音的語音分量;回波抑制部件,抑制上述第2聲信號的回波分量,將抑制了上述回波分量的第2聲信號作為第3聲信號來輸出;聲信號存儲部件,存儲上述第3聲信號;語音檢測部件,從上述回波抑制部件輸出的第3聲信號中檢測上述話者的語音;以及控制部件,控制上述聲信號存儲部件,以便上述聲信號存儲部件將上述聲信號存儲部件中存儲的第3聲信號內的、檢測出上述話者的語音的區(qū)間的第3聲信號作為第4聲信號來輸出;在上述語音檢測部件檢測出上述話者的語音的始端時,上述控制部件進行控制,以便將從檢測出上述話者的語音的時刻回溯了預先設定的時間的時刻作為上述話者的語音的始端使上述聲信號存儲部件輸出上述第4聲信號;上述外部設備還具有語音識別部件,為了判定話者是否響應上述揚聲器輸出的語音發(fā)出了語音,而執(zhí)行上述聲處理裝置的聲信號存儲部件輸出的第4聲信號的語音識別;上述外部設備的聲信號生成部件根據(jù)上述語音識別部件的語音識別來生成用于表示響應語音的第1聲信號,以便響應上述話者發(fā)出的語音。
39.一種聲處理方法,其特征在于,包括準備步驟,準備聲處理裝置,該聲處理裝置具有揚聲器,將第1聲信號變換為聲音,輸出變換出的聲音;聲信號生成部件,拾取上述揚聲器輸出的聲音和話者的語音,生成第2聲信號,該第2聲信號包含了表示上述揚聲器輸出的聲音的回波分量和表示上述話者語音的語音分量;回波抑制部件,根據(jù)上述第1聲信號和上述第2聲信號來抑制上述第2聲信號的回波分量,將抑制了上述回波分量的第2聲信號作為第3聲信號來輸出;聲信號存儲部件,與時間信息相關聯(lián)來存儲上述第3聲信號;語音檢測部件,從上述回波抑制部件輸出的第3聲信號中檢測上述話者的語音;以及控制部件,控制上述聲信號存儲部件,以便上述聲信號存儲部件將上述聲信號存儲部件中存儲的第3聲信號內的、檢測出上述話者的語音的區(qū)間的第3聲信號作為第4聲信號來輸出;在上述語音檢測部件檢測出上述話者的語音的始端時,上述控制部件進行控制,以便將從檢測出上述話者的語音的時刻回溯了預先設定的時間的時刻作為上述話者的語音的始端使上述聲信號存儲部件輸出上述第4聲信號;回波抑制步驟,上述回波抑制部件根據(jù)第1聲信號和上述第2聲信號來抑制上述第2聲信號的回波分量;存儲步驟,上述聲信號存儲部件與時間信息相關聯(lián)來存儲第3聲信號;語音檢測步驟,上述語音檢測部件從上述第3聲信號中檢測上述話者的語音;以及控制步驟,上述控制部件控制上述聲信號存儲部件,以便上述聲信號存儲部件將上述聲信號存儲部件中存儲的第3聲信號內的、檢測出上述話者的語音的區(qū)間的第3聲信號作為第4聲信號來輸出;在上述控制步驟中,在上述語音檢測部件檢測出上述話者的語音的始端時,上述控制部件進行控制,以便將從檢測出上述話者的語音的時刻回溯了預先設定的時間的時刻作為上述話者的語音的始端使上述聲信號存儲部件輸出上述第4聲信號。
40.一種聲處理程序,能夠使計算機執(zhí)行,其特征在于,包括回波抑制步驟,根據(jù)第1聲信號和第2聲信號來抑制上述第2聲信號的回波分量,將抑制了上述回波分量的第2聲信號作為第3聲信號來輸出;存儲步驟,與時間信息相關聯(lián)來存儲上述第3聲信號;語音檢測步驟,從上述第3聲信號中檢測話者的語音;以及控制步驟,控制上述聲信號存儲部件,以便上述聲信號存儲部件將上述聲信號存儲部件中存儲的第3聲信號內的、檢測出上述話者的語音的區(qū)間的第3聲信號作為第4聲信號來輸出;在上述控制步驟中,在上述語音檢測部件檢測出上述話者的語音的始端時,上述控制部件進行控制,以便將從檢測出上述話者的語音的時刻回溯了預先設定的時間的時刻作為上述話者的語音的始端使上述聲信號存儲部件輸出上述第4聲信號。
41.一種記錄媒體,記錄著計算機可執(zhí)行的聲處理程序,其特征在于,上述聲處理程序包括回波抑制步驟,根據(jù)第1聲信號和上述第2聲信號來抑制上述第2聲信號的回波分量,將抑制了上述回波分量的第2聲信號作為第3聲信號來輸出;存儲步驟,與時間信息相關聯(lián)來存儲上述第3聲信號;語音檢測步驟,從上述第3聲信號中檢測話者的語音;以及控制步驟,控制上述聲信號存儲部件,以便上述聲信號存儲部件將上述聲信號存儲部件中存儲的第3聲信號內的、檢測出上述話者的語音的區(qū)間的第3聲信號作為第4聲信號來輸出;在上述控制步驟中,在上述語音檢測部件檢測出上述話者的語音的始端時,上述控制部件進行控制,以便將從檢測出上述話者的語音的時刻回溯了預先設定的時間的時刻作為上述話者的語音的始端使上述聲信號存儲部件輸出上述第4聲信號。
全文摘要
本發(fā)明的聲處理裝置(10)包括揚聲器(12),輸出第1聲信號所表示的聲音;聲信號生成部件(13),拾取揚聲器(12)輸出的聲音和話者的語音,生成第2聲信號;回波抑制部件(14),抑制第2聲信號的回波分量,將抑制了上述回波分量的第2聲信號作為第3聲信號來輸出;聲信號存儲部件(15),存儲第3聲信號;語音檢測部件(16),從回波抑制部件(14)輸出的第3聲信號中檢測存在話者的語音的區(qū)間的始端;以及控制部件(17),控制聲信號存儲部件(15),以便聲信號存儲部件(15)將聲信號存儲部件(15)存儲的第3聲信號內的、從上述語音檢測部件(16)檢測出的存在上述話者的語音的區(qū)間的始端回溯了預先設定的時間的時刻以后的第3聲信號作為第4聲信號來輸出。
文檔編號G10L11/02GK1717720SQ200480001508
公開日2006年1月4日 申請日期2004年8月27日 優(yōu)先權日2003年9月5日
發(fā)明者國枝伸行, 野村和也, 中村一啟 申請人:松下電器產業(yè)株式會社