一種用于機器人的語音和圖像復(fù)合交互執(zhí)行方法及系統(tǒng)的制作方法

文檔序號：10595516閱讀：443來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

一種用于機器人的語音和圖像復(fù)合交互執(zhí)行方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明涉及一種用于機器人的語音和圖像復(fù)合交互執(zhí)行方法及系統(tǒng)，所述方法包括：步驟一：機器人探測周圍的聲音，并對聲源進行定位；步驟二：機器人探測周圍的人臉，對人臉進行定位，并將人臉的定位與聲源的定位進行比較和匹配，過濾掉干擾聲源，初步確定語音聲源，初步確定語音命令；步驟三：機器人檢測周圍人體目標，并對人體目標進行跟蹤，識別肢體命令，并與初步確定的語音命令進行比較和匹配，過濾干擾語音命令，確定有效的用戶命令，步驟四：機器人根據(jù)用戶命令執(zhí)行相應(yīng)的操作。使機器人在復(fù)雜背景下更加準確地理解用戶命令，仍可精確識別出向機器人發(fā)出的用戶命令，魯棒性更強，更智能、更有效地同人類用戶進行交互。
【專利說明】
一種用于機器人的語音和圖像復(fù)合交互執(zhí)行方法及系統(tǒng)
技術(shù)領(lǐng)域
[0001]本發(fā)明涉及機器人領(lǐng)域，特別涉及一種用于機器人的語音和圖像復(fù)合交互執(zhí)行方法及系統(tǒng)?！颈尘凹夹g(shù)】
[0002]為實現(xiàn)機器人和人類用戶交互，現(xiàn)有技術(shù)有的通過語音識別用戶命令的技術(shù)，由于所處的真實環(huán)境較為復(fù)雜，同時存在其他用戶的語音干擾和環(huán)境中的非語音干擾(如電視、音箱的聲源等)，多個用戶都發(fā)出語音信號，只是有的向機器人發(fā)出語音命令，有的則在做交談等與機器人無關(guān)的行為.所以聲定位結(jié)果可能既包含發(fā)出語音命令的用戶，又包含干擾聲源。從包含干擾聲源的復(fù)雜環(huán)境中準確定位用戶聲源是語音命令識別的一個難點，給語音命令識別增加了困難，基于人體運動分析來識別用戶命令技術(shù)也有不足。運動目標檢測是人體運動分析的基礎(chǔ)步驟，但目前仍沒有快速魯棒的運動目標檢測方法。一個主要原因是由于動態(tài)環(huán)境中采集的圖像序列很容易受到各種干擾，這些干擾包括光照變化、背景干擾、目標影子干擾、目標被遮擋、攝像機運動、目標與環(huán)境顏色類似等。目前處理遮擋等干擾問題的算法往往也存在計算復(fù)雜度高，運算量較大的問題。
【發(fā)明內(nèi)容】

[0003]本發(fā)明的目的在于提供一種用于機器人的語音和圖像復(fù)合交互執(zhí)行方法及系統(tǒng)，提高對用戶命令識別的精度和魯棒性。
[0004]本發(fā)明提供了一種用于機器人的語音和圖像復(fù)合交互執(zhí)行方法，包括:
[0005]步驟一:機器人探測周圍的聲音，并對聲源進行定位；
[0006]步驟二:機器人探測周圍的人臉，對人臉進行定位，并將人臉的定位與聲源的定位進行比較和匹配，過濾掉干擾聲源，初步確定語音聲源，初步確定語音命令；
[0007]步驟三:機器人檢測周圍人體目標，并對人體目標進行跟蹤，識別肢體命令，并與初步確定的語音命令進行比較和匹配，過濾干擾語音命令，確定有效的用戶命令，
[0008]步驟四:機器人根據(jù)用戶命令執(zhí)行相應(yīng)的操作.
[0009]步驟二中，對聲源的周圍進行人臉識別，若聲源的位置周圍檢測到人臉信號，則該聲源為語音聲源，機器人對該語音聲源分析識別語音命令;若聲源的位置周圍未檢測到人臉信號，則該聲源為干擾聲源，將該聲源過濾。
[0010]步驟二中，對機器人周圍的所有人臉進行識別，若聲源的位置與人臉的位置有重合，則該聲源為語音聲源，機器人對該語音聲源分析識別語音命令;若聲源的位置與人臉的位置沒有重合，則該聲源為干擾聲源，將該聲源過濾.[〇〇11]步驟三中，若語音聲源處檢測到的肢體命令與該語音聲源確定的語音命令一致，則該語音聲源的命令為有效的用戶命令，若有效聲源處檢測到的肢體命令與該有效聲源確定的語音命令不一致，則為干擾語音命令，將該命令過濾。
[0012]機器人采用基于視覺的人體運動分析來進行運動目標檢測、運動目標分類、人體運動跟蹤以及行為識別與描述。
[0013]步驟三中，利用攝像頭提取人體目標，并對人體目標進行跟蹤，然后提取人體骨架，確定人體的主干和肢體，分析人體的肢體動作，識別肢體命令。
[0014]—種具有上述方法的系統(tǒng)，所述系統(tǒng)包括:
[0015]聲音探測識別單元，進行聲音探測，對聲源進行定位；
[0016]圖像探測識別單元，探測機器人視場的圖像信息，在圖像中進行人臉檢測識別，并識別和跟蹤人體目標，對人體的肢體動作進行分析，識別出肢體命令；
[0017]控制單元，比較聲源和人臉的位置識別語音聲源，比較語音聲源的語音命令和肢體命令確定用戶命令；
[0018]執(zhí)行單元，執(zhí)行用戶命令。
[0019]所述圖像探測識別單元包括人臉識別單元和肢體命令識別單元。所述人臉識別單元和聲音探測識別單元組成用戶命令識別單元.
[0020]本發(fā)明將不同識別技術(shù)進行復(fù)合，發(fā)揮各自優(yōu)點，彌補各自的不足，提高對用戶命令識別的精度和魯棒性，將語音識別技術(shù)和人臉檢測識別技術(shù)復(fù)合實現(xiàn)用戶語音命令識另IJ，進一步復(fù)合肢體命令的識別提高機器人對用戶命令的準確識別，在更準確識別用戶命令的基礎(chǔ)上，采用機器人機電動作執(zhí)行系統(tǒng)完成機器人相應(yīng)的動作，更好地完成用戶交與的任務(wù)?？墒箼C器人在復(fù)雜背景下更加準確地理解用戶命令，克服了語音識別和圖像識別各自的不足。當(dāng)同時存在多個人類用戶的復(fù)雜環(huán)境下，該系統(tǒng)仍可精確識別出向機器人發(fā)出的用戶命令，魯棒性更強，更智能、更有效地同人類用戶進行交互?！靖綀D說明】[0021 ]圖1是語音命令識別流程 [〇〇22]圖2是肢體命令識別流程 [〇〇23]圖3是語音命令和肢體命令結(jié)合的控制流程【具體實施方式】
[0024]將結(jié)合附圖描述根據(jù)本發(fā)明的恒壓漲緊裝置和履帶式機器人的【具體實施方式】。下面的詳細描述和附圖用于示例性地說明本發(fā)明的原理，本發(fā)明不限于所描述的優(yōu)選實施例，本發(fā)明的范圍由權(quán)利要求書限定。[〇〇25]如圖1-3所示，本發(fā)明所述一種用于機器人的語音和圖像復(fù)合交互執(zhí)行方法，包括如下步驟:
[0026]步驟一:機器人探測周圍的聲音，并對聲源進行定位；即檢測機器人周圍的所有聲音；
[0027]步驟二:機器人探測周圍的人臉，對人臉進行定位，并將人臉的定位與聲源的定位進行比較和匹配，過濾掉干擾聲源，初步確定語音聲源，初步確定語音命令;可以過濾掉環(huán)境中的那些沒有檢測到人臉的、非人類用戶干擾聲源(如電視、音箱的聲源等)；
[0028]步驟三:機器人檢測周圍人體目標，并對人體目標進行跟蹤，識別肢體命令，并與初步確定的語音命令進行比較和匹配，過濾干擾語音命令，確定有效的用戶命令，可以過濾掉環(huán)境中的檢測到人臉但是不是向機器人發(fā)出命令的人類用戶干擾聲源；
[0029]步驟四:機器人根據(jù)用戶命令執(zhí)行相應(yīng)的操作.完成機器人所需的相應(yīng)動作，如頭部的抬頭、低頭和轉(zhuǎn)動動作，如手臂的抬起、放下動作，如機器人身體前進、后退和轉(zhuǎn)動動作等。
[0030]即將人臉檢測識別結(jié)果和聲音定位結(jié)果進行復(fù)合，消除那些沒有檢測到人臉的非人類用戶的干擾聲源.由于存在人類用戶干擾聲源，雖然在聲探測中見到聲源存在，且聲源位置還處于某個人臉區(qū)域，但該用戶沒有向機器人發(fā)出需要執(zhí)行的命令，也是需要剔除的干擾聲源.對于人類用戶干擾聲源，常用的方法是識別所有用戶聲源的語音信號逐一辨別。如果用戶聲源語音識別結(jié)果是命令，則是需要交互的用戶聲源;如果語音識別結(jié)果不是命令，則為人類用戶干擾聲源，予以剔除。本發(fā)明復(fù)合了基于視覺的人體運動分析命令識別系統(tǒng)，所以在識別所有用戶語音信號時，還復(fù)合人體肢體命令識別結(jié)果對用戶干擾聲源進行篩除。當(dāng)所識別的用戶聲源識別結(jié)果是命令，同時該人臉所在的人體檢測到對應(yīng)語音命令的肢體命令，則語音命令和肢體命令形成了匹配對應(yīng)關(guān)系，則此時可斷定該用戶聲源所發(fā)命令是用戶命令，需要執(zhí)行。反之，如果語音命令識別結(jié)果和肢體命令識別結(jié)果不能匹配對應(yīng)，則認為該用戶聲源是干擾聲源，予以剔除。
[0031]步驟二中，對機器人周圍的所有人臉進行識別，若聲源的位置與人臉的位置有重合，則該聲源為語音聲源，機器人對該語音聲源分析識別語音命令;若聲源的位置與人臉的位置沒有重合，則該聲源為干擾聲源，將該聲源過濾.[〇〇32]或者步驟二中，只對聲源的周圍進行人臉識別，若聲源的位置周圍檢測到人臉信號，則該聲源為語音聲源，機器人對該語音聲源分析識別語音命令;若聲源的位置周圍未檢測到人臉信號，則該聲源為干擾聲源，將該聲源過濾。
[0033]步驟三中，若語音聲源處檢測到的肢體命令與該語音聲源確定的語音命令一致，則該語音聲源的命令為有效的用戶命令，若有效聲源處檢測到的肢體命令與該有效聲源確定的語音命令不一致，則為干擾語音命令，將該命令過濾。
[0034]機器人采用基于視覺的人體運動分析來進行運動目標檢測、運動目標分類、人體運動跟蹤以及行為識別與描述。利用攝像頭優(yōu)選紅外攝像頭提取人體目標，并對人體目標進行跟蹤，然后提取人體骨架，確定人體的主干和肢體，分析人體的肢體動作，識別肢體命令。
[0035]圖像探測識別單元主要由攝像頭、識別分析處理軟件等組成。圖像探測識別單元主要功能是探測機器人前方視場的圖像信息，在圖像中進行人臉檢測識別，并識別和跟蹤人體目標，對人體的肢體動作進行分析，識別出肢體命令。
[0036]在圖像探測識別系統(tǒng)識別肢體命令的過程中，首先利用紅外攝像頭提取人體目標，并對人體目標進行跟蹤。然后提取人體骨架，確定人體的主干和肢體。在對人體進行跟蹤的同時，分析人體的肢體動作，識別肢體命令。當(dāng)語音探測識別系統(tǒng)識別到語音命令時，將同時間該人體識別的肢體命令和對應(yīng)人體用戶的語音識別命令結(jié)果進行比較，看所識別的肢體命令是否和語音識別命令相對應(yīng)。如果二者相對應(yīng)，則采用肢體命令識別印證了語音命令識別，說明當(dāng)前的人體用戶確實發(fā)出了所識別的語音命令。反之，如果二者不相對應(yīng)，則不能采用肢體命令識別印證了語音命令識別，說明當(dāng)前的人體用戶沒有發(fā)出了所識別的語音命令，當(dāng)前的人體用戶是干擾用戶語音聲源。
[0037]本發(fā)明將語音識別技術(shù)和人體行為分析技術(shù)進行復(fù)合，提供一個采用語音命令識別和圖像肢體命令識別的復(fù)合人機交互執(zhí)行系統(tǒng)，該系統(tǒng)在復(fù)雜環(huán)境下識別用戶命令的精度更高，魯棒性更強，能更有效地同用戶進行交互，完成用戶交與的任務(wù)。
[0038]本發(fā)明采用聲音探測識別單元檢測多個聲源，采用人臉識別系統(tǒng)對檢測到的多聲源進行篩選，將可能的非用戶干擾聲源進行去除。再采用圖像探測識別系統(tǒng)，探測和跟蹤人體目標，對人體運動進行分析，識別所跟蹤人體的肢體命令。將對用戶肢體命令的識別結(jié)果和采用人臉識別修正后的語音命令識別結(jié)果進行復(fù)合，進一步剔除干擾用戶聲源，準確確定發(fā)出命令的用戶聲源，并對用戶所發(fā)命令采用機器人機電動作執(zhí)行系統(tǒng)予以完成，實現(xiàn)有效的人機交互。
[0039]本發(fā)明所述一種具有上述方法的系統(tǒng)，所述系統(tǒng)包括:
[0040]聲音探測識別單元，進行聲音探測，對聲源進行定位；
[0041]圖像探測識別單元，探測機器人視場的圖像信息，在圖像中進行人臉檢測識別，并識別和跟蹤人體目標，對人體的肢體動作進行分析，識別出肢體命令;所述圖像探測識別單元包括人臉識別單元和肢體命令識別單元，
[0042]控制單元，比較聲源和人臉的位置識別語音聲源，比較語音聲源的語音命令和肢體命令確定用戶命令；[〇〇43]執(zhí)行單元，執(zhí)行用戶命令。
[0044]或者本發(fā)明所述一種具有上述方法的系統(tǒng)，所述系統(tǒng)包括:語音命令識別單元和肢體命令識別單元，所述語音命令識別單元包括聲音探測識別單元和人臉識別單元，其功能是在復(fù)雜背景中，識別語音信號中的命令，所述肢體命令識別單元和人臉識別單元是通過圖像探測識別單元實現(xiàn)的。
[0045]如圖1所示，本發(fā)明通過復(fù)合了人臉檢測識別和聲音識別來在復(fù)雜環(huán)境中識別語音命令。在語音識別過程中，聲音探測識別單元進行聲音探測，對聲源進行定位，在真實的復(fù)雜環(huán)境中同時存在其他用戶的語音干擾和非語音干擾(如電視、音箱的聲源等)，所以聲音定位結(jié)果既包含發(fā)出語音命令的用戶聲源，又包含干擾聲源。在聲音定位的同時，圖像探測識別單元的人臉識別單元對機器人前方進行圖像探測，從圖像中檢測識別人臉目標，由于人類用戶發(fā)命令的聲源是口的位置，口的位置和人臉區(qū)域重合，所以人類用戶聲源所在區(qū)域往往和某個檢測到的人臉區(qū)域重合，根據(jù)這個條件對人類用戶的語音聲源和非語音干擾聲源進行鑒別。如果所探測到的聲源區(qū)域和某個檢測到的人臉區(qū)域重合，則說明該聲源是人類用戶語音聲源.如果所探測到的聲源區(qū)域不和某個檢測到的人臉區(qū)域重合，則說明該聲源是非用戶干擾聲源，需要剔除。在篩選出語音聲源后，還需確定那個用戶語音聲源給機器人發(fā)出了命令。所以要對每個語音聲源進行語音識別，對每個語音聲源進行理解，并將語音識別結(jié)果和肢體命令識別結(jié)果進行復(fù)合。當(dāng)同時存在多個人類用戶的復(fù)雜環(huán)境下，該系統(tǒng)仍可精確識別出向機器人發(fā)出的用戶命令，魯棒性更強，更智能、更有效地同人類用戶進行交互。
[0046]如圖2所示，本發(fā)明的圖像探測識別單元中的肢體命令識別單元對人體的運動進行分析，理解人體目標的肢體動作，識別出用戶所發(fā)出的肢體命令。在肢體命令識別過程中，先用紅外攝像頭檢測人體目標，并對人體目標進行跟蹤。再對檢測到的人體目標提取人體骨架，確定人體的主干和肢體。在對人體進行跟蹤的同時，分析理解人體的肢體動作，識別肢體的命令。例如用戶向機器人發(fā)出“向前走”的語音命令時，用戶會向機器人做招手的肢體動作。機器人通過語音識別用戶所發(fā)的“向前走”的語音命令，通過人體運動分析識別出用戶人體的手部做出了招手的肢體命令。將兩個識別結(jié)果進行復(fù)合，當(dāng)語音命令和肢體命令對應(yīng)上了，則準確識別了用戶的命令。
[0047]如圖3所示，本發(fā)明將語音命令識別和圖像理解的肢體命令識別進行復(fù)合，以更好地進行人機交互。采用聲音探測識別檢測多個聲源，采用人臉檢測識別對檢測到的多聲源進行篩選，將非語音干擾聲源進行去除，得到多個人類語音聲源需進一步篩選，以找到發(fā)出語音命令的用戶聲源。采用圖像探測識別單元探測和跟蹤多個人體目標。對每個人體目標進行運動分析，識別所跟蹤每個人體目標的肢體動作。由于語音聲源也來自人體，所以每個檢測到的用戶語音聲源都會和某個檢測到的人體相對應(yīng)。將相對應(yīng)聲源的語音命令識別結(jié)果和對應(yīng)人體的肢體命令識別結(jié)果進行復(fù)合比較，如果語音識別到的命令和肢體動作識別到的命令是一致的，例如用戶語音發(fā)出“向前走”的命令，對該用戶身體的肢體命令識別中也出現(xiàn)招手的肢體命令，則語音命令識別結(jié)果和肢體命令識別結(jié)果匹配對應(yīng)上了，這時就可斷定該人類用戶向機器人發(fā)出了相應(yīng)的語音命令，機器人將調(diào)用機電動作執(zhí)行系統(tǒng)完成用戶命令規(guī)定的內(nèi)容。如果相對應(yīng)聲源的語音識別結(jié)果和對應(yīng)人體的肢體識別結(jié)果進行復(fù)合比較后，或者是語音信號中沒有識別出語音命令，或者是肢體識別中沒有識別出肢體命令，或者語音識別的命令和肢體動作識別到的命令不匹配對應(yīng)，以上三種情況出現(xiàn)一種都說明該用戶語音聲源沒有向機器人發(fā)出需要執(zhí)行的命令，則該語音聲源是人類用戶干擾聲源，將被剔除。至此，在采用語音命令識別和肢體命令識別復(fù)合后，在復(fù)雜環(huán)境中機器人可更準確地識別用戶命令，使人機交互的魯棒性得以提高.[〇〇48]如前所述，盡管說明中已經(jīng)參考附圖對本發(fā)明的示例性實施例進行了說明，但是本發(fā)明不限于上述各【具體實施方式】，還可以有許多其他實施例方式，本發(fā)明的范圍應(yīng)當(dāng)由權(quán)利要求書及其等同含義來限定。
【主權(quán)項】
1.一種用于機器人的語音和圖像復(fù)合交互執(zhí)行方法，其特征在于，包括:步驟一:機器人探測周圍的聲音，并對聲源進行定位；步驟二:機器人探測周圍的人臉，對人臉進行定位，并將人臉的定位與聲源的定位進行比較和匹配，過濾掉干擾聲源，初步確定語音聲源，初步確定語音命令；步驟三:機器人檢測周圍人體目標，并對人體目標進行跟蹤，識別肢體命令，并與初步確定的語音命令進行比較和匹配，過濾干擾語音命令，確定有效的用戶命令，步驟四:機器人根據(jù)用戶命令執(zhí)行相應(yīng)的操作。2.根據(jù)權(quán)利要求1所述的一種用于機器人的語音和圖像復(fù)合交互執(zhí)行方法，其特征在于:步驟二中，對聲源的周圍進行人臉識別，若聲源的位置周圍檢測到人臉信號，則該聲源為語音聲源，機器人對該語音聲源分析識別語音命令;若聲源的位置周圍未檢測到人臉信號，則該聲源為干擾聲源，將該聲源過濾。3.根據(jù)權(quán)利要求1所述的一種用于機器人的語音和圖像復(fù)合交互執(zhí)行方法，其特征在于:步驟二中，對機器人周圍的所有人臉進行識別，若聲源的位置與人臉的位置有重合，則該聲源為語音聲源，機器人對該語音聲源分析識別語音命令;若聲源的位置與人臉的位置沒有重合，則該聲源為干擾聲源，將該聲源過濾。4.根據(jù)權(quán)利要求1所述的一種用于機器人的語音和圖像復(fù)合交互執(zhí)行方法，其特征在于:步驟三中，若語音聲源處檢測到的肢體命令與該語音聲源確定的語音命令一致，則該語音聲源的命令為有效的用戶命令，若有效聲源處檢測到的肢體命令與該有效聲源確定的語音命令不一致，則為干擾語音命令，將該命令過濾。5.根據(jù)權(quán)利要求4所述的一種用于機器人的語音和圖像復(fù)合交互執(zhí)行方法，其特征在于:機器人采用基于視覺的人體運動分析來進行運動目標檢測、運動目標分類、人體運動跟蹤以及行為識別與描述。6.根據(jù)權(quán)利要求5所述的一種用于機器人的語音和圖像復(fù)合交互執(zhí)行方法，其特征在于:步驟三中，利用攝像頭提取人體目標，并對人體目標進行跟蹤，然后提取人體骨架，確定人體的主干和肢體，分析人體的肢體動作，識別肢體命令。7.—種具有權(quán)利要求1-6任一所述方法的系統(tǒng)，其特征在于，所述系統(tǒng)包括:聲音探測識別單元，進行聲音探測，對聲源進行定位；圖像探測識別單元，探測機器人視場的圖像信息，在圖像中進行人臉檢測識別，并識別和跟蹤人體目標，對人體的肢體動作進行分析，識別出肢體命令；控制單元，比較聲源和人臉的位置識別語音聲源，比較語音聲源的語音命令和肢體命令確定用戶命令；執(zhí)行單元，執(zhí)行用戶命令。8.根據(jù)權(quán)利要求7所述的一種用于機器人的語音和圖像復(fù)合交互執(zhí)行系統(tǒng)，其特征在于:所述圖像探測識別單元包括人臉識別單元和肢體命令識別單元。9.根據(jù)權(quán)利要求8所述的一種用于機器人的語音和圖像復(fù)合交互執(zhí)行系統(tǒng)，其特征在于:所述人臉識別單元和聲音探測識別單元組成用戶命令識別單元。
【文檔編號】G10L21/028GK105957521SQ201610107985
【公開日】2016年9月21日
【申請日】2016年2月29日
【發(fā)明人】王運志
【申請人】青島克路德機器人有限公司

完整全部詳細技術(shù)資料下載