本發(fā)明涉及剛性機(jī)械臂全狀態(tài)受限控制領(lǐng)域,具體涉及一種基于確定學(xué)習(xí)的全狀態(tài)受限剛性機(jī)械臂安全可靠控制方法。
背景技術(shù):
目前機(jī)械臂是在機(jī)器人技術(shù)領(lǐng)域中得到最廣泛實(shí)際應(yīng)用的自動(dòng)化機(jī)械裝置,除了主要用于工業(yè)制造上,商業(yè)農(nóng)業(yè)、醫(yī)療救援、娛樂(lè)服務(wù)、軍事保全甚至在太空探索等領(lǐng)域都可以發(fā)現(xiàn)其應(yīng)用裝置。隨著應(yīng)用場(chǎng)景的增多,任務(wù)復(fù)雜度的增強(qiáng),人們對(duì)機(jī)械臂的工作效率和工作質(zhì)量要求也越來(lái)越高。目前有關(guān)機(jī)械臂安全控制方面的研究還比較少,機(jī)械臂與人交互時(shí),其高剛度容易對(duì)周邊人員產(chǎn)生傷害。因此,有必要在線規(guī)劃?rùn)C(jī)械臂的跟蹤路徑以及運(yùn)轉(zhuǎn)速度,也就是研究狀態(tài)受限問(wèn)題,從而保證人機(jī)交互的安全性。然而,采用現(xiàn)有的遞推設(shè)計(jì)方案,大多數(shù)的研究結(jié)果都是將狀態(tài)受限控制問(wèn)題間接地轉(zhuǎn)化為狀態(tài)跟蹤誤差受限控制問(wèn)題,從而不得不引入中間控制量的界限。由于中間控制量的界限難以確定,因此為了不違背受限的狀態(tài)要求,通常對(duì)受限狀態(tài)的界設(shè)定較大,從而大大增加了算法的保守性,使得機(jī)械臂的安全工作區(qū)域以及運(yùn)轉(zhuǎn)速度大大受限。
此外,現(xiàn)實(shí)中的機(jī)械臂系統(tǒng)動(dòng)態(tài)往往不是精確已知的,針對(duì)系統(tǒng)中的未知?jiǎng)討B(tài),現(xiàn)有的技術(shù)通常采用神經(jīng)網(wǎng)絡(luò)進(jìn)行逼近。神經(jīng)網(wǎng)絡(luò)逼近系統(tǒng)未知?jiǎng)討B(tài)過(guò)程中,需要不斷的在線調(diào)整,每做一次任務(wù)神經(jīng)網(wǎng)絡(luò)需要重新訓(xùn)練一次,在訓(xùn)練的過(guò)程中,神經(jīng)網(wǎng)絡(luò)的逼近誤差比較大,訓(xùn)練過(guò)程也需要耗費(fèi)較長(zhǎng)的時(shí)間。然而機(jī)械臂執(zhí)行相同的控制任務(wù),神經(jīng)網(wǎng)絡(luò)需要逼近的未知?jiǎng)討B(tài)也是基本一致的,這就使得神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過(guò)程成為冗余操作。確定學(xué)習(xí)理論已經(jīng)證明了rbf神經(jīng)網(wǎng)絡(luò)逼近周期或類(lèi)周期的軌跡時(shí),神經(jīng)網(wǎng)絡(luò)權(quán)值能夠最終收斂并存儲(chǔ)為經(jīng)驗(yàn)知識(shí),因而可利用經(jīng)驗(yàn)知識(shí)實(shí)現(xiàn)機(jī)械臂系統(tǒng)的高性能控制。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的是針對(duì)上述現(xiàn)有技術(shù)的不足,提出了一種基于確定學(xué)習(xí)的全狀態(tài)受限剛性機(jī)械臂安全可靠控制方法,特別是針對(duì)剛性機(jī)械臂的狀態(tài)受限問(wèn)題,本發(fā)明提出了一種新型非線性轉(zhuǎn)換器,將全狀態(tài)受限的剛性機(jī)械臂動(dòng)力學(xué)系統(tǒng)直接轉(zhuǎn)化為全狀態(tài)不受限的非線性動(dòng)力學(xué)系統(tǒng),從而避免了應(yīng)用中間控制量的界限,降低了控制方案設(shè)計(jì)的保守性。在此基礎(chǔ)上,本發(fā)明采用命令濾波器并通過(guò)設(shè)計(jì)補(bǔ)償信號(hào)的方法成功解決了傳統(tǒng)后推設(shè)計(jì)可能產(chǎn)生的全狀態(tài)受限剛性機(jī)械臂控制器循環(huán)構(gòu)造問(wèn)題。最后,針對(duì)冗余訓(xùn)練問(wèn)題,本發(fā)明采用基于確定學(xué)習(xí)的控制方案,將收斂后的神經(jīng)網(wǎng)絡(luò)權(quán)值存儲(chǔ)為經(jīng)驗(yàn)知識(shí)。當(dāng)機(jī)械臂遇到相同的狀態(tài)受限控制任務(wù)時(shí),直接調(diào)用經(jīng)驗(yàn)知識(shí)避免了再次訓(xùn)練,實(shí)現(xiàn)了全狀態(tài)受限剛性機(jī)械臂安全可靠的低能耗控制。
為了達(dá)到上述目的,本發(fā)明采用以下技術(shù)方案:
本發(fā)明一種基于確定學(xué)習(xí)的全狀態(tài)受限剛性機(jī)械臂安全可靠控制方法,包括以下步驟:
步驟1、建立全狀態(tài)受限剛性機(jī)械臂的動(dòng)力學(xué)模型和期望的周期軌跡:建立以剛性機(jī)械臂關(guān)節(jié)角位置以及關(guān)節(jié)角速度作為狀態(tài)變量的剛性機(jī)械臂動(dòng)力學(xué)模型和期望的周期軌跡模型;
步驟2、建立狀態(tài)轉(zhuǎn)換器:將狀態(tài)受限的模型轉(zhuǎn)換為不受限的模型,同時(shí)將參考軌跡模型也進(jìn)行相應(yīng)地轉(zhuǎn)換;
其中,
轉(zhuǎn)換后的系統(tǒng)為:
其中,r1(s1)=diag(r1,1(s1,1),…,r1,n(s1,n)),r2(s2)=diag(r2,1(s2,1),…,r2,n(s2,n)),
相應(yīng)地,轉(zhuǎn)換后的參考軌跡為:
sd1=[sd1,1,…,sd1,n]t,sd2=[sd2,1,…,sd2,n]t,sd1為轉(zhuǎn)換后的期望關(guān)節(jié)角位置,sd2為轉(zhuǎn)換后的期望關(guān)節(jié)角速度;
步驟3、采用構(gòu)造性方法,引入下一子系統(tǒng)的狀態(tài),將非仿射模型構(gòu)造成仿射模型;
步驟4、定義轉(zhuǎn)換后機(jī)械臂的角位置和任意參考軌跡之間的跟蹤誤差;
步驟5、設(shè)計(jì)補(bǔ)償跟蹤誤差信號(hào):應(yīng)用命令濾波并結(jié)合后推設(shè)計(jì)方法設(shè)計(jì)補(bǔ)償跟蹤誤差信號(hào);
步驟6、設(shè)計(jì)穩(wěn)定的自適應(yīng)神經(jīng)網(wǎng)絡(luò)控制器:應(yīng)用李雅普諾夫穩(wěn)定性理論并結(jié)合逐步后推設(shè)計(jì)方法構(gòu)造穩(wěn)定的自適應(yīng)神經(jīng)網(wǎng)絡(luò)控制器,保證跟蹤效果,不違背全狀態(tài)受限;
步驟7、建立基于經(jīng)驗(yàn)知識(shí)的靜態(tài)神經(jīng)網(wǎng)絡(luò)控制器:根據(jù)確定學(xué)習(xí)理論,步驟6中沿剛性機(jī)械臂運(yùn)動(dòng)軌跡的神經(jīng)元滿足持續(xù)激勵(lì)條件,其權(quán)值收斂到最優(yōu),取收斂后的神經(jīng)網(wǎng)絡(luò)權(quán)值
進(jìn)一步地,步驟1中,所述全狀態(tài)受限剛性機(jī)械臂的動(dòng)力學(xué)模型為:
其中,x1=[x1,1,x1,2,…,x1,n]t為機(jī)械臂關(guān)節(jié)的角位置,x2=[x2,1,x2,2,…,x2,n]t為機(jī)械臂關(guān)節(jié)的角速度,n為全狀態(tài)受限剛性機(jī)械臂的關(guān)節(jié)數(shù),k1=[k11,…,k1n]t,
進(jìn)一步地,步驟1中,所述全狀態(tài)受限剛性機(jī)械臂期望的周期軌跡為:
其中,xd1=[xd1,1,…,xd1,n]t為關(guān)節(jié)角位置的期望參考軌跡,xd2=[xd2,1,…,xd2,n]t為關(guān)節(jié)角速度的期望參考軌跡,xd=[xd1,xd2]t,f(xd1,xd2)為給定的連續(xù)函數(shù)。
進(jìn)一步地,步驟3中,所述將非仿射模型構(gòu)造成含仿射項(xiàng)的形式為:
其中,f1(s1,s2)=r1(s1)t2(s2)-s2。
進(jìn)一步地,步驟4中,所述定義轉(zhuǎn)換后機(jī)械臂的位置和任意參考軌跡之間的跟蹤誤差為:
z1=s1-sd1
其中,s1為轉(zhuǎn)換后的機(jī)械臂的關(guān)節(jié)角位置,sd1為期望的關(guān)節(jié)角位置,z1為轉(zhuǎn)換后機(jī)械臂關(guān)節(jié)角位置跟蹤誤差。
進(jìn)一步地,步驟5中,所述設(shè)計(jì)補(bǔ)償跟蹤誤差信號(hào)為:
v1=z1-ξ1
其中,z1為轉(zhuǎn)換后機(jī)械臂的位置和任意參考軌跡之間的跟蹤誤差,ξ1為補(bǔ)償信號(hào),v1為補(bǔ)償跟蹤誤差信號(hào);
設(shè)計(jì)虛擬控制器α1,
其中,c1為設(shè)計(jì)常數(shù);
設(shè)計(jì)命令濾波器為:
其中,ωn>0為命令濾波器的放大系數(shù),
設(shè)計(jì)補(bǔ)償信號(hào)ξ1,
其中,
設(shè)計(jì)s2的補(bǔ)償跟蹤誤差信號(hào),
v2=s2-s2,c
進(jìn)一步地,步驟6中,設(shè)計(jì)基于確定學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)控制器為:
其中,c2為r-12v2的設(shè)計(jì)參數(shù),c3為r2v2的設(shè)計(jì)參數(shù),
進(jìn)一步地,步驟7中,建立基于經(jīng)驗(yàn)知識(shí)的靜態(tài)神經(jīng)網(wǎng)絡(luò)控制器形式為:
其中,
本發(fā)明與現(xiàn)有技術(shù)相比,具有如下優(yōu)點(diǎn)和有益效果:
1、本發(fā)明通過(guò)設(shè)計(jì)基于確定學(xué)習(xí)的全狀態(tài)受限剛性機(jī)械臂神經(jīng)網(wǎng)絡(luò)控制器,不僅實(shí)現(xiàn)了軌跡跟蹤誤差最終收斂到零的一個(gè)小鄰域內(nèi),還能限制機(jī)械臂運(yùn)行在一個(gè)給定的安全的工作區(qū)間內(nèi),實(shí)現(xiàn)了剛性機(jī)械臂的精確安全可靠控制。
2、本發(fā)明通過(guò)設(shè)計(jì)狀態(tài)轉(zhuǎn)換函數(shù)的方法,將全狀態(tài)受限的剛性機(jī)械臂動(dòng)力學(xué)系統(tǒng)直接轉(zhuǎn)化為不受限的非線性動(dòng)力學(xué)系統(tǒng),從而避免了應(yīng)用中間控制量的界限,降低了控制方案設(shè)計(jì)的保守性。
3、本發(fā)明通過(guò)設(shè)計(jì)補(bǔ)償跟蹤誤差信號(hào),減少了剛性機(jī)械臂濾波產(chǎn)生的誤差,克服了傳統(tǒng)后推設(shè)計(jì)中由于連續(xù)求導(dǎo)所引起的“計(jì)算爆炸”問(wèn)題。
4、本發(fā)明采用確定學(xué)習(xí)的理論,實(shí)現(xiàn)了對(duì)剛性機(jī)械臂不確定參數(shù)進(jìn)行學(xué)習(xí),并將收斂的神經(jīng)網(wǎng)絡(luò)權(quán)值進(jìn)行存儲(chǔ),利用存儲(chǔ)的經(jīng)驗(yàn)知識(shí)避免了冗余訓(xùn)練,提高了系統(tǒng)的響應(yīng)速度,改善了剛性機(jī)械臂暫態(tài)過(guò)程的跟蹤性能。
附圖說(shuō)明
圖1為本發(fā)明全狀態(tài)受限剛性機(jī)械臂系統(tǒng)示意圖。
圖2為本發(fā)明全狀態(tài)受限剛性機(jī)械臂的整體控制框圖。
圖3為本發(fā)明狀態(tài)轉(zhuǎn)換器圖。
圖4為本發(fā)明機(jī)械臂關(guān)節(jié)1角位置受限圖。
圖5為本發(fā)明機(jī)械臂關(guān)節(jié)2角位置受限圖。
圖6為本發(fā)明機(jī)械臂關(guān)節(jié)1角速度受限圖。
圖7為本發(fā)明機(jī)械臂關(guān)節(jié)2角速度受限圖。
圖8為本發(fā)明補(bǔ)償跟蹤誤差信號(hào)1仿真圖。
圖9為本發(fā)明補(bǔ)償跟蹤誤差信號(hào)2仿真圖。
圖10為本發(fā)明神經(jīng)網(wǎng)絡(luò)權(quán)值w1收斂仿真圖。
圖11為本發(fā)明神經(jīng)網(wǎng)絡(luò)權(quán)值w2收斂仿真圖。
圖12(a)、圖12(b)分別為本發(fā)明神經(jīng)網(wǎng)絡(luò)訓(xùn)練階段與經(jīng)驗(yàn)再利用階段的控制器1輸出仿真圖。
圖13(a)、圖13(b)分別為本發(fā)明神經(jīng)網(wǎng)絡(luò)訓(xùn)練階段與經(jīng)驗(yàn)再利用階段的控制器2輸出仿真圖。
圖14為本發(fā)明神經(jīng)網(wǎng)絡(luò)訓(xùn)練階段和經(jīng)驗(yàn)再利用階段關(guān)節(jié)1跟蹤誤差收斂對(duì)比仿真圖。
圖15為本發(fā)明神經(jīng)網(wǎng)絡(luò)訓(xùn)練階段和經(jīng)驗(yàn)再利用階段關(guān)節(jié)2跟蹤誤差收斂對(duì)比仿真圖。
具體實(shí)施方式
下面結(jié)合實(shí)施例及附圖對(duì)本發(fā)明作進(jìn)一步詳細(xì)的描述,但本發(fā)明的實(shí)施方式不限于此。
實(shí)施例:
本實(shí)施例提供了一種基于確定學(xué)習(xí)的全狀態(tài)受限剛性機(jī)械臂安全可靠控制方法,全狀態(tài)受限剛性機(jī)械臂系統(tǒng)的示意圖如圖1所示,整體的控制框圖如圖2所示,其詳細(xì)實(shí)施過(guò)程包括:
步驟1、建立全狀態(tài)受限剛性機(jī)械臂的動(dòng)力學(xué)模型和期望的周期軌跡:
其中,x1=[x1,1,x1,2]t為機(jī)械臂關(guān)節(jié)的角位置,x2=[x2,1,x2,2]t為機(jī)械臂關(guān)節(jié)的角速度,k1=[k11,k12]t,
本實(shí)施例中選取的全狀態(tài)受限剛性機(jī)械臂系統(tǒng)的相關(guān)參數(shù)分別為:
其中,x1,1,x1,2分別為關(guān)節(jié)1和關(guān)節(jié)2的角位置,x2,1,x2,2分別為關(guān)節(jié)1和關(guān)節(jié)2的角速度,l1=1m,l2=1m分別為連桿1和連桿2的長(zhǎng)度,m1=0.8kg,m2=2.3kg分別為連桿1和連桿2的質(zhì)量,g=9.8m/s2為重力加速度。
全狀態(tài)受限剛性機(jī)械臂期望的周期軌跡為:
其中,xd=[xd1,xd2]t,xd1=[xd1,1,xd1,2]t為關(guān)節(jié)角位置的期望參考軌跡,xd2=[xd2,1,xd2,2]t為關(guān)節(jié)角速度的期望參考軌跡,f(xd1,xd2)為給定的連續(xù)函數(shù)。
本實(shí)例中選取的期望周期軌跡為:
xd=[0.8sin(t),0.6cos(t)]t,
步驟2、建立狀態(tài)轉(zhuǎn)換器:
其中,
轉(zhuǎn)換后的系統(tǒng)為:
其中,r1(s1)=diag(r1,1(s1,1),r1,2(s1,2)),r2(s2)=diag(r2,1(s2,1),r2,2(s2,2)),
相應(yīng)地,轉(zhuǎn)換后的參考軌跡為:
sd1=[sd1,1,sd1,2]t,sd2=[sd2,1,sd2,2]t,sd1為轉(zhuǎn)換后的期望關(guān)節(jié)角位置,sd2為轉(zhuǎn)換后的期望關(guān)節(jié)角速度。
圖3為狀態(tài)轉(zhuǎn)換器圖,可以看出該轉(zhuǎn)換器的特點(diǎn)為將受限的x轉(zhuǎn)換為不受限的s,且當(dāng)x為0時(shí)s也為0,當(dāng)x趨向邊界時(shí),s趨向無(wú)窮。
步驟3、采用構(gòu)造性方法,引入下一子系統(tǒng)的狀態(tài),將非仿射模型構(gòu)造成仿射模型:
其中,f1(s1,s2)=r1(s1)t2(s2)-s2。
步驟4、定義轉(zhuǎn)換后機(jī)械臂的角位置和參考軌跡之間的跟蹤誤差:
z1=s1-sd1
步驟5、設(shè)計(jì)補(bǔ)償跟蹤誤差信號(hào):
v1=z1-ξ1
其中,z1為轉(zhuǎn)換后機(jī)械臂的位置和任意參考軌跡之間的跟蹤誤差,ξ1為補(bǔ)償信號(hào),v1為補(bǔ)償跟蹤誤差信號(hào)。
設(shè)計(jì)虛擬控制器α1,
其中,c1為誤差z1的設(shè)計(jì)常數(shù),本實(shí)例中選擇c1=3。
設(shè)計(jì)命令濾波器為:
其中,ωn>0為命令濾波器的放大系數(shù),
設(shè)計(jì)補(bǔ)償信號(hào)ξ1,
其中,
設(shè)計(jì)s2的補(bǔ)償跟蹤誤差信號(hào),
v2=s2-s2,c
步驟6、設(shè)計(jì)穩(wěn)定的自適應(yīng)神經(jīng)網(wǎng)絡(luò)控制器:應(yīng)用李雅普諾夫穩(wěn)定性理論并結(jié)合逐步后推設(shè)計(jì)方法構(gòu)造穩(wěn)定的自適應(yīng)神經(jīng)網(wǎng)絡(luò)控制器,保證跟蹤效果,不違背全狀態(tài)受限:
其中,c2為r-12v2的設(shè)計(jì)參數(shù),c3為r2v2的設(shè)計(jì)參數(shù),
本實(shí)例中,x1和x2的初始值為x11(0)=x12(0)=0.2,x21(0)=x22(0)=0.5;神經(jīng)網(wǎng)絡(luò)的初始值為
圖4為機(jī)械臂關(guān)節(jié)1角位置受限圖。圖5為機(jī)械臂關(guān)節(jié)2角位置受限圖。圖6為機(jī)械臂關(guān)節(jié)1角速度受限圖。圖7為機(jī)械臂關(guān)節(jié)2角速度受限圖。從圖4到圖7可以看出,機(jī)械臂各個(gè)關(guān)節(jié)的位置和速度限制在指定的約束范圍內(nèi)。圖8為補(bǔ)償跟蹤誤差信號(hào)1仿真圖。圖9為補(bǔ)償跟蹤誤差信號(hào)2仿真圖。從圖8和圖9可以看出,補(bǔ)償跟蹤誤差信號(hào)穩(wěn)定時(shí)收斂到零的小鄰域內(nèi)。圖10為神經(jīng)網(wǎng)絡(luò)權(quán)值w1收斂仿真圖。圖11為神經(jīng)網(wǎng)絡(luò)權(quán)值w2收斂仿真圖。從圖10和圖11可以看出,神經(jīng)網(wǎng)絡(luò)大多數(shù)權(quán)值收斂到零,只有部分權(quán)值收斂到非零常數(shù)。
步驟7、建立基于經(jīng)驗(yàn)知識(shí)的靜態(tài)神經(jīng)網(wǎng)絡(luò)控制器:根據(jù)確定學(xué)習(xí)理論,步驟6中沿剛性機(jī)械臂運(yùn)動(dòng)軌跡的神經(jīng)元滿足持續(xù)激勵(lì)條件,其權(quán)值收斂到最優(yōu),取收斂后的神經(jīng)網(wǎng)絡(luò)權(quán)值
其中,
圖12(a)、圖12(b)分別為神經(jīng)網(wǎng)絡(luò)訓(xùn)練階段與經(jīng)驗(yàn)再利用階段的控制器1輸出仿真圖。圖13(a)、圖13(b)為神經(jīng)網(wǎng)絡(luò)訓(xùn)練階段與經(jīng)驗(yàn)再利用階段的控制器2輸出仿真圖。圖14為神經(jīng)網(wǎng)絡(luò)訓(xùn)練階段和經(jīng)驗(yàn)再利用階段關(guān)節(jié)1跟蹤誤差收斂對(duì)比仿真圖。圖15為神經(jīng)網(wǎng)絡(luò)訓(xùn)練階段和經(jīng)驗(yàn)再利用階段關(guān)節(jié)2跟蹤誤差收斂對(duì)比仿真圖。從圖12(a)、圖12(b)、圖13(a)、圖13(b)、圖14、圖15中可以看出,采用基于經(jīng)驗(yàn)知識(shí)的靜態(tài)神經(jīng)網(wǎng)絡(luò)控制器改善了剛性機(jī)械臂暫態(tài)過(guò)程的跟蹤性能。
以上所述,僅為本發(fā)明專(zhuān)利較佳的實(shí)施例,但本發(fā)明專(zhuān)利的保護(hù)范圍并不局限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明專(zhuān)利所公開(kāi)的范圍內(nèi),根據(jù)本發(fā)明專(zhuān)利的技術(shù)方案及其發(fā)明專(zhuān)利構(gòu)思加以等同替換或改變,都屬于本發(fā)明專(zhuān)利的保護(hù)范圍。