亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

用于借助于仿真模塊的計(jì)算機(jī)輔助的設(shè)施控制優(yōu)化的方法與流程

文檔序號(hào):11160696閱讀:806來(lái)源:國(guó)知局
用于借助于仿真模塊的計(jì)算機(jī)輔助的設(shè)施控制優(yōu)化的方法與制造工藝

在控制復(fù)雜的動(dòng)態(tài)系統(tǒng)(諸如燃?xì)廨啓C(jī)、風(fēng)力渦輪機(jī)或者其它的技術(shù)設(shè)施或者系統(tǒng))時(shí),一般來(lái)說(shuō)值得期望的是:關(guān)于預(yù)先給定的標(biāo)準(zhǔn)來(lái)優(yōu)化系統(tǒng)特性。這樣,例如在燃?xì)廨啓C(jī)的情況下,一般來(lái)說(shuō)力求改進(jìn)效率、效果和/或燃燒動(dòng)力學(xué),以及降低廢氣排放、燃燒室噪聲和/或磨損。



背景技術(shù):

復(fù)雜的動(dòng)態(tài)系統(tǒng)通常具有多個(gè)相互作用的控制參數(shù)。因此,為了控制該動(dòng)態(tài)系統(tǒng),影響系統(tǒng)特性的多個(gè)可能的控制行動(dòng)供系統(tǒng)控制裝置支配。在此,不同的控制行動(dòng)可以以非常復(fù)雜的方式、尤其是也相反地相互作用。這樣,對(duì)第一控制標(biāo)準(zhǔn)有積極效果的控制行動(dòng)可能對(duì)第二控制標(biāo)準(zhǔn)有消極作用。此外,相同的控制行動(dòng)根據(jù)系統(tǒng)狀態(tài)而可能積極地或者消極地起作用。

從現(xiàn)有技術(shù)中已知計(jì)算機(jī)輔助的控制裝置或者調(diào)節(jié)器,所述控制裝置或者調(diào)節(jié)器特定地適用于遵循或者優(yōu)化預(yù)先給定的控制標(biāo)準(zhǔn)。然而,這樣的控制標(biāo)準(zhǔn)一般來(lái)說(shuō)根據(jù)動(dòng)態(tài)系統(tǒng)的應(yīng)用情況而有區(qū)別。這樣,例如可以針對(duì)不同的國(guó)家中的發(fā)電廠規(guī)定廢氣排放的不同的極限值。在第一國(guó)家中,低的廢氣排放相對(duì)于其它的控制標(biāo)準(zhǔn)可能優(yōu)先,而在第二國(guó)家中,低的磨損和低的維護(hù)成本可能優(yōu)先。一般來(lái)說(shuō),多個(gè)相互影響的控制標(biāo)準(zhǔn)應(yīng)以適當(dāng)?shù)姆绞絹?lái)權(quán)衡,以便針對(duì)當(dāng)前的情況實(shí)現(xiàn)最優(yōu)的控制。

為了優(yōu)化預(yù)先給定的控制標(biāo)準(zhǔn),流行的控制通常使用機(jī)器學(xué)習(xí)的技術(shù)。這樣,例如可以針對(duì)如下方面訓(xùn)練神經(jīng)網(wǎng)絡(luò):關(guān)于一個(gè)或多個(gè)預(yù)先給定的控制標(biāo)準(zhǔn)來(lái)優(yōu)化對(duì)動(dòng)態(tài)系統(tǒng)的控制。然而,對(duì)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練一般來(lái)說(shuō)是比較耗時(shí)的。如果改變控制標(biāo)準(zhǔn),那么常常持續(xù)比較長(zhǎng)時(shí)間直至進(jìn)行學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)適應(yīng)于經(jīng)改變的控制標(biāo)準(zhǔn)。因而,對(duì)適用于所力求的目的或者新的情況的控制標(biāo)準(zhǔn)進(jìn)行優(yōu)化常常是非常耗時(shí)的。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明的任務(wù)是提供一種用于對(duì)技術(shù)系統(tǒng)進(jìn)行計(jì)算機(jī)輔助的控制優(yōu)化的設(shè)備和方法,所述設(shè)備和方法允許對(duì)控制標(biāo)準(zhǔn)進(jìn)行更靈活的并且更快速的優(yōu)化。

該任務(wù)通過(guò)一種具有專(zhuān)利權(quán)利要求1的特征的交互式輔助系統(tǒng)、通過(guò)一種具有專(zhuān)利權(quán)利要求9的特征的方法以及通過(guò)具有專(zhuān)利權(quán)利要求13的特征的計(jì)算機(jī)程序產(chǎn)品來(lái)解決。

按照本發(fā)明,為了對(duì)技術(shù)系統(tǒng)進(jìn)行計(jì)算機(jī)輔助的控制優(yōu)化,設(shè)置一種交互式輔助系統(tǒng)以及一種相對(duì)應(yīng)的方法。該技術(shù)系統(tǒng)例如可以是燃?xì)廨啓C(jī)、風(fēng)力渦輪機(jī)、發(fā)電廠或者另一技術(shù)設(shè)施或者另一技術(shù)系統(tǒng)。輸入終端用于讀入說(shuō)明了該技術(shù)系統(tǒng)的第一系統(tǒng)狀態(tài)的至少一個(gè)狀態(tài)參數(shù),以及用于讀入至少一個(gè)調(diào)整參數(shù),所述至少一個(gè)調(diào)整參數(shù)用于設(shè)立適用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)的報(bào)酬函數(shù)(Belohnungsfunktion)。這樣的報(bào)酬函數(shù)常常也被稱(chēng)作Reward-Function。仿真模塊用于對(duì)在技術(shù)系統(tǒng)上執(zhí)行從第一系統(tǒng)狀態(tài)出發(fā)的行動(dòng)序列進(jìn)行仿真,以及用于預(yù)測(cè)技術(shù)系統(tǒng)的從中最終得到的后續(xù)狀態(tài)。此外,還設(shè)置有與輸入終端和仿真模塊耦合的優(yōu)化模塊。該優(yōu)化模塊用于依據(jù)調(diào)整參數(shù)設(shè)立報(bào)酬函數(shù)、用于生成多個(gè)針對(duì)第一系統(tǒng)狀態(tài)的行動(dòng)序列、用于將所述行動(dòng)序列傳送給仿真模塊以及用于接收從中最終得到的后續(xù)狀態(tài)。此外,該優(yōu)化模塊還用于借助于所設(shè)立的報(bào)酬函數(shù)來(lái)確定對(duì)于最終得到的后續(xù)狀態(tài)所要期望的報(bào)酬,以及用于確定進(jìn)行報(bào)酬優(yōu)化的行動(dòng)序列。為了輸出從進(jìn)行報(bào)酬優(yōu)化的行動(dòng)序列最終得到的系統(tǒng)狀態(tài)而設(shè)置有輸出終端。

為了分別預(yù)先給定的情況和/或?yàn)榱朔謩e力求的目的,本發(fā)明允許快速地交互式地優(yōu)化或改進(jìn)針對(duì)技術(shù)系統(tǒng)的控制標(biāo)準(zhǔn)。通過(guò)適當(dāng)?shù)卦O(shè)立適用于神經(jīng)網(wǎng)絡(luò)的訓(xùn)練的報(bào)酬函數(shù),所述控制標(biāo)準(zhǔn)可以以靈活的方式由用戶(hù)在輸入終端上來(lái)修改。這些修改的作用可以通過(guò)用戶(hù)在輸出終端上直接檢測(cè)。據(jù)此,用戶(hù)接著可以進(jìn)行報(bào)酬函數(shù)或控制標(biāo)準(zhǔn)的其它適配,而且這樣可以連續(xù)地(sukzessiv)交互式地優(yōu)化所述報(bào)酬函數(shù)或所述控制標(biāo)準(zhǔn)。將報(bào)酬函數(shù)用于優(yōu)化控制標(biāo)準(zhǔn)是有利的,因?yàn)閳?bào)酬函數(shù)根據(jù)其交互式優(yōu)化而可以直接被用于訓(xùn)練技術(shù)系統(tǒng)的基于神經(jīng)網(wǎng)絡(luò)的控制。

仿真模塊的應(yīng)用允許時(shí)間有利地并且成本有利地確定技術(shù)系統(tǒng)的由行動(dòng)序列造成的后續(xù)狀態(tài)。這尤其是也適用于如下這種行動(dòng)序列,所述行動(dòng)序列在真正的技術(shù)系統(tǒng)上只能用高的耗費(fèi)來(lái)執(zhí)行。此外,在足夠的計(jì)算能力的前提下,仿真模塊常常可以比真正的技術(shù)系統(tǒng)更快地提供后續(xù)狀態(tài),而且這樣可以縮短優(yōu)化過(guò)程。

本發(fā)明的有利的實(shí)施方式和擴(kuò)展方案在從屬權(quán)利要求中被說(shuō)明。

根據(jù)本發(fā)明的一種有利的實(shí)施方式,所述仿真模塊可以被設(shè)立用于優(yōu)化包括連續(xù)的調(diào)節(jié)參量的行動(dòng)序列。這種連續(xù)的調(diào)節(jié)參量(諸如在燃?xì)廨啓C(jī)中的氣體輸送)在很多技術(shù)系統(tǒng)中都是可控制的。

此外,在優(yōu)化模塊中可以實(shí)施隨機(jī)的和/或非凸的優(yōu)化方法來(lái)確定進(jìn)行報(bào)酬優(yōu)化的行動(dòng)序列。隨機(jī)的優(yōu)化方法也可以成功地被應(yīng)用到高維的和/或非線(xiàn)性的優(yōu)化問(wèn)題上。如果不同的優(yōu)化參數(shù)彼此相關(guān),那么非凸的優(yōu)化方法是有利的。

優(yōu)選地,作為優(yōu)化方法可以實(shí)施粒子群優(yōu)化、遺傳優(yōu)化方法、模擬退火方法(Simulated-Annealing-Verfahren)和/或隨機(jī)梯度方法。

此外,該仿真模塊還可以被設(shè)立用于處理技術(shù)系統(tǒng)的傳感器數(shù)據(jù)。以這種方式被設(shè)立的仿真模塊也可以在真正的技術(shù)系統(tǒng)上用真正的傳感器數(shù)據(jù)來(lái)運(yùn)行而且關(guān)于該仿真模塊的仿真忠實(shí)度(Simulationstreue)來(lái)優(yōu)化。

此外,在仿真模塊中可以實(shí)施神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)(Support-Vector-Machine)、高斯過(guò)程模型和/或物理模型來(lái)仿真該技術(shù)系統(tǒng)。

根據(jù)一種有利的實(shí)施方式,神經(jīng)網(wǎng)絡(luò)可以被實(shí)施為遞歸神經(jīng)網(wǎng)絡(luò)。這種遞歸神經(jīng)網(wǎng)絡(luò)允許以高效的方式識(shí)別與時(shí)間相關(guān)的模式。

此外,該神經(jīng)網(wǎng)絡(luò)已經(jīng)可以針對(duì)該技術(shù)系統(tǒng)來(lái)預(yù)先訓(xùn)練。

根據(jù)另一種實(shí)施方式,進(jìn)行報(bào)酬優(yōu)化的行動(dòng)序列可以在輸出終端上輸出。

優(yōu)選地,最終得到的系統(tǒng)狀態(tài)的、進(jìn)行報(bào)酬優(yōu)化的行動(dòng)序列的和/或報(bào)酬函數(shù)的返回值的時(shí)間變化過(guò)程可以被輸出在輸出終端上。這允許由用戶(hù)來(lái)迅速地判斷優(yōu)化結(jié)果。尤其是,用戶(hù)可以直接比較關(guān)于當(dāng)前被調(diào)整的控制標(biāo)準(zhǔn)最優(yōu)的系統(tǒng)特性在何種程度上對(duì)應(yīng)于用戶(hù)所期望的系統(tǒng)特性。

此外,還可以通過(guò)輸出終端來(lái)輸出報(bào)酬函數(shù)和/或狀態(tài)參數(shù)的其它的變體來(lái)在輸入終端上進(jìn)行在用戶(hù)側(cè)的選擇。尤其是可以輸出根據(jù)預(yù)先給定的標(biāo)準(zhǔn)來(lái)實(shí)現(xiàn)的從可能的報(bào)酬函數(shù)和/或狀態(tài)參數(shù)中的預(yù)先選擇。

附圖說(shuō)明

隨后依據(jù)附圖來(lái)進(jìn)一步解釋本發(fā)明的一個(gè)實(shí)施例。

附圖以示意圖示出按照本發(fā)明的交互式輔助系統(tǒng)。

具體實(shí)施方式

在該附圖中,示意性地示出了用于對(duì)于動(dòng)態(tài)技術(shù)系統(tǒng)進(jìn)行計(jì)算機(jī)輔助的控制優(yōu)化的交互式輔助系統(tǒng)。該技術(shù)系統(tǒng)例如可以是燃?xì)廨啓C(jī)、風(fēng)力渦輪機(jī)、發(fā)電廠、生產(chǎn)設(shè)施或者另一技術(shù)設(shè)施或者另一動(dòng)態(tài)系統(tǒng)。

該交互式輔助系統(tǒng)包括具有輸入終端IN(例如鍵盤(pán))的以及具有輸出終端OUT(例如顯示屏)的終端T。

輸入終端IN用于讀入狀態(tài)參數(shù),該狀態(tài)參數(shù)描述了技術(shù)系統(tǒng)的第一系統(tǒng)狀態(tài)S0。第一系統(tǒng)狀態(tài)S0能夠交互式地由終端T的用戶(hù)來(lái)預(yù)先給定,而且描述如下初始狀態(tài),對(duì)技術(shù)系統(tǒng)的仿真從該初始狀態(tài)出發(fā)。第一系統(tǒng)狀態(tài)S0通過(guò)技術(shù)系統(tǒng)的狀態(tài)參數(shù)的向量、即所謂的狀態(tài)向量S0=((S0)1...(S0)N)來(lái)示出,其中N說(shuō)明了技術(shù)系統(tǒng)的狀態(tài)參數(shù)的數(shù)目。狀態(tài)參數(shù)描述技術(shù)系統(tǒng)的在仿真開(kāi)始時(shí)存在的狀態(tài)。尤其是,狀態(tài)參數(shù)可以是物理參量(如溫度、壓力或者電壓)或者例如在燃?xì)廨啓C(jī)的情況下描述燃燒室噪聲或者氮氧化物的排放。用戶(hù)可以在交互式輸入終端IN上明確地輸入不同的狀態(tài)參數(shù),或者也可以從在輸出終端OUT上所建議的狀態(tài)參數(shù)或者系統(tǒng)狀態(tài)中選擇。

描述第一系統(tǒng)狀態(tài)的狀態(tài)向量S0從輸入終端IN被傳送到用于仿真技術(shù)系統(tǒng)的動(dòng)態(tài)特性的仿真模塊SIM。仿真模塊SIM從第一系統(tǒng)狀態(tài)S0出發(fā)仿真通過(guò)技術(shù)系統(tǒng)的動(dòng)態(tài)特性從S0得出的狀態(tài)序列S、也就是說(shuō)從S0最終得到的后續(xù)狀態(tài)。狀態(tài)序列S=(S1,...,ST)=: (Si)是技術(shù)系統(tǒng)的在時(shí)間上連續(xù)的系統(tǒng)狀態(tài)Si的序列,其中i=1,...,T表示不同的連續(xù)的時(shí)間步驟,而T是所考慮的時(shí)間步驟的數(shù)目。系統(tǒng)狀態(tài)Si分別通過(guò)技術(shù)系統(tǒng)的狀態(tài)向量、也就是說(shuō)通過(guò)狀態(tài)參數(shù)的向量S0=((S0)1...(S0)N)來(lái)示出,該向量描述了技術(shù)系統(tǒng)在第i個(gè)時(shí)間步驟的狀態(tài)。概括來(lái)說(shuō),因此通過(guò)狀態(tài)向量S=(Si)n,i=1,...,T,n=1,...,N的序列來(lái)示出狀態(tài)序列S。

此外,輸入終端IN還用于交互式地讀入用于報(bào)酬函數(shù)RF的調(diào)整參數(shù)W。在本實(shí)施例中,用于技術(shù)系統(tǒng)的N個(gè)不同的狀態(tài)參數(shù)的具有權(quán)重Wi的長(zhǎng)度N的向量W=(W1,...,WN)作為調(diào)整參數(shù)W被讀入。由用戶(hù)交互式地預(yù)先給定的調(diào)整參數(shù)W從輸入終端IN被傳送到優(yōu)化模塊OPT。該優(yōu)化模塊OPT實(shí)施報(bào)酬函數(shù)RF并且通過(guò)調(diào)整參數(shù)W將該報(bào)酬函數(shù)RF參數(shù)化。這樣的與優(yōu)化問(wèn)題相關(guān)聯(lián)地被使用的報(bào)酬函數(shù)常常也被稱(chēng)作Reward Function。這種報(bào)酬函數(shù)(Reward Function)RF尤其是也可以被用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)。按照由調(diào)整參數(shù)W所調(diào)整的優(yōu)化標(biāo)準(zhǔn),報(bào)酬函數(shù)RF將所要期望的報(bào)酬分配給技術(shù)系統(tǒng)的相應(yīng)的狀態(tài)向量Si或者狀態(tài)向量S的序列。通過(guò)該報(bào)酬函數(shù)RF來(lái)映射針對(duì)該技術(shù)系統(tǒng)的特定的優(yōu)化標(biāo)準(zhǔn)或者優(yōu)化目標(biāo)。因此,優(yōu)化模塊OPT的優(yōu)化目標(biāo)是最大化優(yōu)選地通過(guò)多個(gè)時(shí)間步驟所累加的并且借助于報(bào)酬函數(shù)RF所確定的報(bào)酬。通過(guò)交互式地修改調(diào)整參數(shù)W,用戶(hù)可以改變報(bào)酬函數(shù)RF、優(yōu)化目標(biāo)或控制標(biāo)準(zhǔn),而且可以交互式地觀察和評(píng)價(jià)所述改變的作用。以這種方式,用戶(hù)可以快速地將優(yōu)化目標(biāo)與新的情況或者與特定的目的進(jìn)行適配。這允許對(duì)經(jīng)情況適應(yīng)的控制標(biāo)準(zhǔn)的快速的和靈活的優(yōu)化。

在本實(shí)施例中,通過(guò)用于技術(shù)系統(tǒng)的不同的狀態(tài)參數(shù)的具有權(quán)重的向量來(lái)示出調(diào)整參數(shù)W。借此,報(bào)酬函數(shù)RF例如可以被實(shí)施為RF=RF(Si,W)=W1·(Si)1+...+WN·(Si)N。這是在第i個(gè)時(shí)間步驟中的報(bào)酬。在這種情況下,(Si)1例如可以是描述燃燒室噪聲的狀態(tài)參數(shù),而(Si)2例如可以是描述氮氧化物的排放的狀態(tài)參數(shù)。替代地或者附加地,報(bào)酬函數(shù)RF也可以將不同的時(shí)間步驟的狀態(tài)參數(shù)進(jìn)行關(guān)聯(lián)或者將整個(gè)狀態(tài)序列進(jìn)行關(guān)聯(lián)。替代計(jì)算被加權(quán)的狀態(tài)參數(shù)的線(xiàn)性總和或者除了計(jì)算被加權(quán)的狀態(tài)參數(shù)的線(xiàn)性總和之外,報(bào)酬函數(shù)RF也可以非線(xiàn)性地通過(guò)特定的調(diào)整參數(shù)W來(lái)參數(shù)化。

仿真模塊SIM包括遞歸神經(jīng)網(wǎng)絡(luò),所述遞歸神經(jīng)網(wǎng)絡(luò)具有該技術(shù)系統(tǒng)的預(yù)先訓(xùn)練的神經(jīng)模塊MTS。該神經(jīng)模塊MTS適用于處理該技術(shù)系統(tǒng)的傳感器數(shù)據(jù),而且這樣可以由現(xiàn)有的技術(shù)系統(tǒng)采用或者被進(jìn)一步用于所述現(xiàn)有的技術(shù)系統(tǒng)。尤其是,描述第一系統(tǒng)狀態(tài)S0的狀態(tài)參數(shù)作為傳感器數(shù)據(jù)被傳送給仿真模塊SIM。替代遞歸神經(jīng)網(wǎng)絡(luò)地或者除了遞歸神經(jīng)網(wǎng)絡(luò)之外,在仿真模塊SIM中也可以實(shí)施支持向量機(jī)、高斯過(guò)程模型和/或物理模型來(lái)仿真該技術(shù)系統(tǒng)。

通過(guò)仿真模塊SIM來(lái)仿真對(duì)用于技術(shù)系統(tǒng)的從第一狀態(tài)S0出發(fā)的行動(dòng)序列A的執(zhí)行。行動(dòng)序列A包括在時(shí)間上連續(xù)的行動(dòng)向量Ai, i=1,...,T、也就是說(shuō)A=(A1,...,AT)的序列,其中T(如上)說(shuō)明了所考慮的時(shí)間步驟的數(shù)目。行動(dòng)向量Ai描述了在第i個(gè)時(shí)間步驟中在技術(shù)系統(tǒng)上進(jìn)行的控制行動(dòng)。對(duì)用于動(dòng)態(tài)技術(shù)系統(tǒng)的調(diào)節(jié)參量的特定的調(diào)整被稱(chēng)作控制行動(dòng)、或者簡(jiǎn)稱(chēng)行動(dòng)。例如對(duì)于燃?xì)廨啓C(jī)來(lái)說(shuō),氣體輸送、壓縮、冷卻或者其它的尤其是連續(xù)的物理調(diào)節(jié)參量被稱(chēng)作針對(duì)這種調(diào)節(jié)參量的示例。

控制行動(dòng)Ai使該技術(shù)系統(tǒng)從狀態(tài)Si-1變?yōu)闋顟B(tài)Si??刂菩袆?dòng)Ai通過(guò)具有M個(gè)分量的向量來(lái)示出,其中M說(shuō)明了該技術(shù)系統(tǒng)的調(diào)節(jié)參量的數(shù)目。因此,總體上,行動(dòng)序列A通過(guò)A=(Ai)m, i=1,...,T,m=1,...,M來(lái)示出。

仿真模塊SIM借助于神經(jīng)模塊MTS來(lái)仿真該技術(shù)系統(tǒng)在行動(dòng)序列A的影響下從第一系統(tǒng)狀態(tài)S0出發(fā)的動(dòng)態(tài)特性。在這種情況下,預(yù)測(cè)、也就是說(shuō)預(yù)告該技術(shù)系統(tǒng)的從A最終得到的后續(xù)狀態(tài)S(S0,A)=(S1,...,ST)。在這種情況下,仿真模塊SIM的遞歸神經(jīng)網(wǎng)絡(luò)優(yōu)選地只被用于仿真該技術(shù)系統(tǒng)的動(dòng)態(tài)特性而且在仿真期間沒(méi)有被訓(xùn)練。要執(zhí)行的行動(dòng)序列A作為輸入?yún)⒘坑绕浔惠斔徒o通過(guò)仿真模塊SIM引起的遞歸神經(jīng)仿真,使得該仿真本身可以基本上與控制標(biāo)準(zhǔn)或與報(bào)酬函數(shù)RF無(wú)關(guān)地來(lái)實(shí)現(xiàn)。不同于神經(jīng)仿真,在訓(xùn)練神經(jīng)控制時(shí)應(yīng)該通過(guò)該神經(jīng)控制本身來(lái)確定進(jìn)行報(bào)酬優(yōu)化的行動(dòng)序列。因此,神經(jīng)控制必須明確地考慮控制標(biāo)準(zhǔn)或報(bào)酬函數(shù)RF,而神經(jīng)仿真僅僅預(yù)測(cè)行動(dòng)序列對(duì)系統(tǒng)特性的作用。因?yàn)閷?duì)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練是相對(duì)耗時(shí)的,所以神經(jīng)控制只能緩慢地對(duì)報(bào)酬函數(shù)RF的改變做出反應(yīng)。不同于此,通過(guò)仿真模塊SIM來(lái)實(shí)現(xiàn)的神經(jīng)仿真本身基本上與報(bào)酬函數(shù)RF無(wú)關(guān),而且因此已經(jīng)可以例如依據(jù)真正的技術(shù)系統(tǒng)來(lái)預(yù)先訓(xùn)練。

優(yōu)化模塊OPT與仿真模塊SIM耦合以及與終端T耦合。依據(jù)由終端T接收到的調(diào)整參數(shù)W,優(yōu)化模塊OPT將報(bào)酬函數(shù)RF按照RF=RF(S,W)設(shè)立為狀態(tài)序列S的函數(shù)。

優(yōu)化模塊OPT擁有行動(dòng)生成器AGEN。該行動(dòng)生成器AGEN在用于使累加的報(bào)酬最大化的優(yōu)化方法的范圍內(nèi)生成多個(gè)從第一系統(tǒng)狀態(tài)S0出發(fā)的行動(dòng)序列A(S0),所述累加的報(bào)酬借助于所設(shè)立的報(bào)酬函數(shù)RF來(lái)確定。隨機(jī)的優(yōu)化方法和/或尤其是無(wú)梯度的優(yōu)化啟發(fā)方法(諸如粒子群優(yōu)化、遺傳優(yōu)化方法、模擬退火方法和/或隨機(jī)梯度方法)可以作為優(yōu)化方法被用于非凸的優(yōu)化問(wèn)題。所生成的行動(dòng)序列A(S0)中的每個(gè)都被傳送到仿真模塊SIM。在那里,從中分別最終得到的后續(xù)狀態(tài)S(S0,A)被預(yù)測(cè)而且被傳送到優(yōu)化模塊OPT。針對(duì)相應(yīng)的后續(xù)狀態(tài)S,按照當(dāng)前所調(diào)整的優(yōu)化標(biāo)準(zhǔn)所要期望的報(bào)酬RF(S,W)被確定而且被傳送到行動(dòng)生成器AGEN。按照所實(shí)施的優(yōu)化方法,根據(jù)所要期望的報(bào)酬來(lái)生成新的行動(dòng)序列A(S0),所述新的行動(dòng)序列A(S0)可期望更高的報(bào)酬。這些新的行動(dòng)序列A(S0)重新被傳送到仿真模塊SIM,以便根據(jù)仿真結(jié)果重新確定為此所要期望的報(bào)酬。以這種方式,優(yōu)化模塊OPT基于仿真模塊SIM的仿真而優(yōu)化長(zhǎng)度為T(mén)的從第一系統(tǒng)狀態(tài)S0出發(fā)的行動(dòng)序列A。在這種情況下,相應(yīng)的被生成的行動(dòng)序列代表如下提議:在接下來(lái)的T個(gè)時(shí)間步驟中控制該技術(shù)系統(tǒng)。一般來(lái)說(shuō),針對(duì)復(fù)雜的技術(shù)系統(tǒng)(諸如燃?xì)廨啓C(jī)),具有多個(gè)時(shí)間步驟的行動(dòng)序列是必要的,以便也映射長(zhǎng)期的動(dòng)態(tài)效應(yīng)。這一般來(lái)說(shuō)導(dǎo)致高維的優(yōu)化問(wèn)題,尤其是上面所提到的隨機(jī)方法特別適用于所述高維的優(yōu)化問(wèn)題。

在多次連續(xù)的優(yōu)化回合之后,在當(dāng)前所調(diào)整的報(bào)酬函數(shù)RF的意義上進(jìn)行報(bào)酬優(yōu)化的行動(dòng)序列A'被確定。所述進(jìn)行報(bào)酬優(yōu)化的行動(dòng)序列A'包括(如其它的優(yōu)化序列A那樣)調(diào)節(jié)參量的向量的序列,也就是說(shuō)A'=(A'i)m, i=1,...,T, m=1,...,M。所述進(jìn)行報(bào)酬優(yōu)化的行動(dòng)序列A'可以被理解為第一系統(tǒng)狀態(tài)S0與調(diào)整參數(shù)W的函數(shù)A'(S0,W)。因此,對(duì)第一系統(tǒng)狀態(tài)S0與調(diào)整參數(shù)W的不同的選擇允許通過(guò)優(yōu)化模塊OPT對(duì)進(jìn)行報(bào)酬優(yōu)化的行動(dòng)序列A'進(jìn)行彼此無(wú)關(guān)的優(yōu)化。

從第一系統(tǒng)狀態(tài)S0出發(fā),通過(guò)仿真模塊SIM確定從所述進(jìn)行報(bào)酬優(yōu)化的行動(dòng)序列A'最終得到的狀態(tài)序列S'=(S'i)n, i=1,...,T且n=1,...,N。,最終得到的狀態(tài)序列S'對(duì)應(yīng)于由仿真模塊SIM預(yù)告的在所述進(jìn)行報(bào)酬優(yōu)化的行動(dòng)序列A'的作用下的系統(tǒng)特性。所述進(jìn)行報(bào)酬優(yōu)化的行動(dòng)序列A'(S0,W)以及所述從中最終得到的狀態(tài)序列S'(S0,W)緊接著從優(yōu)化模塊OPT被傳輸?shù)浇K端T。優(yōu)選地,也可以將報(bào)酬函數(shù)的返回值RF(S'i,W), i=1,...,T或者其它從A'和/或S'推導(dǎo)出的參量傳輸?shù)浇K端T。接著,通過(guò)輸出終端OUT可以以時(shí)間上的變化過(guò)程i=1,...,T來(lái)示出進(jìn)行報(bào)酬優(yōu)化的行動(dòng)向量A'i,最終得到的狀態(tài)向量S'i,和/或所屬的報(bào)酬值RF(S'i,W)。這允許由用戶(hù)來(lái)迅速地判斷優(yōu)化結(jié)果。據(jù)此,用戶(hù)接著可以交互式地在終端T上進(jìn)行對(duì)報(bào)酬函數(shù)RF或控制標(biāo)準(zhǔn)以及初始狀態(tài)S0的進(jìn)一步匹配。

由優(yōu)化模塊OPT使用的優(yōu)化方法一般來(lái)說(shuō)比對(duì)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練顯著更快地收斂。如上面已經(jīng)提及的那樣,優(yōu)化模塊SIM的遞歸神經(jīng)網(wǎng)絡(luò)基本上與報(bào)酬函數(shù)RF無(wú)關(guān),而且不必在該報(bào)酬函數(shù)RF改變時(shí)被重新訓(xùn)練。為了仿真該技術(shù)系統(tǒng),僅僅分析所述遞歸神經(jīng)網(wǎng)絡(luò)。這種分析常常也被稱(chēng)作再呼叫(Recall)并且是很高效的和高性能的。因此,借助于遞歸神經(jīng)網(wǎng)絡(luò)來(lái)實(shí)施的仿真與基于快速的隨機(jī)的優(yōu)化方法的優(yōu)化的邏輯分離,允許特別高性能地和高效地確定針對(duì)被仿真的技術(shù)系統(tǒng)的進(jìn)行報(bào)酬優(yōu)化的行動(dòng)序列A'。

因此,對(duì)于用戶(hù)來(lái)說(shuō),在輸入新的第一系統(tǒng)狀態(tài)S0并且調(diào)整新的報(bào)酬函數(shù)RF之后,所述新的第一系統(tǒng)狀態(tài)S0和所述新的報(bào)酬函數(shù)RF的作用在短時(shí)間之后就可以被識(shí)別,使得可以由用戶(hù)交互式地在終端T上通過(guò)權(quán)衡不同的優(yōu)化目標(biāo)來(lái)匹配或者優(yōu)化該報(bào)酬函數(shù)。以這種方式,交互式輔助系統(tǒng)允許關(guān)于所期望的系統(tǒng)特性快速地對(duì)報(bào)酬函數(shù)或控制標(biāo)準(zhǔn)進(jìn)行交互式的優(yōu)化。

在此,該交互式輔助系統(tǒng)尤其是可以支持用戶(hù)以高效的方式在該技術(shù)系統(tǒng)的高維的行動(dòng)空間內(nèi)找到最優(yōu)的工作點(diǎn)。在此,該用戶(hù)可以在短時(shí)間內(nèi)測(cè)試和比較不同的控制標(biāo)準(zhǔn),而且這樣可以創(chuàng)建如下報(bào)酬函數(shù),該報(bào)酬函數(shù)在預(yù)先給定的情況下對(duì)于技術(shù)系統(tǒng)是最優(yōu)的。此外,該交互式輔助系統(tǒng)還可以被用于評(píng)估針對(duì)該技術(shù)系統(tǒng)的其它的控制,其方式是針對(duì)其它的控制的性能來(lái)提供一種參考。

當(dāng)前第1頁(yè)1 2 3 
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1