用于借助于仿真模塊的計(jì)算機(jī)輔助的設(shè)施控制優(yōu)化的方法與流程

文檔序號(hào)：11160696閱讀：806來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>控制;調(diào)節(jié)裝置的制造及其應(yīng)用技術(shù)

用于借助于仿真模塊的計(jì)算機(jī)輔助的設(shè)施控制優(yōu)化的方法與制造工藝

在控制復(fù)雜的動(dòng)態(tài)系統(tǒng)（諸如燃?xì)廨啓C(jī)、風(fēng)力渦輪機(jī)或者其它的技術(shù)設(shè)施或者系統(tǒng)）時(shí)，一般來(lái)說(shuō)值得期望的是：關(guān)于預(yù)先給定的標(biāo)準(zhǔn)來(lái)優(yōu)化系統(tǒng)特性。這樣，例如在燃?xì)廨啓C(jī)的情況下，一般來(lái)說(shuō)力求改進(jìn)效率、效果和/或燃燒動(dòng)力學(xué)，以及降低廢氣排放、燃燒室噪聲和/或磨損。

背景技術(shù)：

復(fù)雜的動(dòng)態(tài)系統(tǒng)通常具有多個(gè)相互作用的控制參數(shù)。因此，為了控制該動(dòng)態(tài)系統(tǒng)，影響系統(tǒng)特性的多個(gè)可能的控制行動(dòng)供系統(tǒng)控制裝置支配。在此，不同的控制行動(dòng)可以以非常復(fù)雜的方式、尤其是也相反地相互作用。這樣，對(duì)第一控制標(biāo)準(zhǔn)有積極效果的控制行動(dòng)可能對(duì)第二控制標(biāo)準(zhǔn)有消極作用。此外，相同的控制行動(dòng)根據(jù)系統(tǒng)狀態(tài)而可能積極地或者消極地起作用。

從現(xiàn)有技術(shù)中已知計(jì)算機(jī)輔助的控制裝置或者調(diào)節(jié)器，所述控制裝置或者調(diào)節(jié)器特定地適用于遵循或者優(yōu)化預(yù)先給定的控制標(biāo)準(zhǔn)。然而，這樣的控制標(biāo)準(zhǔn)一般來(lái)說(shuō)根據(jù)動(dòng)態(tài)系統(tǒng)的應(yīng)用情況而有區(qū)別。這樣，例如可以針對(duì)不同的國(guó)家中的發(fā)電廠規(guī)定廢氣排放的不同的極限值。在第一國(guó)家中，低的廢氣排放相對(duì)于其它的控制標(biāo)準(zhǔn)可能優(yōu)先，而在第二國(guó)家中，低的磨損和低的維護(hù)成本可能優(yōu)先。一般來(lái)說(shuō)，多個(gè)相互影響的控制標(biāo)準(zhǔn)應(yīng)以適當(dāng)?shù)姆绞絹?lái)權(quán)衡，以便針對(duì)當(dāng)前的情況實(shí)現(xiàn)最優(yōu)的控制。

為了優(yōu)化預(yù)先給定的控制標(biāo)準(zhǔn)，流行的控制通常使用機(jī)器學(xué)習(xí)的技術(shù)。這樣，例如可以針對(duì)如下方面訓(xùn)練神經(jīng)網(wǎng)絡(luò)：關(guān)于一個(gè)或多個(gè)預(yù)先給定的控制標(biāo)準(zhǔn)來(lái)優(yōu)化對(duì)動(dòng)態(tài)系統(tǒng)的控制。然而，對(duì)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練一般來(lái)說(shuō)是比較耗時(shí)的。如果改變控制標(biāo)準(zhǔn)，那么常常持續(xù)比較長(zhǎng)時(shí)間直至進(jìn)行學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)適應(yīng)于經(jīng)改變的控制標(biāo)準(zhǔn)。因而，對(duì)適用于所力求的目的或者新的情況的控制標(biāo)準(zhǔn)進(jìn)行優(yōu)化常常是非常耗時(shí)的。

技術(shù)實(shí)現(xiàn)要素：

本發(fā)明的任務(wù)是提供一種用于對(duì)技術(shù)系統(tǒng)進(jìn)行計(jì)算機(jī)輔助的控制優(yōu)化的設(shè)備和方法，所述設(shè)備和方法允許對(duì)控制標(biāo)準(zhǔn)進(jìn)行更靈活的并且更快速的優(yōu)化。

該任務(wù)通過(guò)一種具有專(zhuān)利權(quán)利要求1的特征的交互式輔助系統(tǒng)、通過(guò)一種具有專(zhuān)利權(quán)利要求9的特征的方法以及通過(guò)具有專(zhuān)利權(quán)利要求13的特征的計(jì)算機(jī)程序產(chǎn)品來(lái)解決。

按照本發(fā)明，為了對(duì)技術(shù)系統(tǒng)進(jìn)行計(jì)算機(jī)輔助的控制優(yōu)化，設(shè)置一種交互式輔助系統(tǒng)以及一種相對(duì)應(yīng)的方法。該技術(shù)系統(tǒng)例如可以是燃?xì)廨啓C(jī)、風(fēng)力渦輪機(jī)、發(fā)電廠或者另一技術(shù)設(shè)施或者另一技術(shù)系統(tǒng)。輸入終端用于讀入說(shuō)明了該技術(shù)系統(tǒng)的第一系統(tǒng)狀態(tài)的至少一個(gè)狀態(tài)參數(shù)，以及用于讀入至少一個(gè)調(diào)整參數(shù)，所述至少一個(gè)調(diào)整參數(shù)用于設(shè)立適用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)的報(bào)酬函數(shù)（Belohnungsfunktion）。這樣的報(bào)酬函數(shù)常常也被稱(chēng)作Reward-Function。仿真模塊用于對(duì)在技術(shù)系統(tǒng)上執(zhí)行從第一系統(tǒng)狀態(tài)出發(fā)的行動(dòng)序列進(jìn)行仿真，以及用于預(yù)測(cè)技術(shù)系統(tǒng)的從中最終得到的后續(xù)狀態(tài)。此外，還設(shè)置有與輸入終端和仿真模塊耦合的優(yōu)化模塊。該優(yōu)化模塊用于依據(jù)調(diào)整參數(shù)設(shè)立報(bào)酬函數(shù)、用于生成多個(gè)針對(duì)第一系統(tǒng)狀態(tài)的行動(dòng)序列、用于將所述行動(dòng)序列傳送給仿真模塊以及用于接收從中最終得到的后續(xù)狀態(tài)。此外，該優(yōu)化模塊還用于借助于所設(shè)立的報(bào)酬函數(shù)來(lái)確定對(duì)于最終得到的后續(xù)狀態(tài)所要期望的報(bào)酬，以及用于確定進(jìn)行報(bào)酬優(yōu)化的行動(dòng)序列。為了輸出從進(jìn)行報(bào)酬優(yōu)化的行動(dòng)序列最終得到的系統(tǒng)狀態(tài)而設(shè)置有輸出終端。

為了分別預(yù)先給定的情況和/或?yàn)榱朔謩e力求的目的，本發(fā)明允許快速地交互式地優(yōu)化或改進(jìn)針對(duì)技術(shù)系統(tǒng)的控制標(biāo)準(zhǔn)。通過(guò)適當(dāng)?shù)卦O(shè)立適用于神經(jīng)網(wǎng)絡(luò)的訓(xùn)練的報(bào)酬函數(shù)，所述控制標(biāo)準(zhǔn)可以以靈活的方式由用戶(hù)在輸入終端上來(lái)修改。這些修改的作用可以通過(guò)用戶(hù)在輸出終端上直接檢測(cè)。據(jù)此，用戶(hù)接著可以進(jìn)行報(bào)酬函數(shù)或控制標(biāo)準(zhǔn)的其它適配，而且這樣可以連續(xù)地（sukzessiv）交互式地優(yōu)化所述報(bào)酬函數(shù)或所述控制標(biāo)準(zhǔn)。將報(bào)酬函數(shù)用于優(yōu)化控制標(biāo)準(zhǔn)是有利的，因?yàn)閳?bào)酬函數(shù)根據(jù)其交互式優(yōu)化而可以直接被用于訓(xùn)練技術(shù)系統(tǒng)的基于神經(jīng)網(wǎng)絡(luò)的控制。

仿真模塊的應(yīng)用允許時(shí)間有利地并且成本有利地確定技術(shù)系統(tǒng)的由行動(dòng)序列造成的后續(xù)狀態(tài)。這尤其是也適用于如下這種行動(dòng)序列，所述行動(dòng)序列在真正的技術(shù)系統(tǒng)上只能用高的耗費(fèi)來(lái)執(zhí)行。此外，在足夠的計(jì)算能力的前提下，仿真模塊常常可以比真正的技術(shù)系統(tǒng)更快地提供后續(xù)狀態(tài)，而且這樣可以縮短優(yōu)化過(guò)程。

本發(fā)明的有利的實(shí)施方式和擴(kuò)展方案在從屬權(quán)利要求中被說(shuō)明。

根據(jù)本發(fā)明的一種有利的實(shí)施方式，所述仿真模塊可以被設(shè)立用于優(yōu)化包括連續(xù)的調(diào)節(jié)參量的行動(dòng)序列。這種連續(xù)的調(diào)節(jié)參量（諸如在燃?xì)廨啓C(jī)中的氣體輸送）在很多技術(shù)系統(tǒng)中都是可控制的。

此外，在優(yōu)化模塊中可以實(shí)施隨機(jī)的和/或非凸的優(yōu)化方法來(lái)確定進(jìn)行報(bào)酬優(yōu)化的行動(dòng)序列。隨機(jī)的優(yōu)化方法也可以成功地被應(yīng)用到高維的和/或非線(xiàn)性的優(yōu)化問(wèn)題上。如果不同的優(yōu)化參數(shù)彼此相關(guān)，那么非凸的優(yōu)化方法是有利的。

優(yōu)選地，作為優(yōu)化方法可以實(shí)施粒子群優(yōu)化、遺傳優(yōu)化方法、模擬退火方法（Simulated-Annealing-Verfahren）和/或隨機(jī)梯度方法。

此外，該仿真模塊還可以被設(shè)立用于處理技術(shù)系統(tǒng)的傳感器數(shù)據(jù)。以這種方式被設(shè)立的仿真模塊也可以在真正的技術(shù)系統(tǒng)上用真正的傳感器數(shù)據(jù)來(lái)運(yùn)行而且關(guān)于該仿真模塊的仿真忠實(shí)度（Simulationstreue）來(lái)優(yōu)化。

此外，在仿真模塊中可以實(shí)施神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)（Support-Vector-Machine）、高斯過(guò)程模型和/或物理模型來(lái)仿真該技術(shù)系統(tǒng)。

根據(jù)一種有利的實(shí)施方式，神經(jīng)網(wǎng)絡(luò)可以被實(shí)施為遞歸神經(jīng)網(wǎng)絡(luò)。這種遞歸神經(jīng)網(wǎng)絡(luò)允許以高效的方式識(shí)別與時(shí)間相關(guān)的模式。

此外，該神經(jīng)網(wǎng)絡(luò)已經(jīng)可以針對(duì)該技術(shù)系統(tǒng)來(lái)預(yù)先訓(xùn)練。

根據(jù)另一種實(shí)施方式，進(jìn)行報(bào)酬優(yōu)化的行動(dòng)序列可以在輸出終端上輸出。

優(yōu)選地，最終得到的系統(tǒng)狀態(tài)的、進(jìn)行報(bào)酬優(yōu)化的行動(dòng)序列的和/或報(bào)酬函數(shù)的返回值的時(shí)間變化過(guò)程可以被輸出在輸出終端上。這允許由用戶(hù)來(lái)迅速地判斷優(yōu)化結(jié)果。尤其是，用戶(hù)可以直接比較關(guān)于當(dāng)前被調(diào)整的控制標(biāo)準(zhǔn)最優(yōu)的系統(tǒng)特性在何種程度上對(duì)應(yīng)于用戶(hù)所期望的系統(tǒng)特性。

此外，還可以通過(guò)輸出終端來(lái)輸出報(bào)酬函數(shù)和/或狀態(tài)參數(shù)的其它的變體來(lái)在輸入終端上進(jìn)行在用戶(hù)側(cè)的選擇。尤其是可以輸出根據(jù)預(yù)先給定的標(biāo)準(zhǔn)來(lái)實(shí)現(xiàn)的從可能的報(bào)酬函數(shù)和/或狀態(tài)參數(shù)中的預(yù)先選擇。

附圖說(shuō)明

隨后依據(jù)附圖來(lái)進(jìn)一步解釋本發(fā)明的一個(gè)實(shí)施例。

附圖以示意圖示出按照本發(fā)明的交互式輔助系統(tǒng)。

具體實(shí)施方式

在該附圖中，示意性地示出了用于對(duì)于動(dòng)態(tài)技術(shù)系統(tǒng)進(jìn)行計(jì)算機(jī)輔助的控制優(yōu)化的交互式輔助系統(tǒng)。該技術(shù)系統(tǒng)例如可以是燃?xì)廨啓C(jī)、風(fēng)力渦輪機(jī)、發(fā)電廠、生產(chǎn)設(shè)施或者另一技術(shù)設(shè)施或者另一動(dòng)態(tài)系統(tǒng)。

該交互式輔助系統(tǒng)包括具有輸入終端IN（例如鍵盤(pán)）的以及具有輸出終端OUT（例如顯示屏）的終端T。

輸入終端IN用于讀入狀態(tài)參數(shù)，該狀態(tài)參數(shù)描述了技術(shù)系統(tǒng)的第一系統(tǒng)狀態(tài)S₀。第一系統(tǒng)狀態(tài)S₀能夠交互式地由終端T的用戶(hù)來(lái)預(yù)先給定，而且描述如下初始狀態(tài)，對(duì)技術(shù)系統(tǒng)的仿真從該初始狀態(tài)出發(fā)。第一系統(tǒng)狀態(tài)S₀通過(guò)技術(shù)系統(tǒng)的狀態(tài)參數(shù)的向量、即所謂的狀態(tài)向量S₀=((S₀)₁...(S₀)_N)來(lái)示出，其中N說(shuō)明了技術(shù)系統(tǒng)的狀態(tài)參數(shù)的數(shù)目。狀態(tài)參數(shù)描述技術(shù)系統(tǒng)的在仿真開(kāi)始時(shí)存在的狀態(tài)。尤其是，狀態(tài)參數(shù)可以是物理參量（如溫度、壓力或者電壓）或者例如在燃?xì)廨啓C(jī)的情況下描述燃燒室噪聲或者氮氧化物的排放。用戶(hù)可以在交互式輸入終端IN上明確地輸入不同的狀態(tài)參數(shù)，或者也可以從在輸出終端OUT上所建議的狀態(tài)參數(shù)或者系統(tǒng)狀態(tài)中選擇。

描述第一系統(tǒng)狀態(tài)的狀態(tài)向量S₀從輸入終端IN被傳送到用于仿真技術(shù)系統(tǒng)的動(dòng)態(tài)特性的仿真模塊SIM。仿真模塊SIM從第一系統(tǒng)狀態(tài)S₀出發(fā)仿真通過(guò)技術(shù)系統(tǒng)的動(dòng)態(tài)特性從S₀得出的狀態(tài)序列S、也就是說(shuō)從S0最終得到的后續(xù)狀態(tài)。狀態(tài)序列S=(S₁,...,S_T)=: (S_i)是技術(shù)系統(tǒng)的在時(shí)間上連續(xù)的系統(tǒng)狀態(tài)S_i的序列，其中i=1,...,T表示不同的連續(xù)的時(shí)間步驟，而T是所考慮的時(shí)間步驟的數(shù)目。系統(tǒng)狀態(tài)S_i分別通過(guò)技術(shù)系統(tǒng)的狀態(tài)向量、也就是說(shuō)通過(guò)狀態(tài)參數(shù)的向量S₀=((S₀)₁...(S₀)_N)來(lái)示出，該向量描述了技術(shù)系統(tǒng)在第i個(gè)時(shí)間步驟的狀態(tài)。概括來(lái)說(shuō)，因此通過(guò)狀態(tài)向量S=(Si)n,i=1,...,T,n=1,...,N的序列來(lái)示出狀態(tài)序列S。

此外，輸入終端IN還用于交互式地讀入用于報(bào)酬函數(shù)RF的調(diào)整參數(shù)W。在本實(shí)施例中，用于技術(shù)系統(tǒng)的N個(gè)不同的狀態(tài)參數(shù)的具有權(quán)重W_i的長(zhǎng)度N的向量W=(W₁,...,W_N)作為調(diào)整參數(shù)W被讀入。由用戶(hù)交互式地預(yù)先給定的調(diào)整參數(shù)W從輸入終端IN被傳送到優(yōu)化模塊OPT。該優(yōu)化模塊OPT實(shí)施報(bào)酬函數(shù)RF并且通過(guò)調(diào)整參數(shù)W將該報(bào)酬函數(shù)RF參數(shù)化。這樣的與優(yōu)化問(wèn)題相關(guān)聯(lián)地被使用的報(bào)酬函數(shù)常常也被稱(chēng)作Reward Function。這種報(bào)酬函數(shù)（Reward Function）RF尤其是也可以被用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)。按照由調(diào)整參數(shù)W所調(diào)整的優(yōu)化標(biāo)準(zhǔn)，報(bào)酬函數(shù)RF將所要期望的報(bào)酬分配給技術(shù)系統(tǒng)的相應(yīng)的狀態(tài)向量S_i或者狀態(tài)向量S的序列。通過(guò)該報(bào)酬函數(shù)RF來(lái)映射針對(duì)該技術(shù)系統(tǒng)的特定的優(yōu)化標(biāo)準(zhǔn)或者優(yōu)化目標(biāo)。因此，優(yōu)化模塊OPT的優(yōu)化目標(biāo)是最大化優(yōu)選地通過(guò)多個(gè)時(shí)間步驟所累加的并且借助于報(bào)酬函數(shù)RF所確定的報(bào)酬。通過(guò)交互式地修改調(diào)整參數(shù)W，用戶(hù)可以改變報(bào)酬函數(shù)RF、優(yōu)化目標(biāo)或控制標(biāo)準(zhǔn)，而且可以交互式地觀察和評(píng)價(jià)所述改變的作用。以這種方式，用戶(hù)可以快速地將優(yōu)化目標(biāo)與新的情況或者與特定的目的進(jìn)行適配。這允許對(duì)經(jīng)情況適應(yīng)的控制標(biāo)準(zhǔn)的快速的和靈活的優(yōu)化。

在本實(shí)施例中，通過(guò)用于技術(shù)系統(tǒng)的不同的狀態(tài)參數(shù)的具有權(quán)重的向量來(lái)示出調(diào)整參數(shù)W。借此，報(bào)酬函數(shù)RF例如可以被實(shí)施為RF=RF(S_i,W)=W₁·(S_i)₁+...+W_N·(S_i)_N。這是在第i個(gè)時(shí)間步驟中的報(bào)酬。在這種情況下，(S_i)₁例如可以是描述燃燒室噪聲的狀態(tài)參數(shù)，而(S_i)₂例如可以是描述氮氧化物的排放的狀態(tài)參數(shù)。替代地或者附加地，報(bào)酬函數(shù)RF也可以將不同的時(shí)間步驟的狀態(tài)參數(shù)進(jìn)行關(guān)聯(lián)或者將整個(gè)狀態(tài)序列進(jìn)行關(guān)聯(lián)。替代計(jì)算被加權(quán)的狀態(tài)參數(shù)的線(xiàn)性總和或者除了計(jì)算被加權(quán)的狀態(tài)參數(shù)的線(xiàn)性總和之外，報(bào)酬函數(shù)RF也可以非線(xiàn)性地通過(guò)特定的調(diào)整參數(shù)W來(lái)參數(shù)化。

仿真模塊SIM包括遞歸神經(jīng)網(wǎng)絡(luò)，所述遞歸神經(jīng)網(wǎng)絡(luò)具有該技術(shù)系統(tǒng)的預(yù)先訓(xùn)練的神經(jīng)模塊MTS。該神經(jīng)模塊MTS適用于處理該技術(shù)系統(tǒng)的傳感器數(shù)據(jù)，而且這樣可以由現(xiàn)有的技術(shù)系統(tǒng)采用或者被進(jìn)一步用于所述現(xiàn)有的技術(shù)系統(tǒng)。尤其是，描述第一系統(tǒng)狀態(tài)S₀的狀態(tài)參數(shù)作為傳感器數(shù)據(jù)被傳送給仿真模塊SIM。替代遞歸神經(jīng)網(wǎng)絡(luò)地或者除了遞歸神經(jīng)網(wǎng)絡(luò)之外，在仿真模塊SIM中也可以實(shí)施支持向量機(jī)、高斯過(guò)程模型和/或物理模型來(lái)仿真該技術(shù)系統(tǒng)。

通過(guò)仿真模塊SIM來(lái)仿真對(duì)用于技術(shù)系統(tǒng)的從第一狀態(tài)S₀出發(fā)的行動(dòng)序列A的執(zhí)行。行動(dòng)序列A包括在時(shí)間上連續(xù)的行動(dòng)向量A_i, i=1,...,T、也就是說(shuō)A=(A₁,...,A_T)的序列，其中T（如上）說(shuō)明了所考慮的時(shí)間步驟的數(shù)目。行動(dòng)向量A_i描述了在第i個(gè)時(shí)間步驟中在技術(shù)系統(tǒng)上進(jìn)行的控制行動(dòng)。對(duì)用于動(dòng)態(tài)技術(shù)系統(tǒng)的調(diào)節(jié)參量的特定的調(diào)整被稱(chēng)作控制行動(dòng)、或者簡(jiǎn)稱(chēng)行動(dòng)。例如對(duì)于燃?xì)廨啓C(jī)來(lái)說(shuō)，氣體輸送、壓縮、冷卻或者其它的尤其是連續(xù)的物理調(diào)節(jié)參量被稱(chēng)作針對(duì)這種調(diào)節(jié)參量的示例。

控制行動(dòng)A_i使該技術(shù)系統(tǒng)從狀態(tài)S_i-1變?yōu)闋顟B(tài)S_i?？刂菩袆?dòng)A_i通過(guò)具有M個(gè)分量的向量來(lái)示出，其中M說(shuō)明了該技術(shù)系統(tǒng)的調(diào)節(jié)參量的數(shù)目。因此，總體上，行動(dòng)序列A通過(guò)A=(A_i)_m, i=1,...,T,m=1,...,M來(lái)示出。

仿真模塊SIM借助于神經(jīng)模塊MTS來(lái)仿真該技術(shù)系統(tǒng)在行動(dòng)序列A的影響下從第一系統(tǒng)狀態(tài)S₀出發(fā)的動(dòng)態(tài)特性。在這種情況下，預(yù)測(cè)、也就是說(shuō)預(yù)告該技術(shù)系統(tǒng)的從A最終得到的后續(xù)狀態(tài)S(S₀,A)=(S₁,...,S_T)。在這種情況下，仿真模塊SIM的遞歸神經(jīng)網(wǎng)絡(luò)優(yōu)選地只被用于仿真該技術(shù)系統(tǒng)的動(dòng)態(tài)特性而且在仿真期間沒(méi)有被訓(xùn)練。要執(zhí)行的行動(dòng)序列A作為輸入?yún)⒘坑绕浔惠斔徒o通過(guò)仿真模塊SIM引起的遞歸神經(jīng)仿真，使得該仿真本身可以基本上與控制標(biāo)準(zhǔn)或與報(bào)酬函數(shù)RF無(wú)關(guān)地來(lái)實(shí)現(xiàn)。不同于神經(jīng)仿真，在訓(xùn)練神經(jīng)控制時(shí)應(yīng)該通過(guò)該神經(jīng)控制本身來(lái)確定進(jìn)行報(bào)酬優(yōu)化的行動(dòng)序列。因此，神經(jīng)控制必須明確地考慮控制標(biāo)準(zhǔn)或報(bào)酬函數(shù)RF，而神經(jīng)仿真僅僅預(yù)測(cè)行動(dòng)序列對(duì)系統(tǒng)特性的作用。因?yàn)閷?duì)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練是相對(duì)耗時(shí)的，所以神經(jīng)控制只能緩慢地對(duì)報(bào)酬函數(shù)RF的改變做出反應(yīng)。不同于此，通過(guò)仿真模塊SIM來(lái)實(shí)現(xiàn)的神經(jīng)仿真本身基本上與報(bào)酬函數(shù)RF無(wú)關(guān)，而且因此已經(jīng)可以例如依據(jù)真正的技術(shù)系統(tǒng)來(lái)預(yù)先訓(xùn)練。

優(yōu)化模塊OPT與仿真模塊SIM耦合以及與終端T耦合。依據(jù)由終端T接收到的調(diào)整參數(shù)W，優(yōu)化模塊OPT將報(bào)酬函數(shù)RF按照RF=RF(S,W)設(shè)立為狀態(tài)序列S的函數(shù)。

優(yōu)化模塊OPT擁有行動(dòng)生成器AGEN。該行動(dòng)生成器AGEN在用于使累加的報(bào)酬最大化的優(yōu)化方法的范圍內(nèi)生成多個(gè)從第一系統(tǒng)狀態(tài)S₀出發(fā)的行動(dòng)序列A(S₀)，所述累加的報(bào)酬借助于所設(shè)立的報(bào)酬函數(shù)RF來(lái)確定。隨機(jī)的優(yōu)化方法和/或尤其是無(wú)梯度的優(yōu)化啟發(fā)方法（諸如粒子群優(yōu)化、遺傳優(yōu)化方法、模擬退火方法和/或隨機(jī)梯度方法）可以作為優(yōu)化方法被用于非凸的優(yōu)化問(wèn)題。所生成的行動(dòng)序列A(S₀)中的每個(gè)都被傳送到仿真模塊SIM。在那里，從中分別最終得到的后續(xù)狀態(tài)S(S₀,A)被預(yù)測(cè)而且被傳送到優(yōu)化模塊OPT。針對(duì)相應(yīng)的后續(xù)狀態(tài)S，按照當(dāng)前所調(diào)整的優(yōu)化標(biāo)準(zhǔn)所要期望的報(bào)酬RF(S,W)被確定而且被傳送到行動(dòng)生成器AGEN。按照所實(shí)施的優(yōu)化方法，根據(jù)所要期望的報(bào)酬來(lái)生成新的行動(dòng)序列A(S₀)，所述新的行動(dòng)序列A(S₀)可期望更高的報(bào)酬。這些新的行動(dòng)序列A(S₀)重新被傳送到仿真模塊SIM，以便根據(jù)仿真結(jié)果重新確定為此所要期望的報(bào)酬。以這種方式，優(yōu)化模塊OPT基于仿真模塊SIM的仿真而優(yōu)化長(zhǎng)度為T(mén)的從第一系統(tǒng)狀態(tài)S₀出發(fā)的行動(dòng)序列A。在這種情況下，相應(yīng)的被生成的行動(dòng)序列代表如下提議：在接下來(lái)的T個(gè)時(shí)間步驟中控制該技術(shù)系統(tǒng)。一般來(lái)說(shuō)，針對(duì)復(fù)雜的技術(shù)系統(tǒng)（諸如燃?xì)廨啓C(jī)），具有多個(gè)時(shí)間步驟的行動(dòng)序列是必要的，以便也映射長(zhǎng)期的動(dòng)態(tài)效應(yīng)。這一般來(lái)說(shuō)導(dǎo)致高維的優(yōu)化問(wèn)題，尤其是上面所提到的隨機(jī)方法特別適用于所述高維的優(yōu)化問(wèn)題。

在多次連續(xù)的優(yōu)化回合之后，在當(dāng)前所調(diào)整的報(bào)酬函數(shù)RF的意義上進(jìn)行報(bào)酬優(yōu)化的行動(dòng)序列A'被確定。所述進(jìn)行報(bào)酬優(yōu)化的行動(dòng)序列A'包括（如其它的優(yōu)化序列A那樣）調(diào)節(jié)參量的向量的序列，也就是說(shuō)A'=(A'_i)_m, i=1,...,T, m=1,...,M。所述進(jìn)行報(bào)酬優(yōu)化的行動(dòng)序列A'可以被理解為第一系統(tǒng)狀態(tài)S₀與調(diào)整參數(shù)W的函數(shù)A'(S₀,W)。因此，對(duì)第一系統(tǒng)狀態(tài)S₀與調(diào)整參數(shù)W的不同的選擇允許通過(guò)優(yōu)化模塊OPT對(duì)進(jìn)行報(bào)酬優(yōu)化的行動(dòng)序列A'進(jìn)行彼此無(wú)關(guān)的優(yōu)化。

從第一系統(tǒng)狀態(tài)S₀出發(fā)，通過(guò)仿真模塊SIM確定從所述進(jìn)行報(bào)酬優(yōu)化的行動(dòng)序列A'最終得到的狀態(tài)序列S'=(S'_i)_n, i=1,...,T且n=1,...,N。，最終得到的狀態(tài)序列S'對(duì)應(yīng)于由仿真模塊SIM預(yù)告的在所述進(jìn)行報(bào)酬優(yōu)化的行動(dòng)序列A'的作用下的系統(tǒng)特性。所述進(jìn)行報(bào)酬優(yōu)化的行動(dòng)序列A'(S₀,W)以及所述從中最終得到的狀態(tài)序列S'(S₀,W)緊接著從優(yōu)化模塊OPT被傳輸?shù)浇K端T。優(yōu)選地，也可以將報(bào)酬函數(shù)的返回值RF(S'_i,W), i=1,...,T或者其它從A'和/或S'推導(dǎo)出的參量傳輸?shù)浇K端T。接著，通過(guò)輸出終端OUT可以以時(shí)間上的變化過(guò)程i=1,...,T來(lái)示出進(jìn)行報(bào)酬優(yōu)化的行動(dòng)向量A'_i，最終得到的狀態(tài)向量S'_i，和/或所屬的報(bào)酬值RF(S'_i,W)。這允許由用戶(hù)來(lái)迅速地判斷優(yōu)化結(jié)果。據(jù)此，用戶(hù)接著可以交互式地在終端T上進(jìn)行對(duì)報(bào)酬函數(shù)RF或控制標(biāo)準(zhǔn)以及初始狀態(tài)S₀的進(jìn)一步匹配。

由優(yōu)化模塊OPT使用的優(yōu)化方法一般來(lái)說(shuō)比對(duì)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練顯著更快地收斂。如上面已經(jīng)提及的那樣，優(yōu)化模塊SIM的遞歸神經(jīng)網(wǎng)絡(luò)基本上與報(bào)酬函數(shù)RF無(wú)關(guān)，而且不必在該報(bào)酬函數(shù)RF改變時(shí)被重新訓(xùn)練。為了仿真該技術(shù)系統(tǒng)，僅僅分析所述遞歸神經(jīng)網(wǎng)絡(luò)。這種分析常常也被稱(chēng)作再呼叫（Recall）并且是很高效的和高性能的。因此，借助于遞歸神經(jīng)網(wǎng)絡(luò)來(lái)實(shí)施的仿真與基于快速的隨機(jī)的優(yōu)化方法的優(yōu)化的邏輯分離，允許特別高性能地和高效地確定針對(duì)被仿真的技術(shù)系統(tǒng)的進(jìn)行報(bào)酬優(yōu)化的行動(dòng)序列A'。

因此，對(duì)于用戶(hù)來(lái)說(shuō)，在輸入新的第一系統(tǒng)狀態(tài)S₀并且調(diào)整新的報(bào)酬函數(shù)RF之后，所述新的第一系統(tǒng)狀態(tài)S₀和所述新的報(bào)酬函數(shù)RF的作用在短時(shí)間之后就可以被識(shí)別，使得可以由用戶(hù)交互式地在終端T上通過(guò)權(quán)衡不同的優(yōu)化目標(biāo)來(lái)匹配或者優(yōu)化該報(bào)酬函數(shù)。以這種方式，交互式輔助系統(tǒng)允許關(guān)于所期望的系統(tǒng)特性快速地對(duì)報(bào)酬函數(shù)或控制標(biāo)準(zhǔn)進(jìn)行交互式的優(yōu)化。

在此，該交互式輔助系統(tǒng)尤其是可以支持用戶(hù)以高效的方式在該技術(shù)系統(tǒng)的高維的行動(dòng)空間內(nèi)找到最優(yōu)的工作點(diǎn)。在此，該用戶(hù)可以在短時(shí)間內(nèi)測(cè)試和比較不同的控制標(biāo)準(zhǔn)，而且這樣可以創(chuàng)建如下報(bào)酬函數(shù)，該報(bào)酬函數(shù)在預(yù)先給定的情況下對(duì)于技術(shù)系統(tǒng)是最優(yōu)的。此外，該交互式輔助系統(tǒng)還可以被用于評(píng)估針對(duì)該技術(shù)系統(tǒng)的其它的控制，其方式是針對(duì)其它的控制的性能來(lái)提供一種參考。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2 3

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：S.迪爾;A.亨切爾;V.施特青格;S.烏德盧夫特;J.P.辛格
技術(shù)所有人：西門(mén)子公司
我是此專(zhuān)利的發(fā)明人

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話(huà)進(jìn)行咨詢(xún)。
1、唐老師：1.高效節(jié)能裝備 2.流動(dòng)穩(wěn)定性 3.汽車(chē)流場(chǎng)分析和淀粉糖工藝技術(shù)。
2、孫老師：1.振動(dòng)信號(hào)時(shí)頻分析理論與測(cè)試系統(tǒng)設(shè)計(jì) 2.汽車(chē)檢測(cè)系統(tǒng)設(shè)計(jì) 3.汽車(chē)電子控制系統(tǒng)設(shè)計(jì)
3、王老師：電子信息處理、先進(jìn)檢測(cè)方法和智能化儀表
4、周老師：1.智能電網(wǎng) 2.新能源利用 3.泛在電力物聯(lián)網(wǎng)
5、趙老師：檢測(cè)與控制技術(shù)、機(jī)器人技術(shù)、機(jī)電一體化技術(shù)
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

計(jì)算機(jī)模塊相關(guān)技術(shù)

職稱(chēng)計(jì)算機(jī)模塊相關(guān)技術(shù)

全國(guó)計(jì)算機(jī)模塊三個(gè)相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

用于借助于仿真模塊的計(jì)算機(jī)輔助的設(shè)施控制優(yōu)化的方法與流程