用于計算機輔助地控制和/或調(diào)節(jié)技術(shù)系統(tǒng)的方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種用于計算機輔助地控制和/或調(diào)節(jié)技術(shù)系統(tǒng)的方法以及一種相應的計算機程序產(chǎn)品。
【背景技術(shù)】
[0002]經(jīng)常在計算機輔助的方法的基礎(chǔ)上調(diào)節(jié)復雜的技術(shù)系統(tǒng)、比如燃氣渦輪機或風力渦輪機,所述計算機輔助的方法在訓練數(shù)據(jù)和相應的優(yōu)化準則的基礎(chǔ)上確定行動選擇策略(英語:Policy)。該行動選擇策略指明,在所述系統(tǒng)的相應的狀態(tài)中應該在所述技術(shù)系統(tǒng)上實施何種行動。由此比如可以實現(xiàn)以較高的效率來運行所述技術(shù)系統(tǒng)。對于燃氣渦輪機來說,此外必要時可以降低燃燒室動力或排放。對于風力渦輪機來說,比如也可以對吊艙關(guān)于風的定向進行優(yōu)化。
[0003]為了確定相應的、用于技術(shù)系統(tǒng)的行動選擇策略,通常使用麻煩的回歸法、比如神經(jīng)網(wǎng)絡。但是,這些回歸法具有以下缺點:它們產(chǎn)生復雜的行動選擇策略,所述復雜的行動選擇策略不再能夠被人類專家所解釋或理解。因此,缺乏可理解性的復雜的行動選擇策略有時候不被使用在技術(shù)系統(tǒng)的運行中。從現(xiàn)有技術(shù)中已知一些方法,利用這些方法來產(chǎn)生具有更小的復雜性的行動選擇策略,比如方法是:通過具有較小規(guī)模的狀態(tài)來表示所述技術(shù)系統(tǒng)或者使用更加簡單的回歸法。但是,這些方案經(jīng)常導致對于所述對技術(shù)系統(tǒng)的控制或調(diào)節(jié)來說非最優(yōu)的行動選擇策略。
【發(fā)明內(nèi)容】
[0004]因此,本發(fā)明的任務是,提供一種用于計算機輔助地控制和/或調(diào)節(jié)技術(shù)系統(tǒng)的方法,所述方法使用具有較小的復雜性的、較好地適合于所述技術(shù)系統(tǒng)的行動選擇策略。
[0005]該任務通過獨立權(quán)利要求來解決。本發(fā)明的改進方案在從屬權(quán)利要求中被闡明。
[0006]下面在步驟a)到c)的基礎(chǔ)上對根據(jù)本發(fā)明的方法進行解釋。這些步驟的名稱僅僅用于更好參照其中所包含的特征,并且沒有規(guī)定實施的順序。特別地,特定的步驟也可以并行地實施或交織到彼此當中。
[0007]根據(jù)本發(fā)明的方法用于計算機輔助地控制和/或調(diào)節(jié)技術(shù)系統(tǒng)。按照步驟a),就多個時刻而言所述技術(shù)系統(tǒng)的動態(tài)行為分別以所述技術(shù)系統(tǒng)的狀態(tài)和在所述技術(shù)系統(tǒng)上所執(zhí)行的行動為特征,其中在相應的時刻的相應的行動引起所述技術(shù)系統(tǒng)在接下來的時刻的新的狀態(tài)。術(shù)語“狀態(tài)”或“行動”在此要廣義地來理解。狀態(tài)特別地可以包括具有一個或多個狀態(tài)變量的狀態(tài)矢量。在相應的(當前的)時刻的狀態(tài)除了在當前時刻的狀態(tài)矢量之外還可以可選地包括一個或多個在一個或多個先前的時刻的狀態(tài)矢量,由此對在有限的時間水平范圍內(nèi)的狀態(tài)的歷史加以考慮。同樣,行動可以是由多個行動變量構(gòu)成的矢量。
[0008]在根據(jù)本發(fā)明的方法的步驟b)中提供和/或產(chǎn)生(多個)行動選擇策略,其中相應的行動選擇策略至少根據(jù)所述技術(shù)系統(tǒng)在相應的時刻的狀態(tài)指定在相應的時刻有待在所述技術(shù)系統(tǒng)上執(zhí)行的行動,并且其中為每個行動選擇策略分配了一個復雜性尺度,所述復雜性尺度描述了相應的行動選擇策略的復雜性,所述復雜性小于或者小于等于預先確定的復雜性閾值。所述復雜性尺度在此可以以不同的方式來定義,其中下面進一步給出了這樣的復雜性尺度的實例。
[0009]在根據(jù)本發(fā)明的方法的步驟c)中,借助于對于評估尺度的計算從所提供的和/或所產(chǎn)生的行動選擇策略中確定所提供的和/或所產(chǎn)生的行動選擇策略的具有最高評估尺度的行動選擇策略,其中所述評估尺度相應地描述了行動選擇策略用于對所述技術(shù)系統(tǒng)進行調(diào)節(jié)和/或控制的適宜性。更高的評估尺度在此描述所述行動選擇策略用于對技術(shù)系統(tǒng)進行調(diào)節(jié)和/或控制的更好的適宜性。在特定的實施方式中,可以并行地或彼此交織地實施所述步驟b)和C)。比如可以首先產(chǎn)生特定的行動選擇策略,并且隨后可以拋棄具有較差的評估尺度的行動選擇策略的一部分。隨后又產(chǎn)生新的行動選擇策略,并且以相同的方式又拋棄相應的行動選擇策略。特別地,在使用進一步在下面描述的基因編程或粒子群優(yōu)化時所述步驟b)和c)交織在彼此當中。
[0010]按照本發(fā)明,相應的行動選擇策略的、在步驟c)的范圍內(nèi)所計算的評估尺度可以取決于以下三個參量中的一個或多個參量:
-所述相應的行動選擇策略與預先給定的最佳的行動選擇策略之間的距離尺度,其中減小的距離尺度表示更高的評估尺度,并且其中所述預先給定的最佳的行動選擇策略優(yōu)選建立在神經(jīng)網(wǎng)絡(比如循環(huán)神經(jīng)網(wǎng)絡)的基礎(chǔ)上;
-獎勵尺度,在執(zhí)行所述相應的行動選擇策略時在對于所述技術(shù)系統(tǒng)的模擬中產(chǎn)生所述獎勵尺度,其中更高的獎勵尺度引起更高的評估尺度,并且其中所述模擬優(yōu)選建立在神經(jīng)網(wǎng)絡(比如循環(huán)神經(jīng)網(wǎng)絡)的基礎(chǔ)上;
-用于所述相應的行動選擇策略的質(zhì)量尺度,借助于行動選擇策略-評估方法(英語:Policy Evaluat1n Method)來確定所述質(zhì)量尺度,其中更高的質(zhì)量尺度引起更高的評估尺度。
[0011]上面所描述的獎勵尺度根據(jù)所述技術(shù)系統(tǒng)的運行的、預先確定的最佳化準則來確定,其中鑒于所述最佳化準則更高的獎勵尺度確定了對于所述技術(shù)系統(tǒng)的更好的控制或調(diào)節(jié)。在行動選擇策略-評估方法的基礎(chǔ)上確定質(zhì)量尺度,這一點本身從現(xiàn)有技術(shù)中已知。特別地,已知不同種類的行動選擇策略-評估方法。在一種優(yōu)選的實施方式中,使用“合適策略評估方法(Fitted Policy Evaluat1n Method),,(參見文獻[I])。
[0012]在步驟c)中確定所述行動選擇策略之后,最后用該行動選擇策略在步驟d)中對所述技術(shù)系統(tǒng)進行調(diào)節(jié)和/或控制。
[0013]根據(jù)本發(fā)明的方法能夠用具有較小的復雜性的行動選擇策略來對技術(shù)系統(tǒng)進行調(diào)節(jié)或控制,另外所述行動選擇策略通過確定合適的評估尺度保證所述技術(shù)系統(tǒng)的盡可能最佳的運行。由于降低了所述行動選擇策略的復雜性,所述行動選擇策略能夠更為容易地被人所理解,從而更容易接受利用這種行動選擇策略對所述技術(shù)系統(tǒng)進行的計算機輔助的控制或調(diào)節(jié)。
[0014]在一種特別優(yōu)選的實施方式中,相應地通過函數(shù)關(guān)系來表示所提供的或所產(chǎn)生的行動選擇策略,所述函數(shù)關(guān)系至少基于所述技術(shù)系統(tǒng)在相應的時刻的狀態(tài)提供有待在相應的時刻執(zhí)行的行動。術(shù)語“函數(shù)關(guān)系”在此應該廣義地來理解,并且可以包括每種任意類型的函數(shù)或函數(shù)組合或數(shù)學表達式。特別地,所述函數(shù)關(guān)系可以包括可調(diào)節(jié)的參數(shù),其中通過對于相應的參數(shù)值的確定來定義行動選擇策略。
[0015]在根據(jù)本發(fā)明的方法中所使用的復雜性尺度可以通過不同的方式和方法來定義。不同的、用于確定復雜性尺度的方法在此從現(xiàn)有技術(shù)中已知(比如參見文獻[2])。在一種特別優(yōu)選的實施方式中,通過所述函數(shù)關(guān)系的描述長度來表示所述復雜性尺度,其中所述描述長度越小,根據(jù)所述復雜性尺度的復雜性就越小。所述描述長度在一種特別優(yōu)選的實施方式中包括所述函數(shù)關(guān)系的二進制表示或者ASCII表示的長度和/或通過所述函數(shù)關(guān)系來表示的分析樹中的節(jié)點的數(shù)目和/或所述函數(shù)關(guān)系的可調(diào)節(jié)的參數(shù)的數(shù)目。在此,所述函數(shù)關(guān)系的二進制表示或者ASCII表示的長度越小或者說所述分析樹中的節(jié)點的數(shù)目越小或者說所述可調(diào)節(jié)的參數(shù)的數(shù)目越小,根據(jù)所述復雜性尺度的復雜性就越小。在此通過相應的二進制代碼或ASCII碼的長度來表示所述二進制表示或ASCII表示的長度。從函數(shù)關(guān)系中編制分析樹,這一點本身從現(xiàn)有技術(shù)中為人所知并且因此不作詳細解釋。
[0016]在根據(jù)本發(fā)明的方法的另一種變型方案中,在步驟b)中所提供的行動選擇策略建立在專家知識的基礎(chǔ)上。也就是說,由專家來預先給定所述行動選擇策略。這些行動選擇策略被保存在存儲器中并且在所述方法的步驟b)中被讀出。
[0017]在根據(jù)本發(fā)明的方法的另一種特別優(yōu)選的變型方案中,借助于基因編程和/或在粒子群優(yōu)化的基礎(chǔ)上實施所述步驟b)和C)。在這些方法中,逐步地產(chǎn)生新的行動選擇策略,并且將其添加到總體中,其中又將具有較差的評估尺度的行動選擇策略從所述總體中拋棄。用于進行基因編程或粒子群優(yōu)化的方法在現(xiàn)有技術(shù)中被充分公開,并且因此不再進一步詳細描述。
[0018]在根據(jù)本發(fā)明的方法的另一種設(shè)計方案中,在步驟b)中如此產(chǎn)生所述行動選擇策略,從而從預先確定的最佳的行動選擇策略中推導出所述行動選擇策略。所述預先確定的最佳的行動選擇策略在此可以相當于來自根據(jù)本發(fā)明的方法的步驟c)的、預先給定的最佳的行動選擇策略。所述預先確定的最佳的行動選擇策略通常具有相應的復雜性尺度,所述復雜性尺度的復雜性顯著高于所述預先確定的復