專利名稱:使用上下文信息進(jìn)行蒙特卡羅規(guī)劃的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本公開一般地涉及用于例如在實際域中進(jìn)行規(guī)劃和序貫決策(sequentialdecision making)的系統(tǒng)和方法。更具體地說,本申請涉及使用可觀察狀態(tài)信息的創(chuàng)新性分解通過蒙特卡羅模擬試驗進(jìn)行規(guī)劃,所述信息分解能夠比使用既定的最新方法處理更大的狀態(tài)空間。
背景技術(shù):
規(guī)劃問題(也稱為序貫決策問題)通常由以下項來表征:所述問題的一組可能狀態(tài)、可以在每個狀態(tài)下執(zhí)行的一組可允許的操作、用于在給定當(dāng)前狀態(tài)和當(dāng)前選定操作下生成向后續(xù)狀態(tài)的轉(zhuǎn)變的過程、規(guī)劃周期(即,在所述問題中要進(jìn)行的總預(yù)期決策數(shù)量),以及在所述規(guī)劃問題的一個或多個步驟處獲得的效用或回報的度量。通常,目標(biāo)是計算一系列最大化預(yù)期累積折扣或未折扣回報的決策。此外,規(guī)劃問題假設(shè)可在序列中的每個步驟處使用與所述問題的狀態(tài)有關(guān)的可觀察信息。如果可觀察信息唯一地標(biāo)識狀態(tài),并且生成回報和狀態(tài)轉(zhuǎn)變的過程是固定的并且與歷史無關(guān),則所述問題在形式上被分類為馬爾可夫決策過程(MDP)。備選地,如果可觀察信息未唯一地標(biāo)識狀態(tài),則所述問題是部分可觀察馬爾可夫決策過程(P0MDP),假如回報和狀態(tài)轉(zhuǎn)變過程仍是固定的并且與歷史無關(guān)的話。蒙特卡羅規(guī)劃方法使用實際域的模擬模型,并根據(jù)蒙特卡羅模擬試驗估計在給定狀態(tài)下執(zhí)行操作的累積回報。此類模擬試驗包括一個或多個步驟,每個步驟通常包括模擬以下項:在當(dāng)前模擬狀態(tài)下執(zhí)行操作、生成向新狀態(tài)的轉(zhuǎn)變,以及生成立即回報(如果適用)。通過模擬策略(即,響應(yīng)于在模擬試驗的當(dāng)前或先前步驟中觀察到的信息而選擇可用合法操作之一的方法)執(zhí)行每個步驟處的操作選擇。假設(shè)蒙特卡羅模擬試驗的結(jié)果是非確定的。非確定性可能由非確定的回報或狀態(tài)轉(zhuǎn)變引起,以及由使用非確定的模擬策略引起。因此,蒙特卡羅模擬試驗提供一種在統(tǒng)計上評估通過在模擬域的給定狀態(tài)下執(zhí)行給定操作而獲得的長期累積預(yù)期回報的手段。用于根據(jù)蒙特卡羅模擬試驗進(jìn)行規(guī)劃的許多方法都是本領(lǐng)域公知的。一種最早并且最簡單的方法是所謂的“輪換(rollout)算法”(G.Tesauro和G.R.Galperin, “On-linepolicy improvement using Monte-Carlo search (使用蒙特卡羅搜索的在線策略改進(jìn))”,Advances in Neural InformationProcessing Systems,第9卷,第 1068-1074頁,1997年)。在此方法中,執(zhí)行多個模擬試驗(“輪換”),每個試驗從對應(yīng)于實際域的當(dāng)前狀態(tài)的公共初始狀態(tài)開始。每個試驗包括根據(jù)抽樣策略選擇根狀態(tài)下的合法操作,然后由固定模擬策略執(zhí)行試驗的后續(xù)步驟中的操作。針對每個頂級操作維護(hù)平均回報統(tǒng)計,并且在所有模擬試驗終止時,所述方法返回具有最高平均回報的頂級操作以便在實際域中執(zhí)行。最近,發(fā)布了多種蒙特卡羅規(guī)劃方法(例如,L.Kocsis和Cs.Szepesvari,“Bandit-based Monte-Carlo Planning (基于匪徒的蒙特卡羅規(guī)劃)”,歐洲機器學(xué)習(xí)會議的會議記錄,第282-293頁,2006年),它們將輪換算法擴展到多個評估級別。即,除了頂級步驟之外,還在試驗的后續(xù)步驟處計算和維護(hù)平均回報統(tǒng)計。這通常通過以下操作完成:維護(hù)在試驗期間遇到的“節(jié)點”集合(即,狀態(tài)的符號表示,或給定狀態(tài)下的合法操作)、在每個試驗結(jié)束時計算總回報,然后根據(jù)在試驗中獲得的總回報更新參與給定試驗的節(jié)點的平均回報統(tǒng)計。抽樣策略(例如,根據(jù)多臂匪徒理論(mult1-armed bandit theory)的抽樣)不僅用于初始步驟,而且還用于試驗的后續(xù)步驟。盡管這些方法能夠在節(jié)點之間具有任意拓?fù)潢P(guān)系的域中產(chǎn)生有效的序貫規(guī)劃(例如,具有多個到給定狀態(tài)的路徑以及循環(huán)返回先前所遇狀態(tài)的通用MDP),但這些方法的優(yōu)選實施例包括以嚴(yán)格樹結(jié)構(gòu)組織的節(jié)點。由于此原因,所述方法通常稱為蒙特卡羅樹搜索(MCTS)方法。MCTS方法使用方面的最新進(jìn)展在諸如計算機圍棋之類的實際域中實現(xiàn)有效的運行中(on-the-fly)規(guī)劃(S.Gelly 和 D.SilverjiiAchievingMaster Level Playin9X9Computer Go (在9 X 9計算機圍棋中實現(xiàn)大師級博弈)”,AAAI會議記錄,2008年)。在此MCTS方法中,基于模擬游戲而動態(tài)生長包含交替操作(父)節(jié)點和子節(jié)點的樹。將MCTS樹和與節(jié)點關(guān)聯(lián)的數(shù)據(jù)表示為計算機系統(tǒng)存儲器中的數(shù)據(jù)結(jié)構(gòu)。從涉及序貫游戲移動隨機性的隨機模擬(例如,在計算機圍棋的情況下為對弈模擬),在每個節(jié)點處收集智能(例如,基于獲勝百分率的評估)。例如,在計算機圍棋的情況下,根據(jù)試驗數(shù)量和模擬對弈獲勝結(jié)果維護(hù)每個節(jié)點處的統(tǒng)計數(shù)據(jù)??梢耘c樹的此節(jié)點結(jié)合地計算和存儲關(guān)聯(lián)的回報值?;趶哪M中收集的智能,可以推斷玩家移動(決策)的高明策略。圖1示出了由計算系統(tǒng)構(gòu)造的數(shù)據(jù)結(jié)構(gòu)400,其用于在實例計算機圍棋游戲中為一個玩家(例如,白方)計算最佳移動。數(shù)據(jù)結(jié)構(gòu)400示出了實例計算機圍棋游戲的當(dāng)前狀態(tài),并包括父節(jié)點405,以及包含由圓表示的操作節(jié)點(例如,節(jié)點407、410和420)和由正方形表示的后續(xù)狀態(tài)節(jié)點(例如,節(jié)點405、415、425和430)的交替樹結(jié)構(gòu)。操作節(jié)點指數(shù)據(jù)結(jié)構(gòu)400中指定規(guī)劃代理在父節(jié)點狀態(tài)下執(zhí)行的至少一個后續(xù)操作的節(jié)點。例如,節(jié)點410可以表示白方在根狀態(tài)下在E5處落子的操作,而節(jié)點407可以表示白方在根狀態(tài)下在F6處落子的操作。后續(xù)狀態(tài)節(jié)點指示對規(guī)劃代理操作的可能環(huán)境響應(yīng),例如,響應(yīng)于白方的特定移動,黑方可以做出的可能移動。例如,節(jié)點425表示對W-E5的響應(yīng)B-D7,節(jié)點430表示對W-E5的響應(yīng)B-E3。在所述數(shù)據(jù)結(jié)構(gòu)中,標(biāo)準(zhǔn)MCTS規(guī)劃方法針對每個頂級操作執(zhí)行多個試驗。試驗包括一系列模擬步驟,每個步驟包括從可用操作中選擇操作節(jié)點,并模擬導(dǎo)致后續(xù)狀態(tài)的環(huán)境的響應(yīng)。試驗的初始步驟中的選定操作通常由匪徒抽樣策略來選擇。如果試驗選擇先前未被抽樣的操作,則將向所述數(shù)據(jù)結(jié)構(gòu)中添加對應(yīng)于此操作的新節(jié)點,并且試驗的步驟將繼續(xù),從而利用非確定的“對弈”策略為兩個玩家選擇移動。試驗的步驟將一直繼續(xù),直到所模擬的游戲根據(jù)圍棋規(guī)則而終止。作為根據(jù)MCTS方法的模擬操作的結(jié)果,在每個操作節(jié)點處維護(hù)的數(shù)據(jù)包括模擬試驗總數(shù)(包括給定操作節(jié)點),以及導(dǎo)致獲勝結(jié)果的試驗數(shù)。例如,節(jié)點410包含數(shù)據(jù)記錄“3/7”,其指示執(zhí)行了總計7個試驗(包括此節(jié)點),其中3個試驗導(dǎo)致白方獲勝。在完成試驗之后,MCTS方法執(zhí)行更新,其中使用游戲結(jié)果更新參與試驗的節(jié)點的統(tǒng)計,即,在樹的連續(xù)級別向上傳播模擬試驗的結(jié)果。根據(jù)任何給定節(jié)點的平均獲勝率(B卩,獲勝數(shù)與試驗總數(shù)(包括該給定節(jié)點)的比率)估計該節(jié)點的值。在決策周期中執(zhí)行模擬試驗期間,根據(jù)平均獲勝率選擇操作可導(dǎo)致獲得更有利結(jié)果的更大可能性。例如,在節(jié)點405 (表示游戲的當(dāng)前狀態(tài)的根節(jié)點),估計每個子操作節(jié)點的預(yù)期回報(例如,對于圖1中的節(jié)點407,值為1/5,對于節(jié)點410,值為3/7)?;谒^察到的統(tǒng)計,選擇操作410將比操作407更可能獲勝。實際上,在MCTS中使用的匪徒抽樣算法以平衡利用(獲得高獲勝率)和探索(使用很少的試驗對節(jié)點抽樣)的方式來選擇操作。所述樹針對每個模擬對弈擴展一個節(jié)點,并通過添加新的葉節(jié)點以及執(zhí)行對應(yīng)的模擬來動態(tài)生長。盡管MCTS方法在許多實際域中實現(xiàn)有效的規(guī)劃,但廣泛了解的是,此類方法的計算成本隨著狀態(tài)變量數(shù)、狀態(tài)變量的可能值的粒度以及典型狀態(tài)下的合法操作數(shù)而急劇(即,以指數(shù)方式)增加。例如,考慮包括多個連續(xù)取值的狀態(tài)變量的域。標(biāo)準(zhǔn)MCTS的原樣實施方式(針對每個不同的狀態(tài)維護(hù)單獨的節(jié)點)很可能導(dǎo)致遇到每個節(jié)點的次數(shù)不超過一次,因為在所有狀態(tài)變量中,每個所遇狀態(tài)可能從未與先前所遇狀態(tài)無限精確地匹配。因此,每個節(jié)點中的平均回報統(tǒng)計將僅包括單個試驗的結(jié)果,從而將提供節(jié)點實際預(yù)期值的非常不可靠的估計。將(連續(xù)變量的)狀態(tài)空間離散化可以解決MCTS方法的上述限制。例如,可以以I度角為單位使連續(xù)的機器人手臂運動離散化。然而,蒙特卡羅試驗中的所遇狀態(tài)數(shù)可能仍然不切實際地大,并且任何給定節(jié)點的訪問次數(shù)可能仍然太少以致不能為有效規(guī)劃提供可靠基礎(chǔ)。此外,此類方法無法利用許多實際域中的自然平滑屬性,因為類似的狀態(tài)傾向于具有類似的預(yù)期值,使得從相鄰狀態(tài)收集的統(tǒng)計證據(jù)可以提供任何特定節(jié)點的預(yù)期值的高度相關(guān)證據(jù)。因此,希望提供一種實現(xiàn)改進(jìn)的蒙特卡羅規(guī)劃的系統(tǒng)和方法,所述改進(jìn)的規(guī)劃將降低標(biāo)準(zhǔn)蒙特卡羅樹搜索的名義搜索復(fù)雜性,并在給定實際域中有效地針對部分或全部可觀察狀態(tài)變量利用預(yù)期累積回報的平滑相關(guān)性。
發(fā)明內(nèi)容
在一個實施例中,提供了一種用于在實際環(huán)境中對操作執(zhí)行蒙特卡羅規(guī)劃的系統(tǒng)、方法和計算機程序產(chǎn)品。所述方法有效地利用可觀察信息的適合分解,所述信息與環(huán)境的當(dāng)前狀態(tài)標(biāo)識以及狀態(tài)的預(yù)期累積回報估計有關(guān)。所述分解將可觀察信息分為兩個部分:第一部分用于標(biāo)識基礎(chǔ)狀態(tài),而第二部分用于標(biāo)識上下文狀態(tài)。在各優(yōu)選實施例中,每個唯一基礎(chǔ)狀態(tài)映射到向前搜索規(guī)劃圖中的不同且可唯一標(biāo)識的節(jié)點,其中可以采用本領(lǐng)域公知的搜索技術(shù)(例如,MCTS式技術(shù))計算給定基礎(chǔ)狀態(tài)下的最佳規(guī)劃。在搜索技術(shù)操作期間被視為由對應(yīng)基礎(chǔ)狀態(tài)確定的節(jié)點在數(shù)量上可枚舉并且可管理?;A(chǔ)狀態(tài)實例集合不需要構(gòu)成度量空間(即,不需要距離度量),并且給定基礎(chǔ)狀態(tài)下的未來回報的估計不需要應(yīng)用回歸技術(shù)。此外,在從給定基礎(chǔ)狀態(tài)開始的軌跡的隨機模擬中,應(yīng)多次訪問搜索圖中的至少某些后續(xù)節(jié)點,以便可以計算有關(guān)節(jié)點中的預(yù)期回報的準(zhǔn)確統(tǒng)計?;A(chǔ)狀態(tài)描述的實例包括:圍棋游戲中的白棋和黑棋位置的列表;電梯調(diào)度應(yīng)用中按下的按鈕的列表(大廳按鈕和目的地按鈕);作業(yè)調(diào)度應(yīng)用中當(dāng)前運行的作業(yè)和已完成的作業(yè)的列表。另一方面,上下文狀態(tài)實例展現(xiàn)出相反的特性。這些實例并不映射到搜素圖中的唯一節(jié)點;它們包括度量空間,并且在給定基礎(chǔ)狀態(tài)節(jié)點中根據(jù)上下文狀態(tài)預(yù)測預(yù)期回報可應(yīng)用回歸技術(shù)。最后,特定上下文狀態(tài)實例不需要在多個隨機模擬試驗過程中重復(fù)。上下文狀態(tài)信息的實例包括:計時圍棋游戲中白方和黑方時鐘上的已經(jīng)過的時間量;作業(yè)調(diào)度應(yīng)用中截止時間之前剩余的時間;以及對于電梯調(diào)度應(yīng)用中每個當(dāng)前激活的按鈕,自按下每個按鈕以來經(jīng)過的時間的列表。所述系統(tǒng)、方法和計算機程序產(chǎn)品構(gòu)造數(shù)據(jù)結(jié)構(gòu),所述數(shù)據(jù)結(jié)構(gòu)包括在給定環(huán)境狀態(tài)下執(zhí)行的操作的表示,并且根據(jù)改進(jìn)的蒙特卡羅規(guī)劃方法,使用環(huán)境模擬模型執(zhí)行模擬試驗以便規(guī)劃要在給定環(huán)境狀態(tài)下采取的有效操作。所述方法在包含有限并且可管理數(shù)量的節(jié)點的基礎(chǔ)狀態(tài)搜索空間中構(gòu)造節(jié)點集合,同時根據(jù)本領(lǐng)域公知的標(biāo)準(zhǔn)回歸技術(shù)(例如,用于在線學(xué)習(xí)和隨機優(yōu)化的梯度方法),利用上下文狀態(tài)信息估計給定節(jié)點中的預(yù)期累積回報。在一個方面,提供了一種用于選擇規(guī)劃問題狀態(tài)下的操作的方法。所述方法包括在所述規(guī)劃問題狀態(tài)的模擬模型中運行多個模擬試驗,所述模擬試驗包含在所述狀態(tài)下導(dǎo)致模擬回報結(jié)果的至少一個可用頂級操作;以及響應(yīng)于在所述模擬試驗中獲得的所述模擬回報結(jié)果,在完成所述模擬試驗時推薦要在所述規(guī)劃問題狀態(tài)下執(zhí)行的操作,其中所述模擬試驗中的至少一個模擬試驗執(zhí)行一個或多個步驟,所述步驟包括:觀察模擬狀態(tài)下的上下文狀態(tài)信息;以及響應(yīng)于所觀察的上下文狀態(tài)信息而選擇所述模擬狀態(tài)下的可用操作;其中包括至少一個處理器和連接到所述處理器的至少一個存儲設(shè)備的計算系統(tǒng)執(zhí)行所述運行、推薦、觀察和選擇。進(jìn)一步就此方面而言,模擬試驗的所述一個或多個步驟進(jìn)一步包括:響應(yīng)于所觀察的上下文狀態(tài)信息而估計所述模擬狀態(tài)下的至少一個可用操作的預(yù)期回報,其中響應(yīng)于所觀察的上下文狀態(tài)信息而選擇所述模擬狀態(tài)下的可用操作包括:響應(yīng)于可用操作的估計預(yù)期回報而選擇所述模擬狀態(tài)下的可用操作。進(jìn)一步就此方面而言,模擬試驗的所述一個或多個步驟進(jìn)一步包括:響應(yīng)于模擬操作而觀察多個模擬回報,以及更新所述模擬試驗中的對應(yīng)頂級操作處的模擬回報統(tǒng)計;所述計算系統(tǒng)還執(zhí)行所述觀察和更新。進(jìn)一步就此方面而言,模擬試驗的所述一個或多個步驟進(jìn)一步包括:響應(yīng)于所選擇的操作而模擬向新狀態(tài)的轉(zhuǎn)變,所觀察的多個模擬回報響應(yīng)于以下項中的一個或多個:所選擇的操作或所述狀態(tài)轉(zhuǎn)變。進(jìn)一步就此方面而言,模擬試驗的所述一個或多個步驟進(jìn)一步包括:維護(hù)數(shù)據(jù)對集合,所述數(shù)據(jù)對包括所觀察的上下文狀態(tài)信息和與所選擇的可用操作關(guān)聯(lián)的所觀察的對應(yīng)模擬回報。進(jìn)一步就此方面而言,從所觀察的上下文狀態(tài)信息估計所述預(yù)期回報包括:在模擬試驗的所述一個或多個步驟期間,實施回歸模型并計算有關(guān)與可用操作關(guān)聯(lián)的所述數(shù)據(jù)對集合的回歸擬合;根據(jù)所實施的回歸模型估計以下項中的一個或多個:平均預(yù)期回報或所述平均值中的不確定性;以及響應(yīng)于以下項中的一個或多個而計算效用:所估計的平均回報或所估計的所述平均值中的不確定性,其中根據(jù)所計算的效用而選擇所述操作。在另一方面,提供了一種用于選擇規(guī)劃問題狀態(tài)下的操作的系統(tǒng),所述系統(tǒng)包括:所述規(guī)劃問題的模擬器,其包括至少一個處理器;以及連接到所述處理器的至少一個存儲設(shè)備,其中所述處理器被編程以執(zhí)行以下操作:在所述規(guī)劃問題狀態(tài)的模擬模型中運行多個模擬試驗,所述模擬試驗包含在所述狀態(tài)下導(dǎo)致模擬回報結(jié)果的至少一個可用頂級操作;響應(yīng)于在所述模擬試驗中獲得的所述模擬回報結(jié)果,在完成所述模擬試驗時推薦要在所述規(guī)劃問題狀態(tài)下執(zhí)行的操作,其中所述處理器還被編程以在所述模擬試驗中的至少一個模擬試驗中執(zhí)行一個或多個步驟,所述步驟包括:觀察模擬狀態(tài)下的上下文狀態(tài)信息;以及響應(yīng)于所觀察的上下文狀態(tài)信息而選擇所述模擬狀態(tài)下的可用操作。進(jìn)一步就此方面而言,在模擬試驗的所述一個或多個步驟中,所述處理器還被編程以執(zhí)行以下操作:響應(yīng)于所觀察的上下文狀態(tài)信息而估計所述模擬狀態(tài)下的至少一個可用操作的預(yù)期回報,其中響應(yīng)于所觀察的上下文狀態(tài)信息而選擇所述模擬狀態(tài)下的可用操作包括:響應(yīng)于可用操作的估計預(yù)期回報而選擇所述模擬狀態(tài)下的可用操作。進(jìn)一步就此方面而言,所述處理器還被編程以在模擬試驗的所述一個或多個步驟中執(zhí)行以下操作:響應(yīng)于模擬操作而觀察多個模擬回報,以及更新所述模擬試驗中的對應(yīng)頂級操作處的模擬回報統(tǒng)計;所述處理器執(zhí)行所述觀察和更新。進(jìn)一步就此方面而言,所述處理器還被編程以在模擬試驗的所述一個或多個步驟中執(zhí)行以下操作:響應(yīng)于所選擇的操作而模擬向新狀態(tài)的轉(zhuǎn)變,所觀察的多個模擬回報響應(yīng)于以下項中的一個或多個:所選擇的操作或所述狀態(tài)轉(zhuǎn)變。進(jìn)一步就此方面而言,在模擬試驗的所述一個或多個步驟中,所述處理器還被編程以執(zhí)行以下操作:維護(hù)數(shù)據(jù)對集合,所述數(shù)據(jù)對包括所觀察的上下文狀態(tài)信息和與所選擇的可用操作關(guān)聯(lián)的所觀察的對應(yīng)模擬回報。進(jìn)一步就此方面而言,對于從所觀察的上下文狀態(tài)信息估計所述預(yù)期回報,所述處理器還被配置為:在模擬試驗的所述一個或多個步驟期間,實施回歸模型并計算有關(guān)與可用操作關(guān)聯(lián)的所述數(shù)據(jù)對集合的回歸擬合;根據(jù)所實施的回歸模型估計以下項中的一個或多個:平均預(yù)期回報或所述平均值中的不確定性;以及響應(yīng)于以下項中的一個或多個而計算效用:所估計的平均回報或所估計的所述平均值中的不確定性,其中根據(jù)所計算的效用而選擇所述操作。提供了一種用于執(zhí)行操作的計算機程序產(chǎn)品。所述計算機程序產(chǎn)品包括存儲介質(zhì),其可由處理電路讀取并存儲所述處理電路運行的指令以便運行方法。所述方法與上面列出的方法相同。
包括附圖以便進(jìn)一步理解本發(fā)明,所述附圖結(jié)合在本說明書中并構(gòu)成本說明書的一部分,這些附圖是:圖1是根據(jù)現(xiàn)有實施方式的包括表示MCTS規(guī)劃方法的操作節(jié)點和后續(xù)狀態(tài)節(jié)點的交替結(jié)構(gòu)的示例性樹結(jié)構(gòu)部分;圖2是一個實例實施例中包括用于在包含上下文狀態(tài)信息的環(huán)境中進(jìn)行規(guī)劃的操作節(jié)點和后續(xù)基礎(chǔ)狀態(tài)節(jié)點的交替結(jié)構(gòu)的示例性數(shù)據(jù)結(jié)構(gòu);圖3A是描述用于在一個實施例中在實際環(huán)境中執(zhí)行規(guī)劃的方法步驟的流程圖;圖3B是描述由與實施的實際環(huán)境模擬器一起協(xié)同運行的處理器設(shè)備在步驟208處執(zhí)行的模擬試驗的流程圖;圖4示出了用于在一個實施例中運行在圖2、3中描述的方法步驟的示例性硬件配置;以及圖5示出了在一個實施例中與數(shù)據(jù)集擬合的示例性回歸函數(shù)。
具體實施例方式—種方法、系統(tǒng)和計算機程序產(chǎn)品在計算設(shè)備中實施蒙特卡羅規(guī)劃算法,以便在包括基礎(chǔ)狀態(tài)信息和上下文狀態(tài)信息的實際環(huán)境中提供操作規(guī)劃。如在此所指的,環(huán)境的“狀態(tài)”包括任何當(dāng)前可觀察信息,以及導(dǎo)致當(dāng)前狀態(tài)的先前狀態(tài)下的任何相關(guān)在先可觀察信息,所述信息與預(yù)測未來觀察到的狀態(tài)和未來觀察到的回報相關(guān)。所述方法、系統(tǒng)和計算機程序產(chǎn)品處理這樣的領(lǐng)域:其中可觀察信息的一部分可以被視為基礎(chǔ)狀態(tài)描述,可觀察信息的其余部分可以被視為可應(yīng)用回歸技術(shù)以便估計預(yù)期累積回報的上下文狀態(tài)信息。圖2示出了修改后的蒙特卡羅規(guī)劃模型,其中在實施編程處理器設(shè)備的計算機系統(tǒng)中創(chuàng)建數(shù)據(jù)結(jié)構(gòu)10,所述數(shù)據(jù)結(jié)構(gòu)包括對應(yīng)于實際規(guī)劃問題領(lǐng)域狀態(tài)的根節(jié)點11、表示給定模擬狀態(tài)下的可用操作的操作節(jié)點(例如,20ρ…、204),以及表示可通過在先前基礎(chǔ)狀態(tài)下執(zhí)行可用操作到達(dá)的后續(xù)基礎(chǔ)狀態(tài)的基礎(chǔ)狀態(tài)節(jié)點(例如,15、30)。例如,可以在模擬試驗中通過在基礎(chǔ)狀態(tài)15下執(zhí)行操作20i到達(dá)節(jié)點30。在給定模擬試驗期間,所述模擬可以在每個步驟生成觀察到的上下文狀態(tài)(例如,s0, S1, s2),其通常被表示為包含一個或多個離散或連續(xù)變量的值集合。根據(jù)一個實施例,在包括根節(jié)點11的數(shù)據(jù)結(jié)構(gòu)10中執(zhí)行MCTS式搜索,根節(jié)點11是進(jìn)行決策(即,在實際環(huán)境中采取操作)的入口點。所述方法包括從根節(jié)點11構(gòu)建例如
圖2中所示的操作節(jié)點(例如,節(jié)點201.....204)和后續(xù)基礎(chǔ)狀態(tài)節(jié)點(例如,15,30)的交
替結(jié)構(gòu)。在一個典型實施例中,操作節(jié)點的子節(jié)點是后續(xù)基礎(chǔ)狀態(tài)節(jié)點,后續(xù)基礎(chǔ)狀態(tài)節(jié)點的子節(jié)點是操作節(jié)點。此外,當(dāng)針對選定操作執(zhí)行模擬試驗時,每個操作節(jié)點累積包含各對Ksyrp}的數(shù)據(jù)集,其中表示在試驗j時在 此節(jié)點處觀察到的任何上下文狀態(tài)信息,&表示在此節(jié)點處開始的試驗j中獲得的累積回報。累積回報值可以反映折扣后的未來回報。當(dāng)在節(jié)點處累積每個抽樣時,此節(jié)點針對觀察到的試驗的整個集合Ksj,h)}執(zhí)行回歸模型R(S)的增量批量更新,這將用于在下一個試驗時在給定任何觀察到的上下文狀態(tài)“s”下估計預(yù)期回報。即,通過被記錄為蒙特卡羅模擬結(jié)果的匯總數(shù)據(jù),在節(jié)點處更新所述數(shù)據(jù)集之后執(zhí)行回歸訓(xùn)練,并且生成回歸流形(regressionmanifold)并將其存儲為預(yù)測函數(shù)25,預(yù)測函數(shù)25例如與由關(guān)聯(lián)分支(例如圖2中所示)的試驗產(chǎn)生的每個節(jié)點20ρ…、204關(guān)聯(lián)。給定觀察到的抽樣和回歸模型擬合,下一個抽樣試驗的執(zhí)行運行如下:試驗在樹的根節(jié)點11處開始,并在一個實施例中根據(jù)匪徒抽樣算法遞降(descend)以選擇操作節(jié)點,或根據(jù)狀態(tài)轉(zhuǎn)變模型遞降以選擇后續(xù)基礎(chǔ)狀態(tài)節(jié)點。在一個實施例中,匪徒抽樣算法針對每個操作i計算有關(guān)其預(yù)期回報的上置信界Bi (如在此針對公式(I)描述的那樣),并且選擇具有最高上置信界的操作。根據(jù)以下公式計算上置信界Bi:Bi=",⑷+\l2lnNerrt ⑷(I)其中μ A表示與此操作節(jié)點中的數(shù)據(jù)集擬合的平滑或回歸函數(shù)(例如,圖5中的函數(shù)505),s表示當(dāng)前觀察到的上下文狀態(tài)信息,Ui(S)表示給定s觀察下此操作節(jié)點中的此操作的預(yù)期回報估計,N表示針對所有同級操作節(jié)點總計的抽樣總數(shù),err^s)表示不確定性估計,即操作i的真實預(yù)期回報與μ Js)給出的估計之間的差的可能量級,“i”是指示此操作節(jié)點的標(biāo)識號的索引。在圖2中所示的實例實施例中,通過以下步驟在節(jié)點15處選擇操作:將公式(I)應(yīng)用于每個同級操作節(jié)點UO1,…,204}(其中N=WNJN4),并選擇具有最高Bi結(jié)果值的操作。圖3A-3B示出了一個示例性實施例中用于在實際環(huán)境(例如,作業(yè)調(diào)度環(huán)境,其中分派多個程序作業(yè)以便在有限數(shù)量的服務(wù)器設(shè)備上運行)中執(zhí)行蒙特卡羅規(guī)劃的步驟。在此示例性實施例中,存在可以在“K”個服務(wù)器設(shè)備上執(zhí)行的一批“N”個作業(yè)(例如,J1,J2、…、JN),例如,由軟件程序執(zhí)行的計算任務(wù)。在一個實施例中,假設(shè)服務(wù)器設(shè)備完全相同,并且作業(yè)之間沒有相關(guān)性。還假設(shè)作業(yè)具有可以被模擬的已知完成時間分布。還假設(shè)如果完成所有作業(yè)的時間小于指定的截止時間“Tmax”,則二進(jìn)制回報具有值“1”,否則所述回報為O。在此示例性作業(yè)調(diào)度實施例中,一個實例目標(biāo)是配置計算系統(tǒng)以首先選擇包含K個作業(yè)的最佳集合以便首先運行,然后當(dāng)單獨作業(yè)在隨機完成時間完成時,在所有剩余作業(yè)中動態(tài)選擇最佳作業(yè)以便接下來運行,以便最大化在Tmax內(nèi)完成所有作業(yè)的概率。這通過由計算系統(tǒng)運行圖3A中所示的方法步驟202-218來執(zhí)行。例如,如果K = 2并且N=17,則計算系統(tǒng)可以初始選擇作業(yè)“J6”以便在第一服務(wù)器設(shè)備上運行,選擇作業(yè)“J15”以便在第二服務(wù)器設(shè)備上運行。假設(shè)作業(yè)“J15”在“J6”之前完成,則計算系統(tǒng)然后將從剩余作業(yè)中選擇最佳作業(yè)(例如,選擇作業(yè)“J7”以便接下來在第二服務(wù)器設(shè)備上運行。在一個實施例中,在修改后的MCTS樹遞降方法中,針對每個潛在操作節(jié)點計算公式(I ),并且使用公式
(I)選擇在最大化上置信值(即,公式(I)的輸出)的空閑服務(wù)器設(shè)備上運行的作業(yè))。圖3A-3B示出了用于在實際環(huán)境中對操作進(jìn)行蒙特卡羅規(guī)劃的方法和系統(tǒng)。在圖3A中,在步驟202,計算系統(tǒng)開始運行。在步驟204,計算系統(tǒng)構(gòu)建和/或初始化與MCTS型數(shù)據(jù)結(jié)構(gòu)的表示實際環(huán)境的根節(jié)點對應(yīng)的數(shù)據(jù)結(jié)構(gòu),其中根據(jù)實時調(diào)度任務(wù)(例如,在一個實施例中,實際作業(yè)調(diào)度環(huán)境 )的當(dāng)前狀態(tài)初始化樹的根節(jié)點的狀態(tài)。計算系統(tǒng)還可以被配置為創(chuàng)建和初始化MCTS型數(shù)據(jù)結(jié)構(gòu)的表示后續(xù)基礎(chǔ)狀態(tài)的多個中間節(jié)點和/或葉節(jié)點,可以從實際環(huán)境中的根節(jié)點狀態(tài)到達(dá)所述后續(xù)基礎(chǔ)狀態(tài)。計算系統(tǒng)還可以被配置為在運行方法步驟208-218期間創(chuàng)建和初始化其他中間節(jié)點和葉節(jié)點(例如,在208執(zhí)行模擬試驗步驟期間創(chuàng)建和初始化)。所述數(shù)據(jù)結(jié)構(gòu)在操作節(jié)點(其中在上面提供的實例中,計算系統(tǒng)被配置為將作業(yè)分派給空閑服務(wù)器)和后續(xù)狀態(tài)節(jié)點(其中作業(yè)完成并且服務(wù)器設(shè)備變得可用)之間交替。在步驟204處初始化之后,計算系統(tǒng)被配置為模擬器或被配置為調(diào)用模擬器(運行模擬模型),所述模擬器在步驟206啟動模擬試驗。每個模擬試驗包括執(zhí)行一個或多個模擬步驟,這些模擬步驟從導(dǎo)致結(jié)果的根節(jié)點(圖2中的節(jié)點11)的至少一個子節(jié)點運行,在步驟208執(zhí)行每個模擬步驟。模擬步驟包括來自指示模擬的當(dāng)前狀態(tài)的節(jié)點(例如,圖2中的節(jié)點15)的數(shù)據(jù)結(jié)構(gòu)的部分遞降,其中選擇當(dāng)前狀態(tài)節(jié)點(節(jié)點15)的一個可用操作節(jié)點(例如,圖2中的節(jié)點20ρ…、204),然后所述模擬器(運行模擬模型)生成向所選擇的操作節(jié)點的一個可用后續(xù)狀態(tài)節(jié)點(例如,圖2中的節(jié)點30)的轉(zhuǎn)變。此外,在每個選定操作節(jié)點處,計算系統(tǒng)可以記錄表示當(dāng)前試驗中的當(dāng)前截止時間的時間戳數(shù)據(jù)點。模擬步驟可以在例如選擇以前從未被抽樣的子操作節(jié)點時,向所述數(shù)據(jù)結(jié)構(gòu)動態(tài)添加新的操作或后續(xù)狀態(tài)節(jié)點(多個)。
在一個實施例中,選擇操作的方法基于針對可能的操作最大化上置信界值,如在此針對公式(I)描述的那樣。在一個備選實施例中,計算系統(tǒng)利用區(qū)間估計(L.P.Kaelbling, LearninginEmbeddedSystems (學(xué)習(xí)嵌入式系統(tǒng)),麻省理工學(xué)院出版社,1993年)選擇子操作節(jié)點。為了模擬其中必須進(jìn)行決策并且具有某一包含可能決策的集合的真實環(huán)境,模擬器設(shè)備(包括編程處理器,其具有在操作上關(guān)聯(lián)的存儲器以進(jìn)行數(shù)據(jù)存儲)實施被建模的實際環(huán)境的模擬模型。實際環(huán)境的模擬模型能夠執(zhí)行從環(huán)境的給定開始狀態(tài)開始的模擬試驗,并且從初始狀態(tài)開始使用給定決策策略提供時間效應(yīng)的合理準(zhǔn)確模擬(就隨之產(chǎn)生何種序列的狀態(tài)轉(zhuǎn)變和回報而言)。即,MCTS型方法通過一系列模擬步驟,從初始(當(dāng)前)狀態(tài)(包括初始基礎(chǔ)狀態(tài)以及初始上下文狀態(tài))實施樹結(jié)構(gòu)(例如,根節(jié)點11)的遍歷,每個步驟包括選擇所示的操作節(jié)點,并且模擬轉(zhuǎn)變(例如,非確定轉(zhuǎn)變)以到達(dá)包括新基礎(chǔ)狀態(tài)和新上下文狀態(tài)的新狀態(tài)。圖3B是描述在206啟動的模擬試驗的步驟208的流程圖,步驟208由與運行實際環(huán)境模擬模型的實施的模擬器一起工作的處理器設(shè)備執(zhí)行。在某些實施例中,在206啟動的模擬試驗包括執(zhí)行多個步驟,一個或多個步驟包括記錄對上下文狀態(tài)信息s的觀察,如在258所指示的。所觀察的上下文狀態(tài)信息的實例例如可以包括從先前狀態(tài)轉(zhuǎn)變以來所經(jīng)過的時間量。本發(fā)明的通用實施例然后將繼續(xù)到步驟264 (如在第一處理路徑A中所指示的那樣),以便響應(yīng)于所觀察到的上下文狀態(tài)信息s而計算選定操作。在不同的實施例中,用于執(zhí)行所述計算的特定機制可能有所不同。例如,本發(fā)明的一個實施例使用中間步驟260(如在第二處理路徑B中所示的),其中從所觀察的上下文狀態(tài)信息計算預(yù)期平均回報和預(yù)期不確定性度量,然后在步驟264,響應(yīng)于所觀察的上下文狀態(tài)信息而選擇操作包括響應(yīng)于所計算的預(yù)期平均回報和不確定性度量而選擇操作。在完成步驟264時,本發(fā)明的通用實施例然后將在步驟272響應(yīng)于所選擇的操作而記錄觀察到的模擬回報,以便在完成模擬試驗時,推薦要在規(guī)劃問題狀態(tài)(對應(yīng)于所述模擬試驗中的頂級根節(jié)點狀態(tài))下執(zhí)行的操作,其中所推薦的操作響應(yīng)于在所述模擬試驗中獲得的模擬回報結(jié)果。其他實施例可以另外包括步驟268,其中所述模擬器(運行所述模擬模型)生成向在264選擇的操作的一個可用后續(xù)狀態(tài)的轉(zhuǎn)變,其中在272處觀察到的模擬回報響應(yīng)于以下項中的一個或多個:所選擇的操作和所模擬的狀態(tài)轉(zhuǎn)變。返回參考圖3A,在模擬期間,在208,計算系統(tǒng)維護(hù)與已遇到的所觀察到的基礎(chǔ)狀態(tài)對應(yīng)的節(jié)點集合(例如,圖2中的數(shù)據(jù)結(jié)構(gòu)10)。節(jié)點由基礎(chǔ)狀態(tài)變量值唯一地標(biāo)識,以便將對相同基礎(chǔ)狀態(tài)變量值的兩次觀察分組在一個節(jié)點中。在一個實施例中,如圖2中所示,每當(dāng)在模擬試驗j期間遇到節(jié)點時,計算系統(tǒng)將維護(hù)在此節(jié)點中觀察到的數(shù)據(jù)記錄(sp rp,其中表示第j個試驗中的上下文狀態(tài)信息并且其取決于規(guī)劃目標(biāo),rj是從節(jié)點“N”開始獲得的所觀察的立即回報或所觀察的累積回報。在后者的情況中,將在此試驗的后續(xù)狀態(tài)下獲得的任何后續(xù)回報都添加到h的值中。添加到&的值可以乘以Yd,其中Y表示位于范圍
內(nèi)的折扣參數(shù),d是表示后續(xù)回報的延遲(以離散決策區(qū)間數(shù)度量)的整數(shù)。在運行模擬步驟208之后,計算系統(tǒng)被配置為在步驟210判定是否在此模擬試驗中執(zhí)行其他步驟。如果需要更多的模擬(例如,沒有最終確定),則所述過程繼續(xù)在步驟208執(zhí)行此試驗的模擬。例如,在此作業(yè)調(diào)度環(huán)境中,模擬試驗一直繼續(xù),直到通過在截止時間之前完成所有作業(yè)(回報值=1)或通過在超過截止時間未完成所有作業(yè)(回報值=O)而獲得最終回報。在完成模擬試驗時,計算系統(tǒng)被配置為繼續(xù)到步驟212,其中更新針對參與所述模擬試驗的節(jié)點維護(hù)的統(tǒng)計(例如,上述{(Syh)}數(shù)據(jù)集)。例如,此更新導(dǎo)致存儲參與模擬試驗“ j”的每個操作節(jié)點“k”處的數(shù)據(jù)對( , ι.Λ),其中“^”是上下文狀態(tài)信息,即,在模擬試驗“ j ”中的節(jié)點“k”處記錄的時間戳,“rjk”表示在節(jié)點“k”開始的模擬試驗“ j ”中獲得的累積模擬回報(對應(yīng)于作業(yè)調(diào)度任務(wù)中的最終回報)。因此,在實例作業(yè)/服務(wù)器調(diào)度問題中,可能有5個服務(wù)器設(shè)備(計算機器)并且所有機器當(dāng)前都忙于處理作業(yè)。剩余作業(yè)《3、上和上待處理。在實例實際環(huán)境中,在當(dāng)前正在運行的所有作業(yè)中,首先完成的作業(yè)將釋放其服務(wù)器(例如,服務(wù)器2),在此情況下可以將作業(yè)J5分派給此服務(wù)器。在此實例中,操作包括選擇剩余作業(yè)以便在可用服務(wù)器上運行,狀態(tài)轉(zhuǎn)變包括完成一個或多個作業(yè)且對應(yīng)的服務(wù)器變得可用。當(dāng)發(fā)生轉(zhuǎn)變時,已經(jīng)過一定的時間量,其被表示為上下文狀態(tài)信息(例如,表示為“t”)。因此,在上面的示例性狀態(tài)下,每次服務(wù)器2變得空閑并且分派作業(yè)J5時,實施模擬模型的模擬器都可以多次執(zhí)行此模擬,且在每個試驗中經(jīng)過的時間t都不同。經(jīng)過的時間和對應(yīng)的回報(滿足作業(yè)截止時間或不滿足)是模擬模型的輸出并作為數(shù)據(jù)對存儲在對應(yīng)節(jié)點中。如圖5中所示,提供了匯總統(tǒng)計的圖形表示500,例如在χ軸上繪制示出的上下文狀態(tài)信息510 (例如,此實例中的經(jīng)過的時間“t”)以及在y軸上繪制示出的回報515 (例如,完成作業(yè)的概率),以便與節(jié)點k關(guān)聯(lián)。在此實例中,所述回報是二進(jìn)制的:或者試驗導(dǎo)致滿足作業(yè)截止時間(例如,數(shù)據(jù)集對521),或者試驗導(dǎo)致不滿足作業(yè)截止時間(例如,數(shù)據(jù)集對526)。因此,參考圖2,給定節(jié)點N處的實例作業(yè)/服務(wù)器調(diào)度任務(wù),在MCTS樹結(jié)構(gòu)中維護(hù)基礎(chǔ)狀態(tài)信息(例如,五個服務(wù)器機器中的哪個服務(wù)器空閑),并且在MCTS樹的每個節(jié)點處維護(hù)上下文狀態(tài)信息(例如,經(jīng)過的時間t)。給定當(dāng)前狀態(tài),使用兩種類型的信息確定要采取的操作。當(dāng)在每 個試驗中調(diào)用的模擬器中建模時,所述模擬器將產(chǎn)生經(jīng)過的時間。假設(shè)模擬器具有良好的模擬模型,其在可接受的準(zhǔn)確度內(nèi)忠于實際域。模擬器接收觀察到的值(與實際域中的開始狀態(tài)有關(guān));模擬各種后續(xù)狀態(tài)轉(zhuǎn)變;以及生成與這些狀態(tài)轉(zhuǎn)變關(guān)聯(lián)的上下文狀態(tài)變量的模擬。因此,給定實際環(huán)境的當(dāng)前狀態(tài),模擬器接收包括實際域中給定觀察到的值的輸入,并模擬后續(xù)狀態(tài)轉(zhuǎn)變,所述后續(xù)狀態(tài)轉(zhuǎn)變包括與這些狀態(tài)轉(zhuǎn)變關(guān)聯(lián)的模擬上下文狀態(tài)變量(和基礎(chǔ)狀態(tài)變量)。將理解,上下文狀態(tài)信息可以包括一個變量、多個變量,或通常包括從通用度量空間中獲得的數(shù)據(jù)實例。返回參考圖3A,計算系統(tǒng)然后被配置為繼續(xù)到214,其中所述方法包括根據(jù)在給定節(jié)點處存儲的多個記錄的數(shù)據(jù)對Ksjk,rjk)},在一個或多個節(jié)點處訓(xùn)練值函數(shù)逼近器(FA)0即,給定在操作節(jié)點“k”處記錄的累積存儲數(shù)據(jù)對{(sJk, rJk)},執(zhí)行在此節(jié)點處累積的存儲匯總統(tǒng)計數(shù)據(jù)的回歸擬合。此函數(shù)被表示為函數(shù)“Pk(s) ”,例如圖5中所示的平滑函數(shù) 505。圖5具體示出了示例性圖500,其示出一個實施例中與在操作節(jié)點處累積的數(shù)據(jù)集擬合的示例性回歸函數(shù)505。所述數(shù)據(jù)集可以包括包含上下文狀態(tài)信息510和觀察到的回報值515的多個對。計算系統(tǒng)例如通過使用編程回歸技術(shù)將回歸函數(shù)505與所述數(shù)據(jù)集擬合,所述編程回歸技術(shù)包括但不限于本領(lǐng)域公知的技術(shù)(例如,線性回歸、邏輯回歸、樣條回歸、回歸樹等)以及本領(lǐng)域公知的各種損失函數(shù)(例如,均方誤差、交叉熵誤差等)。例如,線性回歸通過使用線性公式而逼近上下文狀態(tài)信息510和觀察到的回報515之間的關(guān)系。邏輯回歸通過將數(shù)據(jù)集與邏輯函數(shù)曲線(即,平滑函數(shù)505)擬合來預(yù)測發(fā)生事件(例如,發(fā)生觀察到的回報)的概率。樣條回歸方法對輸入狀態(tài)空間強制實行均勻分區(qū),并且將簡單函數(shù)(例如,線性或二次函數(shù))與每個分區(qū)中的觀察到的抽樣擬合,這受到跨相鄰分區(qū)的連續(xù)性和平滑性約束的影響?;貧w樹例如通過以下操作逼近實值函數(shù):遞歸地將輸入狀態(tài)空間分區(qū),然后將簡單函數(shù)(例如,常數(shù)函數(shù))與葉節(jié)點分區(qū)中的觀察到的抽樣擬合。因此,對于實例作業(yè)/服務(wù)器調(diào)度任務(wù),在任何給定試驗期間,當(dāng)MCTS算法執(zhí)行從樹遞降的步驟時,在試驗的每個步驟處都觀察到從所述模擬器輸出的經(jīng)過的時間t’。因此,給定回歸曲線,在公式(I)的上界計算中使用從每個試驗(模擬)中的回歸模型接收的估計:平均值yi(t’)和不確定性度量erri(t’)。因此,對于圖2中所示的實例,函數(shù)UiO表示操作節(jié)點20k處的回歸曲線25的形狀,t’是用于獲得預(yù)期回報值的回歸曲線的輸入上下文狀態(tài)(例如,在t軸上)的具體值(并且對于操作節(jié)點2、3、4等類似)。為了根據(jù)回歸分析度量平均值中的不確定性,在一個實施例中采用誤差傳播技術(shù)。例如,在一個實施例中,根據(jù)高斯誤差傳播技術(shù)從公式(I)中的回歸參數(shù)值的標(biāo)準(zhǔn)誤差(例如,線性回歸模型y=ax+b中的擬合系數(shù)a和b)計算預(yù)期回報中的不確定性(例如,err, (t’))。根據(jù)此技術(shù),預(yù)期回報中的不確定性eri^ (t’ )被計算為sqrt ( σ a2x2+ σ b2),其中03和Ob分別是線性回歸參數(shù)a和b的估計中的標(biāo)準(zhǔn)誤差。在另一個實施例中,通過向節(jié)點的數(shù)據(jù)對集合臨時添加虛構(gòu)數(shù)據(jù)點(s,r*)獲得預(yù)期回報中的不確定性erri(t’),其中s是觀察到的上下文變量狀態(tài),r*是可以在任何試驗中獲得的最大可能回報。此類數(shù)據(jù)點例如在圖5中示出,其被繪制為表示針對包括此數(shù)據(jù)的操作節(jié)點的模擬試驗期間其他觀察到的上下文狀態(tài)數(shù)據(jù)的數(shù)據(jù)對540。所述系統(tǒng)然后執(zhí)行針對擴展數(shù)據(jù)集重新訓(xùn)練回歸模型,并使用新的預(yù)期回報和先前預(yù)期回報之間的差確定不確定性估計。例如, 對于作業(yè)/服務(wù)器調(diào)度任務(wù),給定圖5的實例回歸曲線,在估計滿足截止時間的可能性中,當(dāng)確定接下來要選擇的操作(節(jié)點)時,向累積的(存儲的)數(shù)據(jù)對添加附加數(shù)據(jù)點(s.1),然后重新計算回歸曲線。當(dāng)確定要采取何種操作時,采用針對添加到所述數(shù)據(jù)集的新值重新訓(xùn)練FA曲線之后的曲線移位程度作為不確定性度量(即,err^f )估計)。例如,計算系統(tǒng)計算原始估計的預(yù)期回報和重新計算的預(yù)期回報之間的差。在此實施例中,所計算的差是公式(I)中的不確定性估計erri(s)。作為使用回歸技術(shù)配置計算系統(tǒng)以便將值函數(shù)(FA)與更新后的統(tǒng)計擬合的備選方案,計算系統(tǒng)被編程以便備選地通過以下項訓(xùn)練所述值函數(shù)逼近器:用于訓(xùn)練參數(shù)化回歸模型(例如,邏輯回歸)的快速在線學(xué)習(xí)方法(例如,隨機梯度方法),或用于訓(xùn)練非參數(shù)回歸模型(例如,回歸樹)的快速增量批量學(xué)習(xí)方法。在任一實施例中,值函數(shù)逼近器(被表示為擬合后的回歸函數(shù)505)的輸出是可以在計算系統(tǒng)選擇特定操作節(jié)點時獲得的預(yù)期回報估計,即,公式(I)中的Ui(s)。節(jié)點選擇另外可以響應(yīng)于預(yù)期回報的不確定性估計,即,公式(I)中的erri(s)。對于圖2的實例作業(yè)/服務(wù)器調(diào)度,505中示出的邏輯函數(shù)類型提供預(yù)期回報估計,其可以在計算系統(tǒng)在任何可能剩余時間值T處選擇特定操作節(jié)點時獲得。例如,所述函數(shù)用于在任何可能剩余時間值“T”處估計節(jié)點“k”處的預(yù)期成功概率,即,通過采取在節(jié)點“k”中指定的操作而估計在“T”內(nèi)完成剩余作業(yè)的概率。在一個備選實施例中,可以將不確定性度量轉(zhuǎn)換為節(jié)點處的等效試驗數(shù)量“N”(例如,添加到回報估計置信度)。返回圖3A,在步驟214完成值函數(shù)逼近器的訓(xùn)練之后,計算系統(tǒng)被配置為繼續(xù)到步驟216,在步驟216做出選擇,或者終止模擬,或者返回步驟206以執(zhí)行從根節(jié)點狀態(tài)開始的其他模擬試驗。在一個實施例中,終止準(zhǔn)則可以基于總體經(jīng)過的模擬CPU時間超過閾值。在另一個實施例中,計算系統(tǒng)被配置為計算當(dāng)前最佳頂級決策的預(yù)期后悔值,并且當(dāng)預(yù)期后悔值低于閾值(例如,0.005)時,模擬終止。預(yù)期后悔值被定義為“真實”最佳回報率(如果可以執(zhí)行無限數(shù)量的模擬試驗,則將確切知道此回報率)和選定頂級操作的回報率之間的預(yù)期差。給定所有頂級操作的回報分布,可以根據(jù)本領(lǐng)域公知的既定方法計算任何頂級操作的預(yù)期后悔值。如果滿足216的終止準(zhǔn)則,則計算系統(tǒng)被配置為繼續(xù)到步驟218。在步驟218,計算系統(tǒng)推薦最大化預(yù)期平均回報的頂級操作(選擇根節(jié)點的子節(jié)點)。在實例作業(yè)調(diào)度任務(wù)的情況下,在實際域中執(zhí)行此選定頂級操作,直到例如隨后在任務(wù)中需要其他調(diào)度決策時。此指定的操作可以包括針對特定作業(yè)選擇特定服務(wù)器設(shè)備,然后計算系統(tǒng)可以被配置為繼續(xù)運行圖2中的方法步驟202-218以計算每個作業(yè)分派決策,直到將所有剩余作業(yè)分派給可用服務(wù)器設(shè)備。在實際環(huán)境中,計算系統(tǒng)(例如,圖4中的計算系統(tǒng)300)使用例如通過用戶界面顯示而提供的推薦,運行圖3A中所示的方法200的方法步驟,以便在決策周期(例如,預(yù)定時間量)或決策序列(即,針對連續(xù)決策周期的整個操作規(guī)劃)中做出決策。備選地,計算系統(tǒng)可以在實際環(huán)境中利用搜索算法(例如,二進(jìn)制搜索樹技術(shù)、蒙特卡羅樹搜索(MCTS)技術(shù)等)做出決策(多個)。總之,在修改后的MCTS方法中,構(gòu)造包含有限且可管理數(shù)量的節(jié)點的樹,同時利用域中的上下文狀態(tài)信息,通過基于快速增量批量訓(xùn)練的函數(shù)逼近方法估計回報。使用實際上下文狀態(tài)信息使得當(dāng)前問題更易于處理,并提供對類似上下文狀態(tài)值的推斷,可以合理地預(yù)計這些類似的值提供類似的目標(biāo)函數(shù)值(即,回報)。其中在MCTS數(shù)據(jù)結(jié)構(gòu)中建立上下文狀態(tài)信息模型的實際隨機(B卩,非確定)環(huán)境的實例包括但不限于:網(wǎng)絡(luò)分組路由和調(diào)度系統(tǒng)、供應(yīng)鏈管理系統(tǒng)、戰(zhàn)場規(guī)劃系統(tǒng)、城市交通管理系統(tǒng)、資源分配系統(tǒng)、自主計算系統(tǒng)(即,自改進(jìn)和自管理計算系統(tǒng))、醫(yī)學(xué)試驗系統(tǒng)、消費者營銷系統(tǒng)、金融市場中的交易系統(tǒng)、其他實際活動、計算機游戲等。圖4示出了計算系統(tǒng)300的示例性硬件配置。所述硬件配置優(yōu)選地具有至少一個處理器或中央處理單元(CPU) 311。CPU311通過系統(tǒng)總線312與以下項互連:隨機存取存儲器(RAM) 314、只讀存儲器(ROM) 316、輸入/輸出(I/O)適配器318 (用于將諸如盤單元321和磁帶驅(qū)動器340之類的外圍設(shè)備連接到總線312)、用戶接口適配器322(用于將鍵盤324、鼠標(biāo)326、揚聲器328、麥克風(fēng)332和/或其他用戶接口設(shè)備連接到總線312)、用于將系統(tǒng)300連接到數(shù)據(jù)處理網(wǎng)絡(luò)、因特網(wǎng)、內(nèi)聯(lián)網(wǎng)、局域網(wǎng)(LAN)等的通信適配器434,以及用于將總線312連接到顯示設(shè)備438和/或打印機339 (例如,數(shù)字打印機等)的顯示適配器336。
所屬技術(shù)領(lǐng)域的技術(shù)人員知道,本發(fā)明可以實現(xiàn)為系統(tǒng)、方法或計算機程序產(chǎn)品。因此,本發(fā)明的各方面可以具體實現(xiàn)為以下形式,即:可以是完全的硬件、也可以是完全的軟件(包括固件、駐留軟件、微代碼等),還可以是硬件和軟件結(jié)合的形式,本文一般稱為“電路”、“模塊”或“系統(tǒng)”。此外,本發(fā)明的各方面還可以實現(xiàn)為在一個或多個計算機可讀介質(zhì)中的計算機程序產(chǎn)品的形式,該計算機可讀介質(zhì)中包含計算機可讀的程序代碼。可以采用一個或多個計算機可讀的介質(zhì)的任意組合。計算機可讀介質(zhì)可以是計算機可讀信號介質(zhì)或者計算機可讀存儲介質(zhì)。計算機可讀存儲介質(zhì)例如可以是一但不限于一電、磁、光、電磁、紅外線、或半導(dǎo)體的系統(tǒng)、裝置或器件,或者任意以上的組合。計算機可讀存儲介質(zhì)的更具體的例子(非窮舉的列表)包括:具有一個或多個導(dǎo)線的電連接、便攜式計算機磁盤、硬盤、隨機存取存儲器(RAM)、只讀存儲器(ROM)、可擦式可編程只讀存儲器(EPR0M或閃存)、光纖、便攜式緊湊磁盤只讀存儲器(CD-ROM)、光存儲器件、磁存儲器件、或者上述的任意合適的組合。在本文件中,計算機可讀存儲介質(zhì)可以是任何包含或存儲程序的有形介質(zhì),該程序可以被指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用。計算機可讀的信號介質(zhì)可以包括在基帶中或者作為載波一部分傳播的數(shù)據(jù)信號,其中承載了計算機可讀的程序代碼。這種傳播的數(shù)據(jù)信號可以采用多種形式,包括一但不限于一電磁信號、光信號或上述的任意合適的組合。計算機可讀的信號介質(zhì)還可以是計算機可讀存儲介質(zhì)以外的任何計算機可讀介質(zhì),該計算機可讀介質(zhì)可以發(fā)送、傳播或者傳輸用于由指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用的程序。計算機可讀介質(zhì)上包含的程序代碼可以用任何適當(dāng)?shù)慕橘|(zhì)傳輸,包括一但不限于一無線、電線、光纜、RF等等,或者上述的任意合適的組合??梢砸砸环N或多種程序設(shè)計語言或其組合來編寫用于執(zhí)行本發(fā)明的各方面的操作的計算機程序代碼,所述程序設(shè)計語言包括面向?qū)ο蟮某绦蛟O(shè)計語言一諸如Java、Smalltalk、C++,還包括常規(guī)的過程式程序設(shè)計語言一諸如” C”語言或類似的程序設(shè)計語言。程序代碼可以完全地在用戶計算機上執(zhí)行、部分地在用戶計算機上執(zhí)行、作為一個獨立的軟件包執(zhí)行、部分在用戶計算機上部分在遠(yuǎn)程計算機上執(zhí)行、或者完全在遠(yuǎn)程計算機或服務(wù)器上執(zhí)行。在涉及遠(yuǎn)程計算機的情形中,遠(yuǎn)程計算機可以通過任意種類的網(wǎng)絡(luò)一包括局域網(wǎng)(LAN)或廣域網(wǎng)(WAN)—連接到用戶計算機,或者,可以連接到外部計算機(例如利用因特網(wǎng)服務(wù)提供商來通過因特網(wǎng)連接)。下面將參照本發(fā)明實施例的方法、裝置(系統(tǒng))和計算機程序產(chǎn)品的流程圖和/或框圖描述本發(fā)明的各方面。應(yīng)當(dāng)理解,流程圖和/或框圖的每個方框以及流程圖和/或框圖中各方框的組合,都可以由計算機程序指令實現(xiàn)。這些計算機程序指令可以提供給通用計算機、專用計算機或其它可編程數(shù)據(jù)處理裝置的處理器,從而生產(chǎn)出一種機器,這些計算機程序指令通過計算機或其它可編程數(shù)據(jù)處理裝置執(zhí)行,產(chǎn)生了實現(xiàn)流程圖和/或框圖中的方框中規(guī)定的功能/操作的裝置。也可以將這些計算機程序指令存儲在能使得計算機或其它可編程數(shù)據(jù)處理裝置以特定方式工作的計算機可讀介質(zhì)中,這樣,存儲在計算機可讀介質(zhì)中的指令就產(chǎn)生出一個包括實現(xiàn)流程圖和/或框圖中的方框中規(guī)定的功能/操作的指令裝置的制品。也可以將計算機程序指令加載到計算機、其它可編程數(shù)據(jù)處理裝置、或其它設(shè)備上,使得在計算機、其它可編程數(shù)據(jù)處理裝置或其它設(shè)備上執(zhí)行一系列操作步驟,以產(chǎn)生計算機實現(xiàn)的過程,從而使得在計算機或其它可編程裝置上執(zhí)行的指令能夠提供實現(xiàn)流程圖和/或框圖中的方框中規(guī)定的功能/操作的過程。附圖中的流程圖和框圖顯示了根據(jù)本發(fā)明的多個實施例的系統(tǒng)、方法和計算機程序產(chǎn)品的可能實現(xiàn)的體系架構(gòu)、功能和操作。在這點上,流程圖或框圖中的每個方框可以代表一個模塊、程序段或代碼的一部分,所述模塊、程序段或代碼的一部分包含一個或多個用于實現(xiàn)規(guī)定的邏輯功能的可執(zhí)行指令。也應(yīng)當(dāng)注意,在有些作為替換的實現(xiàn)中,方框中所標(biāo)注的功能也可以以不同于附圖中所標(biāo)注的順序發(fā)生。例如,兩個連續(xù)的方框?qū)嶋H上可以基本并行地執(zhí)行,它們有時也可以按相反的順序執(zhí)行,這依所涉及的功能而定。也要注意的是,框圖和/或流程圖中的每個方框、以及框圖和/或流程圖中的方框的組合,可以用執(zhí)行規(guī)定的功能或操作的專用的基于硬件的系統(tǒng)來實現(xiàn),或者可以用專用硬件與計算機指令的組合來實現(xiàn)。
權(quán)利要求
1.一種用于選擇規(guī)劃問題狀態(tài)下的操作的方法,所述方法包括: 在所述規(guī)劃問題狀態(tài)的模擬模型中運行多個模擬試驗,所述模擬試驗包含在所述狀態(tài)下導(dǎo)致模擬回報結(jié)果的至少一個可用頂級操作; 響應(yīng)于在所述模擬試驗中獲得的所述模擬回報結(jié)果,在完成所述模擬試驗時推薦要在所述規(guī)劃問題狀態(tài)下執(zhí)行的操作, 其中所述模擬試驗中的至少一個模擬試驗執(zhí)行一個或多個步驟,所述步驟包括: 觀察模擬狀態(tài)下的上下文狀態(tài)信息;以及 響應(yīng)于所觀察的上下文狀態(tài)信息而選擇所述模擬狀態(tài)下的可用操作; 其中包括至少一個處理器和連接到所述處理器的至少一個存儲設(shè)備的計算系統(tǒng)執(zhí)行所述運行、推薦、觀察和選擇。
2.根據(jù)權(quán)利要求1的方法,其中模擬試驗的所述一個或多個步驟進(jìn)一步包括: 響應(yīng)于所觀察的上下文狀態(tài) 信息而估計所述模擬狀態(tài)下的至少一個可用操作的預(yù)期回報,其中響應(yīng)于所觀察的上下文狀態(tài)信息而選擇所述模擬狀態(tài)下的可用操作包括:響應(yīng)于可用操作的估計預(yù)期回報而選擇所述模擬狀態(tài)下的可用操作。
3.根據(jù)權(quán)利要求2的方法,其中模擬試驗的所述一個或多個步驟進(jìn)一步包括: 響應(yīng)于模擬操作而觀察多個模擬回報,以及 更新所述模擬試驗中的對應(yīng)頂級操作處的模擬回報統(tǒng)計;所述計算系統(tǒng)還執(zhí)行所述觀察和更新。
4.根據(jù)權(quán)利要求3的方法,其中模擬試驗的所述一個或多個步驟進(jìn)一步包括: 響應(yīng)于所選擇的操作而模擬向新狀態(tài)的轉(zhuǎn)變,所觀察的多個模擬回報響應(yīng)于以下項中的一個或多個:所選擇的操作或所述狀態(tài)轉(zhuǎn)變。
5.根據(jù)權(quán)利要求3的方法,其中模擬試驗的所述一個或多個步驟進(jìn)一步包括: 維護(hù)數(shù)據(jù)對集合,所述數(shù)據(jù)對包括所觀察的上下文狀態(tài)信息和與所選擇的可用操作關(guān)聯(lián)的所觀察的對應(yīng)模擬回報。
6.根據(jù)權(quán)利要求5的方法,其中從所觀察的上下文狀態(tài)信息估計所述預(yù)期回報包括: 在模擬試驗的所述一個或多個步驟期間,實施回歸模型并計算有關(guān)與可用操作關(guān)聯(lián)的所述數(shù)據(jù)對集合的回歸擬合; 根據(jù)所實施的回歸模型估計以下項中的一個或多個:平均預(yù)期回報或所述平均值中的不確定性;以及 響應(yīng)于以下項中的一個或多個而計算效用:所估計的平均回報或所估計的所述平均值中的不確定性,其中根據(jù)所計算的效用而選擇所述操作。
7.根據(jù)權(quán)利要求6的方法,其中根據(jù)所計算的效用而選擇操作包括:計算多個可用操作的效用,以及選擇具有所計算的最大效用的操作。
8.根據(jù)權(quán)利要求4的方法,其中所觀察的多個模擬回報包括在所述模擬向新狀態(tài)的轉(zhuǎn)變時觀察的立即回報,或包括還包含在所述模擬試驗的后續(xù)步驟中所觀察的模擬回報的累積回報。
9.根據(jù)權(quán)利要求6的方法,其中估計所述平均值中的不確定性包括: 向所述數(shù)據(jù)對添加包括當(dāng)前上下文狀態(tài)信息和最大回報值的額外數(shù)據(jù)對; 重新計算有關(guān)所述數(shù)據(jù)對的回歸擬合;根據(jù)重新計算的回歸擬合重新估計所述平均預(yù)期回報;以及 根據(jù)原始平均預(yù)期回報和重新計算的平均預(yù)期回報之間的差估計所述平均值中的不確定性。
10.一種用于選擇規(guī)劃問題狀態(tài)下的操作的系統(tǒng),所述系統(tǒng)包括: 所述規(guī)劃問題的模擬器,其包括至少一個處理器;以及 連接到所述處理器的至少一個存儲設(shè)備,其中所述處理器被編程以執(zhí)行以下操作: 在所述規(guī)劃問題狀態(tài)的模擬模型中運行多個模擬試驗,所述模擬試驗包含在所述狀態(tài)下導(dǎo)致模擬回報結(jié)果的至少一個可用頂級操作; 響應(yīng)于在所述模擬試驗中獲得的所述模擬回報結(jié)果,在完成所述模擬試驗時推薦要在所述規(guī)劃問題狀態(tài)下執(zhí)行的操作, 其中所述處理器還被編程以在所述模擬試驗中的至少一個模擬試驗中執(zhí)行一個或多個步驟,所述步驟包括: 觀察模擬狀態(tài)下的上下文狀態(tài)信息;以及 響應(yīng)于所觀察的上下文狀態(tài)信息而選擇所述模擬狀態(tài)下的可用操作。
11.根據(jù)權(quán)利要求10的系統(tǒng),其中在模擬試驗的所述一個或多個步驟中,所述處理器還被編程以執(zhí)行以下操作: 響應(yīng)于所觀察的上下文狀 態(tài)信息而估計所述模擬狀態(tài)下的至少一個可用操作的預(yù)期回報,其中響應(yīng)于所觀察的上下文狀態(tài)信息而選擇所述模擬狀態(tài)下的可用操作包括:由所述處理器響應(yīng)于可用操作的估計預(yù)期回報而選擇所述模擬狀態(tài)下的可用操作。
12.根據(jù)權(quán)利要求11的系統(tǒng),其中所述處理器還被編程以在模擬試驗的所述一個或多個步驟中執(zhí)行以下操作: 響應(yīng)于模擬操作而觀察多個模擬回報,以及 更新所述模擬試驗中的對應(yīng)頂級操作處的模擬回報統(tǒng)計;所述處理器執(zhí)行所述觀察和更新。
13.根據(jù)權(quán)利要求12的系統(tǒng),其中所述處理器還被編程以在模擬試驗的所述一個或多個步驟中執(zhí)行以下操作: 響應(yīng)于所選擇的操作而模擬向新狀態(tài)的轉(zhuǎn)變,所觀察的多個模擬回報響應(yīng)于以下項中的一個或多個:所選擇的操作或所述狀態(tài)轉(zhuǎn)變。
14.根據(jù)權(quán)利要求12的系統(tǒng),其中在模擬試驗的所述一個或多個步驟中,所述處理器還被編程以執(zhí)行以下操作: 維護(hù)數(shù)據(jù)對集合,所述數(shù)據(jù)對包括所觀察的上下文狀態(tài)信息和與所選擇的可用操作關(guān)聯(lián)的所觀察的對應(yīng)模擬回報。
15.根據(jù)權(quán)利要求14的系統(tǒng),其中在模擬試驗的所述一個或多個步驟中,所述處理器還被編程以通過以下操作從所觀察的上下文狀態(tài)信息估計所述預(yù)期回報: 在模擬試驗的所述一個或多個步驟期間,實施回歸模型并計算有關(guān)與可用操作關(guān)聯(lián)的所述數(shù)據(jù)對集合的回歸擬合; 根據(jù)所實施的回歸模型估計以下項中的一個或多個:平均預(yù)期回報或所述平均值中的不確定性;以及 響應(yīng)于以下項中的一個或多個而計算效用:所估計的平均回報或所估計的所述平均值中的不確定性,其中根據(jù)所計算的效用而選擇所述操作。
16.根據(jù)權(quán)利要求15的系統(tǒng),其中根據(jù)所計算的效用而選擇操作包括:計算多個可用操作的效用,以及選擇具有所計算的最大效用的操作。
17.根據(jù)權(quán)利要求13的系統(tǒng),其中所觀察的多個模擬回報包括在所述模擬向新狀態(tài)的轉(zhuǎn)變時觀察的立即回報,或包括還包含在所述模擬試驗的后續(xù)步驟中所觀察的模擬回報的累積回報。
18.根據(jù)權(quán)利要求15的系統(tǒng),其中所述處理器還被配置為通過以下操作估計所述平均值中的不確定性: 向所述數(shù)據(jù)對添加包括當(dāng)前上下文狀態(tài)信息和最大回報值的額外數(shù)據(jù)對; 重新計算有關(guān)所述數(shù)據(jù)對的回歸擬合; 根據(jù)重新計算的回歸擬合重新估計所述平均預(yù)期回報;以及 根據(jù)原始平均預(yù)期回報和重新計算的平均預(yù)期回報之間的差估計所述平均值中的不確定性。
19.一種用于將多個作業(yè)分派給適于運行所述作業(yè)的多個計算服務(wù)器設(shè)備的方法,所述作業(yè)分派包括: 構(gòu)造表示任務(wù)分配環(huán)境的數(shù)據(jù)結(jié)構(gòu),所述數(shù)據(jù)結(jié)構(gòu)包括:指定到所述多個計算服務(wù)器設(shè)備的作業(yè)分派的當(dāng)前狀態(tài)的一個或多個節(jié)點,所述作業(yè)具有已知的完成時間分布;以及指定所述當(dāng)前狀態(tài)下的可用操作的一個或多個節(jié)點; 將操作定義為將當(dāng) 前作業(yè)分派給可用計算服務(wù)器,將基礎(chǔ)狀態(tài)轉(zhuǎn)變定義為表示當(dāng)前分派的作業(yè)的完成并且服務(wù)器設(shè)備變得可用,將上下文狀態(tài)定義為表示在強制時間限制之前完成所有多個作業(yè)分派所剩余的時間量t,以及將最終回報值定義為滿足或不滿足所述強制時間限制; 在多個試驗中通過執(zhí)行包括一個或多個步驟的數(shù)據(jù)結(jié)構(gòu)的遞降來模擬所述任務(wù)分配環(huán)境的模型,每個步驟包括:選擇操作、向新的基礎(chǔ)狀態(tài)節(jié)點和新的上下文狀態(tài)轉(zhuǎn)變; 從所述模擬模型中的每個參與節(jié)點輸出所述剩余時間t以及涉及該節(jié)點的每個模擬試驗的對應(yīng)最終回報值,以便存儲在存儲設(shè)備中表示該節(jié)點的數(shù)據(jù)結(jié)構(gòu)中; 根據(jù)由所述模擬模型的輸出所訓(xùn)練的模型,在每個節(jié)點處處理輸出數(shù)據(jù)以獲得所述預(yù)期回報的平均估計和所述平均值中的不確定性;以及 根據(jù)所述模擬試驗中的所述最終回報值,推薦單個計算服務(wù)器以運行所述多個作業(yè)中的每一個,然后當(dāng)各單個作業(yè)在隨機完成時間完成時,在所有剩余作業(yè)中動態(tài)選擇接下來運行的作業(yè),以便最大化在所述強制時間限制內(nèi)完成所有作業(yè)的概率, 其中在所述一個或多個步驟中選擇操作是響應(yīng)于所述預(yù)期回報的平均估計和所述不確定性;以及 其中包括至少一個處理器和連接到所述處理器的至少一個存儲設(shè)備的計算系統(tǒng)執(zhí)行所述構(gòu)造、模擬、輸出、處理以及推薦。
全文摘要
本發(fā)明涉及一種使用上下文信息進(jìn)行蒙特卡羅規(guī)劃的方法和系統(tǒng)。提供了用于選擇規(guī)劃問題狀態(tài)下的操作的方法、系統(tǒng)和計算機程序產(chǎn)品。所述系統(tǒng)從所述規(guī)劃問題的當(dāng)前狀態(tài)開始模擬一個或多個系列的操作、狀態(tài)轉(zhuǎn)變和回報。在模擬在給定狀態(tài)下執(zhí)行給定操作期間,維護(hù)包括由所述操作產(chǎn)生的所觀察的上下文狀態(tài)信息和所觀察的累積回報的數(shù)據(jù)記錄。所述系統(tǒng)針對所述數(shù)據(jù)記錄執(zhí)行回歸擬合,從而能夠根據(jù)上下文狀態(tài)估計預(yù)期回報。所述預(yù)期回報的估計用于在所述模擬期間指導(dǎo)操作的選擇。在完成所有模擬時,推薦在模擬期間獲得最高平均回報的頂級操作,以便在所述規(guī)劃問題的當(dāng)前狀態(tài)下執(zhí)行。
文檔編號G06Q10/06GK103208041SQ201310009910
公開日2013年7月17日 申請日期2013年1月10日 優(yōu)先權(quán)日2012年1月12日
發(fā)明者G·J·泰紹羅, A·貝格爾茲莫, R·B·塞加爾, M·N·韋格曼 申請人:國際商業(yè)機器公司