2。策略管理模塊122代表生成策 略120和/或計(jì)算統(tǒng)計(jì)保證W確保策略120對(duì)于部署來說是安全的(例如,至少顯示出先 前部署的策略的性能等級(jí))的功能。
[0042] 該功能的實(shí)例被示為強(qiáng)化學(xué)習(xí)模塊124,其被用于部署強(qiáng)化學(xué)習(xí)技術(shù)來保證新策 略的部署將相對(duì)于當(dāng)前使用的策略(即,部署策略)具有改進(jìn)。強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)的類 型,其中軟件代理被執(zhí)行W在使累計(jì)獎(jiǎng)勵(lì)的一些概念最大化的環(huán)境中采取動(dòng)作,在運(yùn)種情 況下使策略120的性能最大化W選擇導(dǎo)致相關(guān)商品或服務(wù)的用戶交互(例如,點(diǎn)擊)或轉(zhuǎn) 換的廣告118。
[0043] 例如,強(qiáng)化學(xué)習(xí)模塊124使用強(qiáng)化學(xué)習(xí)來生成新策略將相對(duì)于部署策略顯示出增 加的性能的置信值并由此提供運(yùn)種增加性能的統(tǒng)計(jì)保證。W各種方式生成置信值,諸如通 過內(nèi)容提供器102使用描述先前策略(即,現(xiàn)有或當(dāng)前策略)的部署的部署數(shù)據(jù)。強(qiáng)化學(xué) 習(xí)模塊124然后使用新策略來處理該部署數(shù)據(jù)W計(jì)算統(tǒng)計(jì)保證,如此可W在不具有新策略 的實(shí)際部署的情況下進(jìn)行。W運(yùn)種方式,內(nèi)容提供器102被保護(hù)不受潛在壞策略的部署的 影響,而運(yùn)種壞策略會(huì)通過較低的交互和/或轉(zhuǎn)換而導(dǎo)致降低的收益。
[0044] 作為統(tǒng)計(jì)保證的計(jì)算的一部分,強(qiáng)化學(xué)習(xí)模塊124使用置信不等式126,諸如確保 新策略至少顯示出部署策略的量的"安全性"。集中不等式被用于解決統(tǒng)計(jì)保證的置信度的 函數(shù)與其預(yù)期(即,期望值)的偏離。運(yùn)用于約束置信值的分布,并由此提高統(tǒng)計(jì)保證的精 度。例如,集中不等式可W約束置信值,使得闊值之上的置信值被移動(dòng)到闊值處,可用于塌 陷分布的尾部等等。W下描述集中不等式和強(qiáng)化學(xué)習(xí)的進(jìn)一步討論。
[0045] 如此,W下使用強(qiáng)化學(xué)習(xí)來支持與用于選擇廣告的策略120的選擇和生成相關(guān)聯(lián) 的各種不同功能或其他功能。例如,強(qiáng)化學(xué)習(xí)和集中不等式被用于通過使用統(tǒng)計(jì)保證基于 先前策略的部署數(shù)據(jù)量化新策略的部署中設(shè)及的風(fēng)險(xiǎn)的量。在另一實(shí)例中,強(qiáng)化學(xué)習(xí)和集 中不等式用于選擇多個(gè)策略(如果具有的話)中的哪些被部署W替代當(dāng)前策略。在又一實(shí) 例中,強(qiáng)化學(xué)習(xí)和集中不等式被用于通過迭代技術(shù)(包括策略的參數(shù)調(diào)整W及使用部署數(shù) 據(jù)計(jì)算統(tǒng)計(jì)保證)生成新策略。W下描述并在對(duì)應(yīng)附圖中示出運(yùn)些和其他實(shí)例的進(jìn)一步討 論。
[0046] 盡管W下描述了廣告的選擇,但本文所描述的技術(shù)可用于各種不同類型的策略。 其他策略使用的實(shí)例包括市場(chǎng)效應(yīng)系統(tǒng)、新聞推薦系統(tǒng)、患者診斷系統(tǒng)、神經(jīng)義肢控制、自 動(dòng)藥品管理等中的壽命值優(yōu)化。
[0047] 圖2示出了詳細(xì)示出強(qiáng)化學(xué)習(xí)模塊124的示例性實(shí)施方式中的系統(tǒng)200。系統(tǒng)200 被示為包括第一實(shí)例202、第二實(shí)例204和第Ξ實(shí)例206。在第一實(shí)例中,部署策略208被 用于選擇廣告118包括內(nèi)容112 (例如,網(wǎng)頁),其如先前所述被傳輸至客戶設(shè)備106的用 戶。因此,部署數(shù)據(jù)210被策略管理模塊122收集,其描述內(nèi)容提供器102對(duì)部署策略208 的部署。
[0048] 在運(yùn)種情況下,策略管理模塊112還提出了新策略212用于替換部署策略208。然 后,策略管理模塊122利用強(qiáng)化學(xué)習(xí)模塊124來確定是否部署新策略212,其包括使用參照 圖1所描述的集中不等式126的使用W增加新策略的可能性能的統(tǒng)計(jì)保證的精度。如果新 策略212是"壞的"(例如,具有低于部署策略208的性能分?jǐn)?shù)),則新策略212的部署例如 由于失去用戶交互、轉(zhuǎn)換和上述其他性能測(cè)量而昂貴。
[0049] 為了執(zhí)行運(yùn)種確定,策略管理器模塊122訪問部署數(shù)據(jù)210,其描述圖1的內(nèi)容提 供器102使用部署測(cè)量208。運(yùn)種訪問用于基于新策略212具有比部署策略208更好的性 能的置信度來預(yù)測(cè)是否部署新策略212。W運(yùn)種方式,運(yùn)種預(yù)測(cè)在不具有新策略212的實(shí)際 部署的情況下進(jìn)行。
[0050] 在所示實(shí)例中,強(qiáng)化學(xué)習(xí)模塊124包括置信評(píng)估模塊214,其表示生成統(tǒng)計(jì)保證 216的功能,其實(shí)例在W下被描述為算法1和"安全"。通過使用集中不等式,統(tǒng)計(jì)保證216 被用于基于被圖1的集中不等式126約束的部署數(shù)據(jù)210使用針對(duì)新策略212計(jì)算的置信 值量化新策略212的部署的風(fēng)險(xiǎn)。運(yùn)提高了相對(duì)于傳統(tǒng)技術(shù)的精度。因此,不同于傳統(tǒng)技 術(shù),統(tǒng)計(jì)保證216指示由強(qiáng)化學(xué)習(xí)模塊124學(xué)習(xí)的置信值表示的估計(jì)是正確的置信量。例 如,給出部署策略208、來自部署策略208的部署的部署數(shù)據(jù)210化及性能等級(jí)"fmm",通過 限定估計(jì)精度的統(tǒng)計(jì)保證216來表示新策略212性能處于至少"fmm"的等級(jí)的置信度。
[0051] 如圖3A所不,考慮不圖300。水平軸是"fmiti",其是策略的性能。垂直軸是置?目度, 并且部署策略208在示圖300中具有性能302。使用從部署策略208的部署收集的部署數(shù) 據(jù)210來評(píng)估新策略212,其導(dǎo)致示圖300中繪制的置信值304。置信值304表示性能至少 為水平軸上指定的值的置信度,并由此為該性能的統(tǒng)計(jì)保證。在所示實(shí)例中,性能為至少 0.08的置信度幾乎為1。性能為至少0.086的置信度接近0。應(yīng)該注意,運(yùn)不意味著新策略 212的實(shí)際性能不是運(yùn)么好,而是意味著還不能利用任何實(shí)際置信度來保證性能。
[0052] 該實(shí)例中的統(tǒng)計(jì)保證的置信值304支持強(qiáng)論證來部署新策略212,因?yàn)樵撝当硎?新策略212將比部署策略208執(zhí)行得更好的高置信度。在該實(shí)例中表示實(shí)際部署的新策略 212的性能306也在示圖300中示出。可W在W下算法1的討論中找到并且在對(duì)應(yīng)附圖中 示出該實(shí)例的進(jìn)一步討論。
[0053] 在第二實(shí)例204中,還示出了描述部署策略208的部署的部署數(shù)據(jù)210。在該實(shí)例 中,策略改進(jìn)模塊218用于處理多個(gè)策略220 W進(jìn)行策略選擇222,其具有性能大于部署策 略208的相關(guān)統(tǒng)計(jì)保證。如前所述,傳統(tǒng)方法不包括生成統(tǒng)計(jì)保證的技術(shù),其中一個(gè)策略將 相對(duì)于另一個(gè)顯示出改進(jìn)。如此,難W使用運(yùn)些傳統(tǒng)方法來證明新策略的部署,尤其是由于 壞策略的部署會(huì)是昂貴的(例如,具有低點(diǎn)擊率)。
[0054] 由策略改進(jìn)模塊218實(shí)施W進(jìn)行運(yùn)種選擇的功能被稱為"策略改進(jìn)算法"并且在 W下還稱為"算法2"。在該實(shí)例中,策略改進(jìn)模塊218捜索一組策略220并且如果選擇被 確定為"安全"則進(jìn)行策略選擇222。如果策略220的性能好于性能等級(jí)(例如,"fmi。")并 且在置信等級(jí)內(nèi)(例如,"1-δ "),則選擇是安全的。 陽化5] 可通過用戶來限定性能等級(jí)(例如Z'fmin")和置信等級(jí)(例如,"1-δ ")。例如, 用戶選擇"δ =0.5"且"fmm= 1. 1乘W (部署策略的性能)"意味著W95%的置信度保 證性能的10%改進(jìn)。因此,如果可W根據(jù)安全的定義保證是安全的,則策略改進(jìn)模塊218將 在該實(shí)例中僅建議新策略。策略改進(jìn)模塊218可各種方式來進(jìn)行運(yùn)種確定,諸如采用 在第一實(shí)例202 (例如,W下為算法1)中描述的置信評(píng)估模塊214。
[0056] 在第Ξ實(shí)例206中,示出了用于安全策略部署的自動(dòng)系統(tǒng)。在先前實(shí)例中,描述了 數(shù)據(jù)用于選擇策略的分布,例如作為其采用現(xiàn)有數(shù)據(jù)并提出單個(gè)新策略的"批量"。然而,在 該實(shí)例中,描述了上述分布的迭代版本,其功能被示為可用于生成新策略226的策略生成 模塊224。例如,迭代可用于調(diào)整策略的參數(shù),利用置信度的限定等級(jí)確定具有調(diào)整的策略 是否將比部署策略208顯示出更好的性能,如果是,則部署新策略226作為替換。因此,策 略生成模塊224被配置為進(jìn)行一系列改變W生成新策略226,諸如連續(xù)多次應(yīng)用由策略改 進(jìn)模塊218所表示的功能,添加記錄本來跟蹤對(duì)策略參數(shù)進(jìn)行的改變。
[0057] 在第二實(shí)例204中,針對(duì)部署策略208在一時(shí)間段(例如,一月)內(nèi)收集部署數(shù)據(jù) 210 W進(jìn)行新策略220的策略選擇222。在第Ξ實(shí)例206中,收集部署數(shù)據(jù)210直到找到新 策略226為止,然后策略管理模塊122使得立即切換到執(zhí)行新策略226,例如來替代部署策 略208??蒞針對(duì)多個(gè)"新"策略重復(fù)該處理W替換部署策略。W運(yùn)種方式,可W通過容易地 實(shí)施新策略26來實(shí)現(xiàn)改進(jìn)的性能,可W在W下實(shí)例中的"算法3"和"代達(dá)羅斯值aedalus)" 的描述中找到進(jìn)一步的描述。
[0058] 連施示例
[0059] 用"S"和"A"表示可能狀態(tài)和動(dòng)作的集合,其中狀態(tài)描述對(duì)內(nèi)容(例如,用戶或用 戶訪問的特性)的訪問,W及動(dòng)作源于使用策略120進(jìn)行的判定。盡管W下使用馬爾克夫 判定處理(MDP),但通過用觀察結(jié)果代替狀態(tài),結(jié)果可W直接利用反應(yīng)策略對(duì)P0MDP執(zhí)行。 假設(shè)獎(jiǎng)勵(lì)被約束"rte bmi。,rmJ",并且"《'€凝"被用于索引時(shí)間,從"t= 1"開始,其中 相對(duì)于狀態(tài)具有一些固定分布。表達(dá)"η (s,a,Θ)"被用于表示當(dāng)使用策略參數(shù)"eeirs "時(shí)狀態(tài)"S"下的動(dòng)作"a"的可能性(密度或質(zhì)量),其中"ne "是整數(shù),策略參數(shù)空間的維 度。 W60] 假設(shè)"f; Efts -^纔"是將策略120的策略參數(shù)看作"η (.,.,Θ )"的期望返回值, 良Ρ,對(duì)于任何"Θ "來說,
[0061]
,
[00創(chuàng)其中,"丫 "是指定隨時(shí)間的獎(jiǎng)勵(lì)的折扣的[0,1]間隔中的參數(shù)。問題可W包括有 限范圍,其中每個(gè)軌跡在"Τ"時(shí)間步內(nèi)到達(dá)終端狀態(tài)。因此,每個(gè)軌跡"τ "是狀態(tài)(或觀 察結(jié)果)、動(dòng)作和獎(jiǎng)勵(lì)的排序集合:"τ={Sl,al,;rl,S2,a2,r2,…,Sτ,aτ,rτ}"。為了簡(jiǎn)化 分析,不損失普遍性,可W進(jìn)行返回值"蝶"總是在間隔[0,U中的要求。運(yùn)可w 通過縮放和轉(zhuǎn)換獎(jiǎng)勵(lì)來實(shí)現(xiàn)。
[0063] 獲取數(shù)據(jù)集合"D",其包括"η"個(gè)軌跡,用策略參數(shù)來標(biāo)記,如下生成它們:
[0064] D = Κ τ 1,白 :i e (1, . . . , η},τ i generated using 白 J, W65] 其中,"θ/'表示第i個(gè)參數(shù)矢量,"θ "不是"θ "的第i個(gè)元素。最后,獲取 "1^棘C E "和置信等級(jí)"δ e [0,1]"。
[0066] 當(dāng)利用置信度"1- δ "確定"f ( Θ ) > fmm"時(shí),如果僅提出了新策略參數(shù)"Θ ",則 認(rèn)為算法是安全的。如果利用置信度"1- δ "確定"f ( Θ ) > fmm"測(cè)量參數(shù)"Θ "(與算法 相對(duì))被認(rèn)為是安全的。注意,說明策略是安全的是關(guān)于給出一些數(shù)據(jù)的策略的信任的申 明而不是關(guān)于策略本身的申明。此外,注意,確保"Θ "是安全的等效于確保利用顯著等級(jí) "δ "拒絕"f( Θ )《fmi。"的假設(shè)。運(yùn)種置信度和假設(shè)測(cè)試框架被采用是因?yàn)槠錄]有