用于安全策略部署的自動(dòng)系統(tǒng)的制作方法_2

文檔序號(hào)：9866420閱讀：來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)>用于安全策略部署的自動(dòng)系統(tǒng)的制作方法

2。策略管理模塊122代表生成策略120和/或計(jì)算統(tǒng)計(jì)保證W確保策略120對(duì)于部署來說是安全的（例如，至少顯示出先前部署的策略的性能等級(jí)）的功能。
[0042] 該功能的實(shí)例被示為強(qiáng)化學(xué)習(xí)模塊124,其被用于部署強(qiáng)化學(xué)習(xí)技術(shù)來保證新策略的部署將相對(duì)于當(dāng)前使用的策略（即，部署策略）具有改進(jìn)。強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)的類型，其中軟件代理被執(zhí)行W在使累計(jì)獎(jiǎng)勵(lì)的一些概念最大化的環(huán)境中采取動(dòng)作，在運(yùn)種情況下使策略120的性能最大化W選擇導(dǎo)致相關(guān)商品或服務(wù)的用戶交互（例如，點(diǎn)擊）或轉(zhuǎn) 換的廣告118。
[0043] 例如，強(qiáng)化學(xué)習(xí)模塊124使用強(qiáng)化學(xué)習(xí)來生成新策略將相對(duì)于部署策略顯示出增加的性能的置信值并由此提供運(yùn)種增加性能的統(tǒng)計(jì)保證。W各種方式生成置信值，諸如通過內(nèi)容提供器102使用描述先前策略（即，現(xiàn)有或當(dāng)前策略）的部署的部署數(shù)據(jù)。強(qiáng)化學(xué) 習(xí)模塊124然后使用新策略來處理該部署數(shù)據(jù)W計(jì)算統(tǒng)計(jì)保證，如此可W在不具有新策略的實(shí)際部署的情況下進(jìn)行。W運(yùn)種方式，內(nèi)容提供器102被保護(hù)不受潛在壞策略的部署的影響，而運(yùn)種壞策略會(huì)通過較低的交互和/或轉(zhuǎn)換而導(dǎo)致降低的收益。
[0044] 作為統(tǒng)計(jì)保證的計(jì)算的一部分，強(qiáng)化學(xué)習(xí)模塊124使用置信不等式126,諸如確保新策略至少顯示出部署策略的量的"安全性"。集中不等式被用于解決統(tǒng)計(jì)保證的置信度的函數(shù)與其預(yù)期（即，期望值）的偏離。運(yùn)用于約束置信值的分布，并由此提高統(tǒng)計(jì)保證的精度。例如，集中不等式可W約束置信值，使得闊值之上的置信值被移動(dòng)到闊值處，可用于塌陷分布的尾部等等。W下描述集中不等式和強(qiáng)化學(xué)習(xí)的進(jìn)一步討論。
[0045] 如此，W下使用強(qiáng)化學(xué)習(xí)來支持與用于選擇廣告的策略120的選擇和生成相關(guān)聯(lián) 的各種不同功能或其他功能。例如，強(qiáng)化學(xué)習(xí)和集中不等式被用于通過使用統(tǒng)計(jì)保證基于先前策略的部署數(shù)據(jù)量化新策略的部署中設(shè)及的風(fēng)險(xiǎn)的量。在另一實(shí)例中，強(qiáng)化學(xué)習(xí)和集中不等式用于選擇多個(gè)策略（如果具有的話）中的哪些被部署W替代當(dāng)前策略。在又一實(shí) 例中，強(qiáng)化學(xué)習(xí)和集中不等式被用于通過迭代技術(shù)（包括策略的參數(shù)調(diào)整W及使用部署數(shù) 據(jù)計(jì)算統(tǒng)計(jì)保證）生成新策略。W下描述并在對(duì)應(yīng)附圖中示出運(yùn)些和其他實(shí)例的進(jìn)一步討論。
[0046] 盡管W下描述了廣告的選擇，但本文所描述的技術(shù)可用于各種不同類型的策略。其他策略使用的實(shí)例包括市場(chǎng)效應(yīng)系統(tǒng)、新聞推薦系統(tǒng)、患者診斷系統(tǒng)、神經(jīng)義肢控制、自動(dòng)藥品管理等中的壽命值優(yōu)化。
[0047] 圖2示出了詳細(xì)示出強(qiáng)化學(xué)習(xí)模塊124的示例性實(shí)施方式中的系統(tǒng)200。系統(tǒng)200 被示為包括第一實(shí)例202、第二實(shí)例204和第Ξ實(shí)例206。在第一實(shí)例中，部署策略208被用于選擇廣告118包括內(nèi)容112 (例如，網(wǎng)頁），其如先前所述被傳輸至客戶設(shè)備106的用戶。因此，部署數(shù)據(jù)210被策略管理模塊122收集，其描述內(nèi)容提供器102對(duì)部署策略208 的部署。
[0048] 在運(yùn)種情況下，策略管理模塊112還提出了新策略212用于替換部署策略208。然后，策略管理模塊122利用強(qiáng)化學(xué)習(xí)模塊124來確定是否部署新策略212,其包括使用參照圖1所描述的集中不等式126的使用W增加新策略的可能性能的統(tǒng)計(jì)保證的精度。如果新策略212是"壞的"（例如，具有低于部署策略208的性能分?jǐn)?shù)），則新策略212的部署例如由于失去用戶交互、轉(zhuǎn)換和上述其他性能測(cè)量而昂貴。
[0049] 為了執(zhí)行運(yùn)種確定，策略管理器模塊122訪問部署數(shù)據(jù)210,其描述圖1的內(nèi)容提供器102使用部署測(cè)量208。運(yùn)種訪問用于基于新策略212具有比部署策略208更好的性能的置信度來預(yù)測(cè)是否部署新策略212。W運(yùn)種方式，運(yùn)種預(yù)測(cè)在不具有新策略212的實(shí)際部署的情況下進(jìn)行。
[0050] 在所示實(shí)例中，強(qiáng)化學(xué)習(xí)模塊124包括置信評(píng)估模塊214,其表示生成統(tǒng)計(jì)保證 216的功能，其實(shí)例在W下被描述為算法1和"安全"。通過使用集中不等式，統(tǒng)計(jì)保證216 被用于基于被圖1的集中不等式126約束的部署數(shù)據(jù)210使用針對(duì)新策略212計(jì)算的置信值量化新策略212的部署的風(fēng)險(xiǎn)。運(yùn)提高了相對(duì)于傳統(tǒng)技術(shù)的精度。因此，不同于傳統(tǒng)技術(shù)，統(tǒng)計(jì)保證216指示由強(qiáng)化學(xué)習(xí)模塊124學(xué)習(xí)的置信值表示的估計(jì)是正確的置信量。例如，給出部署策略208、來自部署策略208的部署的部署數(shù)據(jù)210化及性能等級(jí)"fmm"，通過限定估計(jì)精度的統(tǒng)計(jì)保證216來表示新策略212性能處于至少"fmm"的等級(jí)的置信度。
[0051] 如圖3A所不，考慮不圖300。水平軸是"fmiti"，其是策略的性能。垂直軸是置?目度，并且部署策略208在示圖300中具有性能302。使用從部署策略208的部署收集的部署數(shù) 據(jù)210來評(píng)估新策略212,其導(dǎo)致示圖300中繪制的置信值304。置信值304表示性能至少為水平軸上指定的值的置信度，并由此為該性能的統(tǒng)計(jì)保證。在所示實(shí)例中，性能為至少 0.08的置信度幾乎為1。性能為至少0.086的置信度接近0。應(yīng)該注意，運(yùn)不意味著新策略 212的實(shí)際性能不是運(yùn)么好，而是意味著還不能利用任何實(shí)際置信度來保證性能。
[0052] 該實(shí)例中的統(tǒng)計(jì)保證的置信值304支持強(qiáng)論證來部署新策略212,因?yàn)樵撝当硎?新策略212將比部署策略208執(zhí)行得更好的高置信度。在該實(shí)例中表示實(shí)際部署的新策略 212的性能306也在示圖300中示出。可W在W下算法1的討論中找到并且在對(duì)應(yīng)附圖中示出該實(shí)例的進(jìn)一步討論。
[0053] 在第二實(shí)例204中，還示出了描述部署策略208的部署的部署數(shù)據(jù)210。在該實(shí)例中，策略改進(jìn)模塊218用于處理多個(gè)策略220 W進(jìn)行策略選擇222,其具有性能大于部署策略208的相關(guān)統(tǒng)計(jì)保證。如前所述，傳統(tǒng)方法不包括生成統(tǒng)計(jì)保證的技術(shù)，其中一個(gè)策略將相對(duì)于另一個(gè)顯示出改進(jìn)。如此，難W使用運(yùn)些傳統(tǒng)方法來證明新策略的部署，尤其是由于壞策略的部署會(huì)是昂貴的（例如，具有低點(diǎn)擊率）。
[0054] 由策略改進(jìn)模塊218實(shí)施W進(jìn)行運(yùn)種選擇的功能被稱為"策略改進(jìn)算法"并且在 W下還稱為"算法2"。在該實(shí)例中，策略改進(jìn)模塊218捜索一組策略220并且如果選擇被確定為"安全"則進(jìn)行策略選擇222。如果策略220的性能好于性能等級(jí)（例如，"fmi。"）并且在置信等級(jí)內(nèi)（例如，"1-δ ")，則選擇是安全的。陽化5] 可通過用戶來限定性能等級(jí)（例如Z'fmin")和置信等級(jí)（例如，"1-δ ")。例如，用戶選擇"δ =0.5"且"fmm= 1. 1乘W (部署策略的性能）"意味著W95%的置信度保證性能的10%改進(jìn)。因此，如果可W根據(jù)安全的定義保證是安全的，則策略改進(jìn)模塊218將在該實(shí)例中僅建議新策略。策略改進(jìn)模塊218可各種方式來進(jìn)行運(yùn)種確定，諸如采用在第一實(shí)例202 (例如，W下為算法1)中描述的置信評(píng)估模塊214。
[0056] 在第Ξ實(shí)例206中，示出了用于安全策略部署的自動(dòng)系統(tǒng)。在先前實(shí)例中，描述了數(shù)據(jù)用于選擇策略的分布，例如作為其采用現(xiàn)有數(shù)據(jù)并提出單個(gè)新策略的"批量"。然而，在該實(shí)例中，描述了上述分布的迭代版本，其功能被示為可用于生成新策略226的策略生成模塊224。例如，迭代可用于調(diào)整策略的參數(shù)，利用置信度的限定等級(jí)確定具有調(diào)整的策略是否將比部署策略208顯示出更好的性能，如果是，則部署新策略226作為替換。因此，策略生成模塊224被配置為進(jìn)行一系列改變W生成新策略226,諸如連續(xù)多次應(yīng)用由策略改進(jìn)模塊218所表示的功能，添加記錄本來跟蹤對(duì)策略參數(shù)進(jìn)行的改變。
[0057] 在第二實(shí)例204中，針對(duì)部署策略208在一時(shí)間段（例如，一月）內(nèi)收集部署數(shù)據(jù) 210 W進(jìn)行新策略220的策略選擇222。在第Ξ實(shí)例206中，收集部署數(shù)據(jù)210直到找到新策略226為止，然后策略管理模塊122使得立即切換到執(zhí)行新策略226,例如來替代部署策略208?？蒞針對(duì)多個(gè)"新"策略重復(fù)該處理W替換部署策略。W運(yùn)種方式，可W通過容易地實(shí)施新策略26來實(shí)現(xiàn)改進(jìn)的性能，可W在W下實(shí)例中的"算法3"和"代達(dá)羅斯值aedalus)" 的描述中找到進(jìn)一步的描述。
[0058] 連施示例
[0059] 用"S"和"A"表示可能狀態(tài)和動(dòng)作的集合，其中狀態(tài)描述對(duì)內(nèi)容（例如，用戶或用戶訪問的特性）的訪問，W及動(dòng)作源于使用策略120進(jìn)行的判定。盡管W下使用馬爾克夫判定處理（MDP)，但通過用觀察結(jié)果代替狀態(tài)，結(jié)果可W直接利用反應(yīng)策略對(duì)P0MDP執(zhí)行。假設(shè)獎(jiǎng)勵(lì)被約束"rte bmi。，rmJ"，并且"《'€凝"被用于索引時(shí)間，從"t= 1"開始，其中相對(duì)于狀態(tài)具有一些固定分布。表達(dá)"η (s，a，Θ)"被用于表示當(dāng)使用策略參數(shù)"eeirs "時(shí)狀態(tài)"S"下的動(dòng)作"a"的可能性（密度或質(zhì)量），其中"ne "是整數(shù)，策略參數(shù)空間的維度。 W60] 假設(shè)"f; Efts -^纔"是將策略120的策略參數(shù)看作"η (.，.，Θ )"的期望返回值，良Ρ，對(duì)于任何"Θ "來說，
[0061]
,
[00創(chuàng)其中，"丫 "是指定隨時(shí)間的獎(jiǎng)勵(lì)的折扣的[0,1]間隔中的參數(shù)。問題可W包括有限范圍，其中每個(gè)軌跡在"Τ"時(shí)間步內(nèi)到達(dá)終端狀態(tài)。因此，每個(gè)軌跡"τ "是狀態(tài)（或觀察結(jié)果）、動(dòng)作和獎(jiǎng)勵(lì)的排序集合："τ={Sl，al，;rl，S2，a2，r2，…，Sτ，aτ，rτ}"。為了簡(jiǎn)化分析，不損失普遍性，可W進(jìn)行返回值"蝶"總是在間隔[0，U中的要求。運(yùn)可w 通過縮放和轉(zhuǎn)換獎(jiǎng)勵(lì)來實(shí)現(xiàn)。
[0063] 獲取數(shù)據(jù)集合"D"，其包括"η"個(gè)軌跡，用策略參數(shù)來標(biāo)記，如下生成它們：
[0064] D = Κ τ 1,白 :i e (1, . . . , η}，τ i generated using 白 J， W65] 其中，"θ/'表示第i個(gè)參數(shù)矢量，"θ "不是"θ "的第i個(gè)元素。最后，獲取 "1^棘C E "和置信等級(jí)"δ e [0,1]"。
[0066] 當(dāng)利用置信度"1- δ "確定"f ( Θ ) > fmm"時(shí)，如果僅提出了新策略參數(shù)"Θ "，則認(rèn)為算法是安全的。如果利用置信度"1- δ "確定"f ( Θ ) > fmm"測(cè)量參數(shù)"Θ "(與算法相對(duì)）被認(rèn)為是安全的。注意，說明策略是安全的是關(guān)于給出一些數(shù)據(jù)的策略的信任的申明而不是關(guān)于策略本身的申明。此外，注意，確保"Θ "是安全的等效于確保利用顯著等級(jí) "δ "拒絕"f( Θ )《fmi。"的假設(shè)。運(yùn)種置信度和假設(shè)測(cè)試框架被采用是因?yàn)槠錄]有

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第2頁1 2 3 4 5 6

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

系統(tǒng)安全策略相關(guān)技術(shù)

自動(dòng)化上線部署系統(tǒng)相關(guān)技術(shù)

自動(dòng)化部署系統(tǒng)相關(guān)技術(shù)

信息系統(tǒng)安全策略相關(guān)技術(shù)

windows系統(tǒng)安全策略相關(guān)技術(shù)

開源自動(dòng)化部署系統(tǒng)相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

用于安全策略部署的自動(dòng)系統(tǒng)的制作方法_2