重要就是微软钻研院(Microsoft Research)的Aleksandrs Slivkins的這本關于MAB的draft book Introduction to Multi-Armed Bandits (還未正式出书,他近来還一向在完美): 這是我小我認为今朝市道市情上最合适入门的MAB教科书。整本书的逻辑都很清楚,且数學derivation也尽量都是從first principles動身,對很多成果的proof都是我見過的写的最简便的,Slivkins本人對這個范畴進献也很是大,他對不少细節都有很深刻的思虑,以是才能写出這么neat的讲授向內容吧。小我很是举薦,并将重要在MAB的內容先容他的思绪。
Slivkins以前,另外一位MAB范畴的大神Sebastien Bubeck(也在MSR...)的课本Regret Analysis of Stochastic and Nonstochastic Multi-armed Bandit Problems多是市道市情上独一找的到的體系性论述各方面MAB理论的课本。 Bubeck天然也是MAB范畴一名极具缔造力和洞察力的大牛,不外小我認为他的這本课本并無Slivkins的书合适入门,由于Bubeck的课本气概一如他写博客的气概,不少處所很是handwavy,即不给证实细節而跟你“简略聊聊”這些個成果和暗地里的intuition。。。以是建议有必定根本的同窗再去读他的內容,如许可能反而收成會更大一些。
RL:
零根本的环境下,天然Richard Sutton和Andrew Barto的Reinforcement learning: An introduction是不克不及错過的。這两位也是上世纪90年月最先引入RL這個名称的人。這本书的益處是触及的內容很广,近来也正好重版。总之是RL進修者必定不克不及错過的,不外由于內容太多实在我也一向没读完。。
Dimitri Bertsekas近来的新书Reinforcement Learning and Optimal Control。值得注重的是,這本书今朝也仍是在底稿(draft)状况,估计會在来岁正式搞定。Bertsekas老爷子是新晋的2018年冯诺依曼奖得到者,是動态计劃(dynamic progra妹妹ing,DP)范畴的奠定人之一,此中之一的缘由即是他和他的學生/互助者 John Tsitsiklis曾钻研并撰著的范畴Neuro-dynamic Progra妹妹ing(NDP),這实在就是如今火热的深度强化進修(deep reinforcement learning)的理论前身。John是以本年和Dimitri一块儿获奖(他们一块儿获奖的另外一缘由是他们同時也是并行和散布式计较理论的前驱,這里就不细谈了)。咱们晓得,RL和DP,特别是類似動态计劃(approximate dynamic progra妹妹ing, ADP)实在并無甚么很本色的區分(RL對付很多做節制、优化的人来讲就是DP)。老爷子的新书即是從DP的角度来说RL內里的各類建模和算法,也有很多颇有意思的概念。
前两個质料可能仍是有點經典。是以,我将偏重谈一些比力新的內容。這一方面,好比Benjamin Van Roy, Daniel Russo, Ian Osband都是近来几年對(deep) RL很是有建树的年青學者。特别是這個Ian Osband(如今是Google Deepmind的钻研員,對,Deepmind就是阿谁搞出了AlphaGo的處所)的很多文章很是值得初學者去研读。好比他的PhD thesis,另有這篇(也是他thesis的焦點),颁發在JMLR上的长文Deep Exploration via Randomized Value Functions,在贝叶斯的框架下,不但谈了理论和实行成果,最首要的是大量谈“咱们應当若何做好RL?”。我感觉在钻研任何问题的時辰,在咱们在详细上手以前弄清晰咱们到底要做甚么,要怎样做真的是很首要的。
此外MAB有一類很首要的變種,叫做contextual MAB(cMAB)。几近所有在線告白推送(dynamic ad display)均可以当作是cMAB问题。在這種问题中,每一個arm的回报會和当前時段呈現的主顾的特性(也就是這里说的context)有關。一样,今天咱们不開展讲cMAB,這會在以後花文章專门會商。
此外,若是每台山君機天天摇的次数有上限,那咱们就获得了一個Bandit with Knapsack问题,這種问题以傳统组合优化里的背包问题定名,它的钻研也和近来很多钻研在線背包问题的文章有關,以後咱们也會專门會商。另有不少變種,如Lipshitz bandit, 咱们再也不有有限台呆板,而有無穷台(它们的reward function知足利普西茨持续性)等等。。