栏目导航
网易新闻
推荐产品
联系我们
服务热线
总部地址:
当前位置:主页 > 网易新闻 >
看DeepMind如何用Reinforcement learning玩游戏
浏览: 发布日期:2019-06-30
之后,脑皮层将视觉信号转换为游戏的语义信息,通过经验指导,将语义信息与应该进行的操作做映射,之后是将映射后得到的操作信号传递到身体,如手指动作。操作结束后,游戏场景进入下一帧,玩家得到一定的回报,如越过关隘,或者吃到金币。如此循环,直到游戏结束。仔细想想这个过程,发生在游戏内部的那些事情是玩家所不用考虑的,玩家能够覆盖的只是上述游戏循环的右半段。即输入视觉信号,输出手指动作。而手指动作到下一帧场景,以及玩家得到回报是游戏内部的过程。回报函数R:R是一个映射,跟状态转移概率P有点联系,R说明的是,在当前状态s下,选择操作a,将会得到怎样的回报。需要注意的是,这里的回报不一定是即时回报,如棋牌游戏中,棋子移动一次可能会立刻吃掉对方的棋子,也可能在好多步之后才产生作用。首先,RL的过程是一种随机过程,意即整个决策的过程都是有概率特性的,每一步的选择都不是确定的,而是在一个概率分布中采样出来的结果。因此,整个回报函数是一种沿时间轴进行的时序/路径积分。依据贝叶斯定理,开局时刻不确定性是最大的,开局基本靠猜,或者一些现有的先验知识。随着游戏的不断进行接近终点,局势会逐渐晴朗,预测的准确性也会增高。深蓝对战国际象棋大师卡斯帕罗夫的时候,开局就是一些经典的开局场景,中局不断预测,多考虑战略优势,局势逐渐明朗,因此这时候一般会出现未结束就认输的情况。终局通常就是一些战术上的考量,如何更快的将军等。类似地,在RL中,回报函数的时序/路径积分中,每一步的回报都会乘上一个decay量,即回报随着游戏的进行逐渐衰减。此举也有另一些意味:如何最快的找到好的结果,例如在无人直升机中,花费最小的时间找到最优的控制策略,剩下的就是微调。接下来,当这一切都确定了,剩下的事情就是寻找一种最优策略(policy)。所谓策略,就是状态到动作的映射。我们的目的是,找到一种最优策略,使得遵循这种策略进行的决策过程,得到的全局回报最大。所以,RL的本质就是在这些信号下找到这个最佳策略。这里,是一个函数,这个函数以当前状态s为参数,返回一个动作a,这个动作是一个概率分布,代表着在当前状态s下,转移到任意另外一个状态的概率是多少。假设我们有三个状态,那么这个动作分布可能是这个样子的:价值函数,其中表示当前动作下面的转移概率,表示当前动作下的即时回报函数,是从s转移到之后,所能得到最大的期望价值。无奈,因此求助于DL。注意,在此之前有很多人工特征处理,但很明显,一旦引入了人类的活动,就无法做成一种集成性的系统了,只能成为实验室的二维画面玩具。人类为什么玩游戏玩的好呢?因为人脑非常善于处理高维数据,并飞快的从中抽取模式。现在由DL来替代这块短板。很多问题都是看起来简单,实操过程中困难重重,因此,做任何事情都要in the wild,否则只是在外围打转,没有深度,因此词句缺乏力量,从而写不出有力的篇章。(作者躺枪)看看你自己的生活,你的职业选择、你与配偶的邂逅、你被迫离开故土、你面临的背叛、你突然的致富或潦倒,这些事有多少是按照计划发生的?正如塔勒布在《黑天鹅》中提到的,世界是随机的。纳特西尔弗也保持这种观点:预测一直都不是简单的问题。复杂动力系统的预测困难来自三个方面,一是微观结构的易变性,稀疏性导致缺少显著的统计特征;二是复杂动力系统的混沌性,简单的微扰会带来巨大的变化;三是人类行为的因变性,导致数据分布改变影响预测模型。而不同的目的导向也导致了不同的不同的预测结果。除了天气预报,鲜见较准确的预测系统。笔者一直对随机过程保持敬畏之心。当然原因之一也是笔者曾差点随机过程随机过,但是,抛开那些只是更善于阐述而已,甚至只是更善于用复杂的数学模型把你弄晕而已的故弄玄虚,随机过程支撑整个世界,贝叶斯点睛你的生活。

版权所有 博运棋牌|棋牌游戏 2016 Power by DedeCms 备案号:博运棋牌|棋牌游戏

技术支持:AB模版网