微信扫一扫
分享到朋友圈

学界 | 谷歌大脑实现更宽广的智能体视野,在Atari2600上可持续超越人类玩家!

作者:机器之心 来源:机器之心 公众号
分享到:

07-10

选自arXiv

作者:Tobias Pohlen等

机器之心编译

参与:Geek AI、王淑婷


深度强化学习的发展衍生出了能够在各种游戏任务中达到人类相当水平的智能体。但是如何让这些智能体持续学习并超越人类玩家却是一大难点。本文作者提出了一种新的深度 Q-网络算法来解决这个问题。


1 引言


近年来,深度强化学习(RL)领域取得了重大进展,催生了能够在各种各样的任务中达到与人类控制能力水平相当的人工智能体,这些任务其中就包括雅达利(Atari)2600 中的一些游戏 [2]。在许多雅达利游戏中,这些智能体学习到的游戏策略远远超过了普通人类玩家的水平 [5,6,8]。然而,在整个游戏过程中持续学习人类水平的策略仍然是一个开放性的问题。


作者认为,一个算法需要解决三个关键问题才能在所有的雅达利游戏中有良好的表现。首要的问题是处理各种奖励分配。算法必须稳定地进行学习,而不必考虑奖励密度和尺度。Mnih 等人 [13] 指出,将奖励的变化范围裁剪到归一化区间 [-1,1] 中是实现稳定性的一种方法。


然而,这种裁剪操作可能会改变最优策略的集合。例如,在保龄球游戏中,智能体不再将击倒一球和十球区别开来。因此,以一种稳定的方式优化不变的奖励信号对于在游戏中持续获得良好性能至关重要的。第二个问题是进行长期推理,这意味着算法应该能够选择可能在长期看来可以预见到较高累积奖励的动作。例如,在「蒙特祖玛的复仇(MONTEZUMA』S REVENGE)」中,个人奖励可能被数百个时间步分隔开来。在标准的 γ 折扣强化学习中,这意味着算法应该能够处理近似于 1 的折扣因子(即直接计算累积奖励)。最后的第三个问题是对马尔可夫过程(MDP)的高效探索。一个高效探索的算法能够在合理的时间内发现具有高累积奖励的长期轨迹,即使在这个轨迹中个人奖励可能是十分稀疏的。虽然以上每个问题都在文献中得到了部分解决,但是没有一种现有的深度强化学习算法能够一次性解决这三个问题。


在本文中,作者提出了一种新的深度 Q-网络「Deep Q-Network(DQN)」算法,专门用来解决这三个问题。为了能够独立于奖励分布进行稳定的学习,作者使用了一种转换后的 Bellman 算子来减小动作-值函数的方差。利用转换后的算子进行学习可以使我们在不考虑密度和尺度的情况下处理不变的环境奖励。作者证明了最优策略在确定性的马尔科夫决策过程中是不变的,并说明了在特定的假设下,该算子是随机马尔科夫决策过程(MDP)的一种收缩形式(即,算法将收敛到一个定点,见 3.2 章)。由于引入了时序一致性(TC)损失,即使折扣因子很大时本文提出的算法也能稳定地进行学习。时序一致性损失可以防止网络过早地泛化到不可见的状态(见 3.3 章),这使作者可以在实际训练中使用像 γ = 0.999 这样高的折扣因子。与其它用于雅达利游戏的深度强化学习方法相比,这将本文提出算法的有效规划范围扩大了一个数量级。最后,本文通过将 Horgan 等人 [8] 提出的分布式经验回放法和 Hester 等人 [7] 提出的「演示深度 Q 学习」算法相结合,提高了 DQN 默认搜索策略的效率。最终的算法架构是一个分布式的 actor-learner 系统,它结合了离线专家演示和在线智能体经验(见 3.4 章)


作者通过实验在 42 个游戏上验证了本文提出的算法,这些游戏已经通过专业人类玩家演示过(见表 5)。在所有游戏中使用相同的超参数,本文提出的算法在 40 个游戏中的表现超过了普通人类玩家,其中在 34 个游戏中超越专业玩家,并至少在 28 个游戏中超过了目前最先进的智能体。此外,本文的算法在具有稀疏奖励的游戏中显著提升了目前最先进模型的水平。本文提出的算法是首个通过「蒙特祖玛的复仇」第一关的算法,并且它还在「PITFALL」游戏中取得了新的最高纪录——3997 分!虽然仅仅使用了 5 个演示学习轨迹,这并没有影响算法在具有密集奖励的游戏中的表现。


图 1:本文提出的计算框架(b)与 Horgan 等人提出的计算框架(a)的对比。


表 1:该表显示了一种方法在测试游戏哪个部分时的表现至少与另一种方法一样好。用于比较的分数是在不加以任何操作的启动方法下得出的。如 4.1 章所述,作者将智能体的得分与普通人类玩家、专业玩家相对比。Ape-X DQfD(更深的模型)在 42 个游戏中,有 40 个游戏的表现超过了普通人。


表 2: 该表显示了本文算法的人为归一化性能和基线。对于每一个游戏,作者将分数归一化为



接着在所有的游戏上对该分数进行聚集(求均值或中值,类似于数据库中的聚集函数)。由于本文仅仅为 57 种游戏中的 42 种提供了演示,所以作者在此分别展示了在 42 种有演示的游戏中的表现,以及 在 57 种用作基线且没有使用演示的游戏中的表现。


图 2:该图显示了随着时间的推移,累计无折扣训练阶段的返回值,并且将最佳专家完成的任务阶段和最佳的 Ape-X DQfD 的任务阶段进行了对比。在游戏「HERO」中,该算法超越了人类专家的表现。在「蒙特祖玛的复仇」中,它以更短的时间取得了与人类专家相匹敌的成绩。然而,在「MS.PACMAN」中,人类专家仍然技高一筹。


图 3:使用标准的网络架构进行模型简化测试的实验结果。不使用专家数据(红线所示)的实验采用了 [8] 中使用的较快探索进度。


图 4:该图显示了当我们将转换后的 Bellman 算子替换为 PopArt 时,以及将时序一致性(TC)损失替换为受限时序差分(TD)更新时,模型性能与本文算法性能的对比。请注意,本图刻度与图 3 中的刻度不同,因为本次实验只运行了 40 小时。


论文:Observe and Look Further: Achieving Consistent Performance on Atari(欲穷千里目,更上一层楼:在 Atari 游戏中获得始终如一的良好性能)



论文地址:https://arxiv.org/pdf/1805.11593.pdf


尽管深度强化学习(RL)领域取得了重大进展,但现有的算法仍然不能在各种任务(如雅达利 2600 游戏)上始终如一地习得与人类水平相当的策略。本文作者指出任何的强化学习算法都需要解决三个主要的问题才能在所有的游戏中取得出色的表现:处理各种各样的奖励分布,进行长期推理,展开高效的探索。在本文中,作者提出了一种新的算法来解决这些问题,能在几乎所有的雅达利游戏中习得与人类水平相当的策略。一种新的转换后的 Bellman 算子使我们的算法能够处理具有各种密度和尺度的奖励。一种附加的时序一致性损失让我们能够使用 γ = 0.999 (而不是 γ = 0.99) 的折扣因子更稳定地训练,同时将有效规划范围扩大一个数量级。作者通过使用人类演示缓解探索问题,这种演示能够指引智能体走向获得奖励的状态。使用 42 种雅达利游戏进行测试时,本文提出的算法使用一组常见的超参数,在 40 种游戏中超越了普通人类的表现。此外,这是第一个通过「蒙特祖玛的复仇」第一关的算法。



本文为机器之心编译,转载请联系本公众号获得授权

✄------------------------------------------------

加入机器之心(全职记者 / 实习生):hr@jiqizhixin.com

投稿或寻求报道:content@jiqizhixin.com

广告 & 商务合作:bd@jiqizhixin.com

阅读9031
智能 超越 
举报0
关注机器之心微信号:almosthuman2014

用微信扫描二维码即可关注
声明

1、头条易读遵循行业规范,任何转载的稿件都会明确标注作者和来源;
2、本文内容来自“机器之心”微信公众号,文章版权归机器之心公众号所有。

评论
更多

文章来自于公众号:

机器之心

微信号:almosthuman2014

邮箱qunxueyuan#163.com(将#换成@)
微信编辑器
免责声明
www.weixinyidu.com   免责声明
版权声明:本站收录微信公众号和微信文章内容全部来自于网络,仅供个人学习、研究或者欣赏使用。版权归原作者所有。禁止一切商业用途。其中内容并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。如果您发现头条易读网站上有侵犯您的知识产权的内容,请与我们联系,我们会及时修改或删除。
本站声明:本站与腾讯微信、微信公众平台无任何关联,非腾讯微信官方网站。