增强学习 | AlphaGo背后的秘密

“敢于尝试，才有突破”

2017年5月27日，当今世界排名第一的中国棋手柯洁与AlphaGo 2.0的三局对战落败。该事件标志着最新的人工智能技术在围棋竞技领域超越了人类智能，借此机会，介绍一下AlphaGo背后的秘密——增强学习技术。

增强学习（Reinforcement Learning），也称强化学习，是一种在过程中学习提高机器智能的框架。该框架通常可用马尔可夫决策过程（Markov Decision Process）概念来描述，即假设存在智能体（Agent）在约束环境下执行某动作（Action），动作的执行会改变智能体状态（State），其结果会带来奖赏或惩罚。基于此，智能体通过探索最优策略（Policy）或是最大化长期回报（Reward），进而选择最优的执行动作序列。

增强学习应用的核心是建立智能体模型，包括几个核心概念：

状态：智能体内在属性的定量描述
动作：使智能体状态迁移的行为
策略：状态和动作的映射转移函数，例如状态转移概率等
回报：评价智能体执行某动作好坏的价值函数
环境：与智能体交互的模型，例如建立的马尔可夫决策模型等

根据问题不同，智能体常常使用一个或多个上述概念进行建模，进而可将增强学习粗略分为基于策略的增强学习、基于值（回报）的增强学习，以及基于模型的增强学习。

基于智能体模型，增强学习以“状态”作为输入，通过可能的“动作”与环境进行交互，以“回报”作为动作的评价，利用该过程中累积的“尝试”数据进行训练，从而学习得到最优的策略函数。

相比于经典的有监督学习方法，增强学习无需标注数据，某种意义上可以看作“延迟标注数据”的监督学习方法。增强学习更关注于在线决策的性能，在难以计算最优解时可给出次优解。

相对于经典的近似动态规划方法，增强学习无需显式的建立马尔可夫决策数学模型，更适合求解计算状态空间更加复杂的问题，即人类操作层次的任务，例如游戏AI、无人驾驶、机器人等。

然而，对于语音识别、NLP、计算机视觉等一些很难定义长期回报的应用，增强学习便难以适用。另一方面，智能体建模常常过于抽象，因此一些增强学习的应用距离实际相差还较大。

回到开头，战胜柯洁的Alpha Go使用的便是最新的深度增强学习技术，即在上述介绍的增强学习概念基础上使用深度神经网络描述值函数、策略或者模型。从这项超越现今人类智能的技术上，我们或许可以得到如下启发：

基于深层卷积神经网络判断围棋棋盘的形势，无需数据特征工程，同时能处理巨大的状态空间；
历史棋手对弈数据有限，但可通过自我博弈显著提升人工智能但策略能力；
增强学习技术并不是万能的，它更适合游戏规则确定的应用。

最后，小虾米还将文章内容总结成了更直观的思维导图，需要的朋友，请在数据小虾米公众号后台回复“增强学习”，即可获取下载地址。

数据科学武林风起云涌，
随数据小虾米共闯江湖~
增强学习 | AlphaGo背后的秘密

秒客网

增强学习 | AlphaGo背后的秘密

相关文章