本次课件我们将从监督学习转向强化学习 (RL),在强化学习 (RL) 中,智能体必须学会与环境交互以最大化其奖励。 我们使用马尔可夫决策过程 (MDP)、策略、值函数和 Q 值函数将强化学习形式化。我们讨论了不同的强化学习算法,包括 Q-Learning、策略梯度和 Actor-Critic。我们展示了如何使用深度强化学习来玩 Atari 游戏并在 AlphaGo 中实现超越人类的围棋性能。