在 Amazon SageMaker 中使用强化学习 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

在 Amazon SageMaker 中使用强化学习

强化学习 (RL) 结合了计算机科学、神经科学和心理学等领域,以确定如何将情况与行动相映射,从而最大化数字奖励信号。RL 中的奖励信号概念源于神经科学研究,研究了人类大脑如何决定哪些行动可最大限度提高奖励以及最大限度减少惩罚。在大多数情况下,人类不会获得明确指示要采取哪些行动,而是必须了解哪些行动可以产生最直接的回报,以及这些行动如何影响未来的局势和后果。

RL 的问题使用源于动态系统理论的马尔可夫决策过程 (MDP) 正式化。MDP 旨在捕获一段时间内,学习代理在尝试实现某个最终目标过程中,遇到的真实问题的高级详细信息。学习代理应当能够确定其环境的当前状态,并确定影响学习代理当前状态的可能操作。此外,学习代理的目标应该与环境状况密切相关。以这种方式制定问题解决方案被称为强化学习方法。

强化学习、有监督学习与无监督学习范式之间有什么区别?

机器学习可以分为三种不同的学习范式:有监督、无监督和强化。

在有监督学习中,外部监督方提供一个已标记样本的训练集。每个样本都包含有关某种情况的信息,属于某个类别,并具有标识其所述类别的标签。有监督学习的目标是泛化,以便正确预测训练数据中不存在的情况。

与之相反,RL 处理的是交互式问题,因此不可能收集到代理可能遇到的、具有正确标签的所有可能情况样本。如果代理能够准确地从自己的经验中学习并进行相应调整,这种学习方式最有前景。

在无监督学习中,代理通过发现未标注数据中的结构来学习。尽管 RL 代理可能会根据其经验,从发现结构中受益,但 RL 的唯一目的是最大化奖励信号。