将强化学习与 Amazon SageMaker - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

将强化学习与 Amazon SageMaker

强化学习 (RL) 结合了计算机科学、神经科学和心理学等领域,以确定如何将情况映射到行动,从而最大限度地提高数值奖励信号。RL 中奖励信号的这一概念源于神经科学研究,研究人类大脑如何决定哪些行动最大限度地提高奖励和最大限度地减少惩罚。在大多数情况下,人类没有得到明确的指示,说明采取哪些行动,而是必须了解哪些行动产生最直接的回报,以及这些行动如何影响未来的情况和后果。

利用源于动态系统理论的马尔科夫决策过程 (MDP) 正式确定了 RL 问题。MDP 旨在捕获学习代理在试图实现某个最终目标过程中遇到的实际问题的高级细节。学习代理应能够确定其环境的当前状态,并确定影响学习座席当前状态的可能操作。此外,学习机构的目标应与环境状况密切相关。以这种方式制定的问题解决方案被称为强化学习方法。

强化,监督和无监督学习范式之间有什么区别?

机器学习可以分为三种不同的学习范式:监督、无监督和强化。

在监督学习中,外部主管会提供一组带标记的培训示例。每个示例都包含有关情况的信息,属于一个类别,并有一个标签来标识其所属类别。监督学习的目的是推广,以便在训练数据中不存在的情况下正确预测。

相比之下,RL 处理交互式问题,因此无法收集代理可能遇到的带有正确标签的所有可能情况示例。当代理人能够准确地从自己的经验中学习并进行相应调整时,这种学习是最有希望的。

在无监督学习中,代理通过发现未标记数据中的结构来学习。虽然 RL 代理可能会从基于其经验的发现结构中受益,但 RL 的唯一目的是最大限度地提高奖励信号。