通过 使用强化学习Amazon SageMaker - Amazon SageMaker
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

通过 使用强化学习Amazon SageMaker

强化学习 (RL) 将计算机科学、神经科学和医学等领域结合起来,以确定如何将情况映射到操作,以最大限度地提高数字奖励信号。RL 中的奖励信号概念源自神经科学研究,以研究人类大脑如何决定最大化奖励和最大程度减少惩罚。在大多数情况下,没有为人员明确说明要采取哪些操作,但必须了解哪些操作能带来最直接的奖励,以及这些操作如何影响将来的情况和后果。

RL 问题是使用源自动态系统理论的 Markov 决策进程 (MDPs) 形式化的。MDPs 旨在捕获学习代理在尝试实现某个最终目标时一段时间内遇到的实际问题的高级详细信息。学习代理应该能够确定其环境的当前状态,并确定可能影响学习代理的当前状态的可能操作。此外,学习代理的目标应与环境的状态紧密相关。以这种方式形成的问题的解决方案称为强化学习方法。

强化、监督学习和自主学习范例之间有什么区别?

机器学习可以分为三个不同的学习范例:监管学习、自主学习和强化学习。

在指导式学习中,外部主管提供了一组标记的示例训练。每个示例都包含有关情况的信息,属于一个类别,并具有标识其所属的类别的标签。指导式学习的目标是归纳以正确预测训练数据中不存在的情况。

相反,RL 会处理交互式问题,使得收集代理可能遇到的具有正确标签的情况的所有可能示例不合适。当代理能够准确地学习自己的体验并进行相应的调整时,这种类型的学习最有希望。

在自主学习中,代理通过在未标记的数据中发现结构来学习。虽然 RL 代理可能受益于基于其经验来发现结构,但 RL 的唯一用途是最大化奖励信号。