在 Amazon A SageMaker I 中使用强化学习

强化学习 (RL) 结合了计算机科学、神经科学和心理学等领域，以确定如何将情况与行动相映射，从而最大化数字奖励信号。RL 中的奖励信号概念源于神经科学研究，研究了人类大脑如何决定哪些行动可最大限度提高奖励以及最大限度减少惩罚。在大多数情况下，人类不会获得明确指示要采取哪些行动，而是必须了解哪些行动可以产生最直接的回报，以及这些行动如何影响未来的局势和后果。

RL 问题是使用源自动力学系统理论的马尔可夫决策过程 (MDPs) 来形式化的。 MDPs 旨在捕捉学习代理在尝试实现某个最终目标时在一段时间内遇到的实际问题的高级细节。学习代理应当能够确定其环境的当前状态，并确定影响学习代理当前状态的可能操作。此外，学习代理的目标应该与环境状况密切相关。以这种方式制定问题解决方案被称为强化学习方法。

强化学习、有监督学习与无监督学习范式之间有什么区别？

机器学习可以分为三种不同的学习范式：有监督、无监督和强化。

在有监督学习中，外部监督方提供一个已标记样本的训练集。每个样本都包含有关某种情况的信息，属于某个类别，并具有标识其所述类别的标签。有监督学习的目标是泛化，以便正确预测训练数据中不存在的情况。

与之相反，RL 处理的是交互式问题，因此不可能收集到代理可能遇到的、具有正确标签的所有可能情况样本。如果代理能够准确地从自己的经验中学习并进行相应调整，这种学习方式最有前景。

在无监督学习中，代理通过发现未标注数据中的结构来学习。尽管 RL 代理可能会根据其经验，从发现结构中受益，但 RL 的唯一目的是最大化奖励信号。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

模型优化

将本地代码作为远程作业运行