的 R 用户指南Amazon SageMaker - Amazon SageMaker
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

的 R 用户指南Amazon SageMaker

该文档介绍了使用 R 以利用 Amazon SageMaker 功能的各种方法。该指南介绍了 SageMaker 的内置 R 内核,介绍了如何开始使用 SageMaker 上的 R,并最后介绍了几个示例笔记本。

这些示例分为三个级别:初级、中级和高级。它们从开始使用 SageMaker 上的 R 开始,使用 SageMaker 上的 R 进行端到端机器学习,然后以更高级的主题结束,例如使用 R 脚本的 SageMaker 处理以及 SageMaker. 的自带 (BYO) R 算法。 

有关如何将您自己的自定义 R 映像引入 Studio 的信息,请参阅自带SageMaker映像。有关类似的博客文章,请参阅将您自己的 R 环境引入 Amazon SageMaker Studio

中的 R 内核SageMaker

SageMaker 笔记本实例使用预装的 R 内核支持 R。此外,R 内核还具有 reticulate 库 (R 到 Python 接口),因此您可以从 R 脚本中使用 SageMaker Python 开发工具包的功能。paws 是一个可选库,您可以将其添加到 R 内核以获取更多功能。 

  • reticulatelibrary:提供 R 到 Amazon SageMaker Python SDK. 的接口。reticulate 程序包在 R 和 Python 对象之间转换。

  • pawslibrary: 提供了一个 R 接口来对 AWS 服务进行 API 调用,类似于 boto3 的工作方式。paws 使 Python 开发人员能够使用 R 创建、配置和管理 AWS 服务,如 EC2 和 S3。 

开始在 中使用 RSageMaker

  •  使用 t2.medium 实例类型和默认存储大小创建笔记本实例 如果您打算继续将该实例用于更高级的示例,或者以后创建更大的实例,您可以选择更快的实例和更多的存储空间。

  • 等到笔记本状态变为“In Service”(正在使用),然后单击 Open Jupyter (打开 Jupyter)。

  • 从可用的环境列表中创建一个具有 R 内核的新笔记本。 

  • 在创建了新的笔记本时,您将会在笔记本环境的右上角看到 R 徽标,并且还会在该徽标下看到内核为 R。这表明 SageMaker 已成功为该笔记本启动 R 内核。

  • 或者,在您位于 Jupyter 笔记本时,您可以使用 Kernel (内核) 菜单,然后从 Change Kernel (更改内核) 选项中选择 R。

示例笔记本

先决条件

SageMaker 上的 R 入门:该示例笔记本介绍了如何使用 Amazon SageMaker 的 R 内核开发 R 脚本。在此笔记本中,您将设置SageMaker环境和权限,从 UCI Machine Machine Learning Repository 下载 abalone 数据集,对数据执行一些基本处理和可视化操作,然后将数据保存为 .csv 格式到 S3。

初级

使用 SageMaker 上的 R 的端到端机器学习:该示例笔记本扩展了前面的必备入门笔记本。您将了解如何通过鲍鱼数据集训练模型以预测鲍鱼年龄,这是通过壳中的环数测量的。在训练模型后,您创建一个终端节点,并将模型部署到该终端节点中。有了终端节点后,您可以测试模型并生成预测。 reticulate 包将用作 的 Amazon SageMaker Python SDKR 接口。 

SageMaker 使用 R 内核进行批量转换:本示例笔记本介绍了如何使用 SageMaker的转换器 API 和XGBoost算法执行批量转换作业。笔记本也使用 Abalone 数据集。

中级

R XGBoost 中的 的超参数优化:该示例笔记本扩展了使用 abalone 数据集和 的以前的初学者笔记本XGBoost。 它介绍了如何使用超参数优化进行模型优化。您还将了解如何使用批量转换进行批量预测,以及如何创建模型终端节点以进行实时预测。 

使用 R 的 Amazon SageMaker 处理:通过使用 SageMaker 处理,您可以预处理、后处理和运行模型评估工作负载。该示例说明了如何创建 R 脚本以编排处理作业。 

高级

在 SageMaker 中训练和部署您自己的 R 算法:您是否已具有 R 算法,并且要将其添加到 SageMaker 以优化、训练或部署该算法? 该示例介绍了如何使用自定义 R 程序包自定义 SageMaker 容器,一直到使用托管的终端节点推断 R 源模型。