SageMaker Notebook Jobs - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

SageMaker Notebook Jobs

您可以使用 Amazon SageMaker 在任何 JupyterLab 环境中通过 Jupyter 笔记本以交互方式构建、训练和部署机器学习模型。但是,在许多场景中,您可能希望将笔记本作为非交互式计划作业运行。例如,您可能想要创建定期审计报告,以分析在特定时间范围内运行的所有训练作业,并分析将这些模型部署到生产环境中所带来的业务价值。或者,在对一小部分数据子集进行数据转换逻辑测试后,您可能想扩展特征工程作业。其他常见使用案例包括:

  • 计划作业以进行模型偏差监控

  • 探索参数空间以获得更好的模型

在这些场景中,您可以使用 SageMaker Notebook Jobs 创建非交互式作业,以便按需或按计划运行。SageMaker Notebook Jobs 提供了直观的用户界面,因此您可以通过选择笔记本中的 Notebook Jobs 小部件 ( ) 直接从 JupyterLab 计划作业。您可以并行运行多个笔记本,并对笔记本中的单元格进行参数化以自定义输入参数。

此特征利用了 Amazon EventBridge、SageMaker Training 和 SageMaker Pipelines 服务,可在以下任何环境下的 Jupyter 笔记本中使用:

  • SageMaker:Studio、Studio Lab 或笔记本实例

  • 本地设置,例如运行 JupyterLab 的本地计算机

先决条件

要计划笔记本作业,请确保满足以下条件:

  • 确保您的 Jupyter 笔记本以及所有初始化或启动脚本在代码和软件包方面都是独立的。否则,您的非交互式作业可能会出现错误。

  • 查看约束和注意事项以确保正确配置了 Jupyter 笔记本、网络设置和容器设置。

  • 确保您的笔记本可以访问所需的外部资源,如 Amazon EMR 集群。

  • 如果您正在本地 Jupyter 笔记本中设置笔记本作业,请完成安装。有关说明,请参阅安装指南

  • 如果您在笔记本中连接到 Amazon EMR 集群,并且希望对 Amazon EMR 连接命令进行参数化,则必须应用一种解决方法,使用环境变量来传递参数。有关详细信息,请参阅从 Studio 笔记本连接到 Amazon EMR 集群

  • 如果您使用 Kerberos、LDAP 或 HTTP Basic Auth 身份验证连接到 Amazon EMR 集群,则必须使用 Amazon Secrets Manager 将安全凭证传递给 Amazon EMR 连接命令。有关详细信息,请参阅从 Studio 笔记本连接到 Amazon EMR 集群

  • (可选)如果您想让 UI 预加载脚本以在笔记本启动时运行,则您的管理员必须使用生命周期配置 (LCC) 进行安装。有关如何使用 LCC 脚本的信息,请参阅使用生命周期配置脚本自定义笔记本实例