SageMaker Notebook Jobs
您可以使用 Amazon SageMaker 在任何 JupyterLab 环境中通过 Jupyter 笔记本以交互方式构建、训练和部署机器学习模型。但是,在许多场景中,您可能希望将笔记本作为非交互式计划作业运行。例如,您可能想要创建定期审计报告,以分析在特定时间范围内运行的所有训练作业,并分析将这些模型部署到生产环境中所带来的业务价值。或者,在对一小部分数据子集进行数据转换逻辑测试后,您可能想扩展特征工程作业。其他常见使用案例包括:
-
计划作业以进行模型偏差监控
-
探索参数空间以获得更好的模型
在这些场景中,您可以使用 SageMaker Notebook Jobs 创建非交互式作业,以便按需或按计划运行。SageMaker Notebook Jobs 提供了直观的用户界面,因此您可以通过选择笔记本中的 Notebook Jobs 小部件 ( ) 直接从 JupyterLab 计划作业。您可以并行运行多个笔记本,并对笔记本中的单元格进行参数化以自定义输入参数。
此特征利用了 Amazon EventBridge、SageMaker Training 和 SageMaker Pipelines 服务,可在以下任何环境下的 Jupyter 笔记本中使用:
SageMaker:Studio、Studio Lab 或笔记本实例
本地设置,例如运行 JupyterLab 的本地计算机
先决条件
要计划笔记本作业,请确保满足以下条件:
-
确保您的 Jupyter 笔记本以及所有初始化或启动脚本在代码和软件包方面都是独立的。否则,您的非交互式作业可能会出现错误。
-
查看约束和注意事项以确保正确配置了 Jupyter 笔记本、网络设置和容器设置。
-
确保您的笔记本可以访问所需的外部资源,如 Amazon EMR 集群。
-
如果您正在本地 Jupyter 笔记本中设置笔记本作业,请完成安装。有关说明,请参阅安装指南。
-
如果您在笔记本中连接到 Amazon EMR 集群,并且希望对 Amazon EMR 连接命令进行参数化,则必须应用一种解决方法,使用环境变量来传递参数。有关详细信息,请参阅从 Studio 笔记本连接到 Amazon EMR 集群。
-
如果您使用 Kerberos、LDAP 或 HTTP Basic Auth 身份验证连接到 Amazon EMR 集群,则必须使用 Amazon Secrets Manager 将安全凭证传递给 Amazon EMR 连接命令。有关详细信息,请参阅从 Studio 笔记本连接到 Amazon EMR 集群。
-
(可选)如果您想让 UI 预加载脚本以在笔记本启动时运行,则您的管理员必须使用生命周期配置 (LCC) 进行安装。有关如何使用 LCC 脚本的信息,请参阅使用生命周期配置脚本自定义笔记本实例。