Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅
中国的 Amazon Web Services 服务入门
(PDF)。
本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
创建自动处理新数据的计划
以下部分仅适用于 SageMaker 处理作业。如果您使用默认的 Canvas 设置或 EMR Serverless 创建了远程作业来对完整数据集进行转换,则本节内容不适用。
如果您要定期处理数据,则可以创建一个计划来自动运行处理作业。例如,您可以创建一个计划,该计划在获得新数据时自动运行处理作业。有关处理作业的更多信息,请参阅 导出到 Amazon S3。
创建作业时,必须指定有权创建该作业的 IAM 角色。您可以使用该AmazonSageMakerCanvasDataPrepFullAccess策略来添加权限。
将以下信任策略添加到角色中 EventBridge 以允许代入该角色。
{
"Effect": "Allow",
"Principal": {
"Service": "events.amazonaws.com"
},
"Action": "sts:AssumeRole"
}
使用以下方法之一设置计划:
以下各节提供了在将数据导出到 Amazon S3 的同时填写 SageMaker AI 处理任务设置时安排任务的程序。以下所有说明均从 “ SageMaker 处理作业设置” 的 “关联计划” 部分开始。
- CRON
-
使用以下步骤创建带有 CRON 表达式的计划。
-
在 “导出到 Amazon S3” 侧面板中,确保已关闭自动任务配置开关,并选择了 “SageMaker 处理” 选项。
-
在 “SageMaker 处理作业设置” 中,打开 “关联计划” 部分,然后选择 “创建新计划”。
-
此时将打开创建新角色对话框。对于计划名称,指定计划的名称。
-
对于运行频率,选择 CRON。
-
在分钟、小时、日、月和星期字段中,输入有效的 CRON 表达式值。
-
选择创建。
-
(可选)选择添加其他计划以按其他计划运行作业。
您最多可以关联两个计划。这些计划是独立的,除非时间重叠,否则不会相互影响。
-
选择下列选项之一:
-
计划并立即运行:作业会立即运行,随后按计划运行。
-
仅限计划:作业仅按您指定的计划运行。
-
填写完其他导出作业设置后,选择导出。
- RATE
-
使用以下步骤创建带有 RATE 表达式的计划。
-
在 “导出到 Amazon S3” 侧面板中,确保已关闭自动任务配置开关,并选择了 “SageMaker 处理” 选项。
-
在 “SageMaker 处理作业设置” 中,打开 “关联计划” 部分,然后选择 “创建新计划”。
-
此时将打开创建新角色对话框。对于计划名称,指定计划的名称。
-
对于运行频率,选择 Rate。
-
对于值,指定一个整数。
-
对于匹配程序,选择以下项之一:
-
选择创建。
-
(可选)选择添加其他计划以按其他计划运行作业。
您最多可以关联两个计划。这些计划是独立的,除非时间重叠,否则不会相互影响。
-
选择下列选项之一:
-
计划并立即运行:作业会立即运行,随后按计划运行。
-
仅限计划:作业仅按您指定的计划运行。
-
填写完其他导出作业设置后,选择导出。
- Recurring
-
通过以下步骤创建定期运行作业的计划。
-
在 “导出到 Amazon S3” 侧面板中,确保已关闭自动任务配置开关,并选择了 “SageMaker 处理” 选项。
-
在 “SageMaker 处理作业设置” 中,打开 “关联计划” 部分,然后选择 “创建新计划”。
-
此时将打开创建新角色对话框。对于计划名称,指定计划的名称。
-
对于运行频率,选择重复。
-
对于每 x 小时,指定作业在一天中运行的每小时频率。有效值为 1
和 23
范围的整数(含)。
-
对于日期,选择以下选项之一:
-
(可选)如果您选择了选择日期,请选择在一周中的哪几天运行作业。
计划会每天重置。如果您计划每五小时运行一次作业,则作业将在一天中的以下时间运行:
-
00:00
-
05:00
-
10:00
-
15:00
-
20:00
-
选择创建。
-
(可选)选择添加其他计划以按其他计划运行作业。
您最多可以关联两个计划。这些计划是独立的,除非时间重叠,否则不会相互影响。
-
选择下列选项之一:
-
计划并立即运行:作业会立即运行,随后按计划运行。
-
仅限计划:作业仅按您指定的计划运行。
-
填写完其他导出作业设置后,选择导出。
- Specific time
-
通过以下过程创建在特定时间运行作业的计划。
-
在 “导出到 Amazon S3” 侧面板中,确保已关闭自动任务配置开关,并选择了 “SageMaker 处理” 选项。
-
在 “SageMaker 处理作业设置” 中,打开 “关联计划” 部分,然后选择 “创建新计划”。
-
此时将打开创建新角色对话框。对于计划名称,指定计划的名称。
-
对于运行频率,选择开始时间。
-
在开始时间中,以 UTC 格式输入时间(例如,09:00
)。开始时间默认为您所在的时区。
-
对于日期,选择以下选项之一:
-
(可选)如果您选择了选择日期,请选择在一周中的哪几天运行作业。
-
选择创建。
-
(可选)选择添加其他计划以按其他计划运行作业。
您最多可以关联两个计划。这些计划是独立的,除非时间重叠,否则不会相互影响。
-
选择下列选项之一:
-
计划并立即运行:作业会立即运行,随后按计划运行。
-
仅限计划:作业仅按您指定的计划运行。
-
填写完其他导出作业设置后,选择导出。
您可以使用 A SageMaker I Amazon Web Services Management Console 查看计划运行的作业。处理作业在 Pipelines 中运行。每个处理作业都有各自的管道。作业作为管道中的一个处理步骤运行。您可以查看已在管道中创建的计划。有关查看管道的信息,请参阅 查看管道详情。
通过以下过程查看您已计划的作业。
要查看您已计划的作业,请执行以下操作。
-
打开 Amazon SageMaker Studio 经典版。
-
打开 Pipelines
-
查看用于您已创建的作业的管道。
运行作业的管道使用作业名称作为前缀。例如,如果您创建了一个名为 housing-data-feature-enginnering
的作业,则管道的名称为 canvas-data-prep-housing-data-feature-engineering
。
-
选择包含您的作业的管道。
-
查看管道的状态。管道状态为成功时表示已成功运行处理作业。
要停止运行处理作业,请执行以下操作:
要停止运行处理作业,请删除指定计划的事件规则。删除事件规则时,会使与该计划关联的所有作业停止运行。有关删除规则的信息,请参阅禁用或删除 Amazon EventBridge 规则。
您还可以停止和删除与计划关联的管道。有关停止管道的信息,请参见StopPipelineExecution。有关删除管道的信息,请参阅DeletePipeline。