管理您的终端节点 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

管理您的终端节点

将模型部署到终端节点后,您可能需要查看和管理该终端节点。借 SageMaker助,您可以查看终端节点的状态和详细信息,检查指标和日志以监控终端节点的性能,更新部署到终端节点的模型等。

以下页面介绍如何使用亚马逊 SageMaker 控制台或 SageMaker Studio 以交互方式查看和更改您的终端节点。

管理 SageMaker Studio 中的端点

在 Amazon SageMaker Studio 中,您可以查看和管理您的 SageMaker 托管终端节点。要了解有关 Studio 的更多信息,请参阅亚马逊 SageMaker Studio

要在 SageMaker Studio 中查找您的终端节点列表,请执行以下操作:

  1. 打开 Studio 应用程序。

  2. 在左侧导航窗格中,选择 “部署”。

  3. 从下拉菜单中选择终端节点

终端节点页面打开,其中列出了您的所有 SageMaker 托管终端节点。在此页面中,您可以看到端点及其状态。您还可以创建新的终端节点、编辑现有终端节点或删除终端节点。

要查看特定端点的详细信息,请从列表中选择一个端点。在端点的详细信息页面上,您可以看到如下屏幕截图所示的概述。

端点主页的屏幕截图,显示了 Studio 中端点详细信息的摘要。

每个端点详细信息页面都包含以下信息选项卡:

变体(或型号)

变体” 选项卡(如果您的终端节点部署了多个模型,则也称为 “模型” 选项卡)显示了当前部署到您的端点的模型变体或模型的列表。以下屏幕截图显示了部署了多个模型的端点的概述和模型部分的样子。

端点主页的屏幕截图,显示已部署的多个模型。

您可以添加或编辑每个变体或型号的设置。您还可以选择变体并启用默认的自动缩放策略,稍后可以在自动缩放选项卡中对其进行编辑。

设置

设置选项卡上,您可以查看终端节点的关联 Amazon IAM 角色、用于加密的 Amazon KMS 密钥(如果适用)、VPC 的名称和网络隔离设置。

测试推理

测试推理选项卡上,您可以向已部署的模型发送测试推理请求。如果您想验证您的终端节点是否按预期响应请求,这将非常有用。

要测试推理,请执行以下操作:

  1. 在模型的测试推理选项卡上,选择以下选项之一:

    1. 如果您想测试端点并通过 Studio 界面接收响应,请选择输入请求正文

    2. 如果要复制可用于从本地环境调用终端节点并以编程方式接收响应的示例,请选择复制 Amazon SDK for Python (Boto3) 示例代码 (Python)

  2. 对于模型,选择要在端点上测试的模型。

  3. 如果您选择了 Studio 界面测试方法,则还可以从下拉列表中选择所需的响应内容类型

配置请求后,您可以选择 “发送请求”(通过 Studio 接口接收响应)或 “复制” 以复制 Python 示例。

如果您通过 Studio 界面收到回复,它将如下屏幕截图所示。

Studio 中终端节点上成功发出推理测试请求的屏幕截图。

自动扩展

Auto-Scaling 选项卡上,您可以查看为终端节点上托管的模型配置的任何自动缩放策略。以下屏幕截图显示了 “自动缩放” 选项卡。

“自动扩展” 选项卡的屏幕截图,显示了一个有效的策略。

您可以选择 Edit auto-scaling 来更改任何策略,然后打开或关闭默认的自动缩放策略。

要了解有关自动缩放实时终端节点的更多信息,请参阅自动缩放 Ama SageMaker zon 模型。如果您不确定如何为终端节点配置自动缩放策略,则可以使用 Inference Recommerder 自动缩放推荐作业来获取自动缩放策略的建议。

在 SageMaker 控制台中管理终端节点

要在 SageMaker 控制台中查看您的终端节点,请执行以下操作:

  1. 访问 SageMaker 控制台,网址为 https://console.aws.amazon.com/sagemaker/

  2. 在左侧导航窗格中,选择推理

  3. 从下拉列表中,选择端点

  4. 端点页面,选择您的端点。

端点详细信息页面应打开,显示您的端点摘要以及为端点收集的指标。

以下各节描述了端点详细信息页面上的选项卡。

监控

创建 SageMaker 托管终端节点后,您可以使用 Amazon 监控您的终端节点 CloudWatch,亚马逊会收集原始数据并将其处理为可读的近乎实时的指标。使用这些指标,您可以访问历史信息并更好地了解端点的表现。有关更多信息,请参阅 Amazon CloudWatch 用户指南

在终端节点详细信息页面的监控选项卡中,您可以查看从您的终端节点收集的 CloudWatch 指标数据。

监控选项卡包括以下部分:

  • 操作指标:查看跟踪端点资源利用率的指标,例如 CPU 利用率和内存利用率。

  • 调用指标:查看跟踪进入端点的 InvokeEndpoint 请求数量、运行状况和状态的指标,例如调用模型错误和模型延迟。

  • 运行状况指标:查看跟踪端点整体运行状况的指标,例如调用失败和通知失败。

有关每个指标的详细说明,请参阅 SageMaker 使用监控 CloudWatch

以下屏幕截图显示了无服务器端点的操作指标部分。

端点详细信息页面操作指标部分中的指标图屏幕截图。

对于给定部分中的指标,您可以调整要跟踪的时间段统计数据,以及要查看指标数据的时间长度。您还可以通过选择添加小部件,在视图中为每个部分添加和移除指标小部件。在添加小部件对话框中,您可以选择和取消选择要查看的指标。

可用的指标可能取决于您的端点类型。例如,无服务器端点的一些指标不适用于实时端点。有关端点类型的更多具体指标信息,请参阅以下页面:

设置

您可以选择设置选项卡来查看有关您的端点的其他信息,例如数据捕获设置、端点配置和标签。

告警

在终端节点详细信息页面的警报选项卡中,您可以查看和创建简单的静态阈值指标警报,您可以在其中为指标指定阈值。如果指标突破阈值,警报将进入 ALARM 状态。有关 CloudWatch 警报的更多信息,请参阅使用 Amazon CloudWatch 警报

端点摘要部分,您可以查看警报字段,该字段告诉您终端上当前有多少个活动的警报。

要查看哪些警报处于 ALARM 状态,请选择警报选项卡。警报选项卡显示您的端点警报的完整列表,以及有关其状态和条件的详细信息。以下屏幕截图显示了此部分中已为端点配置的警报列表。

终端详细信息页面上警报选项卡的屏幕截图,其中显示了 CloudWatch 警报列表。

如果没有收集到足够的指标数据,则警报的状态可以是 In alarmOKInsufficient data

要为您的端点创建新的警报,请执行以下操作:

  1. 警报选项卡上,选择创建警报

  2. 这将打开创建警报页面。对于 Alarm name (警报名称),输入警报的名称。

  3. (可选)输入告警的描述。

  4. 对于 M et ric,选择您希望警报跟踪的 CloudWatch 指标。

  5. 对于变体名称,请选择要监控的端点模型变体。

  6. 对于统计数据,请选择所选指标的可用统计数据之一。

  7. 对于时间段,请选择用于计算每个统计值的时间段。例如,如果您选择平均统计数据和 5 分钟时间段,则警报监控的每个数据点都是该指标每隔 5 分钟的数据点的平均值。

  8. 对于评估期,请输入在评估是否进入警报状态时,希望警报评估的数据点数量。

  9. 对于条件,请选择要用于警报阈值的条件。

  10. 对于阈值,请为阈值输入所需的值。

  11. (可选)对于通知,您可以选择添加通知来创建或指定在警报状态发生变化时接收通知的 Amazon SNS 主题。

  12. 选择创建警报

创建警报后,您可以随时返回警报选项卡来查看其状态。在此部分中,您还可以选择警报,然后编辑删除警报。