监控交互式端点 - Amazon EMR
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

监控交互式端点

借助 Amazon EMR on EKS 版本 6.10 及更高版本,交互式端点会发出 Amazon CloudWatch 指标,用于监控内核生命周期操作并进行故障排除。指标由交互式客户端(例如 EMR Studio 或自托管式 Jupyter notebook)触发。交互式端点支持的每个操作都有与之关联的指标。此操作作为每个指标的维度进行建模,如下表所示。交互式端点发出的指标在账户中的自定义命名空间 EMRContainers 下可见。

指标 描述 单位

RequestCount

交互式端点处理的操作的累积请求数。

计数

RequestLatency

从请求到达交互式端点到交互式端点发送响应的时间。

毫秒

4XXError

当操作请求在处理过程中导致 4xx 错误时发出。

计数

5XXError

当操作请求导致 5Xxx 服务端错误时发出。

计数

KernelLaunchSuccess

仅适用于 CreateKernel 操作。它表示在此请求(包括此请求)之前内核启动成功的累积次数。

计数

KernelLaunchFailure

仅适用于 CreateKernel 操作。它表示直到此请求(包括此请求)之前内核启动失败的累积次数。

计数

每个交互式端点指标都附加了以下维度:

  • ManagedEndpointId – 交互式端点的标识符

  • OperationName – 交互式客户端触发的操作

下表显示了 OperationName 维度的可能值:

operationName 操作描述

CreateKernel

请求交互式端点启动内核。

ListKernels

请求交互式端点列出之前使用相同会话令牌启动的内核。

GetKernel

请求交互式端点获取有关之前启动的特定内核的详细信息。

ConnectKernel

请求交互式端点在笔记本客户端和内核之间建立连接。

ConfigureKernel

在 pyspark 内核上发布 %%configure magic request

ListKernelSpecs

请求交互式端点列出可用的内核规范。

GetKernelSpec

请求交互式端点获取有关之前启动的内核的内核规范。

GetKernelSpecResource

请求交互式端点获取与之前启动的内核规范关联的特定资源。

示例

要访问在给定日期为交互式端点启动的内核总数,请执行以下操作:

  1. 选择自定义命名空间:EMRContainers

  2. 选择 ManagedEndpointIdOperationName – CreateKernel

  3. RequestCount 指标以及统计数据 SUM 和周期 1 day 将提供过去 24 小时内发出的所有内核启动请求。

  4. KernelLaunchSuccess 指标以及统计数据 SUM 和周期 1 day 将提供过去 24 小时内发出的所有成功的内核启动请求。

要访问给定日期交互式端点的内核故障数,请执行以下操作:

  1. 选择自定义命名空间:EMRContainers

  2. 选择 ManagedEndpointIdOperationName – CreateKernel

  3. KernelLaunchFailure 指标以及统计数据 SUM 和周期 1 day 将提供过去 24 小时内发出的所有失败的内核启动请求。您也可以选择 4XXError5XXError 指标来了解发生的内核启动失败类型。