本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
监控交互式端点
借助 Amazon EMR on EKS 版本 6.10 及更高版本,交互式端点会发出 Amazon CloudWatch 指标,用于监控内核生命周期操作并进行故障排除。指标由交互式客户端(例如 EMR Studio 或自托管式 Jupyter notebook)触发。交互式端点支持的每个操作都有与之关联的指标。此操作作为每个指标的维度进行建模,如下表所示。交互式端点发出的指标在账户中的自定义命名空间 EMRContainers 下可见。
指标 | 描述 | 单位 |
---|---|---|
RequestCount |
交互式端点处理的操作的累积请求数。 |
计数 |
RequestLatency |
从请求到达交互式端点到交互式端点发送响应的时间。 |
毫秒 |
4XXError |
当操作请求在处理过程中导致 4xx 错误时发出。 |
计数 |
5XXError |
当操作请求导致 5Xxx 服务端错误时发出。 |
计数 |
KernelLaunchSuccess |
仅适用于 CreateKernel 操作。它表示在此请求(包括此请求)之前内核启动成功的累积次数。 |
计数 |
KernelLaunchFailure |
仅适用于 CreateKernel 操作。它表示直到此请求(包括此请求)之前内核启动失败的累积次数。 |
计数 |
每个交互式端点指标都附加了以下维度:
-
ManagedEndpointId
– 交互式端点的标识符 -
OperationName
– 交互式客户端触发的操作
下表显示了 OperationName
维度的可能值:
operationName |
操作描述 |
---|---|
|
请求交互式端点启动内核。 |
|
请求交互式端点列出之前使用相同会话令牌启动的内核。 |
|
请求交互式端点获取有关之前启动的特定内核的详细信息。 |
|
请求交互式端点在笔记本客户端和内核之间建立连接。 |
|
在 pyspark 内核上发布 |
|
请求交互式端点列出可用的内核规范。 |
|
请求交互式端点获取有关之前启动的内核的内核规范。 |
|
请求交互式端点获取与之前启动的内核规范关联的特定资源。 |
示例
要访问在给定日期为交互式端点启动的内核总数,请执行以下操作:
-
选择自定义命名空间:
EMRContainers
-
选择
ManagedEndpointId
、OperationName – CreateKernel
-
RequestCount
指标以及统计数据SUM
和周期1 day
将提供过去 24 小时内发出的所有内核启动请求。 -
KernelLaunchSuccess 指标以及统计数据
SUM
和周期1 day
将提供过去 24 小时内发出的所有成功的内核启动请求。
要访问给定日期交互式端点的内核故障数,请执行以下操作:
-
选择自定义命名空间:EMRContainers
-
选择
ManagedEndpointId
、OperationName – CreateKernel
-
KernelLaunchFailure
指标以及统计数据SUM
和周期1 day
将提供过去 24 小时内发出的所有失败的内核启动请求。您也可以选择4XXError
和5XXError
指标来了解发生的内核启动失败类型。