本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
监控交互式端点
在 EKS 6.10 及更高版本上的 Amazon EMR 中,交互式终端节点会发出用于监控内核生命周期操作和故障排除的亚马逊 CloudWatch 指标。指标由交互式客户端(例如 EMR Studio 或自托管式 Jupyter notebook)触发。交互式端点支持的每个操作都有与之关联的指标。此操作作为每个指标的维度进行建模,如下表所示。交互式终端节点发出的指标在您的账户中的自定义命名空间下可见。 EMRContainers
| 指标 | 说明 | 单位 |
|---|---|---|
|
RequestCount |
交互式端点处理的操作的累积请求数。 |
计数 |
|
RequestLatency |
从请求到达交互式端点到交互式端点发送响应的时间。 |
毫秒 |
|
4 XXError |
当操作请求在处理过程中导致 4xx 错误时发出。 |
计数 |
|
5XXError |
当操作请求导致 5Xxx 服务端错误时发出。 |
计数 |
|
KernelLaunchSuccess |
仅适用于该 CreateKernel 操作。它表示在此请求(包括此请求)之前内核启动成功的累积次数。 |
计数 |
|
KernelLaunchFailure |
仅适用于该 CreateKernel 操作。它表示直到此请求(包括此请求)之前内核启动失败的累积次数。 |
计数 |
每个交互式端点指标都附加了以下维度:
-
ManagedEndpointId– 交互式端点的标识符 -
OperationName– 交互式客户端触发的操作
下表显示了 OperationName 维度的可能值:
operationName |
操作描述 |
|---|---|
|
|
请求交互式端点启动内核。 |
|
|
请求交互式端点列出之前使用相同会话令牌启动的内核。 |
|
|
请求交互式端点获取有关之前启动的特定内核的详细信息。 |
|
|
请求交互式端点在 Notebook 客户端和内核之间建立连接。 |
|
|
在 pyspark 内核上发布 |
|
|
请求交互式端点列出可用的内核规范。 |
|
|
请求交互式端点获取有关之前启动的内核的内核规范。 |
|
|
请求交互式端点获取与之前启动的内核规范关联的特定资源。 |
示例
要访问在给定日期为交互式端点启动的内核总数,请执行以下操作:
-
选择自定义命名空间:
EMRContainers -
选择
ManagedEndpointId、OperationName – CreateKernel -
RequestCount指标以及统计数据SUM和周期1 day将提供过去 24 小时内发出的所有内核启动请求。 -
KernelLaunchSuccess 带有统计数据
SUM和周期的指标1 day将提供过去 24 小时内发出的所有成功内核启动请求。
要访问给定日期交互式端点的内核故障数,请执行以下操作:
-
选择自定义命名空间: EMRContainers
-
选择
ManagedEndpointId、OperationName – CreateKernel -
KernelLaunchFailure指标以及统计数据SUM和周期1 day将提供过去 24 小时内发出的所有失败的内核启动请求。您也可以选择4XXError和5XXError指标来了解发生的内核启动失败类型。