本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
使用集群洞察实现统一运营监控
Amazon S OpenSearch ervice 现在包括 Cluster Insights,这是一种监控解决方案,可通过单个控制面板提供集群的全面运营可见性。这消除了必须分析和关联各种日志和指标以识别集群可用性或性能的潜在风险的复杂性。该解决方案可自动整合跨节点、索引和分片的关键运营数据,将复杂的故障排除转化为简化的流程。您可以检测诸如大型分片和低磁盘水印之类的问题,查看节点、索引和分片级别的详细指标,以及访问安全和弹性最佳实践。
注意
所有运行 2.17 或更高 OpenSearch 版本的用户均可通过 OpenSearch 服务用户界面获得 Cluster Insights,无需支付额外费用。此外, OpenSearch 版本为 2.17 和 2.19 的域名还需要使用最新的服务软件版本更新。
优势
主动监控-通过所有组件(从单个节点和索引到分片和搜索查询)的详细性能指标,主动监控集群运行状况。
统一的可视性-将监控数据整合到单个仪表板中
切实可行的建议-获取问题解决 step-by-step指南
全面覆盖-监控整个集群的安全性、稳定性和弹性 OpenSearch
查询优化-识别资源密集型查询并优化性能
借助 Cluster Insights,您可以保持最佳的集群性能,减少运营开销,并确保 OpenSearch 集群之间的最佳实践保持一致
创建和配置 OpenSearch 应用程序以查看 Cluster Insights
您可以通过 OpenSearch UI(控制面板)查看特定 OpenSearch 服务集群的见解。在 OpenSearch UI 中,应用程序只是一种组织结构,就像文件夹一样。每个应用程序都可以连接到多个 OpenSearch 服务集群并显示有关这些集群的见解。访问 Cluster Insights 需要在 OpenSearch UI 应用程序中扮演管理角色。
注意
访问 Cluster Insights 需要在 OpenSearch UI 应用程序中扮演管理角色。
创建和配置应用程序以查看 Cluster Insights
-
打开 OpenSearch 服务控制台,网址为 https://console.amazonaws.cn/aos/home
-
从左侧导航栏中选择 OpenSearch UI(仪表板)
-
完成以下步骤来创建和配置应用程序:
-
完成上述两个步骤后,您可以在 OpenSearch UI 控制面板的 “设置” > “数据管理员” > “集群见解” 部分下查看 “集群见解”。设置图标位于 OpenSearch 用户界面屏幕的左下角。
屏幕 1:从 OpenSearch 用户界面访问数据管理员
屏幕-2:“管理数据” 部分下的集群见解
了解集群见解
本节介绍了 Cluster Insights 中提供的各种见解。
概述控制面板
Cl uster Insights 概述页面(如以下屏幕截图所示)提供了应用程序级别的集群运行状况的高级视图,包括以下部分:
Screen-3: OpenSearch 用户界面应用程序中的 “集群见解” 登录页面。
当前集群状态
甜甜圈图显示您的集群运行状况:
绿色-所有主分片和副本都分配给节点
黄色-所有主分片均已分配,但有些副本未分配
红色-至少有一个主分片未分配给任何节点
洞察趋势
趋势图跟踪过去 30 天内的问题模式,帮助您识别新出现的问题并监控解决进度。
当前的开放见解
按过去 30 天开放见解的严重程度整理的计数。
OpenSearch 服务集群
本部分列出了您的所有 OpenSearch 集群,包括节点数、分片计数和活动查询等关键统计信息。
按严重程度分类的热门见解
您可以查看应用程序中所有领域的见解。本节列出了需要立即关注的问题(严重和高严重性)的优先顺序。每项见解都包含描述和具体建议,可以帮助您首先关注关键问题。
见解详细信息
“按严重程度划分的热门见解” 部分中的每条见解都是交互式的,并提供详细的分析。例如,当你选择 “大碎片大小” 洞察时:
你可以看到有多少分片超过了阈值以及哪些索引受到影响。
资源映射通过其索引、ID 和当前大小来标识每个超大分片。
“建议” 选项卡提供 step-by-step补救指导。
“历史记录” 选项卡显示资源修复操作的时间表。
集群详细信息
当您在OpenSearch 服务集群部分选择特定集群时, OpenSearch 将在以下选项卡中显示该集群的见解:集群运行状况、节点视图、索引视图、分片视图和查询视图。集群运行状况选项卡显示以下信息:
概述
关键信息包括集群运行状况、分片数、节点数、索引计数和文档统计信息。
配置最佳实践
甜甜圈图显示符合弹性和安全性的推荐设置。
见解
表格列出了最近为集群生成的见解,概述页面中提供了相同的详细细分和补救指南。
Screen-4:Cluster Health 概述提供了关键指标、最佳实践和见解
当你点击任何见解时,你可以看到详细信息以及受影响的资源和建议。此外,您还可以查看固定资源的历史记录。
屏幕 5:洞察详情。为您提供详细信息、建议和历史时间表。
“指标” 部分
此部分中的交互式图表显示以下群集指标:
集群总体运行状况指标,例如集群状态、写入状态和可搜索文档
KPIs (关键绩效指标),例如索引和搜索率以及延迟
资源利用率指标,例如 JVM 和 CPU 利用率
节点、索引和分片视图
节点、索引和分片视图使用 OpenSearch 统计信息来提供集群操作的详细可见性。您可以查看:
实时指标,例如 CPU 利用率和 JVM 内存压力
搜索和索引性能数据
跨群集组件的资源热点
精细的节点级诊断
分配的分片堆最多
Screen-6:节点、索引和分片等级指标
查询视图
注意
2.19 或更高 OpenSearch 版本支持查询视图功能。
“查询视图” 页面可通过以下方式帮助您监控资源密集型查询:
实时仪表板
查看每个查询的执行统计信息、CPU 和内存使用情况以及完成进度。
前 N 个查询
排名表显示了最重要的查询,其详细信息包括:
查询次数
延迟、CPU 和内存使用情况
搜索类型和协调器节点
目标索引和分片数
查询详细信息
双击任意查询即可查看:
确切的查询负载和执行步骤
每个阶段(扩展、查询、获取)的延迟细分
优化建议
屏幕-7:机上实时取景。您还可以查看前 N 个查询