常见监控场景 - Amazon GameLift Servers
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

常见监控场景

深入的性能调查

场景:A host/instance 由于特定进程或游戏会话而导致性能下降

调查步骤:

  • 访问“实例性能”控制面板。

  • 查看“内存消耗最大的前 N 个游戏会话”表,确定哪些进程消耗的实例内存最多。

  • 查看“CPU 消耗最大的前 N 个游戏会话”表,确定哪些进程使用的实例 CPU 最多。

  • 点击“游戏会话”链接,更深入地调查详细指标。

  • 分析服务器计时(服务器增量时间、服务器节拍率、服务器节拍时间、服务器世界节拍时间)以识别性能瓶颈。

游戏服务器崩溃调查

场景:一个游戏会话发生了崩溃,您需要确定根本原因

调查步骤:

  • 访问“服务器性能”控制面板,查看崩溃的游戏会话。

  • 检查“内存使用量(单位)”和“物理内存使用率(%)”,确定崩溃是否是内存不足所致。

  • 查看“CPU 使用率(%)”,确定崩溃是否是 CPU 过载所致。

  • 分析网络 I/O (字节)和网络 I/O (数据包),以确定网络带宽问题是否导致崩溃。

  • 检查“数据包丢失”百分比以识别网络相关问题。

调查玩家报告的问题

场景:玩家报告称游戏过程中出现延迟或中断

调查步骤:

  • 访问“服务器性能”控制面板,查看受影响的游戏会话。

  • 查看“服务器节拍时间”和“服务器世界节拍时间”,确定游戏更新是否有延迟。

  • 检查“服务器节拍率”,确保服务器更新频率保持一致。

  • 分析“CPU 使用率(%)”以识别处理瓶颈。

  • 查看“内存使用率”各指标以识别与内存相关的性能问题。

  • 检查网络 I/O 指标和数据包丢失以确定网络瓶颈。

识别不同游戏服务器生成包中的性能变化

场景:您想衡量不同服务器生成包中游戏性能的变化情况

调查步骤:

  • 比较不同生成包之间的“服务器节拍时间”指标,以衡量处理效率的变化。

  • 分析不同生成包之间的“服务器节拍率”一致性,确定是否有性能下降情况。

  • 查看“服务器世界节拍时间”以衡量游戏世界更新性能的变化。

  • 比较不同生成包之间的内存使用模式,确定是否有内存优化改进或倒退情况。

  • 监控 CPU 使用率趋势以评测计算效率变化。

检测游戏过程中的延迟和缓慢情况

场景:您需要监控服务器响应速度和游戏更新速度

调查步骤:

  • 监控“服务器节拍时间”,以衡量服务器处理每个更新周期的速度。

  • 跟踪“服务器节拍率”,确保每秒游戏状态更新的一致性。

  • 分析“服务器世界节拍时间”以衡量游戏世界更新速度,这会直接影响客户体验。

  • 针对“服务器增量时间”变化设置警报,以检测服务器性能不一致的情况。

对不同的游戏场景进行基准测试

场景:您想确定不同的游戏场景如何影响服务器性能

调查步骤:

  • 比较不同玩家数量的服务器性能指标,以了解扩缩的影响。

  • 查看“服务器节拍时间”和“CPU 使用率”指标,分析不同游戏模式之间的性能差异。

  • 监控不同游戏场景中的内存使用模式,以识别资源密集型功能。

  • 跟踪网络 I/O 指标以了解不同游戏场景的带宽需求。

  • 使用“实例性能”控制面板,确定哪些游戏场景产生了资源消耗量最大的游戏会话。

对高资源利用情况的响应

场景:异常的资源消耗峰值(CPU > 85%,内存 > 90%)

调查步骤:

确定受影响的资源

  • 使用 DescribeGameSessionDetails API。

  • 如果需要,按状态筛选。

  • 记录受影响的实例。

分析资源使用情况

  • 查看“实例概述”控制面板。

  • 比较实例集中实例的利用率。

  • 查看历史模式。

监控游戏服务器影响

  • 检查“服务器性能”各指标。

  • 查看节拍时间和数据表丢失情况。

  • 监控内存泄漏。

解决步骤

  • 下载会话日志。

  • 解决生成包问题。

  • 监控改进。

游戏服务器崩溃分析

场景:整个实例集出现多个错误状态的游戏会话

调查步骤:

初步评测

  • 访问“实例集概述”控制面板。

  • 查看崩溃的会话表。

  • 注意时间/位置方面的模式。

执行分析

  • 检查服务器计时指标。

  • 查看资源利用情况。

  • 监控网络性能。

基础架构审查

  • 验证实例集容量。

  • 检查实例运行状况。

  • 查看扩缩策略。

解决方案路径

  • 分析服务器日志。

  • 查看代码优化情况。

  • 实施修复。

实例集容量优化

场景:游戏发布或基准研究

分析步骤:

资源利用情况

  • 按位置筛选。

  • 查看 P50/P95/P99 指标。

  • 分析使用模式。

实例类型分析

  • 按类型比较性能。

  • 确定扩缩候选项。

  • 记录资源利用模式。

优化操作

  • 调整扩缩策略。

  • 修改实例类型。

  • 更新实例集配置。