监控卷网关 - Amazon Storage Gateway
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

亚马逊 S3 文件网关文档已移至什么是亚马逊 S3 文件网关?

亚马逊 FSx 文件网关文档已移至什么是亚马逊 FSx 文件网关?

磁带网关文档已移至什么是磁带网关?

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

监控卷网关

本节介绍如何监控缓存卷或存储卷设置中的网关,包括监控与网关关联的卷和监控上传缓冲区。使用 Amazon Web Services Management Console可查看网关的指标。例如,您可以查看读取和写入操作中使用的字节数、读取和写入操作所花费的时间以及从 Amazon Web Services 云检索数据所花费的时间。借助指标,您可以跟踪网关的运行状况并设置警报,以便在一个或多个指标超出定义的阈值时通知您。

Storage CloudWatch Gateway 无需额外付费。Storage Gateway 指标的记录期为两周。通过使用这些指标,您可以访问历史信息并更好地了解您的网关和卷的表现。有关的详细信息 CloudWatch,请参阅亚马逊 CloudWatch 用户指南

使用亚马逊日志获取批量网关Health CloudWatch 日志

您可以使用 Amazon CloudWatch Logs 获取有关您的 Volume Gateway 和相关资源运行状况的信息。您可以使用这些日志来监控网关是否遇到错误。此外,您可以使用亚马逊 CloudWatch 订阅筛选器来自动实时处理日志信息。有关更多信息,请参阅《亚马逊 CloudWatch 用户指南》中的 “通过订阅实时处理日志数据”。

例如,假设您的网关部署在使用 VMware 高可用性 (HA) 激活的集群中,您需要知道任何错误。您可以配置 CloudWatch 日志组来监控您的网关并在网关遇到错误时收到通知。您可以在激活网关时或在激活网关并运行后配置组。有关如何在激活网关时配置 CloudWatch 日志组的信息,请参阅配置您的批量网关。有关 CloudWatch 日志组的一般信息,请参阅《Amazon CloudWatch 用户指南》中的使用日志组和日志流

有关如何排查和修复此类错误的信息,请参阅排查节节问题

以下过程介绍如何在激活网关后配置 CloudWatch 日志组。

配置 CloudWatch 日志组以与您的网关配合使用
  1. 登录Amazon Web Services Management Console并打开 Storage Gateway 控制台,网址为 https://console.aws.amazon.com/storagegateway/home

  2. 在左侧导航窗格中,选择 Gateways (代理),然后选择您要为其 CloudWatch 配置的网关。

  3. 对于 “操作”,选择 “编辑网关信息”,或者在 “详细信息” 选项卡的 “Health 日志” 和 “未启用” 下,选择 “配置日志组” 以打开 CustomerGatewayName编辑” 对话框。

  4. 对于 Gateway 运行状况日志组,选择以下选项之一:

    • 如果您不想使用@@ 日志组监控网关,请禁用 CloudWatch 日志记录。

    • 创建新的日志组以创建新的 CloudWatch 日志组。

    • 使用现有日志组来使用已经存在 CloudWatch 的日志组。从现有日志组列表中选择一个日志组

  5. 选择 Save changes(保存更改)。

  6. 要查看您网关的运行状况,请执行以下操作:

    1. 在左侧导航窗格中,选择 Gateways (代理),然后选择您要为其 CloudWatch 配置的网关。

    2. 选择 “详细信息” 选项卡,然后在 “He alth 日志” 下选择 “CloudWatch 日志”。日志组详情页面在亚马逊 CloudWatch控制台中打开。

使用亚马逊 CloudWatch 指标

您可以使用 Amazon Web Services Management Console或 CloudWatch API 来获得网关的监控数据。控制台将根据来自 CloudWatch API 的原始数据显示一系列图表。您也可以通过Amazon软件开发套件 (SDK)亚马逊 CloudWatch API 工具使用 API。 CloudWatch 根据您的需求差异,您可能倾向于使用控制台中显示的图表,也可能倾向于检索自 API 的图表。

无论选择何种方法使用指标,您都必须指定下列信息:

  • 要使用的指标维度。维度 是帮助您对某指标进行唯一标识的名称/值对。Storage Gateway 的维度为GatewayIdGatewayName、和VolumeId。在 CloudWatch 控制台中,您可以使用Gateway MetricsVolume Metrics视图轻松选择网关特定尺寸和特定卷尺寸。有关尺寸的更多信息,请参阅亚马逊 CloudWatch 用户指南中的尺寸

  • 指标名称,如 ReadBytes

下表总结了您可以使用的Storage Gateway 指标数据的类型。

CloudWatch 命名空间 维度 描述
AWS/StorageGateway GatewayId, GatewayName

这些维度筛选描述网关各个方面的指标数据。您可以通过指定 GatewayIdGatewayName 维度标识要使用的网关。

网关的吞吐量和延迟数据基于网关中的所有卷。

数据在 5 分钟期间内自动可用,无需收费。

VolumeId

该维度筛选卷专属指标数据。通过卷的 VolumeId 维度标识要使用的卷。

数据在 5 分钟期间内自动可用,无需收费。

网关和卷指标的使用方式类似于其他服务指标。您可以在下面所列的 CloudWatch 文档中找到一个有关某些最常见的指标任务的讨论:

衡量您的应用程序和网关间的性能。

数据吞吐量、数据延迟和每秒操作数是您可用来了解使用网关的应用程序存储性能状况的三个度量指标。当您使用正确的聚合统计数据时,您可以使用 Storage Gateway 指标来衡量这些值。

统计数据 是某指标在指定时间内的集合。当您查看中 CloudWatch某个指标的值时,使用Average统计数据表示数据延迟(毫秒),使用Sum统计数据表示数据吞吐量(每秒字节数),并将Samples统计数据用于每秒输入/输出操作数 (IOPS)。有关更多信息,请参阅亚马逊 CloudWatch 用户指南中的统计数据

下表总结了可用来衡量应用程序和网关之间的吞吐量、延迟和 IOPS 的指标和相应统计数据。

关注项 如何测量
吞吐量

ReadBytesWriteBytes 指标结合 Sum CloudWatch 统计数据使用。例如,5 分钟采样周期内的 Sum 指标的 ReadBytes 值除以 300 秒可以得出每秒字节数速率的吞吐量。

延迟 ReadTimeWriteTime 指标结合 Average CloudWatch 统计数据使用。例如,Average 指标的 ReadTime 值为您提供采样周期内的每个操作的延迟时间。
IOPS ReadBytesWriteBytes 指标结合 Samples CloudWatch 统计数据使用。例如,5 分钟采样周期内的 Samples 指标的 ReadBytes 值除以 300 秒可以得出 IOPS。

对于平均延迟图表和平均大小图表,平均值通过该期间内完成的操作 (读取或写入,以适用于图表者为准) 总数计算得出。

度量应用程序到卷的数据吞吐量
  1. 通过 https://console.aws.amazon.com/cloudwatch/ 打开 CloudWatch 主机。

  2. 选择 Metrics,再选择 All metrics 选项卡,然后选择 Storage Gateway

  3. 选择 Volume metrics 维度,然后找到要使用的卷。

  4. 选择 ReadBytesWriteBytes 指标。

  5. 对于 Time Range,请选择一个值。

  6. 选择 Sum 统计数据。

  7. 对于 Period,请选择值 5 分钟或更长的时间。

  8. 在得出的按时间排序的数据点集中, (其中一个用于 ReadBytes,另一个用于 WriteBytes),将各个数据点除以周期 (以秒为单位) 得出采样点当时的吞吐量。总吞吐量是各个点吞吐量的和。

下图使用 ReadBytes 统计数据显示了卷的 WriteBytesSum 指标。在图中,将光标悬浮在数据点上就会显示该数据点信息,包括其值和字节数。将字节值除以 Period 值 (5 分钟) 得出采样点当时的数据吞吐量。对于高亮点,读取吞吐量是 2384199680 字节除以 300 秒,即 7.6MB/s。


                带有总和统计信息的卷网关的示例读取字节和写入字节指标图。
测量从应用程序到卷的每秒输入/输出操作数
  1. 通过 https://console.aws.amazon.com/cloudwatch/ 打开 CloudWatch 主机。

  2. 选择 Metrics,再选择 All metrics 选项卡,然后选择 Storage Gateway

  3. 选择 Volume metrics 维度,然后找到要使用的卷。

  4. 选择 ReadBytesWriteBytes 指标。

  5. 对于 Time Range,请选择一个值。

  6. 选择 Samples 统计数据。

  7. 对于 Period,请选择值 5 分钟或更长的时间。

  8. 在得出的按时间排序的数据点集中 (其中一个用于 ReadBytes,另一个用于 WriteBytes),将各个数据点除以周期 (以秒为单位) 得出 IOPS。

下图使用 ReadBytes 统计数据显示了存储卷的 WriteBytesSamples 指标。在图中,将光标悬浮在数据点上就会显示该数据点信息,包括其值和样本数。将采样值除以 Period 值 (5 分钟) 得出采样点当时的每秒操作数。对于高亮点,写入操作数是 24373 字节除以 300 秒,即每秒 81 次写入操作。


                带有示例统计信息的卷网关的示例读取字节和写入字节指标图。

衡量您的网关与之间的性能Amazon

数据吞吐量、数据延迟和每秒操作数是三种衡量标准,您可以使用它们来了解使用 Storage Gateway 的应用程序存储的性能。当您使用正确的聚合统计数据时,可以使用为您提供的Storage Gateway 指标来衡量这三个值。下表汇总了指标和相应的统计数据,用于衡量您的网关与之间的吞吐量、延迟和每秒输入/输出操作数 (IOPS)Amazon。

关注项 如何测量
吞吐量

ReadBytesWriteBytes 指标结合 Sum CloudWatch 统计数据使用。例如,5 分钟采样周期内的 Sum 指标的 ReadBytes 值除以 300 秒可以得出每秒字节数速率的吞吐量。

延迟 ReadTimeWriteTime 指标结合 Average CloudWatch 统计数据使用。例如,Average 指标的 ReadTime 值为您提供采样周期内的每个操作的延迟时间。
IOPS ReadBytesWriteBytes 指标结合 Samples CloudWatch 统计数据使用。例如,5 分钟采样周期内的 Samples 指标的 ReadBytes 值除以 300 秒可以得出 IOPS。
到 Amazon 的吞吐量 Sum CloudWatch 统计数据中使用CloudBytesDownloadedCloudBytesUploaded指标。例如,5 分钟样本周期内的 CloudBytesDownloaded 指标的 Sum 值除以 300 秒可得出以每秒字节数为单位的从 Amazon 到网关的吞吐量。
到 Amazon 的数据延迟 CloudDownloadLatency 指标与 Average 统计数据结合使用。例如,Average 指标的 CloudDownloadLatency 统计数据为您提供每操作延迟。
测量从网关到的上传数据吞吐量Amazon
  1. 通过 https://console.aws.amazon.com/cloudwatch/ 打开 CloudWatch 主机。

  2. 选择 Metrics,再选择 All metrics 选项卡,然后选择 Storage Gateway

  3. 选择 Gateway metrics 维度并找到您希望使用的卷。

  4. 选择 CloudBytesUploaded 指标。

  5. 对于 Time Range,请选择一个值。

  6. 选择 Sum 统计数据。

  7. 对于 Period,请选择值 5 分钟或更长的时间。

  8. 在得出的按时间排序的数据点集中,将各个数据点除以周期 (以秒为单位) 获得该样本周期当时的吞吐量。

下图使用 CloudBytesUploaded 统计数据显示了网关卷的 Sum 指标。在图中,将光标悬浮在数据点上就会显示该数据点信息,包括其值和上传的字节数。将该值除以 Period 值 (5 分钟) 得出采样点当时的吞吐量。对于突出显示的观点,从网关到的吞吐量Amazon为 555,544,576 字节除以 300 秒,即每秒 1.7 兆字节。


                网关的云字节上传指标图示例,其中包含总和统计信息。
如需衡量网关的每操作延迟
  1. 通过 https://console.aws.amazon.com/cloudwatch/ 打开 CloudWatch 主机。

  2. 选择 Metrics,再选择 All metrics 选项卡,然后选择 Storage Gateway

  3. 选择 Gateway metrics 维度并找到您希望使用的卷。

  4. 选择 ReadTimeWriteTime 指标。

  5. 对于 Time Range,请选择一个值。

  6. 选择 Average 统计数据。

  7. 对于 Period,请选择值 5 分钟以匹配默认报告时间。

  8. 在得出的按时间排序的点集中 (其中一个用于 ReadTime,另一个用于 WriteTime),在相同的时间样本添加数据点,以得出以毫秒为单位的总延迟。

测量从网关到的数据延迟Amazon
  1. 通过 https://console.aws.amazon.com/cloudwatch/ 打开 CloudWatch 主机。

  2. 选择 Metrics,再选择 All metrics 选项卡,然后选择 Storage Gateway

  3. 选择 Gateway metrics 维度并找到您希望使用的卷。

  4. 选择 CloudDownloadLatency 指标。

  5. 对于 Time Range,请选择一个值。

  6. 选择 Average 统计数据。

  7. 对于 Period,请选择值 5 分钟以匹配默认报告时间。

得出的按时间排序的数据点集包含以秒为单位的延迟。

将网关吞吐量的上限阈值警报设置为Amazon
  1. 通过 https://console.aws.amazon.com/cloudwatch/ 打开 CloudWatch 主机。

  2. 选择 Alarms

  3. 选择 Create Alarm (创建警报) 可启动“Create Alarm (创建警报)”向导。

  4. 选择 Storage Gateway 维度并找到要使用的网关。

  5. 选择 CloudBytesUploaded 指标。

  6. 要定义警报,请在 CloudBytesUploaded 指标大于或等于指定时间段的指定值时定义警报状态。例如,您可以定义 CloudBytesUploaded 指标在 60 分钟内 大于 10 MB 时的状态。

  7. 针对该警报状态配置要采取的行动。例如,可获得向您发送的电子邮件通知。

  8. 选择 Create Alarm(创建告警)

设置用于从中读取数据的阈值上限警报Amazon
  1. 通过 https://console.aws.amazon.com/cloudwatch/ 打开 CloudWatch 主机。

  2. 选择 Create Alarm (创建警报) 可启动“Create Alarm (创建警报)”向导。

  3. 选择 StorageGateway:网关指标维度,然后找到要使用的网关。

  4. 选择 CloudDownloadLatency 指标。

  5. 通过定义 CloudDownloadLatency 指标在指定时间段大于或等于指定值时的警报状态,定义警报。例如,您可以定义 CloudDownloadLatency 在 2 小时内大于 60000 毫秒时的警报状态。

  6. 针对该警报状态配置要采取的行动。例如,可获得向您发送的电子邮件通知。

  7. 选择 Create Alarm(创建告警)

了解卷指标

您可以在下面找到有关涵盖网关体积的 Storage Gateway 指标的信息。网关的每个卷均有与其关联的一组指标。

一些卷特定的指标具有和某些网关特定的指标相同的名称。这些指标代表同类度量,但其范围限于卷,而非网关。在开始工作之前,请指定要使用网关指标还是卷指标。具体而言,在使用卷指标时,请为要查看其指标的存储卷指定卷 ID。有关更多信息,请参阅使用亚马逊 CloudWatch 指标

注意

某些指标仅在最近的监控周期内生成了新数据时才返回数据点。

下表描述了可用于获取有关存储量信息的Storage Gateway 指标。

指标 描述 缓存卷 存储卷
AvailabilityNotification

该卷发送的可用性通知的数量。

单位:计数

CacheHitPercent

应用程序从卷中读取的百分率,由缓存传送。样本在报告周期结束时采用。

在没有应用程序从卷读取时,该指标报告 100%。

单位:百分比

CachePercentDirty

卷在未传送到 Amazon 的网关缓存的总体比例中的占比。样本在报告周期结束时采用。

使用网关的 CachePercentDirty 指标来查看未传送到 Amazon 的网关缓存总体比例。有关更多信息,请参阅了解网关指标

单位:百分比

CachePercentUsed

卷对网关缓存存储空间的总体使用率占比。样本在报告周期结束时采用。

使用网关的 CachePercentUsed 指标来查看网关缓存存储空间的总体使用率。有关更多信息,请参阅了解网关指标

单位:百分比

CloudBytesDownloaded

从云端下载到卷的字节数。

单位:字节

CloudBytesUploaded

从云上传到卷的字节数。

单位:字节

HealthNotification

由卷发送的运行状况通知的数量。

单位:计数

IoWaitPercent

体积当前使用的 IoWaitPercent 单位百分比。

单位:百分比

MemTotalBytes

该卷当前使用的总内存百分比。

单位:百分比

MemoryUsage

音量当前使用的内存百分比。

单位:百分比

ReadBytes

报告周期内从场内应用程序读取的总字节数。

将此指标与 Sum 统计数据结合使用可测量吞吐量,将其与 Samples 统计数据结合使用可测量 IOPS。

单位:字节

ReadTime

报告周期内从本地应用程序进行读取操作所耗费的总毫秒数。

将该指标与 Average 统计数据结合使用可测量延迟。

单位:毫秒

UserCpuPercent

卷当前所使用的已分配 CPU 计算单位的百分比。

单位:百分比

WriteBytes

报告周期内写入到场内应用程序的总字节数。

将此指标与 Sum 统计数据结合使用可测量吞吐量,将其与 Samples 统计数据结合使用可测量 IOPS。

单位:字节

WriteTime

报告周期内从本地应用程序进行写入操作所耗费的总毫秒数。

将该指标与 Average 统计数据结合使用可测量延迟。

单位:毫秒

QueuedWrites

等待写入到 Amazon 的字节的数目,采样于报告周期结束时。

单位:字节