本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
使用以下方式监控亚马逊 DocumentDB CloudWatch
Amazon DocumentDB(兼容 MongoDB)与亚马逊集成, CloudWatch 因此您可以收集和分析集群的运行指标。您可以使用 CloudWatch 控制台、Amazon DocumentDB 控制台、 Amazon Command Line Interface (Amazon CLI) 或来监控这些指标。 CloudWatch API
CloudWatch 还允许您设置警报,以便在指标值违反您指定的阈值时收到通知。您甚至可以设置 Amazon Ev CloudWatch ents,以便在发生违规行为时采取纠正措施。有关使用 CloudWatch 和警报的更多信息,请参阅 Amazon CloudWatch 文档。
Amazon DocumentDB 指标
要监控 Amazon DocumentDB 集群和实例的运行状况和性能,您可以在 Amazon DocumentDB 控制台中查看以下指标。
注意
下表中的指标适用于基于实例的集群和弹性集群。
资源利用率指标
指标 | 描述 |
---|---|
BackupRetentionPeriodStorageUsed |
在 Amazon DocumentDB 的保留期内,用于支持 point-in-time还原功能的备份存储总量(以 GiB 为单位)。包含在 TotalBackupStorageBilled 指标报告的总数中。针对每个 Amazon DocumentDB 集群单独计算。 |
ChangeStreamLogSize |
集群用于存储变更流日志的存储量(以兆字节为单位)。此值是集群总存储量的子集 (VolumeBytesUsed ),将影响集群的成本。有关存储定价信息,请参阅 Amazon DocumentDB 产品页面 |
CPUUtilization |
实例CPU使用的百分比。 |
DatabaseConnections |
在以一分钟频率拍摄的实例上打开的连接数。 |
DatabaseConnectionsMax |
一分钟内实例上打开的最大数据库连接数。 |
DatabaseCursors |
在以一分钟频率拍摄的实例上打开的光标数。 |
DatabaseCursorsMax |
一分钟内实例上打开的最大光标数。 |
DatabaseCursorsTimedOut |
在一分钟内超时的光标数量。 |
FreeableMemory |
随机存取内存的可用量 (以字节为单位)。 |
FreeLocalStorage |
此指标报告每个实例中可用于临时表和日志的存储量。此值取决于实例类。您可通过为实例选择较大的实例类来增加对实例可用的存储空间量。 |
LowMemThrottleQueueDepth |
由于可用内存不足而受到限制的请求的队列深度,频率为一分钟。 |
LowMemThrottleMaxQueueDepth |
一分钟内因可用内存不足而被节流的请求的最大队列深度。 |
LowMemNumOperationsThrottled |
一分钟内因可用内存不足而被节流的请求数量。 |
SnapshotStorageUsed |
给定 Amazon DocumentDB 集群的所有快照在其备份保留时段外消耗的备份存储总量(以 GiB 为单位)。包含在 TotalBackupStorageBilled 指标报告的总数中。针对每个 Amazon DocumentDB 集群单独计算。 |
SwapUsage |
实例上使用的交换空间的大小。 |
TotalBackupStorageBilled |
为给定 Amazon DocumentDB 集群计费时所针对的备份存储总量(以 GiB 为单位)。包含由 BackupRetentionPeriodStorageUsed 和 SnapshotStorageUsed 指标度量的备份存储。针对每个 Amazon DocumentDB 集群单独计算。 |
TransactionsOpen |
以一分钟为频率在实例上打开的事务数量。 |
TransactionsOpenMax |
一分钟内在实例上打开的最大事务数量。 |
VolumeBytesUsed |
您的集群使用的存储量(以字节为单位)。此值将影响集群的成本。有关定价信息,请参阅 Amazon DocumentDB 定价页面 |
延迟指标
指标 | 描述 |
---|---|
DBClusterReplicaLagMaximum |
数据库集群中主实例和每个 Amazon DocumentDB 实例之间的最大滞后量(以毫秒为单位)。 |
DBClusterReplicaLagMinimum |
集群中主实例和每个副本实例之间的最小滞后量(以毫秒为单位)。 |
DBInstanceReplicaLag |
在从主实例向副本实例复制更新时的滞后总量(以毫秒为单位)。 |
ReadLatency |
每个磁盘 I/O 操作所需的平均时间。 |
WriteLatency |
每个磁盘 I/O 操作所需的平均时间(以毫秒为单位)。 |
操作指标
指标 | 描述 |
---|---|
DocumentsDeleted |
一分钟内删除的文档数量。 |
DocumentsInserted |
一分钟内插入的文档数量。 |
DocumentsReturned |
一分钟内返回的文档数量。 |
DocumentsUpdated |
一分钟内更新的文档数量。 |
OpcountersCommand |
一分钟内发出的命令数。 |
OpcountersDelete |
一分钟内发出的删除操作数。 |
OpcountersGetmore |
一分钟内发出的 getmore 数。 |
OpcountersInsert |
一分钟内发出的插入操作数。 |
OpcountersQuery |
一分钟内发出的查询数。 |
OpcountersUpdate |
一分钟内发出的更新操作数。 |
TransactionsStarted |
一分钟内在实例上启动的事务数量。 |
TransactionsCommitted |
一分钟内在实例上承诺的事务数量。 |
TransactionsAborted |
一分钟内在实例上提交的事务数量。 |
TTLDeletedDocuments |
在一分钟内被删除TTLMonitor的文档数。 |
吞吐量指标
指标 | 描述 |
---|---|
NetworkReceiveThroughput |
集群中每个实例从客户端接收的网络吞吐量(以每秒字节数为单位)。此吞吐量不包括集群中的实例与集群卷之间的网络流量。 |
NetworkThroughput |
Amazon DocumentDB 集群中每个实例从客户端接收和发送到客户端的网络吞吐量(以每秒字节数为单位)。此吞吐量不包括集群中的实例与集群卷之间的网络流量。 |
NetworkTransmitThroughput |
集群中每个实例发送到客户端的网络吞吐量(以每秒字节数为单位)。此吞吐量不包括集群中的实例与集群卷之间的网络流量。 |
ReadIOPS |
每秒平均磁盘读取 I/O 操作数。Amazon DocumentDB 报告是IOPS分开读写的,每隔一分钟。 |
ReadThroughput |
每秒从磁盘读取的平均字节数。 |
StorageNetworkReceiveThroughput |
集群中每个实例从 Amazon DocumentDB 集群存储卷接收的网络吞吐量(以每秒字节数为单位)。 |
StorageNetworkTransmitThroughput |
集群中每个实例发送到 Amazon DocumentDB 集群存储卷的网络吞吐量(以每秒字节数为单位)。 |
StorageNetworkThroughput |
Amazon DocumentDB 集群中每个实例接收自和发送到 Amazon DocumentDB 集群存储卷的网络吞吐量(以每秒字节数为单位)。 |
VolumeReadIOPs |
集群卷中计费读取 I/O 操作的平均数量,每隔 5 分钟报告一次。计费读取操作数是在集群卷级别计算的,由集群中的所有实例聚合而来,然后每隔 5 分钟报告一次。此值是通过采用 5 分钟以上的读取操作数指标的值计算得来的。您可通过采用计费读取操作数指标的值并除以 300 秒来确定每秒的计费读取操作数。 例如,如果 您累积请求不在缓冲区缓存中因而必须从存储加载的数据库页的查询的计费读取操作数。您可能看到计费读取操作数出现峰值,因为查询结果是从存储中读取然后加载到缓冲区缓存中的。 |
VolumeWriteIOPs |
集群卷中计费写入 I/O 操作的平均数量,每隔 5 分钟报告一次。计费写入操作数是在集群卷级别计算的,由集群中的所有实例聚合而来,然后每隔 5 分钟报告一次。此值是通过采用 5 分钟以上的写入操作数指标的值计算得来的。您可通过采用计费写入操作数指标的值并除以 300 秒来确定每秒的计费写入操作数。 例如,如果 请注意, |
WriteIOPS |
每秒平均磁盘写入 I/O 操作数。在集群级别使用时,WriteIOPs 会对集群中的所有实例进行评估。读取和写入IOPS分别报告,每隔 1 分钟。 |
WriteThroughput |
每秒写入磁盘的平均字节数。 |
系统指标
指标 | 描述 |
---|---|
BufferCacheHitRatio |
缓冲区缓存提供的请求的百分比。 |
DiskQueueDepth |
分布式存储卷的并发写入请求数。 |
EngineUptime |
实例已运行的时间长度(以秒为单位)。 |
IndexBufferCacheHitRatio |
缓冲区缓存提供的指数请求的百分比。删除索引、集合或数据库后,您可能会立即看到该指标的峰值超过 100%。60 秒后自动更正。此限制将在未来的补丁更新中得到修复。 |
T3 实例指标
指标 | 描述 |
---|---|
CPUCreditUsage |
衡量期内花费的CPU积分数量。 |
CPUCreditBalance |
实例已累CPU积的积分数量。当CPU爆发和CPU积分的使用速度快于获得的速度时,该余额就会耗尽。 |
CPUSurplusCreditBalance |
CPUCreditBalance值为零时为维持CPU绩效而花费的剩余CPU积分数量。 |
CPUSurplusCreditsCharged |
盈余CPU积分的数量超过了在 24 小时内可以获得的最大CPU积分数,因此会产生额外费用。有关更多信息,请参阅监控您的CPU积分。 |
查看 CloudWatch 数据
您可以使用 CloudWatch 控制台、Amazon DocumentDB 控制台 Amazon Command Line Interface (Amazon CLI)或,查看亚马逊 CloudWatch 数据。 CloudWatch API
Amazon DocumentDB 维度
Amazon DocumentDB 的指标由账户或操作的值来限定。您可以使用 CloudWatch 控制台检索按下表中任意维度筛选的 Amazon DocumentDB 数据。
维度 | 描述 |
---|---|
DBClusterIdentifier |
筛选您为特定 Amazon DocumentDB 集群请求的数据。 |
DBClusterIdentifier, Role |
筛选您为特定 Amazon DocumentDB 集群请求的数据,按实例角色 (WRITER/) 汇总指标。READER例如,您可以汇总属于集群的所有READER实例的指标。 |
DBInstanceIdentifier |
筛选您为特定数据库实例请求的数据。 |
监控 Opcounter 指标
对于空闲集群,Opcounter 指标具有非零值(通常约为 50)。这是因为 Amazon DocumentDB 会定期执行运行状况检查、内部操作和指标收集任务。
监控数据库连接
当你使用数据库引擎命令查看连接数时db.runCommand( { serverStatus: 1 })
,你看到的连接数可能比你看到的DatabaseConnections
多达 10 个 CloudWatch。发生这种情况的原因是,Amazon DocumentDB 执行定期运行状况检查和指标收集任务,而这些任务不记入 DatabaseConnections
。DatabaseConnections
仅显示客户启动的连接数。