查看可用指标
您可以查看以下指标来监控集群。所有硬件指标都包括最大值的指标或单独图表。
重要
可用的指标取决于用户角色和集群类型。
注意
目前,无服务器实例指标不支持任何第三方服务(例如 Datadog)。
衡量标准 | 说明 |
---|---|
Asserts | 显示以下信息:
监控器断言跟踪在尝试读取或写入数据时发生的错误数量。检查服务器日志,找出错误源。 |
Avg Object Size | 显示数据库中所有集合的平均对象大小。 监视对象大小以追踪对象的大小并更好地了解数据库空间。 |
Cache Activity | 显示以下信息:
监控 MongoDB 缓存,它将频繁访问的数据存储在内存中,以便更快地为查询提供服务。 |
Cache Ratio | 显示缓存填充率和脏填充率指标。 缓存填充率衡量缓存处理请求的能力。计算方法是使用当前缓存中的字节数除以配置的最大字节数,以百分比表示。较高的缓存填充率表示大多数数据请求都是从内存中处理的,这可以提高查询性能并减少磁盘 I/O。 脏填充率表示脏字节(即在内存中修改但尚未写入磁盘的页面)占缓存总量的比例。较高的脏填充率表示有大量数据正在等待写入磁盘,这可能会影响性能。在监控写入密集型工作负载时使用此指标,以确保数据持久性。 |
Cache Usage | 显示以下信息:
这些指标包括工作集中的索引和数据。 缓存使用率持续较高表明 RAM 对于您的工作负载而言太小。请优化查询以避免频繁地读取磁盘。如果写入操作使缓存使用率较高,请对其进行限制。 |
Catalog | 显示以下信息:
在升级集群层时,监控目录计数以防止过多的数据库、集合、视图或索引导致启动失败。 |
Collections | 显示数据库中的集合数。 监控集合以确定重新启动时间、连续备份性能和稳定性。 |
Connections (无服务器实例/副本集)或 connection (分片集群) | 显示集群的总活动连接数。 监控连接以确定当前的连接限制是否足够。如有必要,请升级集群层。 |
Cursors | 显示以下信息:
监控游标以关闭不必要的游标,并减小应用程序中的超时配置。 |
DB Storage | 显示以下信息:
Atlas 默认下每 20 分钟检索一次数据库指标,但会在必要时调整频率以减少对数据库性能的影响。 监控存储空间,以确定是否使用磁盘自动伸缩还是手动增加磁盘大小。您还可以监控此指标以验证备份账单。 |
Disk IOPS | 显示每秒的输入操作次数。 监控磁盘 IOPS 是否接近预配的最大 IOPS。确定集群是否可以处理将来的工作负载。 |
Disk Latency | 显示以下信息:
监控磁盘延迟以跟踪读取和写入磁盘的效率。 |
Disk Queue Depth | 显示发送到 MongoDB 使用的磁盘分区的请求队列的平均长度。 监控磁盘队列深度,找出潜在问题和瓶颈。 |
Disk Space Free | 显示磁盘上剩余的可用空间总量。 监控可用磁盘空间,以确定是否使用磁盘自动伸缩还是手动增加磁盘大小。 |
Disk Space Percent Free | 显示磁盘剩余可用空间总量占磁盘空间总量的百分比。 监控可用磁盘空间的百分比,以确定是否使用磁盘自动伸缩或手动增加磁盘大小。 |
Disk Space Used | 显示已用磁盘总空间。 监控已用磁盘空间,以确定是否使用磁盘自动伸缩还是手动增加磁盘大小。 |
Disk Throughput | 显示磁盘读取和写入吞吐量指标。 磁盘读取吞吐量反映从磁盘读取数据的速率,单位为兆字节/秒,表明数据库检索内存中未缓存数据的效率。 磁盘写入吞吐量衡量数据写入磁盘的速度,单位为兆字节/秒,反映数据库处理写入操作和将数据有效持久化到存储中的能力。 |
Document Metrics | 显示以下信息:
监视文档指标以衡量 MongoDB 完成的工作。 |
Execution Time | 显示以下指标的平均时长(以秒为单位):
监控读取操作的执行时间有无增加,以优化查询和索引。 |
Index Size | 显示数据库中所有索引的总大小。除了索引所依据的实际文档数据之外,该指标还包括索引所产生的开销。 监控索引大小以管理索引。如要了解更多信息,请参阅索引策略。 |
Indexes | 显示数据库中的索引总数。 监控索引以对索引进行管理。如要了解更多信息,请参阅索引策略。 |
Max Disk IOPS | 显示指标颗粒度指定的时间段内的以下最大磁盘 IOPS 值:
监控磁盘 IOPS 是否接近预配的最大 IOPS。确定集群是否可以处理将来的工作负载。 |
Max Disk Queue Depth | 显示指标颗粒度指定时间段内的最大磁盘队列深度值。磁盘队列深度是向 MongoDB 使用的磁盘分区发出的请求队列的平均长度。 监控磁盘队列深度,找出潜在问题和瓶颈。 |
Max Normalized System CPU | 显示节点上所有进程的最大 CPU 使用率值,通过除以 CPU 核心数,调整范围为 0-100%。 监控 CPU 使用情况,以确定是否从磁盘而不是内存中检索数据。 如果您无法查看触发警报的使用情况,请单击相关时段并拖动鼠标,放大 Normalized System CPU 图表。通过更高分辨率的视图,您可能会发现在概述中看不到的 CPU 使用量尖峰。 |
Max Process CPU | 显示指标颗粒度指定的时间段内的以下最大进程 CPU 值:
监控 CPU 使用情况,以确定是否从磁盘而不是内存中检索数据。 如果您无法查看触发警报的使用情况,请单击相关时段并拖动鼠标,放大 Normalized System CPU 图表。通过更高分辨率的视图,您可能会发现在概述中看不到的 CPU 使用量尖峰。 |
Max System CPU | 显示节点上所有进程的 CPU 最大使用量。 监控 CPU 使用情况,以确定是否从磁盘而不是内存中检索数据。 如果您无法查看触发警报的使用情况,请单击相关时段并拖动鼠标,放大 Normalized System CPU 图表。通过更高分辨率的视图,您可能会发现在概述中看不到的 CPU 使用量尖峰。 |
Max System Memory | 显示最大系统内存值,以字节为单位。 监视内存以确定是否升级到更高的集群层。该指标基于 |
Memory | 显示特定时间点的内存总消耗量(以兆字节为单位):
监视内存以确定是否升级到更高的集群层。此指标表示指标粒度指定的时间段内的平均值。 |
Network | 显示以下信息:
|
Normalized Process CPU | 显示以下信息:
监控 CPU 使用情况,以确定是否从磁盘而不是内存中检索数据。 如果您无法查看触发警报的使用情况,请单击相关时段并拖动鼠标,放大 Normalized System CPU 图表。通过更高分辨率的视图,您可能会发现在概述中看不到的 CPU 使用量尖峰。 |
Normalized System CPU | 显示节点上所有进程的 CPU 使用率,通过除以 CPU 核心数,调整范围为 0-100%。 监控 CPU 使用情况,以确定是否从磁盘而不是内存中检索数据。 如果您无法查看触发警报的使用情况,请单击相关时段并拖动鼠标,放大 Normalized System CPU 图表。通过更高分辨率的视图,您可能会发现在概述中看不到的 CPU 使用量尖峰。 |
Objects | 显示数据库中的对象数量。 监控该指标以更好地了解数据库空间。 |
Opcounters | 显示自 MongoDB 进程上次启动以来每秒运行的以下操作数量:
监控 MongoDB 操作以验证与高工作负载相关的性能问题。确认负责负载的操作类型。 |
Opcounters - Repl | 显示以下信息:
监控 MongoDB 操作以验证与高工作负载相关的性能问题。确认负责负载的操作类型。 |
Operation Execution Time | 显示执行以下操作的平均时间,以毫秒为单位:
监控读取操作的执行时间有无增加,以优化查询和索引。确定是否需要 升级集群层。 |
Oplog GB/Hour | 显示主设备每小时产生的未压缩 oplog 数据的平均速率(以千兆字节为单位)。 监控 oplog 数据,确定是否必须增加 oplog 大小。 |
Page Faults | 显示所选样本周期内该进程每秒的平均页面错误率。在非 Windows 环境中,这种情况只适用于硬页面错误。 监控页面错误,以确定是否增加内存。 |
Process CPU | 显示以下信息:
监控 CPU 使用情况,以确定是否从磁盘而不是内存中检索数据。 如果您无法查看触发警报的使用情况,请单击相关时段并拖动鼠标,放大 Normalized System CPU 图表。通过更高分辨率的视图,您可能会发现在概述中看不到的 CPU 使用量尖峰。 |
Query Executor | 显示以下信息:
监控查询执行器,以确定是否存在低效查询。 |
Query Targeting | |
Queues | 显示以下信息:
监视锁队列以优化查询。 |
Read/Write Units | 显示以下信息:
监控读写单元,帮助优化查询和索引。 |
Replication Headroom | 显示主节点的复制 oplog window 窗口与从节点的复制延迟之间的差异。 监视复制空间以确定从节点是否可能脱离 oplog。 |
Replication Lag | 显示写入应用程序中从节点落后于主节点的大致秒数。 监视复制延迟以确定从节点是否可能脱离 oplog。 |
Replication Oplog Window | 显示基于 oplog 的流失的主节点副本 oplog 中可用数据库操作的估计平均小时数。如果辅助节点上的复制延迟超过了复制 oplog 窗口,且复制空间达到零,则需要进行完全重新同步才能使该节点恢复健康状态。 监控复制 oplog 窗口和复制空间,以确定辅助节点是否很快需要完全重新同步。复制 oplog 窗口通常有助于提前确定辅助节点对计划内和计划外中断的恢复能力。 |
Scan and Order | 显示每秒返回需要在内存中排序的结果的操作数量。 监控该指标以确定查询是否需要索引。 |
Shard Data Size | 显示存储数据在每个分片上占用的存储空间大小(以字节为单位)。只有使用 MongoDB 6.0+ 的分片集群才能访问此图表。 监控此指标以验证分片是否均衡。 |
Shard Document Count | 显示每个分片上的文档数量。只有使用 MongoDB 6.0+ 的分片集群才能访问此图表。 监控此指标以验证分片是否均衡。 |
Sort | 显示spill to disk during sort ,即由 spill to disk during sort数字较高可能是由于执行集合扫描并使用 |
System CPU | 显示节点上所有进程的 CPU 占用率。 监控 CPU 使用情况,以确定是否从磁盘而不是内存中检索数据。 如果您无法查看触发警报的使用情况,请单击相关时段并拖动鼠标,放大 Normalized System CPU 图表。通过更高分辨率的视图,您可能会发现在概述中看不到的 CPU 使用量尖峰。 |
System Memory | 显示以下信息:
监视内存以确定是否升级到更高的集群层。此指标表示指标粒度指定的时间段内的平均值。 |
System Network | 显示以下信息:
监控网络指标以追踪网络性能。 |
Tickets Available | 显示以下信息:
监控可用票证,查看读取和写入请求排队的时间。 对于在 MongoDB 7.0 及更高版本上运行的集群,请勿使用工单数量作为过载警报的指标。从 MongoDB 版本 7.0 开始,Atlas 动态调整工单数量。相反,使用排队的读取器和写入器的数量作为过载指标。 |
Views | 显示数据库中视图的数量。 监控视图以帮助优化数据库。 |