开源的 NGINX 提供了一个简单状态页面来显示基本的服务器指标。该状态信息以标准格式显示,实际上任何图形或监控工具可以被配置去解析这些相关数据,以用于分析、可视化、或提醒。NGINX Plus 提供一个 JSON 接口来供给更多的数据。阅读相关文章“NGINX 指标收集”来启用指标收集的功能。
错误指标 名称描述指标类型可用于4xx 代码 客户端错误计数 工作:错误 NGINX 日志, NGINX Plus
5xx 代码 服务器端错误计数 工作:错误 NGINX 日志, NGINX Plus
NGINX 错误指标告诉你服务器是否经常返回错误而不是正常工作。客户端错误返回4XX状态码,服务器端错误返回5XX状态码。
提醒指标: 服务器错误率
服务器错误率等于在单位时间(通常为一到五分钟)内5xx错误状态代码的总数除以状态码(1XX,2XX,3XX,4XX,5XX)的总数。如果你的错误率随着时间的推移开始攀升,调查可能的原因。如果突然增加,可能需要采取紧急行动,因为客户端可能收到错误信息。
Server error rate
关于客户端错误的注意事项:虽然监控4XX是很有用的,但从该指标中你仅可以捕捉有限的信息,因为它只是衡量客户的行为而不捕捉任何特殊的 URL。换句话说,4xx出现的变化可能是一个信号,例如网络扫描器正在寻找你的网站漏洞时。
收集错误度量
虽然开源 NGINX 不能马上得到用于监测的错误率,但至少有两种方法可以得到:
使用商业支持的 NGINX Plus 提供的扩展状态模块
配置 NGINX 的日志模块将响应码写入访问日志
关于这两种方法,请阅读相关文章“NGINX 指标收集”。
性能指标 名称描述指标类型可用于request time (请求处理时间) 处理每个请求的时间,单位为秒 工作:性能 NGINX 日志
提醒指标: 请求处理时间
请求处理时间指标记录了 NGINX 处理每个请求的时间,从读到客户端的第一个请求字节到完成请求。较长的响应时间说明问题在上游。
收集处理时间指标
NGINX 和 NGINX Plus 用户可以通过添加 $request_time 变量到访问日志格式中来捕捉处理时间数据。关于配置日志监控的更多细节在NGINX指标收集。
反向代理指标 名称描述指标类型可用于上游服务器的活跃链接 当前活跃的客户端连接 资源:功能 NGINX Plus
上游服务器的 5xx 错误代码 服务器错误 工作:错误 NGINX Plus
每个上游组的可用服务器 服务器传递健康检查 资源:可用性 NGINX Plus
反向代理是 NGINX 最常见的使用方法之一。商业支持的 NGINX Plus 显示了大量有关后端(或“上游 upstream”)的服务器指标,这些与反向代理设置相关的。本节重点介绍了几个 NGINX Plus 用户可用的关键上游指标。
NGINX Plus 首先将它的上游指标按组分开,然后是针对单个服务器的。因此,例如,你的反向代理将请求分配到五个上游的 Web 服务器上,你可以一眼看出是否有单个服务器压力过大,也可以看出上游组中服务器的健康状况,以确保良好的响应时间。
活跃指标