如何监控 Nginx（第一篇）(3)

日期：2020-06-21 栏目：程序人生浏览：次

开源的 NGINX 提供了一个简单状态页面来显示基本的服务器指标。该状态信息以标准格式显示，实际上任何图形或监控工具可以被配置去解析这些相关数据，以用于分析、可视化、或提醒。NGINX Plus 提供一个 JSON 接口来供给更多的数据。阅读相关文章“NGINX 指标收集”来启用指标收集的功能。

错误指标名称描述指标类型可用于
4xx 代码客户端错误计数工作：错误 NGINX 日志, NGINX Plus
5xx 代码服务器端错误计数工作：错误 NGINX 日志, NGINX Plus

NGINX 错误指标告诉你服务器是否经常返回错误而不是正常工作。客户端错误返回4XX状态码，服务器端错误返回5XX状态码。

提醒指标: 服务器错误率

服务器错误率等于在单位时间（通常为一到五分钟）内5xx错误状态代码的总数除以状态码（1XX，2XX，3XX，4XX，5XX）的总数。如果你的错误率随着时间的推移开始攀升，调查可能的原因。如果突然增加，可能需要采取紧急行动，因为客户端可能收到错误信息。

Server error rate

关于客户端错误的注意事项：虽然监控4XX是很有用的，但从该指标中你仅可以捕捉有限的信息，因为它只是衡量客户的行为而不捕捉任何特殊的 URL。换句话说，4xx出现的变化可能是一个信号，例如网络扫描器正在寻找你的网站漏洞时。

收集错误度量

虽然开源 NGINX 不能马上得到用于监测的错误率，但至少有两种方法可以得到：

使用商业支持的 NGINX Plus 提供的扩展状态模块

配置 NGINX 的日志模块将响应码写入访问日志

关于这两种方法，请阅读相关文章“NGINX 指标收集”。

性能指标名称描述指标类型可用于
request time （请求处理时间）处理每个请求的时间，单位为秒工作：性能 NGINX 日志

提醒指标: 请求处理时间

请求处理时间指标记录了 NGINX 处理每个请求的时间，从读到客户端的第一个请求字节到完成请求。较长的响应时间说明问题在上游。

收集处理时间指标

NGINX 和 NGINX Plus 用户可以通过添加 $request_time 变量到访问日志格式中来捕捉处理时间数据。关于配置日志监控的更多细节在NGINX指标收集。

反向代理指标名称描述指标类型可用于
上游服务器的活跃链接当前活跃的客户端连接资源：功能 NGINX Plus
上游服务器的 5xx 错误代码服务器错误工作：错误 NGINX Plus
每个上游组的可用服务器服务器传递健康检查资源：可用性 NGINX Plus

反向代理是 NGINX 最常见的使用方法之一。商业支持的 NGINX Plus 显示了大量有关后端（或“上游 upstream”）的服务器指标，这些与反向代理设置相关的。本节重点介绍了几个 NGINX Plus 用户可用的关键上游指标。

NGINX Plus 首先将它的上游指标按组分开，然后是针对单个服务器的。因此，例如，你的反向代理将请求分配到五个上游的 Web 服务器上，你可以一眼看出是否有单个服务器压力过大，也可以看出上游组中服务器的健康状况，以确保良好的响应时间。

活跃指标