Prometheus

Prometheus监控系统

不稳定才是系统的恒态稳定只是其中的一种特殊表现形式

监控系统的基础概念

监控系统组件

指标数据的采集(抓取)
指标数据存储
- 存储持续写入性能
指标数据趋势分析及可视化
- 分析、预测
- 界面展示、直观查看
  - Zabbix自带
  - Open-Falcon/夜莺…
  - 通用的前台界面如: Grafana
告警
- 基础、核心功能之一
- 表达式 -〉媒介(钉钉、微信、邮件…)

监控体系(自底向上)

系统层监控(关键指标)
- 系统监控
  - CPU
  - Load
  - Memory
  - Swap
  - DiskIO
  - Processes
  - Kernel Parameters
  - …
- 网络监控
  - 网络设备
  - 工作负载
  - 网络延迟
  - 丢包率
  - …
中间件及基础设施类系统监控
- 消息中间件: Kafka、RocketMQ、RabbitMQ等
- Web服务容器: Tomcat、Jetty等
- 数据库及缓存系统: MySQL、PostgreSQL、MongoDB、ElasticSearch、Redis等
- 存储系统: Ceph等
应用层监控
- 用于衡量应用程序代码的状态和性能
业务层监控
- 用于衡量应用程序的价值(销售指标等)
- QPS、DAU日活、转化率
- 业务接口: 登陆数、注册数、订单量、支付量、搜索量等

云原生时代的可观测性

可观测性系统
- 指标监控(Metrics): 随时间推移产生的一些与监控相关的可聚合数据点
- 日志监控(Logging): 离散式的日志或事件(结构化)
- 链路跟踪(Tracing): 分布式应用调用链跟踪(调用时长/性能)
CNCF将可观测性和数据分析归类为一个单独的类别划分成了5个子类
- 监控系统
- 日志系统
- 分布式调用链跟踪系统
- 混沌工程系统: 结合监控系统提前发现问题
- 持续优化
Prometheus仅仅是可观测性中的一个纬度(指标监控)中的一个代表

著名的监控方法论

Google的四个黄金指标
- 常用于在服务级别帮助衡量终端用户体验、服务中断、业务影响等层面的问题
- 适用于应用及服务监控
- 四个黄金指标
  - 延迟(Latency)
    - 服务请求所需要的时长如: HTTP请求平均延迟
    - 需要区分失败请求和成功请求
  - 流量(Traffic)
    - 衡量服务的容量需求如: 每秒处理的HTTP1请求数数据库系统的事务数量
  - 错误(Errors)
    - 请求失败的速率用于衡量错误发生的情况
    - 显示失败(HTTP500) 隐式失败(返回错误内容/无效内容) 策略原因导致的失败(响应时间超过30ms请求视为失败)
  - 饱和度(Saturation): 服务受限资源
    - 衡量资源的使用情况用于表达程序有多满
    - 如: CPU 内存 I/O 磁盘等资源的使用情况(NodeExporter)
Netflix的USE方法
- 主要用于分析系统性能问题指导用户快速识别资源瓶颈以及错误的方法
- 应用于主机指标监控
- USE
  - 使用率(Utilization)
    - 关注资源的使用情况主要包括但不限于CPU 内存网络磁盘等
    - 100%的使用率通常是系统性能瓶颈的标志
  - 饱和度(Saturation)
    - 如CPU的平均运行排队长度
    - 任何资源在某种程度上的饱和都可能导致系统性能的下降
  - 错误(Error)
    - 错误计数
    - 如: 网卡在数据包传输过程中检测到的以太网网络冲突了14次
Weave Cloud的RED方法
- Weave Cloud基于Google的四个黄金指标的原则下结合Prometheus以及Kubernetes容器实践细化和总结的方法论特别适合云原生应用以及微服务架构应用的监控和度量
- 在四大黄金指标的原则下 RED方法可以有效的帮助用户衡量云原生以及微服务应用下的用户体验问题
- RED方法主要关注以下三种指标
  - (Request)Rate: 每秒钟接收的请求数
  - (Request)Errors: 每秒失败的请求数
  - (Request)Duration: 每个请求所花费的时长

Prometheus入门

What is Prometheus Monitoring

Prometheus是一个时序(Time Series)数据库 但它的功能却并非止步于TSDB 而是一款设计用于进行目标(Target)监控的关键组件
结合其生态内的其他组件如: Pushgateway Alertmanager Grafana等可构成一个完整的IT监控系统

时序数据简介

时序数据是在一段时间内通过重复测量(measurement)而获得的观测值的集合
将这些观测值绘制于图形之上它会有一个数据轴和一个时间轴
服务器指标数据、应用程序性能监控数据、网络数据等也都是时序数据

time-series

What does Prometheus do

基于HTTP call 从配置文件中指定的网络端点(Endpoint)上周期性获取指标数据
最简单的逻辑如下图

what-does-prometheus-do

How does Prometheus work

Prometheus支持通过三种类型的途径从目标上抓取(Scrape) 指标数据
- Exporters
- Instrumentation(测量系统内建Prometheus兼容的指标暴露器)
- Pushgateway(短生命周期任务启动/结束时间不确定)

how-does-prometheus-work

Instrumentation(程序仪表)

任何能够支持Scrape指标数据的应用程序都首先要具有一个测量系统
在Prometheus的语境中 Instrumentation是指附加到应用程序中的那些用于暴露程序指标数据的客户端库
- 程序员借助于这些客户端库编写代码生成可暴露的指标数据

Exporters

对于那些未内建Instrumentation 且也不便于自行添加该类组件以暴露指标数据的应用程序来说常用的办法是于待监控的目标应用程序外部运行u一个独立指标暴露程序该类型的程序即统称为Exporter
换句话说 Exporter负责从目标应用程序上采集和聚合原始格式的数据并转换或聚合为Prometheus格式的指标向外暴露
Prometheus站点上提供了大量的Exporter

Pull and Push

Prometheus同其它TSDB相比有一个非常典型的特征: 它主动从各Targers上拉取(pull) 数据而非等待被监控端的推送(Push)
两种方式各有优劣其中 Pull模型的优势在于:
- 集中控制: 有利于将配置集中在Prometheus Server上完成包括指标及采集速率等
- Prometheus的根本目标在于收集在Target上预先完成聚合的聚合型数据而非一款由事件驱动的存储系统

pull-and-push

Prometheus的生态组件

promtheus-architecture

Prometheus负责时序型指标数据的采集及存储但数据的分析/聚合及直观展示以及告警等功能并非由Prometheus Server负责

prometheus-architecture

Prometheus生态包含多个组件其中部分组件可选
- Prometheus Server: 收集和存储时间序列数据 Prometheus监控系统的核心组件
- Client Library: 客户端库目的在于为那些期望原生提供Instrumentation功能的应用程序提供便捷的开发途径
- Push Gateway: 接收那些通常由短期作业生成的指标数据的网关并支持由Prometheus Server进行指标拉取操作
- Exporters: 用于暴露现有应用程序或服务(不支持Instrumentation)的指标给Prometheus Server
  - node_exporter
  - blackbox_exporter
  - mysql_exporter
  - …
- Alertmanager: 从Prometheus Server接收到告警通知后通过去重分组路由等预处理功能后以高效向用户完成告警信息的发送
- Data Visualization: Prometheus Web UI(内建 PromQL表达式浏览器) 及Grafana等
- Service Discovery: 动态发现待监控的Target 从而完成监控配置的重要组件在容器化环境尤为有用该组件目前由Prometheus Server内建支持

Prometheus数据模型(Data Model)

prometheus-data-model

Prometheus仅用于以键值形式存储时序式的聚合数据它并不支持存储文本信息
- 其中的键称为指标(Metric) 它通常意味着CPU速率内存使用率或分区空闲比例等
- 同一指标可能为适配到多个目标或设备因而他使用标签作为元数据从而为Metric添加更多的信息描述维度
- 这些标签还可以作为过滤器进行指标过滤及聚合运算

data-model

指标类型(Metric Types)

prometheus-metric-types

Prometheus使用4种方法来描述监控的指标
- Counter: 计数器 用于保存单调递增型的数据例如: 站点访问次数等不能为负值也不支持减少但可以重置回0
- Gauge: 仪表盘 用于存储有着起伏特征的指标数据例如: 内存使用情况等
  - Gauge是Counter的超集但存在指标数据丢失的可能性
  - Counter能让用户确切了解指标随的变化状态而Gauge则可能随时间流逝而精准度越来越低
- Histogram: 直方图 它会在一段时间范围内对数据进行采样并将其计入可配置的bucket中 Histigram能够存储更多的信息包括样本值分布在每个bucket中的数量、所有样本值之和以及总的样本数量从而Prometheus能够使用内置的函数进行如下操作:
  - 计算样本平均值: 以值的总和除以值的数量
  - 计算样本分为值: 分为数有助于了解符合特定标准的数据个数如: 评估响应时长超过1s的请求比例若超过20%即发送告警等
- Summary: 摘要 Histogram的扩展类型但它是直接由被检测端自行聚合计算出分位数并将计算结果响应给Prometheus Server的样本采集请求

作业(Job)和实例(Instance)

Instance: 能够接收Prometheus Server数据Scrape操作的每个网络网络端点(endpoint) 即为一个Instance(实例)
通常具有类似功能的Instance的集合称为一个Job 如: 一个MySQL主从复制集群中的所有MySQL进程

job-and-instance

Promtheus Query Language

Prometheus提供了内置的数据查询语言PromQL(Prometheus Query Language) 支持用户进行实时的数据查询及聚合操作
PromQL支持处理两种向量并内置提供了一组用于数据处理的函数
- 即时向量: 最近一次的时间戳上跟踪的数据指标
- 时间范围向量: 指定时间范围内的所有时间戳上的数据指标

promQL

Alerts

抓取到异常值后 Prometheus支持通过告警(Alert) 机制向用户发送反馈或警示会触发用户能够及时采取应对措施
Prometheus Server仅负责生成告警指示具体的告警行为由另一个独立的应用程序Alertmanager负责
- 告警指示由Prometheus Server基于用户提供的告警规则 周期性计算生成
- Alertmanager接收到Prometheus Server发来的告警指示后基于用户定义的**告警路由(route)向告警接收人(reveivers)**发送告警信息

Prometheus局限性

Prometheus是一款指标监控系统不适合存储事件及日志等它更多展示的是趋势性的监控而非精准数据
Prometheus认为只有最近的监控数据才有查询的需要其本地存储的设计初衷只是保存短期(如一个月)数据因而不支持针对大量的历史数据进行存储
- 若需要存储长期的历史数据建议基于远程存储机制将数据保存于InfluxDB或OpenTSDB
Prometheus的集群机制成熟度不高

运行Prometheus

rpm-repo

CPU使用率
- 每台主机CPU在5分钟内的平均使用率
- (1 - avg(irate(node_cpu_second_total{mode="idle"}[5m])) by (instance)) * 100
CPU饱和度
- 跟踪CPU的平均负载就能获取到相关主机的CPU1饱和度实际上它是将主机上的CPU数量考虑在内的一段时间内的平均运行队列长度
- 平均负载少于CPU的数量是正常情况而长时间内超过CPU数量则表示CPU毅然饱和
- node_load1 > on(instance) 2 * count(node_cpu_seconds_total{mode="idle"}) by (instance)
  - 查询1分钟平均负载超过主机CPU数量两倍的时间序列
  - CPU瓶颈、程序BUG
  - 控制平面
内存使用率
- node_exporter暴露了多个以node_memory为前缀的指标我们重点关注下面几个
  - node_memory_MemTotal_bytes
  - node_memory_MemFree_bytes
  - node_memory_Buffers_bytes
  - node_memory_Cached_bytes
- 计算使用率
  - 可用空间: 上面后三个指标之和
  - 已用空间: 总空间减去可用空间
  - 实用率: 已用空间除以总空间

Exporter

exporters-and-integrans

node_exporter
blackbox_exporter
mysql_exporter
…

客户端库

应用程序自己并不会直接生成指标数据这依赖于开发人员将相关的客户端库添加至应用程序中构建出的测量系统(instrumentation system)来完成
- 官方库语言支持: Go、Python、Java(或Scala)和Ruby
- 第三方库语言支持: Bash(pushgateway)、C、C++、C#、Node.js、Haskell、Erlang、Perl、PHP、Rust

Exporter基础

对于那些非用户可直接控制的应用代码来说为其添加客户端库以进行直接测量很难实现
- 操作系统内核就是一个典型的示例它显然不太可能易于实现添加自定义代码并通过HTTP协议输出Prometheus格式的指标
- 但这一类程序一般都会通过某种接口输出其内在的指标只不过这些指标可能有着特殊的格式如: Linux内核的特有指标格式或者SNMP指标格式等
- 这些指标需要对它进行适当的解析和处理以转换为可用的目标格式 Exporter就是完成此类转换功能的应用程序
Exporter独立运行于要获取其测量指标的应用程序之外负责接收来自于Prometheus Server的指标获取请求它通过目标应用程序(真正的目标)内置的指标接口获取指标数据并将这些指标数据转换为可用的目标格式后响应给Prometheus
- Exporter更像是一对一的代理它作为Prometheus Server的target存在工作于应用程序的指标接口和Prometheus的文本指标格式之间转换数据格式
- Exporter不存储也不缓存任何数据

PromQL

PromQL简介

Prometheus基于指标名称(metrics name)以及附属的标签集(labelset)唯一定义一条时间序列
- 指标名称代表着监控目标上某类可测量属性的基本特征标识
- 标签则是这个基本特征上再次细分的多个可测量维度
基于PromQL表达式用户可以针对指定的特征及其细分维度进行过滤、聚合、统计等运算从而产生期望的计算结果
PromQL是Prometheus Server内置的数据查询语言
- PromQL使用表达式(expression)来表达查询需求
- 根据其使用的指标和标签以及时间范围表达式的查询请求可灵活覆盖在一个或多个时间序列的一定范围内的样本之上甚至是只包含单个时间序列的单个样本

Prometheus时间序列

时间序列数据: 按照时间顺序记录系统、设备状态变化的数据每个数据称为一个样本
- 数据采集以特定的时间周期进行因而随着时间流逝将这些样本数据记录下来将生成一个离散的样本数据序列
- 该序列也称为向量(Vector) 而将多个序列放在同一个坐标系内(以时间为横轴以序列为纵轴) 将形成一个由数据点组成的矩阵

prom-time-series

Prometheus数据模型

Prometheus中每个时间序列都由指标名称(Metric Name)和标签(Label)来唯一标识格式为<metric name>{<label name>=<label value>, ...}
- 指标名称: 通常用于描述系统上要测量的某个特征
  - 如: http_requests_total表示接收到的HTTP请求总数
  - 支持使用字母、数字、下划线和冒号且必须能匹配RE2规范的正则表达式
- 标签: 键值型数据附加在指标名称之上从而让指标能够支持多维度特征可选
  - 如: http_requests_total{method="GET"} 和 http_request_total{method="POST"}代表两个不同的时间序列
  - 标签名称可使用字母、数字和下划线切必须能匹配RE2规范的正则表达式
  - 以 _ _ 为前缀的名称为Prometheus系统预留使用
- Metric Name的表示方式有两种
  - 后一种通常用于Prometheus内部

prom-inner-metric

样本数据格式

Prometheus的每个数据样本由两部分组成
- float64格式的数据
- 毫秒精度的时间戳

prom-data-format

指标名称及标签使用注意事项

指标名称和标签的特定组合代表着一个时间序列
- 指标名称相同但标签不同的组合分别代表着不同的时间序列
- 不同的指标名称自然更是标识不同的时间序列
PromQL支持基于定义的指标维度进行过滤和聚合
- 更改任何标签值包括添加标签或删除标签都会创建一个新的时间序列
- 应该尽可能保持标签的稳定性否则很可能创建新的时间序列更甚者会生成一个动态的数据环境并使得监控的数据源难以跟踪从而导致建立在该指标之上的图形、告警记录规则变得无效

mess-env

PromQL的数据类型

PromQL的表达式中支持4种数据类型
- 即时向量(Instant Vector): 特定或全部的时间序列集合上具有相同时间戳的一组样本值称为即时向量
- 范围向量(Range Vector): 特定或全部的时间序列集合上在指定的统一时间范围内的所有样本值
- 标量(Scalar): 一个浮点型(float64)的数据值
- 字符串(String): 支持使用单引号、双引号或反引号进行引用但反引号中不会对转义字符串进行转义

时间序列选择器

即时向量与范围向量

PromQL的查询操作需要针对有限个时间序列上的样本数据进行挑选出目标时间序列是构建表达式最为关键的一步
用户可以使用向量选择器表达式来挑选出给定指标名称下的所有时间序列或部分时间序列的即时(当前)样本值或至过去某个时间范围内的样本值前者称为即时向量选择器后者称为范围向量选择器
- 即时向量选择器(Instant Vector Selectors): 返回0个、1个或多个时间序列上在给定时间戳(instant)上的各自的一个样本该样本也可称为即时样本
- 范围向量选择器(Range Vector Selectors): 返回0个、1个或多个时间序列上在给定时间范围内的各自的一组样本

time-series-selectors

向量表达式使用要点

表达式的返回值类型亦是即时向量、范围向量、标量或字符串4种数据类型其中之一但是有些使用场景要求表达式返回值必须满足特定条件
- 需要将返回值绘制成图形时仅支持即时向量类型的数据
- 对于诸如rate一类的速率函数来说其要求使用的必须是范围向量型的数据
由于范围向量选择器返回的是范围向量型数据它不能用于表达式浏览器中图形绘制功能否则表达式浏览器会返回相应错误
- 事实上范围向量几乎总是结合速率类的函数rate一同使用

即时向量选择器

即时向量选择器由两部分组成
- 指标名称: 用于限定特定指标下的时间序列即负责过滤指标可选
- 匹配器(Matcher): 或称为标签选择器用于过滤时间序列上的标签定义在{}中可选
定义即时向量选择器时以上两个部分应该至少给出一个于是将存在下面三种组合
- 仅给定指标名称或者标签名称上使用空值匹配器: 返回给定指标下的所有时间序列各自的即时样本
  - 如: http_requests_total/http_requests_total{}
- 仅给定匹配器: 返回所有符合给定匹配器的所有时间序列上的即时样本
  - 注意: 这些时间序列可能有着不同的指标名称
  - 如: {job=~".*", method=“GET”}
- 指标名称和匹配器的组合: 返回给定的指标下且符合给定标签过滤器的所有时间序列上的即时样本
  - 如: http_requests_total{methdo=“GET”}

匹配器(Matcher)

time-series-selectors

匹配器用于定义标签过滤条件目前支持4种匹配操作符
- =: Select labels that are exactly equal to the provided string.
- !=: Select labels that are not equal to the provided string.
- =~: Select labels that regex-match the provided string.
- !~: Select labels that do not regex-match the provided string.
注意事项
- 匹配到空标签值的匹配器时所有未定义该标签的时间序列同样符合条件
  - 如: http_requests_total{env=""}会匹配到http_requests_total{method="GET"}
- 正则表达式将执行完全锚定机制它需要匹配指定的标签的整个值
- 向量选择器至少要包含一个指标名称或者至少有一个不会匹配到空字符串的匹配器
  - 如: {job=""} 为非法的选择器
- 使用__name__做为标签名称还能够对指标名称进行过滤(联邦集群时常用到)
  - 如: {__name__=~"http_requests_.*"}能够匹配所有以http_requests_为前缀的所有指标

范围向量选择器

同即时向量选择器的唯一不同之处在于范围向量选择器需要在表达式后紧跟一个方括号[]来表达需在时间序列上返回的样本所处的时间范围
- 时间范围: 以当前的时间为基准的时间点只想过去一个特定的时间长度
- 如: [5m] 指过去5分钟之内
时间格式: 一个整数后紧跟一个时间单位(Time Durations)
- 可用单位: ms(毫秒)/s(秒)/m(分钟)/h(小时)/d(天)/w(周)/y(年)
- 必须使用整数时间且能够将多个不同级别的单位进行组合以时间单位由大到小排序
  - 1h30m
  - ~~1.5h~~
  - 5h
  - 10s
  - 2d
需要注意的是范围向量选择器返回的是一定时间范围内的数据样本虽然不同时间序列的数据抓取时间点相同但它们的时间戳并不会严格对齐
- 多个Target上的数据抓取需要分散在抓取时间点前后一定的时间范围内以均衡Prometheus Server的负载
- 因而 Prometheus在趋势上准确但并非绝对精准

偏移量修改器

默认情况下即时向量选择器和范围向量选择器都以当前时间为基准时间点而偏移量修改器能够修改该基准
偏移量修改器的使用方法是紧跟在选择器表达式之后使用offset关键字指定
- http_requests_total offset 5m 表示获取以http_requests_total为指标名称的所有时间序列在过去5分钟时的即时样本
- http_requests_total[5m] offset 1d 表示获取距此刻1天时间之前的5分钟之内的所有样本

offset-modifier

PromQL指标类型

PromQL主要有四个指标类型它们主要由Prometheus的客户端库使用
- Counter: 计数器单调递增除非重置(如: 服务器或进程重启)
- Gauge: 仪表盘可增可减的数据
- Histogram: 直方图将时间单位内的数据划分成不同的时间段并各自评估其样本个数及样本值之和因而可计算出分位数
  - 可用于分析因异常值而引起的平均值过大的问题
  - 分位数计算要使用专用的histogram_quantile函数
- Summary: 类似直方图但客户端会直接计算并上报分位数
Prometheus Server并不使用类型信息而是将所有数据展平为时间序列

prom-metrics-type

Counter和Gauge

通常 Counter的总数并没有直接作用而使需要借助于rate、topk、increase和irate等函数来生成样本数据的变化状况(增长率)
- rate(hrrp_requests_total[2h]) 获取2小时内该指标下各时间序列上的http总请求数的增长速率
- topk(3, http_requests_total) 获取该指标下http请求总数排名前3的时间序列
- irate(http_request_total[2h]) 高灵敏度函数用于计算指标的瞬时速率
  - 基于样本范围内的最后两个样本进行计算相较于rate函数来说 irate更适合用于短期时间范围内的变化速率分析
Gauge用于存储其值可增可减的指标样本数据常用于进行求和、取平均值、最小值、最大值等聚合计算也会经常结合PromQL的predict_linear和delta函数使用
- predict_linear(v range-vector, t, scaler)函数可以预测时间序列v在t秒后的值它通过线性回归的方式来预测样本数据的Gauge变化趋势
- delta(v range-vector)函数计算范围向量中每个时间序列元素的第一个值与最后一个值之差从而展示不同时间点上的样本值差值

Histogram

Histogram是一种对数据分布情况的图形展示由一系列高度不等的长条图(bar)或线段表示用于展示耽搁测度的值的分布
- 它一般用横轴表示某个指标维度的数据取值的分布状况用纵轴表示样本统计的频率和频数从而能够以二维图的形式展现数值的分布状况
- 为了构建Histogram 首先需要将值的范围进行分段即将所有值的整个可用范围分成一系列连续、相邻(相邻出可以是等同值)但不重叠的间隔而后统计每个间隔中有多少值
- 从统计学的角度看分位数不能被聚合也不能进行算数运算

histogram

对于Prometheus来说 Histogram会在一段时间范围内对数据进行采样(通常是请求持续时长或响应大小等) 并将其计入可配置的bucket(存储桶)中
- Histogram事先将特定测度可能的取值范围分割为多个样本空间并通过对落入bucket内的观测值进行计算以及求和操作
- 与常规的方式略有不同的是 Prometheus取值间隔的划分采用的是累积(Cumulative)区间间隔机制及每个bucket中的样本均包含了其前面所有bucket中的样本因而也称为累积直方图
  - 可降低Histogram的维护成本
  - 支持粗略计算样本值的分位数
  - 单独提供了_sum和_count指标从而支持计算平均值

histogram-cumulative

Histogram类型的每个指标有一个基础指标名称<basename> 它会提供多个时间序列
- <basename>_bucket{le="<upper inclusive bound>"}: 观测桶的上边界及样本统计区间；最大区间(包含所有样本)的名称为<basename>_bucket{le="+Inf"}
- <basename>_sum: 所有样本观测值的总和
- <basename>_count: 总的观测次数它自身本质上是一个Counter类型的指标
累积间隔机制生成的样本数据需要额外使用内置的histogram_quantile()函数即可根据Histogram指标来计算相应的分位数(quantile) 及某个bucket的样本数在所有样本数中所占的比例
- histogram_quantile()函数在计算分位数时会假定每个区间内的样本满足线性分布状态因为它的结果是一个预估值并不完全准确
- 预估的准确度取决于bucket区间划分的粒度粒度越大准确度越低

Summary

指标类型是客户端库的特性而Histogram在客户端仅是简单的桶划分和分桶计数分位数的计算由Prometheus Server基于样本数据进行估算因而其结果未必准确甚至不合理的bucket划分会导致较大的误差
Summary是一种类似于Histogram的指标类型但它在客户端于一段时间内默认10分钟)的每个采样点进行统计计算并存储了分位数数值 Server端直接抓取相应值即可
但是 Summary不支持sum和avg一类的集合运算而且其分位数由客户端计算并生成 Server端无法获取客户端未定义的分位数而Histogram可通过PromQL任意定义有着较好的灵活性
对于每个指标 Summary以指标名称<basename>为前缀生成如下几个时间序列
- <basename>{quantile="<φ>"} 其中φ是分位点其取值范围是(0<=φ<=1) 计数器类型指标如下是几种典型的分位点
  - 0、0.25、0.5、0.75和1几个分位点
  - 0.5、0.9和0.99几个分位点
  - 0.01、0.05、0.5、0.9和0.99几个分位点
- <basename>_sum 抓取到的所有样本值之和
- <basename>_count 抓取到的所有样本总数

PromQL运算

Prometheus的聚合函数

一般来说单个指标的价值不大监控场景中往往需要联合并可视化一组指标这种联合机制即时指聚合操作如: 将计数、求和、平均值、分位数、标准差及方差等统计函数应用于时间序列的样本之上生成具有统计学意义的结果等
对查询结果事先按照某种分类机制进行分组(groupby) 并将查询结果按组进行聚合计算也是较为常见的需求如: 分组统计、分组求平均值、分组求和等
聚合操作由聚合函数针对一组值进行计算并返回单个值或少量几个值作为记过
- Prometheus内置提供的11个聚合函数也称为聚合运算符
- 这些运算符仅支持应用于单个即时向量的元素器返回值也是具有少量元素的新向量或标量
- 这些聚合运算符既可以基于向量表达式返回结果中的时间序列的所有标签维度进行分组聚合也可以仅基于指定的标签维度分组后再进行分组聚合

聚合表达式

PromQL中的聚合操作语法格式可采用如下两种格式之一
- <aggr-op>([parameter,]<vector expression>)[without|by(<label list>)]
- <aggr-op>[without|by(label list)]([parameter,]<vector expression>)
分组聚合: 先分组、在聚合
- without: 从结果向量中删除由without指定的标签未指定的那部分标签则用作分组标准
- by: 功能和without相反它仅使用by子句中指定的标签进行聚合结果向量中出现但未被by子句执行的标签则会被忽略
  - 为了保留上下文信息使用by子句时需要显式指定其结果中原本出现的job、instance等一类的标签
事实上各函数工作机制的不同之处也仅在于计算操作本身 PromQL对它们的执行逻辑相似

11个聚合函数

sum(): 对样本值求和
avg(): 对样本值求平均值这是进行指标数据分析的标准方法
count(): 对分组内的时间序列进行数量统计
stddev(): 对样本值求标准差以帮组用户了解数据的波动大小(或称之为波动程度)
stdvar(): 对样本值求方差它是求取标准差过程中的中间状态
min(): 求取样本值中的最小者
max(): 求取样本值中的最大者
topk(): 逆序返回分组内的样本值最大的前k个时间序列及其值
bottomk(): 顺序返回分组内样本值最小的前k个时间序列及其值
quanlite(): 分位数用于评估数据的分布状态该函数会返回分组内指定的分位数的值即数值落在小于等于执行的分位区间的比例
count_values(): 对分组内的时间序列的样本值进行数量统计

二元运算符

PromQL支持基本的算数运算和逻辑运算这类运算支持使用操作符连接两个操作数因而也称为二元运算符或二元操作符
- 支持的运算
  - 两个标量间运算
  - 即时向量和标量间的运算: 将运算符应用于向量上的每个样本
  - 两个即时向量间的运算: 遵循向量匹配机制
- 将运算符用于两个即时向量间的运算时可基于向量匹配模式定义器运算机制
算数运算
- 支持运算符: +、-、*、/、%(取模)、^(幂运算)
比较运算
- 支持运算符: ==、!=、>、<、>=、<=
逻辑/集合运算
- 支持的运算符: and、or、unless(除了)
- 目前该运算仅允许在两个即时向量间进行尚不支持标量参与运算

向量匹配

即时向量间的运算时PromQL的特色之一运算时 PromQL会为左侧向量中的那个元素找到匹配的元素其匹配行为有两种基本类型
- 一对一(One-to-One)
- 一对多或多对一(Many-to-One One-to-Many)

向量一对一匹配

one-to-one-vector-matches

即时向量的一对一匹配
- 从运算符的两边表达式所获取的即时向量间一次比较并找到唯一匹配(标签完全一致)的样本值
- 找不到匹配项的值则不会出现在结果中
匹配表达式语法
- <vector expr> <bin-op> ignoring(<label list>) <vector expr>
- <vector expr> <bin-op> on(<label list>) <vector expr>
  - ignore: 定义匹配检测时要忽略的标签
  - on: 定义匹配检测时只使用的标签
- 如: rate(http_requests_total{status_code=~"5.*"}[5m]) > .1*rate(http_requests_total[5m])
  - 左侧会生成一个即时向量它计算出5xx响应码的各类请求的增长速率
    - 除了status_code标签外该指标通常还有其他标签于是 status_code的值为500的标签同其他标签的每个组合代表一个时间序列其相应的即时样本即为结果向量的一个元素
  - 右侧会生成一个即时向量它计算出所有标签组合所代表的各类请求的增长速率
  - 计算时 PromQL会在操作符左右两侧的结果元素中找到标签完全一致的元素进行比较
  - 其意义为: 计算出每类请求中的5xx响应码在该类请求中所占的比例

一对多/多对一匹配

many-to-one-and-one-to-many-vector-matches

一对多/多对一匹配
- 一侧的每个元素可与多侧的多个元素进行匹配
- 必须使用group_left或group_right明确指定哪侧为多侧
匹配表达式语法
- <vector expr> <bin-op> ignoring(<label list>) group_left(<label list>) <vector expr>
- <vector expr> <bin-op> ignoring(<label list>) group_right(<label list>) <vector expr>
- <vector expr> <bin-op> on(<label list>) group_left(<label list>) <vector expr>
- <vector expr> <bin-op> on(<label list>) group_left(<label list>) <vector expr>

服务发现

Prometheus指标抓取的生命周期
- 发现 -> 配置 -> relabel -> 指标数据抓取 -> metrics relabel
Prometheus Server监控Target
- 静态配置(static configs)
- 动态发现/Prometheus的服务发现(监控环境变化频繁/动态环境)
  - 基于文件的服务发现
    - 略优于静态配置不依赖于任何第三方服务或平台因而也是最简单和通用的实现方式
  - 基于DNS的服务发现
  - 基于API的服务发现: Kubernetes、Consul、Azure、…
重新标记
- target重新打标
- mertric重新打标

为何要进行服务发现

Prometheus Server的数据抓取工作于Pull模型因而它必须事先知道各Target的位置然后才能从相应的Exporter或Instrumentation中抓取数据
- 对于小型的系统环境来说通过static_configs指定各Target便能解决问题这也是最简单的配置方法
  - 每个Targets用一个网络端点(ip:port)标识
- 对于中大型的系统环境或具有较强动态性的云计算环境来说静态配置显然难以适用
- Prometheus为此专门设计了一组服务发现机制以便于能够基于服务注册中心(服务总线)自动发现、检测、分类可被监控的各Target 以及更新发生了变动的Target

指标抓取的生命周期

下图展示了Prometheus上进行指标抓取的简单生命周期
- 在每个scrape_interval期间 Prometheus都会检查执行的作业(Job)
- 这些作业首先会根据Job上指定的发现配置生成target列表此即服务发现的过程
  - 服务发现会返回一个Target列表其中包含一组称为元数据的标签这些标签都以__meta__为前缀
  - 服务发现还会根据目标配置来设置其他标签这些标签带有__前缀和后缀包括__scheme__ __address__ __metrics_path__ 分别保存target支持使用的协议(http/https 默认http) target的地址以及指标的URI路径(默认为/metrics)
  - 若URI路径中存在任何参数则它们的前缀会设置为__param__
  - 这些目标列表金和标签会返回给Prometheus 其中的一些标签也可以配置中被覆盖
- 配置标签会在抓取的生命周期中被重复利用以生成其他标签如: 指标上的instance标签的默认值就来自于__address__标签的值

metrics-pull-life-cycle

对于发现的各目标 Prometheus提供了可以重新标记(relabel)目标的机会
- 它定义在job配置段的relabel_config配置中常用于实现如下功能
  - 将来自服务发现的元数据标签中的信息附加到指标的标签上
  - 过滤目标
- 在这之后便是数据抓取、以及指标返回的过程
- 抓取而来的指标在保存之前还允许用户对指标重新打标并过滤
  - 它定义在job配置段的metric_relabel_configs配置中常用语实现如下功能
    - 删除不必要的指标
    - 从指标中删除敏感或不需要的标签
    - 添加、编辑或修改指标的标签值或标签格式

可集成的服务发现机制

不同场景中服务注册中心的指代也有所不同
- 共有云或私有IaaS云自身保存有平台上的所有资源信息其API Server便可以作为Prometheus的服务发现媒介
  - azure、ec2、digitalocean、gce、tencent cloud、alibaba cloud
- Prometheus也可以集成到多种不同的开源服务发现工具上以动态发现需要监控的目标
  - Consul、Eureka Zookeeper Serverset或Airbnb Nerve等
- Prometheus也可以很好的集成到Kubernetes平台上通过其API Server动态发现各类被监控的Pod、Service、End point、Ingress和Node对象
  - 它也支持基于dockerswarm和marathon两款编排工具进行服务发现机制
- Prometheus还支持基于基于DNS、文件或HTTP的动态发现机制

对Target重新打标

relabel-config

对target重新达标是在数据抓取之前动态重写target标签的强大工具在每个数据抓取配置中可以定义多个relabel步骤他们将按照定义的顺序依次执行
对于发现的每个target Prometheus默认会执行如下操作
- job的标签设定为其所属的job_name的值
- __address__标签的值为该target的套接字地址<host>:<port>
- instance标签的值为__address__的值
- __scheme__标签的值为抓取该target上指标时使用的协议(http或https)
- __metrics_path__标签的值为抓取该target上的指标时使用的URI路径默认为/metrics
- __param_<name>标签的值为传递的URI参数中第一个名称为<name>的参数的值
重新打标记期间还可以使用该target上以__meta__开头的元标签
- 各服务发现机制为其target添加的元标签会有所不同
重新标记完成后该target上以__开头的所有标签都会被移除
- 若在relabel过程中需要临时存储标签值则需要使用__tmp标签名称为前缀进行保存依避免同Prometheus的内建标签冲突

relabel_config

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
# The source labels select values from existing labels. Their content is concatenated
# using the configured separator and matched against the configured regular expression
# for the replace, keep, and drop actions.
[ source_labels: '[' <labelname> [, ...] ']' ]

# Separator placed between concatenated source label values.
[ separator: <string> | default = ; ]

# Label to which the resulting value is written in a replace action.
# It is mandatory for replace actions. Regex capture groups are available.
[ target_label: <labelname> ]

# Regular expression against which the extracted value is matched.
[ regex: <regex> | default = (.*) ]

# Modulus to take of the hash of the source label values.
[ modulus: <int> ]

# Replacement value against which a regex replace is performed if the
# regular expression matches. Regex capture groups are available.
[ replacement: <string> | default = $1 ]

# Action to perform based on regex matching.
[ action: <relabel_action> | default = replace ]

relabel_configs

<relabal_action>字段用于定义重新标记的行为其可用取值如下
- 替换标签值
  - replace: 首先将source_labels中指定的各标签值进行串连而后将regex字段中的正则表达式对源标签值进行匹配判定若匹配则将target_label字段中指定的标签值替换为replacement字段中保存的值
    - replacement可按需引用保存regex中的某个分组模式匹配到的值默认保存整个regex匹配到的内容
    - 进行值替换时 replacement字段中指定标签的值也支持以分组格式进行引用
  - hashmod: 将target_label的值设置为一个hash值该hash则由models字段指定的hash模块对source_labels上各标签的串连值进行hash计算生成
- 删除指标: 该处的每个指标名称对应一个target
  - keep: regex不能匹配到target上的source_labels上的各标签的串连值时则删除该target
  - drop: regex能匹配到target上的source_labels上的各标签的串连值时则删除该target
- 创建或删除标签
  - labelmap: 将regex对所有的标签名进行匹配判定而后将匹配到的标签的值赋给replacement字段指定的标签名之上通常用于取出匹配的标签名的一部分生成新标签
  - labeldrop: 将regex对所有的标签名进行匹配判定能够匹配到的标签将从该target的标签集中删除
  - labelkeep: 将regex对所有的标签名进行匹配判定不能够匹配到的标签将从该target的标签集中删除
注意: 要确保在labeldrop或labelkeep操作后余下的标签集依然能够唯一标识该指标

replace示例

下面示例将三个源标签的值按顺序串连后由指定的正则表达式进行模式匹配然后由replacement引用模式匹配的结果并加以改造将其赋值给endpoint标签

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
- job_name: "nodes"
  file_sd_configs:
   - files:
     - targets/prometheus/node*.yaml

  relabel_configs:
   - source_labels:
       - __scheme__
       - __address__
       - __metrics_path__
     regex: "(http|https)(.*)"
     separator: ""
     target_label: "endpoint"
     replacement: "${1}://${2}"
     action: replace

labelmap示例

下面的示例将regex指定的模式对target上所有的标签进行匹配判定对于匹配到的标签名它将以该标签名中匹配的部分为前缀指定的_name为后缀生成新的标签名而新标签的值则与其原标签的值相同

1
2
3
4
5
6
7
8
9
- job: "nodes"
  file_sd_configs:
  - fles:
    - targets/prometheus/node*.yaml

  relabel_configs:
  - regex: "(job|app)"
    replacement: "${1}_name"
    action: labelmap

对抓取到的metric重新打标

对metric重新打标时在数据抓取之后动态重写metric标签的工具在每个数据抓取配置中可以定义多个metric relabel步骤它们按照定义的顺序依次执行
- 删除不必要的指标
- 从指标中删除敏感或不需要的标签
- 添加、编辑或修改指标的标签值或标签格式
对metric重新打标的配置格式与target重新打标的格式相同但前者要定义在专用的metric_relabel_configs字段中
要注意的是更改或添加标签会创建新的时间序列
- 应该明确地使用各个标签并尽可能保持不变以避免创建出一个动态的数据环境
- 标签是时间序列的唯一约束删除标签并导致时间序列重复时可能会导致系统出现问题

metric relabel删除示例

在source_label字段上通过指标上的元标签__name__引用指标名称而后由regex进行匹配判断可使用drop action删除匹配的指标或使用keep action仅保留匹配的指标
下面的示例用于在相应的job上在发现的各target上删除以 go_info 为前缀的指标

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
- job_name: "nodes"
  file_sd_configs:
  - files:
    - targets/prometheus/node*.yaml

  metric_relabel_configs:
  - source_labels:
      - __name__
    regex: "go_info.*"
    action: drop

查询持久化/可视化

grafana

记录规则(recording rule)
告警规则(alert rule)

Alertmanager

告警功能概述

Prometheus对指标的收集、存储同告警能力分数于Prometheus Server和Alertmanager两个独立的组件前者仅负责基于告警规则生成告警通知具体的告警操作由后者完成
alertmanager负责处理由客户端发来的告警通知
- 客户端通常是Prometheus Server 但它也支持接收来自其它工具的告警
- alertmanager对告警通知进行分组、去重后根据路由规则将其路由到不同的receiver 如: Email、钉钉、企业微信等

告警逻辑

首先要配置Prometheus成为Alertmanager的告警客户端
- 反过来 Alertmanager也是应用程序它自身同样应该纳入Prometheus的监控目标
配置逻辑
- 在Alertmanager上定义receiver 他们通常是能够基于某个媒介接收告警信息的特定用户
  - Email、WeChat、Pagerduty和Webhook等是最为常见的发送告警信息的媒介
  - 在不同的媒介上代表告警信息接收人的地址表示方式也会有所不同
- 在Alertmanager上定义路由规则(route) 以便将收到的告警通知按需分别进行处理
  - alertmanager的route配置段支持定义树状路由表入口位置成为根节点每个字节点可以基于匹配条件定义出一个独立的路由分支
  - 所有告警都将进入路由根节点而后进行子节点遍历
  - 若路由上的continue字段的值为false 则遇到第一个匹配的路由分支后即终止否则将继续匹配后续的字节点
- 在Prometheus上定义告警规则生成告警通知发送给Alertmanager

alert-logic

Alertmanager特性

除了基本的告警通知能力外 Alertmanager还支持对告警进行去重、分组、抑制、静默和路由等功能
- 分组(Grouping): 将相似告警合并为单个告警通知的机制在系统因大面积故障而出发告警潮时分组机制能避免用户被大量的告警噪声淹没进行导致关键信息的隐没
- 抑制(Inhibition): 系统中某个组件或服务故障而出发告警通知后那些依赖于该组件或服务的其它组件或服务可能也会因此而触发告警抑制便是避免类似的级联告警的一种特性从而让用户能将精力集中于真正的故障所在
- 静默(Slience): 是指在一个特定的时间窗口内即便接收到告警通知 Alertmanager也不会真正向用户发送告警信息的行为通常在系统例行维护期间需要激活告警系统的静默特性
- 路由(Route): 用于配置Alertmanager如何处理传入的特定类型的告警通知其基本逻辑是根据路由匹配规则的匹配结果来确定处理当前告警通知的路径和行为

告警规则

类似于记录规则有着类似或相关联功能的告警规则同样可以组织为group 从而为规则名称提供名称空间 一个组内的每个告警必须有个名称且在该组内必须唯一
- alert: 告警规则的名称
- expr: 基于PromQL表达式的告警触发条件(布尔表达式) 用于计算是否有时间序列可以满足该条件可以使用由Recording rule定义的指标
- for: 控制在出发告警之前测试表达式的值必须为true的时长
  - 表达式为true 但其持续时间为能满足for定义的时长时相关的告警状态为pending状态
  - 满足该时长之后相关的告警将被触发并转为firing状态
  - 表达式的值为false时告警将处于inactive状态
- labels: 告警规则被激活时相关时间序列上的所有标签都会添加到生成告警示例上而labels则允许用户在告警上附加其它自定义的标签该类标签值支持模版化
  - 告警名称及其标签则为告警的标识类似于时间序列的标识机制
- annotations: 附加在告警之上的注解信息其格式类似于标签但不能被用于标识告警实例经常用于存储告警摘要且其值支持模版化

告警路由

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
[ receiver: <string> ]
# The labels by which incoming alerts are grouped together. For example,
# multiple alerts coming in for cluster=A and alertname=LatencyHigh would
# be batched into a single group.
#
# To aggregate by all possible labels use the special value '...' as the sole label name, for example:
# group_by: ['...']
# This effectively disables aggregation entirely, passing through all
# alerts as-is. This is unlikely to be what you want, unless you have
# a very low alert volume or your upstream notification system performs
# its own grouping.
# 分组时使用的标签 默认情况下 所有的告警都组织在一起 而一旦指定分组标签 则Alertmanager将按这些标签进行分组
[ group_by: '[' <labelname>, ... ']' ]

# Whether an alert should continue matching subsequent sibling nodes.
[ continue: <boolean> | default = false ]

# DEPRECATED: Use matchers below.
# A set of equality matchers an alert has to fulfill to match the node.
match:
  [ <labelname>: <labelvalue>, ... ]

# DEPRECATED: Use matchers below.
# A set of regex-matchers an alert has to fulfill to match the node.
match_re:
  [ <labelname>: <regex>, ... ]

# A list of matchers that an alert has to fulfill to match the node.
matchers:
  [ - <matcher> ... ]

# How long to initially wait to send a notification for a group
# of alerts. Allows to wait for an inhibiting alert to arrive or collect
# more initial alerts for the same group. (Usually ~0s to few minutes.)
# 发出一组告警通知的初始等待时长 允许等待一个抑制告警到达或收集属于同一组的更多初始告警 通常是0至数分钟
[ group_wait: <duration> | default = 30s ]

# How long to wait before sending a notification about new alerts that
# are added to a group of alerts for which an initial notification has
# already been sent. (Usually ~5m or more.
# 发送关于新告警的消息之前 需要等待多久 新告警将被添加到已经发送了初始通知的告警组中 一般在5分钟或以上
[ group_interval: <duration> | default = 5m ]

# How long to wait before sending a notification again if it has already
# been sent successfully for an alert. (Usually ~3h or more).
# 成功发送了告警后再次发送告警信息需要等待的时长 一般至少为3个小时
[ repeat_interval: <duration> | default = 4h ]

# Times when the route should be muted. These must match the name of a
# mute time interval defined in the mute_time_intervals section.
# Additionally, the root node cannot have any mute times.
# When a route is muted it will not send any notifications, but
# otherwise acts normally (including ending the route-matching process
# if the `continue` option is not set.)
mute_time_intervals:
  [ - <string> ...]

# Times when the route should be active. These must match the name of a
# time interval defined in the time_intervals section. An empty value
# means that the route is always active.
# Additionally, the root node cannot have any active times.
# The route will send notifications only when active, but otherwise
# acts normally (including ending the route-matching process
# if the `continue` option is not set).
active_time_intervals:
  [ - <string> ...]

# Zero or more child routes.
# 自路由配置
routes:
  [ - <route> ... ]

Prometheus Server高可用

Scaling and Federating Prometheus

How much RAM does Prometheus 2.x need for cardinality and ingestion

Alertmanager高可用

alertmanager-HA

PromQL Example

1
# 待更新