news 2026/6/10 14:53:32

凌晨三点被叫醒处理误报?用 Prometheus + Alertmanager 搭一套不扰民的智能告警

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
凌晨三点被叫醒处理误报?用 Prometheus + Alertmanager 搭一套不扰民的智能告警

再也不怕半夜被叫醒:用 Prometheus + Alertmanager 实现智能告警

前言

做过运维的人大概都经历过这一套:凌晨三点手机突然响起,心跳加速翻身看消息——"服务器 CPU 告警!"赶紧爬起来远程连接,结果到公司一看,什么问题都没有,就是一次临时网络抖动,告警触发了一次就恢复了。

回去躺下,睡意全无。第二天顶着黑眼圈上班。

这种"狼来了"式的告警,大概是监控系统最让人头疼的问题。系统复杂了之后,指标多、阈值敏感、各种依赖关系交织在一起,告警数量上来之后,真正重要的告警反而被淹没在噪音里。团队开始对告警麻木,反正每次点开大概率是误报——直到有一次真出了问题。

后来我认真看了 Prometheus 生态里的告警链路,发现问题其实不在 Prometheus 采集端,而在于告警发出之前缺少一个"决策层"。Prometheus 负责采集和评估指标,但指标触发阈值之后直接就发通知了,没有聚合、没有去重、没有分级。10 条告警可能都是同一个故障引起的,却会生成 10 条通知。

Alertmanager 就是解决这个问题的。它能聚合告警、把重复的通知合并成一条;支持按严重程度分级,critical 发电话、warning 发消息、low 发邮件;还能静默和抑制,已知维护窗口内的告警直接静默掉,不用手动关掉再开。

整个链路搭起来之后,告警质量明显提升。这篇说说怎么在 Ubuntu 上部署 Prometheus + Alertmanager,按步骤来就行。

本文将带你从实战出发,一步步搭建一套可靠、智能、不扰民的告警体系,让你的监控系统真正成为守护业务的“哨兵”,而不是半夜的“闹钟”。

从此,安心睡觉,把告警交给 Alertmanager。

1.ubuntu安装prometheus实现监控部署

通过以下命令创建一个用于存放 Prometheus 的目录 /app:

mkdir/app

进入到/app目录下:

cd/app

从prometheus官网下载压缩文件:

下载适用于Linux系统的文件。

使用的是 MobaXterm_Personal,这是一种功能强大的终端工具,常用于远程连接 Linux 服务器。进入/app下面。点击上传,上传下载好的prometheus压缩文件。

解压缩该文件:

tar-xzvfprometheus-3.7.3.linux-amd64.tar.gz

将解压好的文件夹改一个名字,并删除原有的未解压文件(可以不删):

mvprometheus-3.5.0.linux-amd64 prometheusrm-rfprometheus-3.5.0.linux-amd64.tar.gz

进入解压好并且改过名的prometheus目录下,查看它的版本。返回版本号代表安装成功!

cd/app/prometheus ./prometheus--version

创建prometheus 本地TSDB数据存储目录:

mkdir-p/var/lib/prometheus

进入这个目录,使用systemctl管理Prometheus:

vim/usr/lib/systemd/system/prometheus.service

写入:

[Unit]Description=PrometheusDocumentation=https://prometheus.io/After=network.target[Service]Type=simpleUser=rootExecStart=/app/prometheus/prometheus--config.file=/app/prometheus/prometheus.yml--storage.tsdb.path=/var/lib/prometheus --web.enable-lifecycleExecReload=/bin/kill-HUP$MAINPIDKillMode=processRestart=on-failure[Install]WantedBy=multi-user.target

  • systemctl enable prometheus

    将 Prometheus 服务设置为 开机自启动。

  • systemctl start prometheus

    立即启动 Prometheus 服务。

  • systemctl status prometheus

    查看 Prometheus 服务的 当前状态。

systemctlenableprometheus systemctl start prometheus systemctl status prometheus

部署完成后,在浏览器中输入http://极空间IP:9090就能看到prometheus的界面啦:

2.ubuntu安装alertmanager监控

去官网下载安装文件:

找到linux版,下载:

下载完成后记住下载路径。

手动上传到/app下载好的alertmanager文件。

上传成功后解压:

tar-vxzfalertmanager-0.27.0.linux-amd64.tar.gz

改名方便记忆:

mvalertmanager-0.27.0.linux-amd64 alertmanager

将Altermanager配置为系统服务:

cd/usr/lib/systemd/system
vimalertmanager.service
[Unit]Description=https://prometheus.io[Service]Restart=on-failureExecStart=/app/alertmanager--config.file=/app/alertmanager.yml[Install]WantedBy=multi-user.target

加载system文件,启动alertmanager这个服务,并设置开机启动:

systemctl daemon-reload systemctl start alertmanager.service systemctlenablealertmanager.service

也可以后台手动启动:

nohup./alertmanager--config.file=alertmanager.yml>>/app/alertmanager/alertmanager/alertmanager.out2>&1&catalertmanager.out

启动成功后,访问Altermanager,ip+9093,默认端口为 9093。

3.在prometheus上配置alertmanagerg告警

进入prometheus的配置文件,加入alertmanager告警规则:

vi/app/prometheus/prometheus.yml

Bash

加入以下内容后:Prometheus可以用localhost:9093访问到运行在本地9093端口的Alertmanager服务,从而抓取系统指标。

- targets:["localhost:9093"]labels: app:"alertmanager"

Bash

这一步配置的作用是:告诉 Prometheus,当监控规则触发告警时,应该把告警信息发送到哪个 Alertmanager 服务进行处理(便于一会监控node_exporter,也可以监控mysqld_exporter等等)。

alerting: alertmanagers: - static_configs: - targets:["localhost:9093"]

打开prometheus监控成功:

后续也可以配置告警规则。

但是目前我们只能在自己电脑上进行监控,倘若公司有一个紧急警报,我们能怎么做呢?接下来,cpolar就派上永场啦!

4.安装cpolar实现随时随地开发

cpolar 可以将你本地电脑中的服务(如 SSH、Web、数据库)映射到公网。即使你在家里或外出时,也可以通过公网地址连接回本地运行的开发环境。

❤️以下是安装cpolar步骤:

使用一键脚本安装命令:

sudocurlhttps://get.cpolar.sh|sh

安装完成后,执行下方命令查看cpolar服务状态:(如图所示即为正常启动)

sudosystemctl status cpolar

Cpolar安装和成功启动服务后,在浏览器上输入虚拟机主机IP加9200端口即:【http://ip:9200】访问Cpolar管理界面,使用Cpolar官网注册的账号登录,登录后即可看到cpolar web 配置界面,接下来在web 界面配置即可:

打开浏览器访问本地9200端口,使用cpolar账户密码登录即可,登录后即可对隧道进行管理。

5.配置公网地址

登录cpolar web UI管理界面后,点击左侧仪表盘的隧道管理——创建隧道:

  • 隧道名称:可自定义,本例使用了:prometheus,注意不要与已有的隧道名称重复

  • 协议:http

  • 本地地址:9090

  • 域名类型:随机域名

  • 地区:选择China Top

    点击创建:

创建成功后,打开左侧在线隧道列表,可以看到刚刚通过创建隧道生成了公网地址,接下来就可以在其他电脑或者移动端设备(异地)上,使用地址访问。

访问成功。

6.保留固定公网地址

使用cpolar为其配置二级子域名,该地址为固定地址,不会随机变化。

点击左侧的预留,选择保留二级子域名,地区选择china top,然后设置一个二级子域名名称,我这里演示使用的是prometheus,大家可以自定义。填写备注信息,点击保留。

登录cpolar web UI管理界面,点击左侧仪表盘的隧道管理——隧道列表,找到所要配置的隧道prometheus,点击右侧的编辑

修改隧道信息,将保留成功的二级子域名配置到隧道中

  • 域名类型:选择二级子域名
  • Sub Domain:填写保留成功的二级子域名
  • 地区: China Top

点击更新

更新完成后,打开在线隧道列表,此时可以看到随机的公网地址已经发生变化,地址名称也变成了保留和固定的二级子域名名称。

最后,我们使用固定的公网地址在任意设备的浏览器中访问,可以看到成功访问本地部署的prometheus页面,这样一个永久不会变化的二级子域名公网网址即设置好了。

这样,我们就可以随时随地监控,不用担心,在家无法监控设备!

总结

搭完这套系统之后,凌晨被叫醒的次数少了很多。不是告警少了,是真正需要处理的变多了——误报和抖动被 Alertmanager 聚合或静默掉,不会再一条一条弹进来。

几个实际跑下来之后的心得:

Alertmanager 的分组和去重是关键配置。同一故障触发的多条告警,分组之后合并成一条通知,标题写清楚影响范围,不用爬楼翻消息猜发生了什么。

静默规则要提前设好。已知维护窗口、计划内重启这类场景,提前设置静默比事后抱怨误报有效得多。

通知渠道分级别。Critical 级别走电话或者能强提醒的渠道,warning 和 info 走邮件或者消息就行,不用半夜弹个窗结果只是硬盘快要满了。

最后 cpolar 记得配上,不然在外网看不到 Prometheus 和 Alertmanager 的界面,故障的时候还要先想办法连进内网,多一层麻烦。这套系统搭好之后,安心睡觉这件事,终于不用靠运气了。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/10 14:51:22

Acton重入攻击防护:安全编程终极指南

Acton重入攻击防护:安全编程终极指南 【免费下载链接】acton Toolchain for TON smart contract development and beyond 项目地址: https://gitcode.com/GitHub_Trending/acto/acton 在TON区块链智能合约开发中,重入攻击是最具破坏性的安全威胁之…

作者头像 李华
网站建设 2026/5/15 9:57:46

Claude Code 模型特定调优与 A/B 测试全解析:Feature Flag、灰度发布、Undercover、安全门控、Prompt 调优与 AI Agent 工程化实战

一、先说结论:AI Agent 真正难的不是“会调用模型”,而是“能持续驾驭模型”很多人做 AI 编码助手、企业智能体、研发提效工具时,第一反应是接入一个更强的大模型:换成更大的参数、更新的版本、更长的上下文,似乎问题就…

作者头像 李华
网站建设 2026/5/15 9:55:17

为我的开源Agent项目OpenClaw配置Taotoken作为多模型供应商

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 为我的开源Agent项目OpenClaw配置Taotoken作为多模型供应商 应用场景类,针对使用OpenClaw等Agent框架的开发者&#xf…

作者头像 李华
网站建设 2026/5/15 9:53:45

告别依赖冲突!在Ubuntu上编译GmSSL静态库的保姆级教程

告别依赖冲突!在Ubuntu上编译GmSSL静态库的保姆级教程 在Linux开发环境中,密码学库的版本管理一直是令人头疼的问题。特别是当我们需要同时使用国际标准算法和国密算法时,OpenSSL与GmSSL的兼容性问题常常让开发者陷入困境。本文将彻底解决这个…

作者头像 李华
网站建设 2026/5/15 9:53:43

抖音直播数据抓取终极指南:5步构建你的实时监控系统

抖音直播数据抓取终极指南:5步构建你的实时监控系统 【免费下载链接】DouyinLiveWebFetcher 抖音直播间网页版的弹幕数据抓取(2025最新版本) 项目地址: https://gitcode.com/gh_mirrors/do/DouyinLiveWebFetcher 想要实时获取抖音直播…

作者头像 李华
网站建设 2026/5/15 9:53:20

3大创新技术如何彻底改变Galgame实时翻译体验

3大创新技术如何彻底改变Galgame实时翻译体验 【免费下载链接】MisakaTranslator 御坂翻译器—Galgame/文字游戏/漫画多语种实时机翻工具 项目地址: https://gitcode.com/gh_mirrors/mi/MisakaTranslator 御坂翻译器是一款专为Galgame、文字游戏和漫画设计的开源多语种实…

作者头像 李华