MGeo部署后的监控方案：日志记录、指标采集与告警设置-编程实验室

MGeo部署后的监控方案：日志记录、指标采集与告警设置

1. 为什么MGeo需要专业级监控

MGeo是阿里开源的地址相似度匹配模型，专为中文地址领域设计，能精准识别“北京市朝阳区建国路8号”和“北京朝阳建国路8号”这类高度简写、顺序错位、省略行政层级的地址对是否指向同一实体。它不是通用NLP模型，而是经过地址语料深度训练的垂直领域工具——这意味着它的输入极其敏感：一个空格、一个错别字、一个未标准化的“县/区”后缀，都可能让相似度分数从0.95骤降到0.3。

但部署完成只是起点。当你在4090D单卡上跑起python /root/推理.py，模型开始处理每一条地址对时，真正的挑战才刚开始：

某次批量请求中，10%的地址对返回了NaN相似度，是数据脏了？还是模型内部状态异常？
连续三小时响应时间从280ms缓慢爬升到650ms，显存占用却没明显变化，是Python GC卡顿，还是CUDA上下文泄漏？
周一早高峰流量突增3倍，服务没崩，但相似度分布直方图整体左移——低分段（<0.6）样本比例从12%跳到34%，是真实业务变化，还是模型悄然退化？

这些问题不会在Jupyter里弹窗提醒你。它们藏在日志的末尾、埋在指标的曲线里、等在告警的静默期之后。本文不讲怎么部署MGeo（那一步你已经用conda activate py37testmaas完成了），只聚焦一件事：让MGeo在生产环境里“会说话”——说清楚它在想什么、累不累、有没有生病。

2. 日志记录：给MGeo装上“黑匣子”

MGeo本身不输出结构化日志。它的推理.py脚本默认只打印print(f"相似度: {score}")。这种日志对调试毫无价值——没有时间戳、没有请求ID、没有输入地址原文、更没有堆栈追踪。我们需要重写日志层，让它成为可追溯、可分析、可审计的“操作记录仪”。

2.1 替换print为结构化日志

将原脚本中所有print()调用替换为logging模块，并强制添加关键字段：

import logging import time import uuid # 配置日志格式：包含时间、请求ID、等级、模块名、消息 logging.basicConfig( level=logging.INFO, format='%(asctime)s | %(request_id)s | %(levelname)-8s | %(name)s | %(message)s', datefmt='%Y-%m-%d %H:%M:%S' ) logger = logging.getLogger("mgeo_inference") def infer_address_pair(addr1: str, addr2: str) -> float: request_id = str(uuid.uuid4())[:8] # 生成短请求ID，贯穿单次推理全链路 start_time = time.time() logger.info(f"START | addr1='{addr1}' | addr2='{addr2}'", extra={'request_id': request_id}) try: # 此处插入MGeo原始推理逻辑 score = mgeo_model.predict(addr1, addr2) # 假设这是原始调用 duration = time.time() - start_time logger.info(f"SUCCESS | score={score:.4f} | duration_ms={duration*1000:.1f}", extra={'request_id': request_id}) return score except Exception as e: duration = time.time() - start_time logger.error(f"FAILED | error='{str(e)}' | duration_ms={duration*1000:.1f}", extra={'request_id': request_id}) raise

关键设计点：
extra={'request_id'}确保每条日志绑定唯一ID，便于在海量日志中串联一次完整请求；
duration_ms精确到0.1毫秒，比time.time()直接相减更可靠；
addr1/addr2原文明文记录（注意：生产环境需脱敏，如替换手机号为[PHONE]，但地址本身通常无需脱敏）；
错误日志必须包含error=前缀，方便ELK或Grafana Loki正则提取。

2.2 日志分级与存储策略

日志级别	触发场景	存储方式	保留周期
INFO	每次成功/失败推理、服务启动/关闭	写入`/var/log/mgeo/app.log`	7天
WARNING	相似度为`NaN`、输入地址长度超200字符、预测耗时>1s	同上，但额外推送企业微信	3天
ERROR	模型加载失败、CUDA out of memory、配置文件缺失	写入`/var/log/mgeo/error.log`+ 邮件告警	永久归档

实操提示：在/root/推理.py顶部加入日志轮转配置，避免单文件爆炸：
from logging.handlers import RotatingFileHandler handler = RotatingFileHandler("/var/log/mgeo/app.log", maxBytes=100*1024*1024, backupCount=5)

3. 指标采集：让MGeo“心跳”可视化

日志告诉你“发生了什么”，指标告诉你“正在发生什么”。对MGeo这类计算密集型服务，我们重点关注四类黄金指标：

3.1 四大核心指标定义与采集方式

指标类别	具体指标	计算方式	采集工具	为什么重要
吞吐量	`mgeo_requests_total`	Counter：每次`infer_address_pair`调用+1	Prometheus Python Client	衡量服务承载能力，突降预示上游断流或下游熔断
延迟	`mgeo_request_duration_seconds`	Histogram：按0.1s/0.3s/1s/3s分桶统计耗时	Prometheus Python Client	地址匹配是实时性要求高的场景，P95>500ms即影响用户体验
质量	`mgeo_similarity_score`	Summary：实时上报每次预测的相似度值	Prometheus Python Client	发现模型退化：若7天内P50相似度从0.82降至0.71，需触发重训
资源	`process_resident_memory_bytes`	Gauge：Python进程常驻内存	Prometheus Node Exporter	4090D单卡显存有限，内存泄漏会导致CUDA OOM

3.2 在推理脚本中嵌入指标暴露端点

修改/root/推理.py，添加Prometheus指标注册与HTTP服务：

from prometheus_client import Counter, Histogram, Summary, start_http_server import threading # 定义指标 REQUESTS_TOTAL = Counter('mgeo_requests_total', 'Total number of MGeo inference requests') REQUEST_DURATION = Histogram('mgeo_request_duration_seconds', 'Inference request duration in seconds') SIMILARITY_SCORE = Summary('mgeo_similarity_score', 'MGeo similarity score value') # 启动Prometheus指标暴露服务（监听端口8000） def start_metrics_server(): start_http_server(8000) # 在主程序启动时开启指标服务线程 if __name__ == "__main__": # 启动指标服务（后台线程） metrics_thread = threading.Thread(target=start_metrics_server, daemon=True) metrics_thread.start() # 原有推理逻辑... while True: addr1, addr2 = get_next_pair() # 你的数据获取逻辑 REQUESTS_TOTAL.inc() # 请求计数+1 with REQUEST_DURATION.time(): # 自动记录耗时 score = infer_address_pair(addr1, addr2) SIMILARITY_SCORE.observe(score) # 上报相似度值

验证方法：部署后访问http://localhost:8000/metrics，应看到类似：

# HELP mgeo_requests_total Total number of MGeo inference requests # TYPE mgeo_requests_total counter mgeo_requests_total 127 # HELP mgeo_request_duration_seconds Inference request duration in seconds # TYPE mgeo_request_duration_seconds histogram mgeo_request_duration_seconds_bucket{le="0.1"} 89 mgeo_request_duration_seconds_bucket{le="0.3"} 112 mgeo_request_duration_seconds_sum 32.74

3.3 Grafana看板：一眼看懂MGeo健康度

使用以下JSON导入Grafana看板（Dashboard ID:mgeo-health）：

Top Row: P95延迟（折线图）、QPS（带状图）、错误率（百分比）
Middle Row: 相似度分布直方图（X轴0.0~1.0，Y轴频次）、相似度P50/P90趋势（双Y轴）
Bottom Row: 显存占用（Gauge）、Python进程内存（Gauge）、请求ID采样（Table，展示最近10条带request_id的日志）

关键洞察点：当相似度直方图出现“双峰”——大量样本集中在0.0~0.2（无效匹配）和0.8~1.0（高置信匹配），而中间0.3~0.7区间稀疏，说明地址清洗环节失效，需检查输入数据是否混入了非地址文本（如电话号码、纯数字ID）。

4. 告警设置：让MGeo“主动求救”

告警不是越多越好，而是要在业务可容忍的临界点之前发出。基于MGeo的业务特性，我们设定三级告警：

4.1 告警规则配置（Prometheus Alert Rules）

# 文件: /etc/prometheus/alert_rules/mgeo_alerts.yml groups: - name: mgeo-alerts rules: # 级别1：立即响应（5分钟内处理） - alert: MGeoHighErrorRate expr: rate(mgeo_requests_total{job="mgeo"}[5m]) - rate(mgeo_requests_total{job="mgeo",status="success"}[5m]) > 0.05 for: 2m labels: severity: critical annotations: summary: "MGeo错误率超5%" description: "过去5分钟错误请求数占比{{ $value | humanizePercentage }}，请检查输入数据或模型状态" # 级别2：关注观察（30分钟内确认） - alert: MGeoSimilarityDrift expr: avg_over_time(mgeo_similarity_score[7d]) < (avg_over_time(mgeo_similarity_score[30d]) * 0.92) for: 10m labels: severity: warning annotations: summary: "MGeo相似度均值下降8%" description: "7日均值{{ $value | humanize }}低于30日基线，可能预示模型退化或数据漂移" # 级别3：容量预警（提前24小时干预） - alert: MGeoMemoryPressure expr: process_resident_memory_bytes{job="mgeo"} > 8e9 for: 5m labels: severity: warning annotations: summary: "MGeo内存占用超8GB" description: "当前内存{{ $value | humanize1024 }}，4090D单卡显存紧张，建议检查是否有大批次请求堆积"

4.2 告警通道与降噪策略

Critical告警：企业微信+电话（通过Zabbix或自建Webhook）
Warning告警：企业微信（仅工作日9:00-18:00）
降噪机制：
- 所有告警添加group_by: [alertname, instance]，避免同一问题刷屏；
- 对MGeoHighErrorRate添加抑制规则：当MGeoMemoryPressure激活时，自动抑制错误率告警（因内存不足导致的错误是已知根因）；
- 周末0:00-6:00静默所有非Critical告警。

真实案例：某次上线新地址词典后，MGeoSimilarityDrift告警触发。排查发现新词典中“高新区”被错误映射为“高新技术产业开发区”，导致大量“XX高新区”与“XX高新技术产业开发区”的相似度被拉高至0.99+，掩盖了真实差异。及时回滚词典版本，72小时内相似度分布回归正常。

5. 故障排查实战：从告警到根因的三步法

当MGeoHighErrorRate告警响起，按此流程快速定位：

5.1 第一步：查日志（5分钟内）

# 查看最近10分钟ERROR日志 grep "FAILED" /var/log/mgeo/error.log | grep "$(date -d '10 minutes ago' '+%Y-%m-%d %H:%M')" # 提取高频错误关键词 awk -F"error='" '{print $2}' /var/log/mgeo/error.log | cut -d"'" -f1 | sort | uniq -c | sort -nr | head -5

若输出含CUDA out of memory，立即执行nvidia-smi；若含KeyError: 'province'，说明地址解析模块缺失字段。

5.2 第二步：看指标（10分钟内）

登录Grafana，打开mgeo-health看板；
切换时间范围至告警时段，观察：
- P95延迟是否同步飙升？→ 若是，检查GPU利用率（nvidia-smi dmon -s u）；
- 相似度直方图是否整体左移？→ 若是，检查输入数据源是否混入了测试用的乱码地址；
- QPS是否断崖下跌？→ 若是，检查上游调用方是否启用了重试风暴。

5.3 第三步：验数据（15分钟内）

用最小闭环验证模型状态：

# 在Jupyter中运行（已激活py37testmaas环境） from mgeo.model import MGeoModel model = MGeoModel.load("/root/model") # 加载相同路径模型 # 用告警时段日志中的request_id对应地址对重试 test_pairs = [ ("杭州市西湖区文三路398号", "杭州西湖文三路398号"), ("广东省深圳市南山区科技园科苑路15号", "深圳南山科技园科苑路15号") ] for a, b in test_pairs: try: s = model.predict(a, b) print(f"{a} vs {b} -> {s:.4f}") except Exception as e: print(f"ERROR: {e}")