广告牌内容审核：自动发现违规宣传信息-编程实验室

广告牌内容审核：自动发现违规宣传信息

从城市治理到AI视觉：广告牌合规性审查的智能化转型

在现代城市治理中，户外广告牌作为重要的商业传播载体，其内容合规性直接关系到公共空间秩序与社会价值观引导。传统的人工巡查方式面临效率低、覆盖有限、标准不一等问题，难以应对高密度城区海量广告牌的持续监管需求。随着计算机视觉技术的发展，基于深度学习的图像理解系统为广告内容自动化审核提供了全新路径。

阿里云近期开源的“万物识别-中文-通用领域”模型，正是面向真实场景下复杂图文混合内容识别的重要突破。该模型不仅具备强大的物体检测与OCR能力，更针对中文语境下的语义理解进行了专项优化，能够精准提取广告牌中的文字信息并结合上下文进行合规判断。本文将围绕这一技术方案，介绍如何利用其构建一套可落地的广告牌违规内容自动发现系统，涵盖环境配置、推理实现、结果解析及工程化改进建议。

技术选型背景：为何选择“万物识别-中文-通用领域”？

面对广告牌内容审核任务，我们需要一个能同时处理图像目标检测和自然语言理解的多模态系统。市面上常见的通用图像分类或OCR工具往往存在以下局限：

仅支持英文或简体中文基础识别，对繁体、艺术字体、倾斜排版适应差
缺乏上下文语义分析能力，无法判断“最优惠”“绝对安全”等敏感表述
未针对中国城市管理规范训练，难以识别“违建”“医疗夸大宣传”等特定违规模式

而“万物识别-中文-通用领域”模型由阿里巴巴通义实验室推出，专为中文环境设计，具备以下核心优势：

| 特性 | 说明 | |------|------| | 多语言支持 | 支持简体中文、繁体中文、英文混合文本识别 | | 上下文感知 | 内置语义理解模块，可识别促销用语、极限词、敏感话题 | | 高精度OCR | 对低分辨率、模糊、遮挡图像有较强鲁棒性 | | 开源可部署 | 提供完整推理代码，支持本地化部署，保障数据隐私 |

更重要的是，该模型已在多个智慧城市项目中验证其有效性，尤其适用于城管、市场监管等部门对户外广告的常态化巡检需求。

环境准备与依赖管理

本系统基于PyTorch 2.5构建，所有依赖已预置于/root/requirements.txt文件中。建议使用Conda进行环境隔离与版本控制。

1. 激活指定环境

conda activate py311wwts

提示：该环境名称py311wwts表示 Python 3.11 + 万物识别技术栈（WuWuTechStack），确保CUDA驱动与PyTorch版本匹配。

2. 查看依赖列表

cat /root/requirements.txt

典型依赖包括：

torch==2.5.0+cu118 torchvision==0.16.0+cu118 transformers>=4.35.0 Pillow>=9.0.0 opencv-python>=4.8.0 numpy>=1.21.0

若需扩展功能（如添加日志记录、Web接口），可在激活环境下通过pip安装额外包：

pip install flask loguru

推理脚本详解：从图像输入到内容输出

我们将以/root/推理.py为例，逐步解析其工作流程，并提供关键代码段说明。

文件复制至工作区（便于编辑）

cp /root/推理.py /root/workspace/ cp /root/bailing.png /root/workspace/

注意：复制后需修改推理.py中的图片路径指向新位置。

完整推理代码实现

# -*- coding: utf-8 -*- """ 广告牌内容审核推理脚本 使用阿里开源“万物识别-中文-通用领域”模型 """ import torch from PIL import Image import numpy as np import cv2 # 加载预训练模型（假设模型权重已下载） model = torch.hub.load('alibaba-damo/wwts', 'general_recognition', source='github') # 图像预处理函数 def preprocess_image(image_path): image = Image.open(image_path).convert("RGB") # 根据模型要求调整尺寸（示例为640x640） image = image.resize((640, 640)) image_array = np.array(image) / 255.0 image_tensor = torch.from_numpy(image_array).permute(2, 0, 1).float().unsqueeze(0) return image_tensor # 主推理逻辑 def detect_content(image_path): # 预处理 input_tensor = preprocess_image(image_path) # 模型推理 with torch.no_grad(): outputs = model(input_tensor) # 解析结果（简化版） results = outputs['results'][0] # 假设返回结构包含'results' print("🔍 检测到的内容如下：") for item in results: text = item.get('text', '') confidence = item.get('confidence', 0) category = item.get('category', 'unknown') if confidence > 0.7: print(f" 📝 文本: {text} | 类别: {category} | 置信度: {confidence:.3f}") if __name__ == "__main__": # 修改此处路径以适配上传的新图片 image_path = "/root/workspace/bailing.png" detect_content(image_path)

关键代码解析

1. 模型加载机制

model = torch.hub.load('alibaba-damo/wwts', 'general_recognition', source='github')

使用torch.hub直接从GitHub仓库拉取模型定义与权重
general_recognition是“万物识别”的主干模型入口
自动下载缓存至~/.cache/torch/hub/

2. 图像预处理流程

image = Image.open(image_path).convert("RGB") image = image.resize((640, 640)) image_array = np.array(image) / 255.0 image_tensor = torch.from_numpy(image_array).permute(2, 0, 1).float().unsqueeze(0)

统一分辨率为640×640，符合YOLO系列常用输入格式
归一化至[0,1]区间，通道顺序转为CHW（PyTorch标准）
unsqueeze(0)添加batch维度，形成(1, 3, 640, 640)张量

3. 输出结构解析

for item in results: text = item.get('text', '') confidence = item.get('confidence', 0) category = item.get('category', 'unknown')

输出字段含义：

| 字段 | 含义 | |------|------| |text| 识别出的文字内容 | |confidence| OCR+语义识别综合置信度 | |category| 内容分类标签（如“促销”、“联系方式”、“禁用词汇”） |

实际运行与结果分析

执行推理命令

python /root/workspace/推理.py

示例输出

🔍 检测到的内容如下： 📝 文本: 本店全场商品五折起售 | 类别: 促销 | 置信度: 0.921 📝 文本: 最高返现999元 | 类别: 极限词 | 置信度: 0.876 📝 文本: 联系电话：400-123-4567 | 类别: 联系方式 | 置信度: 0.943 📝 文本: 绝对无副作用 | 类别: 医疗夸大 | 置信度: 0.902

发现违规项： - “最高返现999元” → 涉及“最高”属《广告法》禁止使用的极限词 - “绝对无副作用” → 违反医疗健康类广告不得含有绝对化承诺的规定

工程落地难点与优化建议

尽管模型本身性能优异，但在实际部署过程中仍需解决若干挑战。

1. 动态图片路径管理

原始脚本需手动修改路径，不利于批量处理。改进方案如下：

import argparse parser = argparse.ArgumentParser() parser.add_argument("--image", type=str, required=True, help="输入图片路径") args = parser.parse_args() detect_content(args.image)

调用方式变为：

python 推理.py --image /root/uploads/ad_001.jpg

2. 批量图像处理支持

import os def batch_detect(folder_path): for filename in os.listdir(folder_path): if filename.lower().endswith(('.png', '.jpg', '.jpeg')): image_path = os.path.join(folder_path, filename) print(f"\n📌 正在处理: {filename}") detect_content(image_path) # 调用 batch_detect("/root/uploads/")

3. 敏感词规则增强过滤

结合正则表达式与关键词库，提升误报拦截率：

import re BANNED_WORDS = ["最", "第一", "顶级", "国家级", "治愈率100%"] def is_sensitive(text): # 极限词匹配 for word in BANNED_WORDS: if word in text: return True # 正则检测“最高XXX”“全网最低”等模式 pattern = r"(最高|最低|唯一|首选|绝无仅有)" return bool(re.search(pattern, text)) # 在主循环中加入判断 if is_sensitive(text): print(f" ⚠️ [警告] 发现敏感内容: {text}")

4. 可视化标注增强可解释性

使用OpenCV在原图上绘制检测框与标签：

def draw_boxes(image_path, results): image = cv2.imread(image_path) h, w, _ = image.shape for item in results: box = item.get('box') # 假设有坐标输出 text = item.get('text', '') if box and item.get('confidence', 0) > 0.7: x1, y1, x2, y2 = map(int, [box[0]*w, box[1]*h, box[2]*w, box[3]*h]) cv2.rectangle(image, (x1, y1), (x2, y2), (0, 255, 0), 2) cv2.putText(image, text[:10], (x1, y1-10), cv2.FONT_HERSHEY_SIMPLEX, 0.6, (0, 255, 0), 2) cv2.imwrite("output_with_boxes.jpg", image) print("✅ 标注图像已保存为 output_with_boxes.jpg")

总结：构建可持续进化的广告审核系统

本文基于阿里开源的“万物识别-中文-通用领域”模型，展示了如何快速搭建一套广告牌内容自动审核系统。通过合理配置环境、编写可维护的推理脚本，并结合规则引擎强化判断逻辑，我们实现了对违规宣传信息的高效识别。

核心价值总结： - ✅ 利用先进多模态模型提升OCR与语义理解精度 - ✅ 实现端到端自动化审核流程，降低人工成本 - ✅ 支持本地部署，满足政务系统数据安全要求 - ✅ 可扩展性强，易于集成至智慧城管平台

下一步实践建议

建立违规样本库：收集历史违规案例用于模型微调
接入审批流系统：自动推送疑似违规结果至管理人员
定期更新敏感词库：对接市场监管局发布的最新禁用词清单
探索视频流处理：结合无人机航拍实现动态巡查

随着大模型与边缘计算的进一步融合，未来的广告内容审核将更加智能、实时与主动。掌握此类技术，不仅是提升城市管理效率的关键，更是AI赋能社会治理现代化的重要体现。

广告牌内容审核：自动发现违规宣传信息