深度学习在中文评论情感分析及智能客服中的实战应用与优化策略-编程实验室

深度学习在中文评论情感分析及智能客服中的实战应用与优化策略

1. 背景与痛点：中文情感分析到底难在哪？

做英文情感分析时，把“good”“bad”直接扔进词袋就能拿到 80% 准确率；换成中文，画风立刻魔幻：

语义歧义：同一个“东西真行”，夸人还是骂人全凭上下文。
方言干扰：用户一句“这鞋真赞”，北方客服秒懂，南方模型却把它当错别字。
口语化+emoji：“棒棒哒😂” 到底算正向还是嘲讽？词典根本查不到。
领域漂移：电商场景里“轻”是好评，笔记本场景里“轻”可能暗示偷工减料。

传统做法（jieba+TF-IDF+SVM）在内部 10 万条评论上只能拿到 72% F1，误判集中在上述四类。为了把误判率压到 5% 以内，我们决定上深度学习，并直接让模型进客服工单路由，把“情绪爆炸”的用户实时分给高级客服。

2. 技术选型：BERT、RoBERTa、ERNIE 谁更适合中文？

预训练模型百花齐放，我挑了 3 个在中文情感任务上口碑最好的做对比实验，数据 8:1:1 划分，统一跑 3 个 seed 取平均。

模型	参数量	平均 F1	推理延迟（T4-batch=16）	显存占用	结论
chinese_L-12_H-768_A-12 (BERT)	102 M	88.4 %	7.8 ms	487 MB	基线，社区资料最多
chinese_roberta_wwm_ext	102 M	89.7 %	8.1 ms	491 MB	全词 Mask，略胜 BERT
ERNIE 1.0 Base	108 M	89.2 %	8.5 ms	510 MB	实体知识增强，领域迁移好

综合准确率、延迟、社区活跃度，我们最终把“chinese_roberta_wwm_ext”作为生产基线，后续所有优化都在它身上做增量训练。

3. 核心实现：PyTorch 端到端代码

下面代码可直接 clone 跑通，环境：Python 3.8 + PyTorch 1.12 + transformers 4.21，GPU 显存 ≥ 6 GB。

3.1 数据预处理

项目目录结构：

project/ ├── data/ │ ├── raw_train.txt # 用户评论<TAB>标签(0负1正) │ └── raw_test.txt ├── model/ └── src/ ├── dataset.py ├── train.py └── infer.py

dataset.py

import torch from torch.utils.data import Dataset from transformers import BertTokenizer tokenizer = BertTokenizer.from_pretrained("hfl/chinese-roberta-wwm-ext") class SentimentDataset(Dataset): def __init__(self, path, max_len=128): self.max_len = max_len self.text, self.label = [], [] with open(path, encoding="utf-8") as f: for line in f: try: t, l = line.strip().split("\t") self.text.append(t) self.label.append(int(l)) except ValueError: continue # 脏数据直接跳过 def __len__(self): return len(self.text) def __getitem__(self, idx): encoded = tokenizer( self.text[idx], add_special_tokens=True, max_length=self.max_len, padding="max_length", truncation=True, return_tensors="pt", ) item = {k: v.squeeze(0) for k, v in encoded.items()} item["labels"] = torch.tensor(self.label[idx], dtype=torch.long) return item

3.2 训练脚本

train.py

import os, random, numpy as np import torch, torch.nn as nn from torch.utils.data import DataLoader from transformers import AutoModelForSequenceClassification, AdamW from dataset import SentimentDataset def set_seed(seed=42): random.seed(seed) np.random.seed(seed) torch.manual_seed(seed) torch.cuda.manual_seed_all(seed) def train(): set_seed() model = AutoModelForSequenceClassification.from_pretrained( "hfl/chinese-roberta-wwm-ext", num_labels=2 ) model.cuda() train_set = SentimentDataset("data/raw_train.txt") train_loader = DataLoader(train_set, batch_size64, shuffle=True, num_workers4) optimizer = AdamW(model.parameters(), lr2e-5, weight_decay0.01) model.train() for epoch in range(3): for step, batch in enumerate(train_loader): batch = {k: v.cuda() for k, v in batch.items()} outputs = model(**batch) loss = outputs.loss loss.backward() nn.utils.clip_grad_norm_(model.parameters(), 1.0) optimizer.step() optimizer.zero_grad() if step % 50 == 0: print(f"epoch{epoch} step{step} loss{loss.item():.4f}") os.makedirs("model", exist_ok=True) model.save_pretrained(f"model/epoch_{epoch}") if __name__ == "__main__": train()

3.3 推理脚本

infer.py

from transformers import AutoModelForSequenceClassification, AutoTokenizer import torch model = AutoModelForSequenceClassification.from_pretrained("model/epoch_2") tokenizer = AutoTokenizer.from_pretrained("hfl/chinese-roberta-wwm-ext") def predict(text): model.eval() with torch.no_grad(): inputs = tokenizer(text, return_tensors="pt", truncation=True, padding=True, max_length=128) inputs = {k: v.cuda() for k, v in inputs.items()} logits = model(**inputs).logits prob = torch.softmax(logits, dim=-1) return prob[0, 1].item() # 返回正向概率 if __name__ == "__main__": while True: txt = input("请输入评论：") print("正向概率：", round(predict(txt), 3))

跑完 3 个 epoch，验证集 F1 就能到 89.7%，基本达到上线标准。

4. 性能优化：让 200 QPS 也扛得住

模型准了，但客服场景流量大，单卡 T4 压测只能到 40 QPS，延迟 200 ms，离目标 200 QPS 差得远。下面四步把延迟压到 28 ms，QPS 提到 230，显存还降了 35%。

混合精度推理：PyTorch 1.12 自带torch.cuda.amp，在model.eval()阶段开启 autocast，延迟直接掉 18%，无精度损失。
动态批处理：用transformers.TextClassificationPipeline的batch_size="dynamic"，把 20 ms 内到达的请求拼成一批，显存峰值 20%↑，吞吐 2.5×。
模型量化：TorchScript INT8 校准 1000 条样本，大小 367 MB→99 MB，延迟再降 12%，F1 只掉 0.3%，可接受。
缓存热词：对“好评”“差评”等高频 500 词做哈希表，命中直接返回，缓存命中率 22%，整体 QPS 再提 15%。

优化完，线上 A/B 测试 7 天，同样流量 GPU 占用从 78% 降到 42%，电费都省了。

5. 避坑指南：从离线到上线的血泪史

冷启动慢：第一次加载 tokenizer 会编译正则，用export TOKENIZERS_PARALLELISM=false可提速 4 s。
并发竞争：Flask + gunicorn 多 worker 会重复占显存，改用torch.multiprocessing.set_start_method('spawn')并共享模型句柄，显存省一半。
长文本截断：早期直接max_length512，延迟翻倍；按业务统计 95% 长度 ≤ 110，改 128 后吞吐 +60%。
标签不平衡：负样本只占 8%，用WeightedRandomSampler重采样，F1 从 85.2% 提到 89.7%。
领域漂移：上线两周后 F1 掉到 83%，打日志发现用户开始刷“yyds”“绝绝子”。用新增 5 k 条最新语料做增量训练 1 个 epoch，指标立刻拉回 88%。