第一版训练效果分析
数据质量问题(最主要原因):
如果你的训练数据大量来自**“在线问诊平台”(如好大夫、春雨医生等),这些数据里充斥着医生为了快速回复而使用的“万金油句式”**(例如:“建议去医院检查”、“这个不好说”、“可以观察一下”)。
模型学到了医生的“敷衍”和“短回复”,而没有学到深度推理。
过拟合与遗忘:
模型在为了适应你的数据集时,牺牲了原本通用的逻辑判断能力(比如男人不能怀孕,管制药不能买)。
Prompt 约束力不足:
目前的 System Prompt 虽然定义了身份,但没有强制它进行“逻辑检查”。
解决方案
解决数据集问题的具体思路分解
1. 🧼 核心目标:从原始数据中剔除四类典型“坏数据”
| 类型 | 特征 | 危害 |
|---|---|---|
| ① 过短无意义回复 | 回复 <1 |