中医药AI突破：神农大模型训练数据与微调代码全开源-编程实验室

你还在为中医药大模型缺乏高质量训练数据而烦恼吗？还在为私有化部署中医AI助手成本高昂而却步吗？本文将全面解析华东师范大学开源的神农中医药大模型（ShenNong-TCM-LLM），带你零门槛掌握中医药AI模型的训练方法，从数据构建到本地部署全程开源可复现。

【免费下载链接】Awesome-Chinese-LLM整理开源的中文大语言模型，以规模较小、可私有化部署、训练成本较低的模型为主，包括底座模型，垂直领域微调及应用，数据集与教程等。项目地址: https://gitcode.com/GitHub_Trending/aw/Awesome-Chinese-LLM

读完本文你将获得：

2.6万条中医药专属指令数据集的获取与处理方法
基于Chinese-Alpaca-Plus-7B底座的LoRA微调全流程
消费级GPU实现中医辨证模型部署的优化技巧
3个中医药AI应用场景的实战案例（含代码片段）

项目背景：中医药AI的开源突破

中医药作为中华传统文化的重要组成部分，其辨证施治的复杂性和知识的隐晦性一直是AI落地的难点。2023年6月，华东师范大学在Awesome-Chinese-LLM项目中正式开源神农中医药大模型，填补了中文医疗领域垂直模型的空白。该模型基于70亿参数的中文优化底座，通过11万条中医药指令数据微调，实现了从中药性味归经查询到方剂配伍推荐的全流程智能化。

图1：神农大模型在中文大模型生态中的技术定位，展示了基于不同底座的中文LLM分类体系

核心资源：从数据集到微调代码

1. 神农中医药指令数据集

神农团队构建的ShenNong_TCM_Dataset是目前最完整的中医药开源数据集之一，包含三大模块：

数据类型	样本量	核心内容	应用场景
中药知识	8,236	性味归经、功效主治、现代研究	中药咨询机器人
方剂配伍	5,641	君臣佐使、加减化裁、临床应用	智能处方系统
辨证论治	7,123	四诊合参、证型判断、治则治法	辅助诊断平台

该数据集特色在于采用实体中心的自指令方法（entity-centric self-instruct），基于中医药知识图谱自动生成高质量问答对。例如针对"黄芪"的指令设计：

{ "instruction": "请详细说明黄芪的性味归经及临床应用注意事项", "input": "", "output": "黄芪性味甘温，归脾、肺经。具有补气升阳、固表止汗、利水消肿...阴虚阳亢者忌用。" }

2. 微调实现方案

神农模型采用参数高效微调技术（LoRA），在消费级GPU上即可完成训练。核心配置如下：

底座模型：Chinese-Alpaca-Plus-7B（已完成中文优化的LLaMA变体）
微调参数：rank=16，lora_alpha=32，dropout=0.05
训练环境：4×NVIDIA 3090 GPU（24GB显存）
训练时长：10 epochs，约28小时

关键微调代码片段：

# 模型加载与配置 model = AutoModelForCausalLM.from_pretrained( "ziqingyang/chinese-alpaca-plus-7b", load_in_4bit=True, device_map="auto", quantization_config=BitsAndBytesConfig( load_in_4bit=True, bnb_4bit_use_double_quant=True, bnb_4bit_quant_type="nf4", bnb_4bit_compute_dtype=torch.float16 ) ) # LoRA适配器设置 lora_config = LoraConfig( r=16, lora_alpha=32, target_modules=["q_proj", "v_proj"], lora_dropout=0.05, bias="none", task_type="CAUSAL_LM" )

本地部署：三步实现中医AI助手

环境准备

在Ubuntu 20.04系统下，推荐配置：

Python 3.8+
CUDA 11.7+
至少10GB显存（量化版模型）

基础依赖安装：

pip install torch transformers peft accelerate bitsandbytes

模型获取与加载

通过Git获取完整项目：

git clone https://gitcode.com/GitHub_Trending/aw/Awesome-Chinese-LLM cd Awesome-Chinese-LLM

加载量化模型（4-bit精度）：

from transformers import AutoTokenizer, AutoModelForCausalLM tokenizer = AutoTokenizer.from_pretrained("./ShenNong-TCM-LLM") model = AutoModelForCausalLM.from_pretrained( "./ShenNong-TCM-LLM", load_in_4bit=True, device_map="auto" )

实战应用示例

场景1：中药查询

prompt = """以下是中医药咨询系统，请回答用户关于中药的问题。 用户问：当归与白芍在补血方面有何异同？ 回答：""" inputs = tokenizer(prompt, return_tensors="pt").to("cuda") outputs = model.generate( **inputs, max_new_tokens=200, temperature=0.7, do_sample=True ) print(tokenizer.decode(outputs[0], skip_special_tokens=True))

场景2：方剂推荐

prompt = """根据患者症状推荐合适的方剂： 症状：面色苍白，头晕心悸，月经量少，舌淡苔白，脉细弱。 推荐方剂：""" # 模型输出将包含八珍汤的组成、用法及加减建议

行业价值与未来展望

神农大模型的开源释放了三大价值：

知识传承：将分散的中医药典籍转化为结构化AI知识
临床辅助：基层医疗机构可低成本部署中医AI助手
科研加速：为中药现代化研究提供数据挖掘工具

项目后续计划推出13B参数增强版，并融合VisualGLM-6B实现舌诊图像分析功能。正如医疗领域模型发展报告所指出，垂直领域小模型正成为AI普惠化的关键路径。

行动指南

点赞收藏本文，关注Awesome-Chinese-LLM项目更新
访问神农模型仓库获取完整资源
加入中医药AI开发者交流群（仓库README中有二维码）
下期预告：《基于神农模型的智能药房系统搭建》

提示：实际部署时建议配合医疗微调框架中的最佳实践，在数据集构建阶段引入专业中医师审核，确保模型输出的安全性与准确性。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

中医药AI突破：神农大模型训练数据与微调代码全开源

项目背景：中医药AI的开源突破

核心资源：从数据集到微调代码

1. 神农中医药指令数据集

2. 微调实现方案

本地部署：三步实现中医AI助手

环境准备

模型获取与加载

实战应用示例

场景1：中药查询

场景2：方剂推荐

行业价值与未来展望

行动指南

GAIA基准实战指南：解锁通用AI助手的真实能力测试密码

PyQt-SiliconUI：为桌面应用注入灵魂的艺术框架

Wan2.2-I2V视频生成模型：5分钟快速上手终极指南

Linly-Talker镜像提供Jupyter Notebook示例教程

Admin.NET通用权限开发框架：企业级权限管理的终极解决方案

Windows安全中心终极修复指南：3步解决系统安全故障