news 2026/6/15 19:31:16

Llama guard的启动部署以及利用llama Factory的微调

张小明

前端开发工程师

1.2k 24

文章封面图 — Llama guard的启动部署以及利用llama Factory的微调

本文记录通过vLLM将llama guard在服务器端进行部署并进行模型微调的过程。由于一些文档不完善，本文尽可能提供了一些常见问题解决方案，以及配置方法供大家参考。

link

llama stack
llama guard 3-1 B
Xpost

利用Vllm启动服务并部署

利用conda创建虚拟环境

conda create -n <env name> python=<python 版本>
conda env list
conda activate <env name>
pip list

模型下载

3-1 b 模型地址 (测试后发现3-1b 非常垃圾，不建议使用)
huggingface-cli login, 输入token
这里需要在hugging face 上登录认证并签署协议，等待5-10min认证通过即可。
安装lfs工具,git lfs install
git clone<hugging face url>

另外一种方法是在代码中直接运行，如果没有的话会自动下载

tokenizer = AutoTokenizer.from_pretrained("<model name>",catch_dir=catch_dir,token=''), 这里

启动服务 vLLM

<指定GPU> python -m vllm.entrypoints.openai.api_server --port 5123 --model meta-llama/Llama-Guard-3-1B

指定GPU运行

检查GPU使用情况:nvidia-smi
查看具体某个GPU使用情况:nvidia-smi -q -i 7
指定GPU运行:CUDA_VISIBLE_DEVICES=6,7

发送请求

import requests url = "http://localhost:5123/v1/chat/completions" headers = { "Content-Type": "application/json" } data = { "model": "meta-llama/Llama-Guard-3-1B", "messages": [ {"role": "user", "content": "Hello!"} ] } response = requests.post(url, headers=headers, json=data)

另外一种方法:

from openai import OpenAI client = OpenAI( base_url="http://localhost:5123/v1", api_key=" ", ) completion = client.chat.completions.create( model="meta-llama/Llama-Guard-3-8B", messages=[ {"role": "user", "content": content} ], temperature=0 ) print(completion.choices[0].message.content)

查看模型是成功运行。

查看端口占用情况

lsof -i
netstat -anp|grep 5123

利用LLaMA-Factory进行微调

Safeguarding LLM Conversations Using Llama Guard
meta: llama_guard_customization
如图所示， llama guard实际上的输入信息是一组对话，对于流式生成来说，是没有办法拦截生成对话的。因此，我们决定对模型进行调整：
- 1. 增加训练语料，添加多轮对话缺少最后一次Agent生成的数据
- 1. 添加其他训练类别的数据

下载并配置llama factory

数据格式

"""<|image|> Task: Check if there is unsafe content in '{role}' messages in conversations according to our safety policy with the below categories. <BEGIN UNSAFE CONTENT CATEGORIES> {unsafe_categories} <END UNSAFE CONTENT CATEGORIES> <BEGIN CONVERSATION> {conversation} <END CONVERSATION> Provide your safety assessment for ONLY THE LAST {role} in the above conversation: - First line must read 'safe' or 'unsafe'. - If unsafe, a second line must include a comma-separated list of violated categories."""

更多可以参考： meta llama-guard-3

一定要注意换行、空格、缩进等
数据格式需要符合llama factory的要求 [ “instruction”: “”, “input”:“”, “output”:“” ] 其中instruction输入prompt内容，output输入期待输出。在LLaMA-Factory/data/dataset_info.json中添加你的数据集名称和地址。

yaml 文件配置

更改配置文件lora_sft_ds3.yaml

model_name_or_path ### dataset dataset <同dataset_info中的地址> template: llama3 cutoff_len: 4096 <这里需要查model card确认> ### train per_device_train_batch_size: 1 gradient_accumulation_steps: 2 learning_rate: 1.0e-4 num_train_epochs: 3.0 lr_scheduler_type: cosine warmup_ratio: 0.1 bf16: true ddp_timeout: 180000000 ### eval val_size: 0.1 per_device_eval_batch_size: 1 eval_strategy: steps eval_steps: 5000000

这里我们选用了Lora进行微调。LoRA是一种新型的微调方法，旨在解决预训练模型微调过程中存在的两大问题：模型调整过程中对初始模型过度依赖以及微调过程中存在的过拟合问题。LoRA通过在预训练模型中引入一个额外的线性层，并使用特定任务的训练数据来微调这个线性层。这种方法使模型能够更好地适应特定任务，同时减少了对初始模型的过度依赖。

微调参数

learning_rate: 1.0e-5 是Meta官方推荐，不建议更改。
gradient_accumulation_steps * per_device_train_batch_size * save_steps = max_samples
批大小batch size
- effective_batch_size = batch_size * gradient_acc_step

运行程序

注意，因为配置文件中用了相对路径，所以必须在llamafactory根目录下启动程序:CUDA_VISIBLE_DEVICES=6,7 llamafactory-cli train /home/feiyu_jiang/LLaMA-Factory/examples/train_lora/llama_guard_lora_sft_ds3.yaml

启动微调后的模型

因为我们使用lora进行模型微调的，所以模型本身名称没有改变。添加参数--lora-modules '{"name": "sql-lora", "path": "/path/to/lora", "base_model_name": "meta-llama/..."}启动即可。

eg:python -m vllm.entrypoints.openai.api_server --port 5123 --model meta-llama/Llama-Guard-3-8B --enable-lora --lora-modules sql-lora=<path>

附录：常见报错

`undefined symbol: __nvJitLinkAddData_12_1, version libnvJitLink.so.12`1,2

错误原因：表明您的系统中缺少一个名为__nvJitLinkAddData_12_1的符号定义, pyTorch 与 nvidia的动态库没有正确链接3
解决方法
另外，也可以选择降级torch到稳定版本

想入门 AI 大模型却找不到清晰方向？备考大厂 AI 岗还在四处搜集零散资料？别再浪费时间啦！2026 年AI 大模型全套学习资料已整理完毕，从学习路线到面试真题，从工具教程到行业报告，一站式覆盖你的所有需求，现在全部免费分享！

👇👇扫码免费领取全部内容👇👇

一、学习必备：100+本大模型电子书+26 份行业报告 + 600+ 套技术PPT，帮你看透 AI 趋势

想了解大模型的行业动态、商业落地案例？大模型电子书？这份资料帮你站在 “行业高度” 学 AI：

1. 100+本大模型方向电子书

路线图涵盖 5 大核心板块，从基础到进阶层层递进：一步步带你从入门到进阶，从理论到实战。

L1阶段:启航篇丨极速破界AI新时代

L1阶段：了解大模型的基础知识，以及大模型在各个行业的应用和分析，学习理解大模型的核心原理、关键技术以及大模型应用场景。

L2阶段：攻坚篇丨RAG开发实战工坊

L2阶段：AI大模型RAG应用开发工程，主要学习RAG检索增强生成：包括Naive RAG、Advanced-RAG以及RAG性能评估，还有GraphRAG在内的多个RAG热门项目的分析。

L3阶段：跃迁篇丨Agent智能体架构设计

L3阶段：大模型Agent应用架构进阶实现，主要学习LangChain、 LIamaIndex框架，也会学习到AutoGPT、 MetaGPT等多Agent系统，打造Agent智能体。

L4阶段：精进篇丨模型微调与私有化部署

L4阶段：大模型的微调和私有化部署，更加深入的探讨Transformer架构，学习大模型的微调技术，利用DeepSpeed、Lamam Factory等工具快速进行模型微调，并通过Ollama、vLLM等推理部署框架，实现模型的快速部署。

L5阶段：专题集丨特训篇【录播课】

四、资料领取：全套内容免费抱走，学 AI 不用再找第二份

不管你是 0 基础想入门 AI 大模型，还是有基础想冲刺大厂、了解行业趋势，这份资料都能满足你！
现在只需按照提示操作，就能免费领取：

👇👇扫码免费领取全部内容👇👇

2026 年想抓住 AI 大模型的风口？别犹豫，这份免费资料就是你的 “起跑线”！

网站建设 2026/6/15 13:18:07

深度测评10个AI论文软件，本科生轻松搞定毕业论文！

深度测评10个AI论文软件，本科生轻松搞定毕业论文！ AI 工具如何改变论文写作的未来在当今学术环境中，AI 工具已经成为许多本科生和研究生的重要助手。尤其是那些专注于降低 AIGC 率、保持语义通顺以及提升论文质量的工具，正在被…

李华

网站建设 2026/6/15 13:17:39

计算机毕业设计hadoop+spark+hive地震预测系统地震数据可视化分析大数据毕业设计(源码+LW文档+PPT+讲解)

温馨提示：文末有 CSDN 平台官方提供的学长联系方式的名片！ 温馨提示：文末有 CSDN 平台官方提供的学长联系方式的名片！ 温馨提示：文末有 CSDN 平台官方提供的学长联系方式的名片！ 技术范围：Sprin…

李华

网站建设 2026/6/15 14:18:30

AI写专著必备！专业工具推荐，让你的写作过程畅通无阻

创新是学术专著的核心内容，也是学术写作中最难以逾越的障碍。一部合格的学术专著，不应只是对已有研究成果的简单重复，而是需要提出贯穿整本书的原创性主张、理论框架或研究方法。面对海量的学术文献，寻找尚未被探索的研究空白是个…

李华

网站建设 2026/6/15 14:32:30

测试工具链 LLM 集成路线图

一、LLM在测试工具链中的核心价值大型语言模型（LLM）正从辅助工具演变为测试团队的“核心成员”，能自动化生成测试用例、优化脚本执行，并解决复杂测试问题。集成LLM可带来三大核心效益：效率提升，通过自动化…

李华

网站建设 2026/6/15 13:18:53

本科论文救星！这8款AI神器让你告别文献综述噩梦

曾经花费数周埋首文献海洋，如今一个智能工具就能帮你理清思路、规范格式、高效成稿，实现真正的效率翻倍。本科毕业生在撰写毕业论文时，通常会面临一座必须逾越的大山：文献综述。从海量文献中筛选核心内容、梳理研究脉络、规范…

李华

网站建设 2026/6/15 19:24:53

专业干货：AI教材写作技巧与低查重方法，助你高效完成编写！

在教材编写中寻找原创性与合规性的平衡在教材编写的过程中，如何在原创性和合规性之间找到平衡，始终是一个很重要的问题。创作者一方面想借鉴那些优秀教材中的精彩内容，却又担心这样会导致查重率过高；另一方面，若坚持…

李华