news 2026/4/30 13:48:22

使用Minimind从0~1进行大模型预训练、SFT、RLHF

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
使用Minimind从0~1进行大模型预训练、SFT、RLHF

项目地址

资源:Tesla v100 32GBx8

测试原模型效果

python eval_llm.py --load_from ./MiniMind2

1. 预训练

预训练数据集
pretrain_hq.jsonl

{“text”: “<|im_start|>鉴别一组中文文章的风格和特点,例如官方、口语、文言等。需要提供样例文章才能准确鉴别不同的风格和特点。<|im_end|> <|im_start|>好的,现在帮我查一下今天的天气怎么样?今天的天气依据地区而异。请问你需要我帮你查询哪个地区的天气呢?<|im_end|> <|im_start|>打开闹钟功能,定一个明天早上七点的闹钟。好的,我已经帮您打开闹钟功能,闹钟将在明天早上七点准时响起。<|im_end|> <|im_start|>为以下场景写一句话描述:一个孤独的老人坐在公园长椅上看着远处。一位孤独的老人坐在公园长椅上凝视远方。<|im_end|> <|im_start|>非常感谢你的回答。请告诉我,这些数据是关于什么主题的?这些数据是关于不同年龄段的男女人口比例分布的。<|im_end|> <|im_start|>帮我想一个有趣的标题。这个挺有趣的:“如何成为一名成功的魔术师” 调皮的标题往往会吸引读者的注意力。<|im_end|> <|im_start|>回答一个问题,地球的半径是多少?地球的平均半径约为6371公里,这是地球自赤道到两极的距离的平均值。<|im_end|> <|im_start|>识别文本中的语气,并将其分类为喜悦、悲伤、惊异等。\n文本:“今天是我的生日!”这个文本的语气是喜悦。<|im_end|>”}

进行预训练
torchrun --nproc_per_node 8 train_pretrain.py

测试预训练的效果
python eval_llm.py --weight pretrain

2、SFT

SFT数据集
sft_mini_512.jsonl

{“conversations”: [{“role”: “user”, “content”: “请告诉我在中国古代的“四大发明”是什么?”}, {“role”: “assistant”, “content”: “中国古代的“四大发明”是指造纸术、印刷术、火药和指南针。这四项发明对世界文明的发展产生了深远的影响:\n\n1.造纸术:据史书记载,东汉时期的蔡伦改进了造纸工艺,使得纸张的生产更加便捷、成本更低,质量也更加优良。这一发明极大地促进了文化的传播和保存。\n\n2.印刷术:中国古代的印刷术最早可以追溯到唐代的雕版印刷,到了宋代发展出了活字印刷技术。印刷术的发明极大地促进了知识的传播,降低了书籍的成本,对教育和文化的发展起到了重要的推动作用。\n\n3.火药:火药最初是在唐代被发现的,最初可能用于医疗或炼金术。到了宋代,人们开始将火药用于军事目的,发明了各种火器。火药的发明改变了战争的面貌,对世界军事技术的发展产生了重大影响。\n\n4.指南针:指南针最初在中国被用于风水测量,后来逐渐发展成为航海导航的重要工具。这一发明极大地促进了海上航行技术的发展,对于新航路的开辟和世界地理大发现起到了关键作用。\n\n这四项发明不仅在中国历史上占有重要地位,而且对全世界的科技进步和文明发展都产生了深远的影响。”}]}

进行SFT
torchrun --nproc_per_node 8 train_full_sft.py

测试SFT 的效果
python eval_llm.py --weight full_sft

3、PPO

PPO数据集
rlaif-mini.jsonl
{“conversations”: [{“role”: “user”, “content”: “列出五个基本的人格理论,并分别以一句话概括。”}, {“role”: “assistant”, “content”: “空”}]}

# 进行PPO训练
torchrun --nproc_per_node 8 train_ppo.py

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/1 5:06:32

EmotiVoice语音平静感维持帮助注意力集中

EmotiVoice语音平静感维持帮助注意力集中 在远程办公常态化、信息过载加剧的今天&#xff0c;许多人发现自己的专注力正被不断切割。一条消息提示、一次页面跳转&#xff0c;都可能打断原本集中的思维流。而与此同时&#xff0c;越来越多的人开始尝试用“声音”作为锚点——一段…

作者头像 李华
网站建设 2026/4/30 18:33:16

git 命令整理

1、git init 作用&#xff1a;初始化一个新的 Git 仓库&#xff0c;在当前目录下创建一个新的 .git 目录来管理版本历史。用法&#xff1a;git init 2、git clone 作用&#xff1a;克隆一个远程仓库到本地。用法&#xff1a;git clone https://github.com/username/repository.…

作者头像 李华
网站建设 2026/4/30 21:43:37

阿里健康董事长朱顺炎卸任:曾是阿里合伙人 沈涤凡接任

雷递网 乐天 12月16日阿里健康&#xff08;00241.HK&#xff09;日前发布公告称&#xff0c;公司董事长朱顺炎已辞任非执行董事、主席及提名委员会主席职务。朱顺炎已确认&#xff0c;彼与董事会之间并无意见分歧&#xff0c;亦无有关彼辞任之其他事宜须促请公司股东或联交所垂…

作者头像 李华
网站建设 2026/4/30 6:36:01

18、Mac OS X 开发中的框架与编译要点

Mac OS X 开发中的框架与编译要点 1. 框架概述 在 Mac OS X 系统中, /System/Library/Frameworks 是苹果提供的框架存放位置,这些框架的共享库可供系统上的所有应用程序使用。该目录下有三种类型的框架: - 简单公共框架 :苹果将既不是子框架也不是伞形框架的框架定义…

作者头像 李华
网站建设 2026/5/1 6:07:53

EmotiVoice在恐怖游戏音效中的惊悚表现

EmotiVoice在恐怖游戏音效中的惊悚表现 在一间昏暗的房间里&#xff0c;墙壁渗水&#xff0c;地板吱呀作响。玩家握着手电筒缓缓推进&#xff0c;突然&#xff0c;耳边传来一声低语&#xff1a;“你不该来的……”声音沙哑、颤抖&#xff0c;仿佛就在身后。你猛地回头——什么也…

作者头像 李华
网站建设 2026/5/1 6:16:26

自然语言处理在合规风险管理中的应用

自然语言处理在合规风险管理中的应用 关键词:自然语言处理、合规风险管理、文本分析、机器学习、信息提取 摘要:本文聚焦于自然语言处理(NLP)在合规风险管理领域的应用。首先介绍了研究的背景、目的、预期读者等内容,接着阐述了自然语言处理和合规风险管理的核心概念及其联…

作者头像 李华