知乎开源 Zhi-Create-Qwen3-32B:让中文创作更富灵性
在生成式 AI 深入内容生产的今天,我们越来越不满足于“能写”,而是期待模型真正具备“会写”——写出有温度、有节奏、有文学质感的文字。尤其是在中文语境下,如何让大模型理解张爱玲笔下的苍凉、汪曾祺文中的烟火气,或是广告文案里那一瞬击中人心的修辞张力?这不仅是技术挑战,更是语言美学与工程能力的交汇点。
知乎最新推出的Zhi-Create-Qwen3-32B,正是朝着这个方向迈出的关键一步。它不是简单地在通用大模型上做微调,而是一次针对中文创意表达的系统性增强:从数据构造到训练策略,再到评估方式,每一环都围绕“写得好”展开设计。
这款基于 Qwen3-32B 架构打造的 320 亿参数模型,在保留原有强大推理和理解能力的同时,显著提升了叙事结构、情感渲染和语言风格控制等维度的表现。尤其值得一提的是,它在由 Claude 3 Sonnet 主持评审的 WritingBench 测试中取得了82.08 分,相比原始版本提升近 3 分,其中“文学与艺术”类任务得分跃升 4.5 分,“广告与营销”更是暴涨 4.8 分——这些数字背后,是真实可用的创作力跃迁。
高性能架构下的精细调优
Zhi-Create-Qwen3-32B 采用标准 Decoder-only Transformer 结构,参数总量为 32B(320 亿),属于当前开源生态中性能第一梯队的代表作之一。尽管参数量级低于部分 70B+ 的闭源模型,但其综合表现已逼近甚至超越某些更大体量的商用产品。
| 特性 | 参数 |
|---|---|
| 参数总量 | 32B(320亿) |
| 上下文长度 | 最长达128,000 tokens |
| 推理模式 | 支持CoT、Self-consistency、Tree-of-Thought等高级推理范式 |
| 训练精度 | BF16/FP16混合精度训练 |
| 输出质量 | 高连贯性、强语义一致性、低幻觉率 |
该模型特别适合需要深度文本处理的任务场景:
- 长篇小说或剧本创作
- 科研论文辅助写作与摘要提炼
- 法律文书起草与条款分析
- 品牌文案策划与社交媒体内容生成
- 多轮对话系统中的意图延续与风格保持
超长上下文:不只是“看得多”,更要“记得住”
支持128K token的输入长度,意味着它可以一次性读取整本《红楼梦》、Linux 内核某个模块的完整代码库,或者一份长达数百页的技术白皮书。但这不仅仅是“容量大”的问题——关键在于如何有效利用这么长的信息窗口。
我们在训练阶段引入了动态位置编码(如 ALiBi)和滑动窗口注意力机制,并结合 FlashAttention-2 实现高效计算加速。这使得模型不仅能记住前几万字的情节设定,在后续生成中依然能精准呼应人物动机、伏笔回收,避免出现“上下文断裂”式的逻辑跳跃。
举个例子,在撰写一部历史小说时,你可以将前三章的人物关系图谱、时代背景资料全部喂给模型,然后让它续写第四章。你会发现,角色的行为逻辑依然严密,用词风格也未漂移——这种“长期记忆+风格一致性”的能力,正是高质量内容创作的核心需求。
数据配比的艺术:23% 的“创作基因”
要让一个原本通用的大模型变得更擅长写作,最忌“一刀切”式的数据注入。如果直接塞入大量文学作品,很可能导致数学、代码等能力退化;但如果比例太低,又难以形成质变。
我们的解决方案是:构建一个分层混合训练语料池,并通过课程学习逐步引导模型成长。
整个训练数据包含三大来源:
高质量开源数据集
如 Dolphin-r1 中的多轮对话样本、Congliu 提供的中英文双语推理题解、AM-DeepSeek-R1 系列中的复杂逻辑链数据。这些构成了模型的基础认知框架。人工合成思维链(CoT)语料
利用 DeepSeek-R1 等先进模型生成带详细推导过程的问题解答对,用于强化其链式思考能力。这类数据虽非人类书写,但在训练过程中能有效模拟“逐步构思”的写作流程。知乎精选优质内容
来自知乎高赞回答、专栏文章与故事创作板块的真实用户产出,覆盖科技、人文、生活等多个领域。这部分内容最具“中文语感”的真实性和多样性,是我们重点打磨的“创作燃料”。
最终的数据分布如下:
创意写作相关数据约占整体训练语料的23%,其余由数学推理(约20%)、编程任务(18%)、通识知识(25%)及多轮对话(14%)共同构成。
这个比例并非随意设定。实测发现,当文学类数据占比超过 30% 时,模型开始出现轻微的“文科偏科”现象;而低于 15% 则提升有限。23% 是我们在多个验证集上反复测试后找到的“甜点区间”——既能明显增强文采,又不会牺牲通用智能。
所有数据均经过严格清洗:包括重复检测、毒性过滤、事实性校验,以及基于奖励模型的自动打分筛选,确保只有高信噪比的内容进入训练流。
两阶段训练:先学会“怎么写”,再学会“写得好”
仅仅喂数据还不够。为了让模型不仅“能输出”,还能“符合人类偏好”,我们采用了两阶段微调策略:
第一阶段:课程式监督微调(SFT)
借鉴人类学习路径,我们将 SFT 分为三个渐进阶段:
- 基础巩固期:以简单指令和常识问答为主,重建模型的基本交互能力;
- 能力拓展期:加入中等难度的写作任务(如短评、说明文)、逻辑推理题,逐步拉长上下文;
- 专项强化期:聚焦小说片段、诗歌仿写、品牌 slogan 创作等高阶任务,同时回捞前两轮中的“错题”进行补强。
每一轮迭代都会根据模型预测置信度动态调整样本权重——越是难处理的例子,越被赋予更高的学习优先级。这种方式类似于“错题本机制”,帮助模型实现阶梯式跃迁。
第二阶段:直接偏好优化(DPO)
SFT 解决了“能不能写出来”的问题,而 DPO 则致力于解决“好不好看”的问题。
我们通过 RAFT(Reward Anchoring via Fine-grained Tuning)框架构建偏好对:
- 正样本:来自专家标注或社区高票认可的内容;
- 负样本:存在重复表达、句式单一、中英混杂、风格突变等问题的生成结果。
训练过程中,模型不断对比“好答案”与“坏答案”的差异,逐渐内化出一套关于“什么是优美中文表达”的判别标准。例如,它学会了避免无意义循环输出(如“很好很好很好……”),减少了夹杂英文术语的习惯,增强了段落间的过渡衔接能力。
这一阶段的效果非常直观:许多早期版本中常见的“AI腔”消失了,取而代之的是更具个人风格和情绪流动的文字。
写作能力实测:谁在给分数?
衡量一个写作模型的好坏,不能只看 BLEU 或 ROUGE 这类传统指标——它们无法捕捉文风、意境或创造力。为此,我们采用国际通用的 WritingBench 框架进行全面评估。
该评测涵盖六大领域,每个领域包含数十个典型写作任务,最终由Claude 3 Sonnet作为“裁判模型”进行盲评打分(满分 100)。之所以选择另一个强大闭源模型作为评委,是因为它具备稳定的评判标准,且不受训练数据污染影响。
结果令人振奋:
Zhi-Create-Qwen3-32B 在 WritingBench 上获得82.08 分,相较原始 Qwen3-32B 的 78.97 分实现显著跃升。
具体来看各领域表现:
- D1 学术与工程:80.2 → 82.1 (+1.9)
- D2 金融与商业:77.6 → 80.3 (+2.7)
- D3 政治与法律:76.8 → 79.5 (+2.7)
- D4 文学与艺术:79.1 → 83.6 (+4.5) ← 显著提升
- D5 教育:78.3 → 81.0 (+2.7)
- D6 广告与营销:77.0 → 81.8 (+4.8) ← 提升最大
可以看到,模型在高度依赖创造力和语言美感的文学与艺术和广告与营销领域进步最为明显。这意味着它不仅能写出合格的文章,更能产出具有审美价值的作品。
更重要的是,这种增强并未以牺牲其他能力为代价。
通用能力稳定:没有“偏科”的专才
担心“写作强了,别的弱了”?我们也做了全面测试:
| 基准 | Zhi-Create-Qwen3-32B | Qwen3-32B |
|---|---|---|
| MMLU (5-shot) | 78.3 | 78.7 |
| C-Eval (5-shot) | 81.5 | 82.1 |
| GSM8K (数学推理) | 76.4 | 77.0 |
| HumanEval (代码生成) | 68.2 | 69.0 |
各项指标下降均控制在1% 以内,说明模型成功实现了“能力平衡”。无论是写诗还是解方程,它都能游刃有余。
如何运行?多种部署方案任选
Zhi-Create-Qwen3-32B 支持多种运行方式,适配不同硬件条件和使用需求。
环境准备
建议使用 Python ≥ 3.10,PyTorch ≥ 2.3,并安装以下库以获得最佳性能:
pip install "transformers>=4.40.0" "accelerate>=0.27.0" "torch>=2.3.0" "flash-attn"方案一:使用 Transformers 直接加载(适合研究与调试)
from transformers import AutoModelForCausalLM, AutoTokenizer MODEL_NAME = "Zhihu-ai/Zhi-Create-Qwen3-32B" tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME, trust_remote_code=True) model = AutoModelForCausalLM.from_pretrained( MODEL_NAME, device_map="auto", trust_remote_code=True, torch_dtype="auto" ).eval() generate_kwargs = { "max_new_tokens": 4096, "temperature": 0.6, "top_p": 0.95, "do_sample": True, "repetition_penalty": 1.05 } prompt = "请以张爱玲的笔触,描写一个雨夜上海弄堂里的邂逅" messages = [{"role": "user", "content": prompt}] input_text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True) inputs = tokenizer(input_text, return_tensors="pt").to(model.device) outputs = model.generate(**inputs, **generate_kwargs) response = tokenizer.decode(outputs[0][inputs.input_ids.shape[-1]:], skip_special_tokens=True) print(response)方案二:vLLM 部署高性能服务(适合生产环境)
vLLM 提供 PagedAttention 技术,大幅提升吞吐量与并发能力。
pip install vllm>=0.6.4.post1 vllm serve Zhihu-ai/Zhi-Create-Qwen3-32B \ --served-model-name Zhi-Create-Qwen3-32B \ --port 8000 \ --tensor-parallel-size 2发送请求:
curl http://localhost:8000/v1/completions \ -H "Content-Type: application/json" \ -d '{ "model": "Zhi-Create-Qwen3-32B", "prompt": "写一首关于春天的现代诗,要有哲思意味", "max_tokens": 2048, "temperature": 0.7, "top_p": 0.95 }'方案三:SGLang 实现透明推理(适合需展示思考过程的应用)
SGLang 支持流式输出与思维轨迹可视化。
pip install "sglang[all]>=0.4.5" python -m sglang.launch_server \ --model-path Zhihu-ai/Zhi-Create-Qwen3-32B \ --port 30000Python 客户端调用:
from openai import OpenAI client = OpenAI(api_key="empty", base_url="http://127.0.0.1:30000/v1") response = client.completions.create( model="Zhi-Create-Qwen3-32B", prompt="请你模仿汪曾祺的风格,写一段关于昆明米线的文字", max_tokens=1024, temperature=0.6, stream=True ) for chunk in response: print(chunk.choices[0].text, end="", flush=True)方案四:Ollama 快速体验(推荐入门用户)
Ollama 提供极简部署体验,支持量化版本一键运行。
# 下载并运行(BF16全精度版) ollama run zhihu/zhi-create-qwen3-32b:bf16 # 推荐消费级显卡使用 Q4_K_M 量化版 ollama run zhihu/zhi-create-qwen3-32b你还可以通过 Modfile 自定义行为:
FROM zhihu/zhi-create-qwen3-32b:q4km PARAMETER temperature 0.6 PARAMETER top_p 0.95 SYSTEM """ 你是一位擅长中文文学创作的语言模型, 请以优美、细腻、富有意境的语言回应用户请求。 """构建并运行:
ollama create my-zhi-create -f Modfile ollama run my-zhi-create "写一篇关于江南秋日的随笔"使用建议:参数设置的艺术
不同任务需要不同的“性格”。以下是我们在实际测试中总结出的最佳实践:
| 场景 | Temperature | Top_p | 推荐理由 |
|---|---|---|---|
| 创意写作(小说/散文) | 0.6 ~ 0.8 | 0.95 | 平衡创造性与连贯性 |
| 专业咨询(法律/金融) | 0.3 ~ 0.5 | 0.9 | 强调准确性与逻辑严密 |
| 代码生成 | 0.2 ~ 0.4 | 0.9 | 减少随机性,提高可执行性 |
| 多轮对话 | 0.6 | 0.95 | 维持自然对话节奏 |
额外提示:
- 启用repetition_penalty=1.05可有效防止重复输出;
- 对长文本生成任务,建议开启stream=True实现渐进式呈现;
- 若需查看内部推理过程,可在 SGLang 中启用enable_thinking=True。
开放,是为了走得更远
Zhi-Create-Qwen3-32B 不只是一个技术成果,更是知乎对“AI 如何更好服务于内容创作”的一次深度探索。它证明了:通过科学的数据设计、合理的训练节奏和严谨的评估体系,我们可以让大模型真正理解中文写作的韵律与灵魂。
更重要的是,我们选择以Apache 2.0 许可证完全开源,欢迎每一位开发者、创作者、研究人员下载试用、二次开发或用于学术研究。
未来,我们将持续迭代该系列模型,推出更多面向特定领域的增强版本——比如专注于剧本写作的“剧作家版”、适合公文撰写的“政务助手版”等,进一步释放中文 AI 内容生成的潜力。
如果你也曾希望有一个懂中文、懂风格、懂情绪的写作伙伴,现在,它来了。
📌项目地址:https://huggingface.co/Zhihu-ai/Zhi-Create-Qwen3-32B
📦Ollama镜像:ollama run zhihu/zhi-create-qwen3-32b
💬反馈交流:欢迎提交 Issue 或加入知乎 AI 开源社区讨论群组
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考