GLM-4-9B-Chat-1M开源大模型教程：从HuggingFace加载到Streamlit封装-编程实验室

GLM-4-9B-Chat-1M开源大模型教程：从HuggingFace加载到Streamlit封装

想不想在本地电脑上，运行一个能一口气读完百万字小说、分析整个代码仓库的AI助手？今天，我们就来手把手教你部署智谱AI最新的GLM-4-9B-Chat-1M模型，并用Streamlit给它做个漂亮的网页界面。

这个项目最大的魅力在于“鱼和熊掌可以兼得”：它既有处理100万tokens超长文本的“大胃口”，又通过4-bit量化技术，把庞大的9B参数模型压缩到单张消费级显卡就能跑起来。这意味着，你可以在完全离线的环境下，享受私有化、低延迟、高精度的AI对话体验，无论是分析长篇报告、审查法律合同，还是当你的私人代码助手，都再也不用担心数据泄露。

接下来，我会带你从零开始，完成从模型下载、环境配置到Web界面封装的完整流程。即使你之前没怎么接触过大模型部署，跟着步骤走，也能轻松搞定。

1. 环境准备与项目初始化

工欲善其事，必先利其器。我们先来把运行模型所需的环境搭建好。

1.1 硬件与软件要求

首先，确认一下你的电脑是否满足基本要求：

显卡（GPU）：这是最重要的。你需要一张至少拥有8GB 显存的NVIDIA显卡。常见的RTX 3060 12GB、RTX 4060 Ti 16GB，或者更高级的RTX 4090都可以。量化技术让我们能用更小的显存跑更大的模型。
内存（RAM）：建议16GB 或以上。处理超长文本时，系统内存也会被占用。
硬盘空间：模型文件本身大约需要10-15GB的可用空间。
操作系统：Linux（如Ubuntu 20.04+）或 Windows（需配合WSL2）均可。本教程以Ubuntu为例，命令在WSL2中同样适用。
Python：需要Python 3.8 到 3.11的版本。推荐使用3.10。

1.2 创建项目并安装依赖

打开你的终端，跟着我一步步操作：

# 1. 创建一个新的项目目录 mkdir glm-4-9b-streamlit && cd glm-4-9b-streamlit # 2. 创建一个Python虚拟环境（强烈推荐，避免包冲突） python3 -m venv venv # 3. 激活虚拟环境 # 在Linux/macOS或WSL中： source venv/bin/activate # 在Windows PowerShell中（如果没用WSL）： # .\venv\Scripts\Activate.ps1 # 看到命令行前面有 (venv) 字样，说明激活成功了 # 4. 安装核心依赖库 # 我们使用国内镜像源来加速下载 pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 pip install transformers accelerate bitsandbytes streamlit -i https://pypi.tuna.tsinghua.edu.cn/simple

这里安装的几个库是关键：

torch：PyTorch深度学习框架，模型运行的基础。
transformers：Hugging Face的核心库，用于加载和运行开源模型。
accelerate：帮助优化模型在GPU上的运行。
bitsandbytes：实现4-bit量化的魔法库，是让小显存跑大模型的关键。
streamlit：用来快速构建Web交互界面的框架。

2. 从Hugging Face加载模型

环境好了，我们就要去“请”模型了。GLM-4-9B-Chat-1M已经开源在Hugging Face上，我们可以直接用代码拉取。

2.1 编写模型加载脚本

在项目目录下，创建一个名为load_model.py的Python文件：

# load_model.py from transformers import AutoTokenizer, AutoModelForCausalLM import torch # 指定模型在Hugging Face上的名称 model_name = "THUDM/glm-4-9b-chat-1m" print(f"开始加载模型: {model_name}") # 1. 加载分词器 (Tokenizer) # 它负责把你的输入文字转换成模型能懂的“数字密码” tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True) print("分词器加载完成。") # 2. 加载模型本体，并应用4-bit量化 # 注意：这里设置了量化配置，是节省显存的核心 model = AutoModelForCausalLM.from_pretrained( model_name, torch_dtype=torch.float16, # 使用半精度浮点数，节省显存 low_cpu_mem_usage=True, # 减少加载时的CPU内存占用 trust_remote_code=True, # GLM系列模型需要这个参数 device_map="auto", # 自动将模型层分配到可用的GPU上 load_in_4bit=True, # 核心！启用4-bit量化 bnb_4bit_compute_dtype=torch.float16, # 4-bit计算时使用的数据类型 bnb_4bit_use_double_quant=True, # 使用双重量化，进一步压缩 ) print("模型加载完成！已启用4-bit量化。") # 3. 将模型设置为评估模式（推理模式，非训练模式） model.eval() print("模型已准备就绪，可以开始对话了。") # 我们来做个简单的测试 print("\n--- 简单测试 ---") test_prompt = "你好，请介绍一下你自己。" inputs = tokenizer(test_prompt, return_tensors="pt").to(model.device) # 生成回复 with torch.no_grad(): # 禁用梯度计算，推理时不需要 outputs = model.generate(**inputs, max_new_tokens=100) response = tokenizer.decode(outputs[0], skip_special_tokens=True) print(f"用户: {test_prompt}") print(f"AI: {response}")

2.2 运行脚本并验证

保存文件后，在终端运行它：

python load_model.py

第一次运行会下载模型文件，这可能需要一段时间（模型大约10多GB，但量化后传输和加载会快一些）。下载完成后，你会看到终端输出模型加载成功的提示，以及AI对自己的一个简短介绍。

如果这一步成功了，恭喜你！最核心的模型已经在你的本地电脑上跑起来了。你可能会注意到显存占用远小于一个完整的9B模型，这就是4-bit量化的功劳。

3. 用Streamlit打造聊天界面

让模型在命令行里对话还不够酷，我们给它做个网页界面。Streamlit能让这个过程变得非常简单。

3.1 创建Streamlit应用主文件

在项目根目录下，创建一个名为app.py的文件，这就是我们Web应用的核心。

# app.py import streamlit as st from transformers import AutoTokenizer, AutoModelForCausalLM import torch from threading import Lock # 设置页面标题和图标 st.set_page_config( page_title="GLM-4-9B-Chat-1M 本地助手", page_icon="", layout="wide" ) # 在侧边栏添加标题和说明 with st.sidebar: st.title("🛠 GLM-4-9B-Chat-1M") st.markdown(""" **特性一览：** - 💾 **100% 本地运行**：数据永不离开你的电脑。 - **100万上下文**：可处理超长文档、代码库。 - ⚡ **4-bit 量化**：约8GB+显存即可驱动。 - **极致隐私**：适合金融、法律、代码等敏感场景。 """) st.divider() st.caption("模型加载后，请在下方输入框开始对话。") # 使用锁确保模型加载的线程安全 model_lock = Lock() @st.cache_resource(show_spinner="正在加载百万上下文大模型...") def load_glm_model(): """加载GLM-4-9B-Chat-1M模型，使用缓存避免重复加载""" model_name = "THUDM/glm-4-9b-chat-1m" with model_lock: tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True) model = AutoModelForCausalLM.from_pretrained( model_name, torch_dtype=torch.float16, low_cpu_mem_usage=True, trust_remote_code=True, device_map="auto", load_in_4bit=True, bnb_4bit_compute_dtype=torch.float16, bnb_4bit_use_double_quant=True, ) model.eval() return tokenizer, model # 加载模型（首次运行会在这里等待下载和加载） tokenizer, model = load_glm_model() # 初始化会话状态，保存聊天历史 if "messages" not in st.session_state: st.session_state.messages = [ {"role": "assistant", "content": "你好！我是GLM-4-9B-Chat-1M，一个运行在你本地的AI助手。我可以处理超长的文本和代码，请随意提问或上传文档吧。"} ] # 在页面上方显示标题 st.title(" GLM-4-9B-Chat-1M 本地聊天室") st.caption("体验完全私有化的百万token长文本对话") # 显示聊天历史 for message in st.session_state.messages: with st.chat_message(message["role"]): st.markdown(message["content"]) # 聊天输入框 if prompt := st.chat_input("请输入你的问题，或粘贴长文本..."): # 将用户输入添加到聊天历史并显示 st.session_state.messages.append({"role": "user", "content": prompt}) with st.chat_message("user"): st.markdown(prompt) # 准备生成AI回复 with st.chat_message("assistant"): message_placeholder = st.empty() # 创建一个占位符用于流式输出 full_response = "" # 将对话历史构造成模型需要的格式（这里简化处理，实际GLM有特定格式） # 注意：为了演示，这里使用简单拼接。对于超长上下文，需要更精细的管理。 conversation_history = "\n".join([f"{msg['role']}: {msg['content']}" for msg in st.session_state.messages]) model_input = f"{conversation_history}\nassistant:" # 将输入文本转换为模型可处理的tokens inputs = tokenizer(model_input, return_tensors="pt", truncation=True, max_length=32000).to(model.device) # 生成回复（流式输出效果） with torch.no_grad(): for response_chunk in model.generate( **inputs, max_new_tokens=512, # 控制生成回复的最大长度 do_sample=True, # 启用采样，使回复更多样 temperature=0.7, # 控制随机性：越低越确定，越高越有创意 top_p=0.9, # 核采样参数，控制生成质量 streamer=None, # 这里简化了流式，实际可用transformers的TextStreamer pad_token_id=tokenizer.eos_token_id ): # 将新生成的token解码成文字 new_text = tokenizer.decode(response_chunk[0][inputs['input_ids'].shape[1]:], skip_special_tokens=True) if new_text: full_response += new_text # 更新占位符，实现“一个字一个字”出来的效果 message_placeholder.markdown(full_response + "▌") # 最终显示完整回复 message_placeholder.markdown(full_response) # 将AI回复添加到聊天历史 st.session_state.messages.append({"role": "assistant", "content": full_response})

3.2 创建长文本上传功能

为了充分发挥其百万上下文的威力，我们增加一个文件上传和长文本处理的功能。在app.py中，我们可以在侧边栏或主界面添加这个功能。这里我们在侧边栏添加：

# 将下面的代码添加到 app.py 的侧边栏部分（with st.sidebar: 内），放在合适位置 # 在 app.py 的侧边栏区块内添加： with st.sidebar: # ... 原有的标题和说明 ... st.divider() st.subheader("📄 长文本分析") uploaded_file = st.file_uploader("上传长文档（支持.txt, .md, .py等）", type=['txt', 'md', 'py', 'json', 'csv']) if uploaded_file is not None: # 读取文件内容 bytes_data = uploaded_file.getvalue() try: long_text = bytes_data.decode("utf-8") except: long_text = bytes_data.decode("latin-1") # 显示文件基本信息 st.info(f"已上传文件: {uploaded_file.name}， 长度约 {len(long_text)} 字符") # 提供一个按钮，将文件内容送入对话 if st.button("将文档内容送入对话"): # 这里可以设计更复杂的逻辑，比如总结、问答等 # 简单示例：将文本作为用户第一条消息 if len(st.session_state.messages) == 1 and st.session_state.messages[0]["role"] == "assistant": # 如果只有助理的欢迎语，则替换历史 st.session_state.messages = [{"role": "user", "content": f"请分析以下文档：\n\n{long_text[:5000]}..."}] st.rerun() # 重新运行应用以更新界面 else: # 否则追加到历史 st.session_state.messages.append({"role": "user", "content": f"请分析我上传的文档：\n\n{long_text[:5000]}..."}) st.rerun() st.divider() # ... 原有的模型加载提示 ...

4. 运行与体验你的本地AI助手

所有代码都准备好了，现在让我们启动它。

4.1 启动Streamlit应用

在终端（确保虚拟环境已激活）中，运行以下命令：

streamlit run app.py

你会看到类似下面的输出：

You can now view your Streamlit app in your browser. Local URL: http://localhost:8501 Network URL: http://192.168.x.x:8501

4.2 开始对话与长文本测试

打开浏览器：复制http://localhost:8501到浏览器中打开。
初次对话：在页面底部的输入框，尝试问它：“用简单的语言解释一下什么是4-bit量化？”
测试长上下文：
- 在侧边栏找到“长文本分析”区域。
- 点击“上传文件”，选择一个长的文本文档（比如一篇论文、一个项目README）。
- 上传后，点击“将文档内容送入对话”。
- 回到主聊天区，你现在可以针对这篇长文档提问了，例如：“总结一下这篇文档的核心观点”或“文档中提到的XXX具体是指什么？”
代码助手：直接把一段报错的代码粘贴到输入框，问它：“这段代码为什么报错？如何修复？”

你会发现，得益于超长的上下文，模型能牢牢记住你提供的整篇文档内容，并在此基础上进行精准的问答和分析，完全不用担心它“忘记”前半部分。

5. 总结

走到这里，你已经成功在本地部署了拥有百万上下文能力的GLM-4-9B-Chat-1M大模型，并为其配备了一个美观实用的Web聊天界面。我们回顾一下核心步骤和亮点：

核心步骤回顾：

环境搭建：准备好GPU和Python环境，安装关键的transformers,bitsandbytes,streamlit等库。
模型加载：利用Hugging Face的from_pretrained接口，配合load_in_4bit=True参数，实现了模型的4-bit量化加载，这是小显存运行大模型的关键。
界面封装：使用Streamlit快速构建了包含对话历史、侧边栏、文件上传功能的交互式Web应用。
功能扩展：通过文件上传器，初步实现了长文本载入与分析的功能，激发了模型百万上下文的潜力。

项目核心价值：