Ubuntu20.04安装Janus-Pro-7B详细教程-编程实验室

Ubuntu20.04安装Janus-Pro-7B详细教程

想在自己的电脑上体验既能看懂图片又能生成图片的AI模型吗？Janus-Pro-7B就是这样一个神奇的多模态模型，它不仅能理解图片内容，还能根据文字描述生成图片。今天我就带大家在Ubuntu 20.04系统上一步步安装这个模型，整个过程跟着做就行，不需要太多技术背景。

1. 准备工作：了解Janus-Pro-7B

在开始安装之前，我们先简单了解一下Janus-Pro-7B是什么。你可以把它想象成一个“全能型”AI助手，它有两个主要能力：

看懂图片：你给它一张照片，它能告诉你照片里有什么，甚至能回答关于照片的问题
生成图片：你描述一个场景，比如“一只戴着帽子的猫在弹吉他”，它就能生成对应的图片

这个模型有70亿个参数，听起来很大，但实际上在现在的硬件上跑起来还算友好。它基于DeepSeek的架构，采用了独特的视觉编码解耦设计，简单说就是它处理“看懂”和“生成”这两件事用了不同的方式，但又在同一个框架里，这样既灵活又高效。

2. 系统环境检查与准备

安装前，我们先确认一下你的Ubuntu 20.04系统是否满足基本要求。打开终端（按Ctrl+Alt+T），我们来一步步检查。

2.1 检查Python版本

Janus-Pro-7B需要Python 3.8或更高版本。在终端里输入：

python3 --version

如果显示的是Python 3.8.x或更高，那就没问题。如果版本太低，需要先升级Python：

sudo apt update sudo apt install python3.9 python3.9-venv python3.9-dev

2.2 检查CUDA和GPU

这个模型需要GPU才能跑得动，我们先看看你的显卡是否支持CUDA：

nvidia-smi

如果看到类似下面的输出，说明你的NVIDIA显卡驱动和CUDA已经安装好了：

+-----------------------------------------------------------------------------+ | NVIDIA-SMI 525.147.05 Driver Version: 525.147.05 CUDA Version: 12.0 | |-------------------------------+----------------------+----------------------+ | GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. | | | | MIG M. | |===============================+======================+======================| | 0 NVIDIA GeForce ... Off | 00000000:01:00.0 On | N/A | | 30% 45C P2 72W / 250W | 2345MiB / 12288MiB | 15% Default | | | | N/A | +-------------------------------+----------------------+----------------------+

如果提示“command not found”，说明你需要先安装NVIDIA驱动和CUDA。对于Ubuntu 20.04，可以这样安装：

# 添加NVIDIA驱动PPA sudo add-apt-repository ppa:graphics-drivers/ppa sudo apt update # 安装驱动（这里以525版本为例，你可以根据显卡型号选择） sudo apt install nvidia-driver-525 # 安装CUDA Toolkit 11.8（Janus-Pro推荐版本） wget https://developer.download.nvidia.com/compute/cuda/11.8.0/local_installers/cuda_11.8.0_520.61.05_linux.run sudo sh cuda_11.8.0_520.61.05_linux.run

安装完成后，记得把CUDA添加到环境变量。编辑~/.bashrc文件：

nano ~/.bashrc

在文件末尾添加：

export PATH=/usr/local/cuda-11.8/bin${PATH:+:${PATH}} export LD_LIBRARY_PATH=/usr/local/cuda-11.8/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}

保存后执行：

source ~/.bashrc

2.3 创建虚拟环境

为了避免不同项目的依赖冲突，我们创建一个专门的虚拟环境：

# 安装虚拟环境工具 sudo apt install python3.9-venv # 创建名为janus的虚拟环境 python3.9 -m venv janus_env # 激活虚拟环境 source janus_env/bin/activate

激活后，你的命令行前面会出现(janus_env)的提示，表示现在在这个虚拟环境里操作。

3. 安装依赖和PyTorch

现在我们来安装Janus-Pro-7B需要的各种依赖包。

3.1 安装PyTorch

PyTorch是运行AI模型的基础框架。根据你的CUDA版本选择合适的安装命令：

# 如果你安装的是CUDA 11.8 pip install torch==2.2.2 torchvision==0.17.2 torchaudio==2.2.2 --index-url https://download.pytorch.org/whl/cu118 # 如果你安装的是CUDA 12.1 pip install torch==2.2.2 torchvision==0.17.2 torchaudio==2.2.2 --index-url https://download.pytorch.org/whl/cu121

安装完成后验证一下：

python3 -c "import torch; print(f'PyTorch版本: {torch.__version__}'); print(f'CUDA可用: {torch.cuda.is_available()}')"

如果显示CUDA可用为True，说明PyTorch和CUDA配置正确。

3.2 安装其他基础依赖

# 升级pip pip install --upgrade pip # 安装基础工具 pip install numpy==1.26.3 # 注意：Janus-Pro需要1.x版本的numpy pip install pillow pip install tqdm pip install requests pip install huggingface-hub

4. 下载和安装Janus-Pro-7B

现在我们来获取Janus-Pro-7B的代码和模型。

4.1 下载源代码

从GitHub克隆Janus的代码仓库：

# 克隆代码 git clone https://github.com/deepseek-ai/Janus.git cd Janus # 安装Janus的Python包 pip install -e .

这个-e参数表示“可编辑安装”，这样你修改代码后不需要重新安装。

4.2 下载模型文件

Janus-Pro-7B的模型文件比较大（大约14GB），我们可以从Hugging Face下载：

# 安装transformers库 pip install transformers # 创建模型保存目录 mkdir -p ~/.cache/huggingface/hub/models--deepseek-ai--Janus-Pro-7B cd ~/.cache/huggingface/hub/models--deepseek-ai--Janus-Pro-7B # 使用git-lfs下载大文件（如果没有安装git-lfs，先安装：sudo apt install git-lfs） git lfs install git clone https://huggingface.co/deepseek-ai/Janus-Pro-7B .

如果下载速度慢，也可以使用国内镜像。先安装ModelScope：

pip install modelscope

然后用ModelScope下载：

from modelscope import snapshot_download model_dir = snapshot_download('deepseek-ai/Janus-Pro-7B') print(f'模型下载到: {model_dir}')

把上面代码保存为download_model.py，然后运行：

python download_model.py

下载过程可能需要一些时间，取决于你的网速。模型文件包括：

主要的模型权重文件（.bin或.safetensors）
配置文件（config.json）
分词器文件（tokenizer.json等）

5. 测试模型是否正常工作

模型下载完成后，我们来写个简单的测试脚本，看看模型能不能跑起来。

5.1 测试图片理解功能

创建一个文件test_understanding.py：

import torch from transformers import AutoModelForCausalLM from janus.models import MultiModalityCausalLM, VLChatProcessor from janus.utils.io import load_pil_images from PIL import Image import requests from io import BytesIO # 设置模型路径（根据你实际下载的位置调整） model_path = "/home/你的用户名/.cache/huggingface/hub/models--deepseek-ai--Janus-Pro-7B" # 加载处理器和模型 print("正在加载模型，这可能需要几分钟...") vl_chat_processor = VLChatProcessor.from_pretrained(model_path) tokenizer = vl_chat_processor.tokenizer vl_gpt = AutoModelForCausalLM.from_pretrained( model_path, trust_remote_code=True # Janus需要这个参数 ) # 移动到GPU并设置为评估模式 vl_gpt = vl_gpt.to(torch.bfloat16).cuda().eval() print("模型加载完成！") # 测试1：从网络下载一张图片并理解 print("\n测试1：理解网络图片") try: # 下载一张示例图片（这里用一只猫的图片） url = "https://images.unsplash.com/photo-1514888286974-6d03bde4ba4f" response = requests.get(url) image = Image.open(BytesIO(response.content)) # 保存到本地以便测试 image.save("test_cat.jpg") conversation = [ { "role": "<|User|>", "content": "<image_placeholder>\n请描述这张图片里有什么", "images": ["test_cat.jpg"], }, {"role": "<|Assistant|>", "content": ""}, ] # 加载图片并准备输入 pil_images = load_pil_images(conversation) prepare_inputs = vl_chat_processor( conversations=conversation, images=pil_images, force_batchify=True ).to(vl_gpt.device) # 获取图片嵌入 inputs_embeds = vl_gpt.prepare_inputs_embeds(**prepare_inputs) # 生成回答 outputs = vl_gpt.language_model.generate( inputs_embeds=inputs_embeds, attention_mask=prepare_inputs.attention_mask, pad_token_id=tokenizer.eos_token_id, bos_token_id=tokenizer.bos_token_id, eos_token_id=tokenizer.eos_token_id, max_new_tokens=200, # 限制生成长度 do_sample=False, use_cache=True, ) answer = tokenizer.decode(outputs[0].cpu().tolist(), skip_special_tokens=True) print(f"模型回答: {answer}") except Exception as e: print(f"测试1出错: {e}") # 测试2：使用本地图片 print("\n测试2：理解本地图片") try: # 如果你有本地图片，可以在这里测试 # 比如：image_path = "你的图片路径.jpg" # 这里我们创建一个简单的测试 from PIL import Image, ImageDraw # 创建一个简单的测试图片 test_img = Image.new('RGB', (384, 384), color='lightblue') draw = ImageDraw.Draw(test_img) draw.rectangle([100, 100, 284, 284], fill='red', outline='yellow') draw.text((150, 150), "TEST", fill='white') test_img.save("test_local.jpg") conversation = [ { "role": "<|User|>", "content": "<image_placeholder>\n这张图片上有什么文字和图形？", "images": ["test_local.jpg"], }, {"role": "<|Assistant|>", "content": ""}, ] pil_images = load_pil_images(conversation) prepare_inputs = vl_chat_processor( conversations=conversation, images=pil_images, force_batchify=True ).to(vl_gpt.device) inputs_embeds = vl_gpt.prepare_inputs_embeds(**prepare_inputs) outputs = vl_gpt.language_model.generate( inputs_embeds=inputs_embeds, attention_mask=prepare_inputs.attention_mask, pad_token_id=tokenizer.eos_token_id, bos_token_id=tokenizer.bos_token_id, eos_token_id=tokenizer.eos_token_id, max_new_tokens=150, do_sample=False, use_cache=True, ) answer = tokenizer.decode(outputs[0].cpu().tolist(), skip_special_tokens=True) print(f"模型回答: {answer}") except Exception as e: print(f"测试2出错: {e}") print("\n测试完成！")

运行这个测试：

python test_understanding.py

如果一切正常，你会看到模型对图片的描述。第一次运行可能会慢一些，因为需要加载模型。

5.2 测试图片生成功能

创建一个文件test_generation.py：

import os import torch import numpy as np from PIL import Image from transformers import AutoModelForCausalLM from janus.models import MultiModalityCausalLM, VLChatProcessor # 设置模型路径 model_path = "/home/你的用户名/.cache/huggingface/hub/models--deepseek-ai--Janus-Pro-7B" print("正在加载模型...") vl_chat_processor = VLChatProcessor.from_pretrained(model_path) tokenizer = vl_chat_processor.tokenizer vl_gpt = AutoModelForCausalLM.from_pretrained( model_path, trust_remote_code=True ) vl_gpt = vl_gpt.to(torch.bfloat16).cuda().eval() print("模型加载完成！") # 简单的图片生成函数（简化版，只生成1张） @torch.inference_mode() def generate_simple_image(prompt_text, output_dir="generated_images"): """生成单张图片的简化函数""" conversation = [ { "role": "<|User|>", "content": prompt_text, }, {"role": "<|Assistant|>", "content": ""}, ] # 应用对话模板 sft_format = vl_chat_processor.apply_sft_template_for_multi_turn_prompts( conversations=conversation, sft_format=vl_chat_processor.sft_format, system_prompt="", ) prompt = sft_format + vl_chat_processor.image_start_tag # 简化生成参数 temperature = 1.0 parallel_size = 1 # 只生成1张 cfg_weight = 5.0 image_token_num_per_image = 576 img_size = 384 patch_size = 16 # 准备输入 input_ids = vl_chat_processor.tokenizer.encode(prompt) input_ids = torch.LongTensor(input_ids) # 创建tokens（条件和非条件各1个） tokens = torch.zeros((2, len(input_ids)), dtype=torch.int).cuda() tokens[0, :] = input_ids tokens[1, 1:-1] = vl_chat_processor.pad_id # 非条件版本 inputs_embeds = vl_gpt.language_model.get_input_embeddings()(tokens) # 生成图片tokens generated_tokens = torch.zeros((1, image_token_num_per_image), dtype=torch.int).cuda() print("正在生成图片，这可能需要30-60秒...") for i in range(image_token_num_per_image): outputs = vl_gpt.language_model.model( inputs_embeds=inputs_embeds, use_cache=True, past_key_values=outputs.past_key_values if i != 0 else None ) hidden_states = outputs.last_hidden_state logits = vl_gpt.gen_head(hidden_states[:, -1, :]) # 分类器自由引导 logit_cond = logits[0:1, :] # 条件 logit_uncond = logits[1:2, :] # 非条件 logits = logit_uncond + cfg_weight * (logit_cond - logit_uncond) # 采样下一个token probs = torch.softmax(logits / temperature, dim=-1) next_token = torch.multinomial(probs, num_samples=1) generated_tokens[:, i] = next_token.squeeze(dim=-1) # 准备下一轮输入 next_token = torch.cat([next_token, next_token], dim=0) img_embeds = vl_gpt.prepare_gen_img_embeds(next_token) inputs_embeds = img_embeds.unsqueeze(dim=1) # 解码图片 dec = vl_gpt.gen_vision_model.decode_code( generated_tokens.to(dtype=torch.int), shape=[1, 8, img_size // patch_size, img_size // patch_size] ) # 转换为图片格式 dec = dec.to(torch.float32).cpu().numpy().transpose(0, 2, 3, 1) dec = np.clip((dec + 1) / 2 * 255, 0, 255).astype(np.uint8) # 保存图片 os.makedirs(output_dir, exist_ok=True) save_path = os.path.join(output_dir, f"generated_{prompt_text[:20]}.jpg") img = Image.fromarray(dec[0]) img.save(save_path) print(f"图片已保存到: {save_path}") return save_path # 测试生成 if __name__ == "__main__": # 测试几个简单的提示词 test_prompts = [ "一只可爱的小猫在玩毛线球", "夕阳下的海滩，有椰子树和帆船", "一个红色的苹果放在木桌上", ] for i, prompt in enumerate(test_prompts): print(f"\n生成图片 {i+1}/{len(test_prompts)}: {prompt}") try: image_path = generate_simple_image(prompt) print(f"成功生成: {image_path}") except Exception as e: print(f"生成失败: {e}") print("\n所有测试完成！生成的图片在 generated_images 文件夹中")

运行生成测试：

python test_generation.py

注意：图片生成比图片理解需要更多时间，通常一张384x384的图片需要30-60秒。

6. 使用Gradio创建Web界面

如果你想要一个更友好的界面来使用Janus-Pro-7B，可以安装Gradio来创建一个Web界面。

6.1 安装Gradio

pip install gradio pip install -e .[gradio] # 安装Janus的Gradio扩展

6.2 运行官方Demo

Janus项目自带了一个Gradio演示界面：

cd Janus # 进入Janus目录 python demo/app_januspro.py

运行后你会看到类似这样的输出：

Running on local URL: http://127.0.0.1:7860

在浏览器中打开这个地址，就能看到一个Web界面，你可以：

上传图片让模型描述
输入文字让模型生成图片
进行多轮对话

6.3 创建自定义界面

如果你想要更简单的界面，可以创建一个自己的my_app.py：

import gradio as gr import torch from transformers import AutoModelForCausalLM from janus.models import MultiModalityCausalLM, VLChatProcessor from janus.utils.io import load_pil_images import tempfile import os # 全局变量存储模型 model_loaded = False vl_gpt = None vl_chat_processor = None tokenizer = None def load_model_once(): """只加载一次模型""" global model_loaded, vl_gpt, vl_chat_processor, tokenizer if not model_loaded: print("正在加载模型，第一次使用需要一些时间...") model_path = "/home/你的用户名/.cache/huggingface/hub/models--deepseek-ai--Janus-Pro-7B" vl_chat_processor = VLChatProcessor.from_pretrained(model_path) tokenizer = vl_chat_processor.tokenizer vl_gpt = AutoModelForCausalLM.from_pretrained( model_path, trust_remote_code=True ) vl_gpt = vl_gpt.to(torch.bfloat16).cuda().eval() model_loaded = True print("模型加载完成！") return "模型已就绪" def understand_image(image, question): """理解图片""" if not model_loaded: return "请先加载模型" try: # 保存上传的图片 temp_path = tempfile.mktemp(suffix=".jpg") image.save(temp_path) conversation = [ { "role": "<|User|>", "content": f"<image_placeholder>\n{question}", "images": [temp_path], }, {"role": "<|Assistant|>", "content": ""}, ] pil_images = load_pil_images(conversation) prepare_inputs = vl_chat_processor( conversations=conversation, images=pil_images, force_batchify=True ).to(vl_gpt.device) inputs_embeds = vl_gpt.prepare_inputs_embeds(**prepare_inputs) outputs = vl_gpt.language_model.generate( inputs_embeds=inputs_embeds, attention_mask=prepare_inputs.attention_mask, pad_token_id=tokenizer.eos_token_id, bos_token_id=tokenizer.bos_token_id, eos_token_id=tokenizer.eos_token_id, max_new_tokens=300, do_sample=False, use_cache=True, ) answer = tokenizer.decode(outputs[0].cpu().tolist(), skip_special_tokens=True) # 清理临时文件 os.remove(temp_path) return answer except Exception as e: return f"出错: {str(e)}" # 创建Gradio界面 with gr.Blocks(title="Janus-Pro-7B 演示") as demo: gr.Markdown("# 🖼 Janus-Pro-7B 多模态模型演示") gr.Markdown("这是一个既能理解图片又能生成图片的AI模型") # 模型加载部分 with gr.Row(): load_btn = gr.Button("加载模型", variant="primary") status = gr.Textbox(label="状态", value="点击按钮加载模型") load_btn.click(load_model_once, outputs=status) # 图片理解部分 with gr.Tab("图片理解"): gr.Markdown("### 上传图片，让AI描述内容") with gr.Row(): image_input = gr.Image(label="上传图片", type="pil") question_input = gr.Textbox( label="问题", value="请描述这张图片", placeholder="你可以问关于图片的任何问题..." ) understand_btn = gr.Button("分析图片", variant="secondary") answer_output = gr.Textbox(label="AI回答", lines=5) understand_btn.click( understand_image, inputs=[image_input, question_input], outputs=answer_output ) # 图片生成部分（简化版） with gr.Tab("图片生成"): gr.Markdown("### 输入描述，让AI生成图片") gr.Markdown("注意：生成功能需要更多时间，这里只展示理解功能") gr.Markdown("完整生成功能请运行官方demo: `python demo/app_januspro.py`") prompt_input = gr.Textbox( label="图片描述", value="一只可爱的小猫", placeholder="描述你想要生成的图片..." ) gr.Markdown("示例提示词：") gr.Markdown("- 夕阳下的海滩，有椰子树") gr.Markdown("- 一个宇航员在月球上骑自行车") gr.Markdown("- 中式园林里的红色亭子") if __name__ == "__main__": demo.launch(server_name="0.0.0.0", server_port=7860)

运行你的自定义应用：

python my_app.py

7. 常见问题解决

在安装和使用过程中，你可能会遇到一些问题。这里整理了一些常见问题和解决方法：

7.1 内存不足错误

问题：运行时报错“CUDA out of memory”

解决：

减少批量大小：在代码中找batch_size相关参数，改小一些
使用更小的模型：Janus-Pro也有1B版本，需要内存更少
清理GPU内存：重启Python进程或使用torch.cuda.empty_cache()

7.2 依赖版本冲突

问题：安装时提示某个包版本不兼容

解决：

# 创建新的干净虚拟环境 python3.9 -m venv janus_env_fresh source janus_env_fresh/bin/activate # 严格按照顺序安装 pip install torch==2.2.2 torchvision==0.17.2 torchaudio==2.2.2 pip install numpy==1.26.3 pip install transformers==4.40.0 pip install -e .

7.3 模型下载失败

问题：从Hugging Face下载太慢或失败

解决：

使用国内镜像：修改~/.bashrc添加代理

export HF_ENDPOINT=https://hf-mirror.com

手动下载：在能访问的机器下载后，用U盘或网盘传输
使用ModelScope：如前面所述，国内速度较快

7.4 运行速度慢

问题：模型响应很慢

解决：

确保使用GPU：检查torch.cuda.is_available()是否为True
使用半精度：代码中已经有.to(torch.bfloat16)
首次运行慢是正常的，模型需要加载到内存

7.5 图片生成质量不高

问题：生成的图片模糊或不准确

解决：

调整提示词：更详细、具体的描述效果更好
调整参数：尝试不同的temperature和cfg_weight
多次生成：同一个提示词多生成几次选最好的

8. 进阶使用建议

如果你成功安装了Janus-Pro-7B并想进一步探索，这里有一些建议：

8.1 尝试不同的应用场景

教育辅助：上传教科书图片，让模型解释内容
内容创作：生成文章配图或社交媒体图片
设计助手：生成设计灵感或草图
无障碍工具：为视障人士描述图片内容

8.2 优化使用体验

缓存模型：第一次加载后，模型会留在GPU内存中，后续调用更快
批量处理：如果需要处理多张图片，尽量批量进行
异步处理：对于生成任务，可以使用异步避免界面卡顿

8.3 探索相关技术

如果你对Janus-Pro-7B感兴趣，还可以了解：

Janus-Pro-1B：更小的版本，适合资源有限的设备
JanusFlow：同一系列的另一个模型，使用不同的生成技术
其他多模态模型：如LLaVA、Qwen-VL等

9. 总结

整个安装过程走下来，你应该已经在Ubuntu 20.04上成功运行Janus-Pro-7B了。从环境准备到模型测试，每一步我都尽量详细说明，特别是可能遇到的坑和解决方法。这个模型最吸引人的地方就是它的“多才多艺”，既能看懂图片又能生成图片，而且完全开源免费。

实际用下来，图片理解功能反应挺快的，准确度也不错。图片生成需要一些耐心，等待时间稍长，但效果对日常使用来说足够了。如果你有编程基础，还可以基于它开发自己的应用，比如做个自动配图工具或者智能相册管理系统。

安装过程中最关键的几点是：确保CUDA配置正确、使用合适的Python版本、耐心下载模型文件。遇到问题不用急，按照错误信息一步步排查，大部分问题都能解决。

现在你可以开始探索Janus-Pro-7B的各种可能性了。从简单的图片描述开始，慢慢尝试更复杂的应用。AI技术的发展真的很快，像这样强大的模型能直接在个人电脑上运行，几年前还很难想象。希望这个教程能帮你顺利入门，享受多模态AI带来的便利和乐趣。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

Ubuntu20.04安装Janus-Pro-7B详细教程