ProteinMPNN：基于深度学习的蛋白质序列设计实战指南-编程实验室

ProteinMPNN：基于深度学习的蛋白质序列设计实战指南

【免费下载链接】ProteinMPNNCode for the ProteinMPNN paper项目地址: https://gitcode.com/gh_mirrors/pr/ProteinMPNN

ProteinMPNN 是一个革命性的蛋白质序列设计工具，它利用先进的深度学习技术为蛋白质工程领域带来了突破性的变革。作为一款基于图神经网络（GNN）的开源项目，ProteinMPNN 能够根据蛋白质的三维结构逆向设计出稳定且功能性的氨基酸序列，为蛋白质工程、药物开发和合成生物学研究提供了强大的计算支持。

项目核心价值与应用场景

ProteinMPNN 的核心价值在于其逆向蛋白质设计能力——给定蛋白质的三维结构，模型能够设计出可能折叠成该结构的氨基酸序列。这一能力在多个领域具有重要应用：

蛋白质工程：设计具有特定功能或稳定性的新型蛋白质
药物开发：优化抗体、酶和其他治疗性蛋白质的特性
合成生物学：创建自然界中不存在的功能性蛋白质
基础研究：探索蛋白质序列与结构之间的关系

技术架构深度解析

ProteinMPNN 采用了创新的图神经网络架构，将蛋白质结构表示为图数据，其中节点代表氨基酸残基，边代表残基之间的空间关系。这种表示方法使模型能够有效捕捉蛋白质的三维结构信息。

核心模型特性

多尺度特征提取：模型同时考虑局部和全局结构特征，从原子级到整体构象级的多层次信息都被整合到序列设计过程中。

条件概率建模：ProteinMPNN 使用条件概率分布来建模氨基酸序列，给定蛋白质骨架结构，模型计算每个位置氨基酸的概率分布，从而实现序列设计。

噪声鲁棒性训练：通过在训练过程中向蛋白质骨架添加高斯噪声，模型学会处理结构的不确定性，增强了在实际应用中的鲁棒性。

快速上手：从安装到第一个设计

环境配置与安装

# 克隆仓库 git clone https://gitcode.com/gh_mirrors/pr/ProteinMPNN cd ProteinMPNN # 创建并激活conda环境 conda create --name proteinmpnn python=3.9 conda activate proteinmpnn # 安装依赖 conda install pytorch torchvision torchaudio -c pytorch pip install numpy

第一个蛋白质设计示例

项目提供了丰富的示例脚本，让用户能够快速上手。最简单的单体蛋白质设计示例位于examples/submit_example_1.sh：

#!/bin/bash python protein_mpnn_run.py \ --jsonl_path inputs/PDB_monomers/parsed_pdbs.jsonl \ --out_folder outputs/example_1_outputs/ \ --num_seq_per_target 100 \ --sampling_temp "0.1" \ --seed 37 \ --batch_size 1 \ --model_name "v_48_020"

这个脚本会从inputs/PDB_monomers/目录读取PDB文件，为每个蛋白质结构生成100个新的氨基酸序列变体，并将结果保存到outputs/example_1_outputs/。

特色功能亮点

1. 灵活的序列设计控制

ProteinMPNN 提供了多种控制序列设计过程的参数：

温度参数控制多样性：通过--sampling_temp参数调节序列多样性，较低温度产生保守序列，较高温度产生更多样化序列
固定位置设计：使用--fixed_positions_jsonl指定哪些残基位置保持不变
氨基酸偏好性：通过--bias_AA_jsonl引入特定氨基酸的偏好性
对称性约束：使用--tied_positions_jsonl确保对称位置采用相同氨基酸

2. 多链蛋白质复合物设计

项目特别优化了多链蛋白质复合物的设计能力：

# 多链设计示例 python protein_mpnn_run.py \ --jsonl_path inputs/PDB_complexes/parsed_pdbs.jsonl \ --chain_id_jsonl helper_scripts/assign_fixed_chains.py \ --out_folder outputs/example_2_outputs/ \ --num_seq_per_target 50

3. 评分与概率分析

除了序列设计，ProteinMPNN 还提供强大的评分功能：

序列评分：评估现有序列与给定结构的兼容性
条件概率输出：生成每个位置氨基酸的概率分布
无条件概率：计算仅基于结构的氨基酸偏好性

高级应用场景

PSSM整合设计

ProteinMPNN 支持与位置特异性评分矩阵（PSSM）的整合，这在进化约束设计中特别有用：

# 使用PSSM偏好的设计 python protein_mpnn_run.py \ --jsonl_path inputs/PDB_complexes/parsed_pdbs.jsonl \ --pssm_jsonl inputs/PSSM_inputs/3HTN.npz \ --pssm_multi 0.3 \ --out_folder outputs/example_pssm_outputs/

可溶性蛋白质优化

项目提供了专门针对可溶性蛋白质训练的模型权重，位于soluble_model_weights/目录：

# 使用可溶性优化模型 python protein_mpnn_run.py \ --use_soluble_model \ --path_to_model_weights soluble_model_weights/ \ --model_name v_48_020 \ --jsonl_path inputs/PDB_monomers/parsed_pdbs.jsonl \ --out_folder outputs/soluble_designs/

模型训练与自定义

数据准备

训练 ProteinMPNN 需要蛋白质结构数据集：

# 下载训练数据（16.5GB） wget https://files.ipd.uw.edu/pub/training_sets/pdb_2021aug02.tar.gz tar -xzf pdb_2021aug02.tar.gz

启动训练

使用training/training.py脚本启动模型训练：

python training/training.py \ --path_for_training_data ./pdb_2021aug02 \ --path_for_outputs ./training_output \ --num_epochs 150 \ --batch_size 10000 \ --num_neighbors 48 \ --backbone_noise 0.2

训练参数调优

关键训练参数包括：

--num_neighbors：控制图神经网络中每个节点的邻居数量
--backbone_noise：训练时添加到骨架的噪声水平
--hidden_dim：模型隐藏层维度
--dropout：防止过拟合的正则化参数

项目结构与代码组织

ProteinMPNN 的代码结构清晰，便于理解和扩展：

ProteinMPNN/ ├── protein_mpnn_run.py # 主运行脚本 ├── protein_mpnn_utils.py # 工具函数 ├── helper_scripts/ # 辅助脚本 │ ├── parse_multiple_chains.py # 多链解析 │ ├── make_fixed_positions_dict.py # 固定位置处理 │ └── make_bias_AA.py # 氨基酸偏好性生成 ├── examples/ # 使用示例 ├── inputs/ # 示例输入数据 ├── outputs/ # 示例输出结果 ├── training/ # 训练相关代码 └── model_weights/ # 预训练模型权重

性能优化与最佳实践

内存与计算优化

批处理大小调整：根据GPU内存调整--batch_size参数
序列长度限制：使用--max_length控制处理的蛋白质大小
并行处理：可以同时处理多个PDB文件以提高效率

结果分析与验证

生成的序列可以通过多种方式进行验证：

序列恢复率分析：比较设计序列与天然序列的相似性
结构预测验证：使用AlphaFold等工具预测设计序列的结构
物化性质评估：分析疏水性、电荷分布等理化性质

社区贡献与扩展

ProteinMPNN 的开源特性鼓励社区参与和扩展：

自定义模型架构：可以修改training/model_utils.py中的模型定义
新特征集成：在protein_mpnn_utils.py中添加新的数据处理功能
应用场景扩展：开发针对特定应用（如酶设计、抗体优化）的专用脚本

结语：蛋白质设计的未来

ProteinMPNN 代表了蛋白质计算设计领域的重要进展，它将深度学习的强大能力与蛋白质工程的实践需求相结合。通过开源项目的持续发展，研究人员和开发者可以共同推动这一领域的进步，为解决生物医学和工业应用中的复杂蛋白质设计问题提供新的解决方案。

无论是学术研究还是工业应用，ProteinMPNN 都提供了一个强大而灵活的平台，让更多人能够参与到蛋白质设计的创新过程中，共同探索生命科学的未知领域。

【免费下载链接】ProteinMPNNCode for the ProteinMPNN paper项目地址: https://gitcode.com/gh_mirrors/pr/ProteinMPNN

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

ProteinMPNN：基于深度学习的蛋白质序列设计实战指南