AI驱动蛋白质设计：从AlphaFold2预测到扩散模型生成全流程解析-编程实验室

1. 项目概述：当AI开始“设计”生命蓝图

如果你在五年前告诉我，一个AI模型能在一小时内，将一段氨基酸序列折叠成接近实验精度的三维结构，我大概率会觉得这是科幻小说。但今天，这已是结构生物学领域的日常。从AlphaFold2横空出世，到如今基于扩散模型的蛋白质从头设计，AI正在以前所未有的速度，重塑我们对生命基本单元——蛋白质的理解与创造能力。这个领域不再是纯粹的生物学或计算机科学的交叉地带，它已经演变成一个由算法、算力和数据共同驱动的“造物”新前沿。

简单来说，这个项目探讨的核心，就是如何利用人工智能，完成蛋白质世界的“读”与“写”。“读”，即蛋白质结构预测：给你一段由20种氨基酸字母写成的线性序列（如“MVLSPADKTNVKAA…”），AI需要预测出它在三维空间中如何精确地折叠、盘旋，形成具有特定功能的复杂结构。“写”，即蛋白质设计或生成：给你一个功能需求（比如“能结合新冠病毒刺突蛋白”），AI需要反向设计出能够实现该功能的、全新的、自然界可能不存在的氨基酸序列及其三维结构。前者解开了生命运作的静态密码，后者则开启了按需定制生物机器的无限可能。无论是从事生物医药研发（如抗体设计、酶工程）、合成生物学，还是对AI前沿应用感兴趣的开发者，理解这套从预测到生成的技术栈，都至关重要。

2. 核心思路与技术演进：从“预测已知”到“创造未知”

2.1 预测范式的革命：AlphaFold为何是里程碑？

在AlphaFold之前，蛋白质结构预测的主流是“物理模拟”和“同源建模”。物理模拟（如分子动力学）计算量巨大，且容易陷入局部最优；同源建模严重依赖已知的、相似的模板结构，对于“孤儿蛋白”（无同源结构）束手无策。AlphaFold系列，特别是AlphaFold2，之所以是革命性的，在于它彻底转向了“数据驱动”和“端到端学习”的范式。

其核心思路可以概括为：将结构预测问题，转化为一个从序列和进化信息中推断空间约束，再通过几何构建满足这些约束的三维模型的深度学习问题。它不再试图模拟真实的物理折叠过程，而是从海量的已知蛋白质结构数据（PDB数据库）中，学习序列与结构之间隐含的、复杂的映射规律。

关键技术拆解：

输入表征（Input Representation）：AlphaFold2的输入不仅仅是目标序列本身。它通过搜索庞大的基因序列数据库，生成一个“多序列比对”（MSA）。MSA反映了在进化过程中，哪些氨基酸位置是保守的（不能变），哪些是可以共同变化的。此外，还会生成一个“残基对表示”，用来刻画任意两个氨基酸残基之间的进化耦合关系。这些进化信息是模型预测空间距离和角度的关键先验知识。
核心架构：Evoformer与结构模块：模型主体是一个称为Evoformer的注意力机制网络。它交替处理MSA表示和残基对表示，让信息在序列内部和序列之间充分流动和迭代更新，最终输出每个残基对的预估距离分布（概率）和每个残基的二面角（主链扭转角）。随后，一个独立的“结构模块”会将这些概率分布和角度预测，转化为具体的三维坐标。这里最巧妙的是，它使用了一种叫做“等变神经网络”的技术，确保无论蛋白质在空间中如何旋转平移（即进行刚体变换），其内部结构的预测都是不变的——这完美契合了蛋白质结构的物理本质。
损失函数与训练：模型的训练目标是让预测的原子坐标与真实结构（PDB中的实验结构）尽可能接近。常用的损失函数包括预测坐标与真实坐标之间的均方根偏差（RMSD），以及预测的距离分布与真实距离之间的差异。

注意：AlphaFold2的成功，一半归功于精巧的算法设计，另一半则归功于高质量、大规模的训练数据（PDB）和巨大的计算资源。它本质上是一个超级强大的“模式识别器”，其预测精度在已知折叠类型的蛋白上接近实验水平，但对于全新折叠或构象变化大的蛋白，仍有局限。

2.2 生成范式的崛起：扩散模型如何“无中生有”？

如果说AlphaFold是优秀的“结构解码器”，那么基于扩散模型的蛋白质生成，则是更具创造性的“结构编码器”。扩散模型在图像生成领域大放异彩后，其思想被迅速迁移到蛋白质三维结构生成上。

核心思想类比：想象一张清晰的蛋白质结构图（比如一个漂亮的螺旋-转角-螺旋模体）。扩散过程就是不断向这张图添加高斯噪声，经过很多步后，它变成了一团完全随机的、没有任何结构的噪声图。扩散模型的学习目标，是掌握这个加噪过程的逆过程——即从一团随机噪声开始，一步步地“去噪”，最终恢复出一张清晰的、合理的蛋白质结构图。关键在于，在训练时，模型看到了无数个“从清晰结构加噪到噪声”的配对样本，从而学会了噪声与结构之间的对应关系。

在蛋白质生成中的具体实现：

定义“噪声”与“清晰”：在图像中，噪声是像素值的扰动。在蛋白质结构中，“清晰状态”是原子的三维坐标（或更常用的，内部坐标如距离和角度），而“噪声状态”则是这些坐标被扰动后的随机状态。
条件生成：我们很少需要完全随机的蛋白质。更多时候是“条件生成”，例如：“生成一个能结合某个靶点口袋的蛋白质”。这时，我们需要将条件信息（如靶点口袋的表面形状、化学性质）作为额外的输入，在去噪过程的每一步都引导模型。这通常通过交叉注意力机制实现，让生成的结构“关注”条件信息。
从结构到序列：生成三维结构后，还需要“倒推”出对应的氨基酸序列。这通常通过另一个网络（称为“序列设计网络”或“逆折叠网络”）来完成。该网络以生成的结构为输入，为每个位置预测最可能出现的氨基酸类型。一个好的生成模型，要求其生成的结构不仅是物理合理的（低能量、无碰撞），其对应的序列也能折叠回这个结构（即具有“可折叠性”）。

扩散模型 vs. 其他生成模型（如VAE, GAN）：

优势：训练更稳定，不易出现模式崩溃；生成的样本多样性好、质量高；理论框架清晰，易于实现条件控制。
挑战：采样速度慢（需要几十甚至上百步的去噪迭代）；对计算资源要求高；如何确保生成结构的物理合理性和可折叠性，仍是核心挑战。

3. 核心工具链与实操环境搭建

要复现或实验这些前沿工作，一个稳定、高效且具备强大GPU算力的环境是基础。以下是我在多次项目部署中总结的可靠路径。

3.1 硬件与基础软件栈选择

硬件建议：

GPU：这是绝对的瓶颈。建议至少使用显存16GB以上的GPU，如NVIDIA RTX 4090、A100（40GB/80GB）。蛋白质模型通常很大，训练或推理时显存占用巨大。RTX 4090 24GB是性价比很高的研究选择。
CPU与内存：建议多核CPU（如AMD Ryzen 9或Intel i9系列）和至少64GB RAM。数据预处理（如生成MSA）非常消耗CPU和内存。
存储：准备至少1TB的NVMe SSD。蛋白质数据库（如PDB, UniRef）动辄数百GB，高速读写至关重要。

基础软件栈：

操作系统：Ubuntu 22.04 LTS。这是深度学习社区最兼容、问题最少的系统。
包管理与环境隔离：强烈推荐使用Conda。它为不同项目创建独立的Python环境，避免依赖地狱。

# 安装Miniconda（轻量版） wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh bash Miniconda3-latest-Linux-x86_64.sh # 创建并激活一个专门的环境 conda create -n protein_ai python=3.9 conda activate protein_ai

深度学习框架：PyTorch是当前蛋白质AI领域的事实标准。务必通过Conda或PyTorch官网命令安装，确保与CUDA版本匹配。

# 例如，安装CUDA 11.8对应的PyTorch conda install pytorch torchvision torchaudio pytorch-cuda=11.8 -c pytorch -c nvidia

专业计算库：
- OpenMM/MDTraj：用于分子动力学模拟和轨迹分析（可用于结构优化或验证）。
- Biopython：处理序列、结构文件的瑞士军刀。
- PyMOL/ChimeraX：结构可视化。PyMOL脚本化能力强，ChimeraX免费且现代。

3.2 关键模型代码库部署

这里以部署一个用于结构预测的AlphaFold2复现版和一个用于生成的扩散模型为例。

1. AlphaFold2 (ColabFold) 本地化部署DeepMind的AlphaFold2官方代码依赖复杂。ColabFold是一个优秀的复现，它用更快的MMseqs2替代了官方的HHblits进行MSA搜索，并提供了极简的API。

# 1. 克隆仓库 git clone https://github.com/sokrypton/ColabFold cd ColabFold # 2. 使用提供的脚本创建Conda环境（推荐） conda env create -f conda.yaml conda activate colabfold # 3. 安装依赖 pip install -e . # 4. 下载模型参数（这是最耗时的步骤，需要约3TB空间和良好网络） # 可以只下载简化版参数（约50GB） ./scripts/download_alphafold_db.sh data # 或者使用已经预处理好的轻量数据库

使用示例：

from colabfold import run import pandas as pd # 准备输入：序列ID和序列 input_sequences = [("protein1", "MKTVRQERLKSIVRILERSKEPVSGAQLAEELSVSRQVIVQDIAYLRSLGYNIVATPRGYVLAGG")] # 运行预测 results = run(input_sequences, use_templates=False, use_amber=False) # results 包含预测结构(pdb文件路径)、置信度(pLDDT)等信息 best_model = results[0]['pdb_files'][0] # 取排名第一的模型

实操心得：ColabFold的use_amber选项可以运行一个简短的分子动力学松弛来优化结构，能减少一些原子碰撞，但会显著增加计算时间（数倍）。对于快速验证，可以关闭。另外，其num_recycles参数（默认3）控制模型迭代次数，增加它（如到6或12）有时能略微提升困难目标的精度，但代价是时间线性增长。

2. 扩散生成模型 (如RFdiffusion) 部署RFdiffusion是David Baker实验室开发的基于扩散模型的蛋白质设计工具，非常强大。

# 1. 克隆仓库（注意，它通常作为RosettaFold的一部分） git clone --depth 1 https://github.com/RosettaCommons/RFdiffusion.git cd RFdiffusion # 2. 通过Conda安装依赖（其environment.yml可能很复杂） # 建议先尝试官方安装说明，通常需要特定版本的PyTorch和CUDA。 conda env create -f environment.yml conda activate rfdiffusion # 3. 下载预训练权重 ./scripts/download_models.sh

使用示例（生成一个对称寡聚体）：

# 在命令行中运行，这是RFdiffusion的主要使用方式 python scripts/run_inference.py \ inference.input_pdb=initial_scaffold.pdb \ inference.output_prefix=my_design \ 'ppi.hotspot_res=[A93,A96]' \ inference.num_designs=10 # 这个命令会以initial_scaffold为起点，在指定的残基（A链93和96）附近生成结合界面，产生10个设计。

踩坑记录：RFdiffusion及其依赖的PyTorch版本可能比较旧，与最新GPU驱动不兼容。如果遇到CUDA错误，一个解决办法是使用NVIDIA官方提供的PyTorch Docker镜像作为基础环境，再在其内部安装RFdiffusion的其他依赖。这能保证CUDA环境的一致性。

3.3 数据准备与管理

蛋白质AI是数据饥渴型领域。高效管理数据是项目顺畅的关键。

常用数据库：
- PDB (Protein Data Bank)：实验解析的蛋白质结构数据库。可通过wget批量下载或使用API。
- UniProt/UniRef：全面的蛋白质序列和功能信息数据库。用于获取序列和生成MSA。
- CATH / SCOP：蛋白质结构分类数据库。用于分析生成结构的折叠类型新颖性。

本地数据库搭建：对于频繁使用的数据库（如用于MSA搜索的UniRef），建议在本地服务器搭建MMseqs2数据库，这将比每次调用在线服务快上百倍。

# 安装MMseqs2 conda install -c bioconda mmseqs2 # 下载并创建数据库 mmseqs databases UniRef30 uniref30_db tmp --threads 64 # 后续ColabFold就可以配置为使用这个本地数据库路径

数据预处理流水线：建议将数据预处理步骤脚本化、流水线化。例如，一个标准的预测流水线可能包括：序列去冗余、MSA搜索（本地MMseqs2）、模板搜索（可选）、特征提取、模型推理、结果后处理（提取置信度、可视化）。使用Snakemake或Nextflow这样的工作流管理工具可以极大地提升可重复性和效率。

4. 从预测到生成：一个完整的设计案例拆解

让我们通过一个具体的虚拟案例，串联起预测和生成的全流程：设计一个能够高亲和力结合某特定靶点（假设为“靶点X”）的迷你蛋白（Miniprotein）。

4.1 阶段一：靶点分析与起点获取（预测技术应用）

目标：理解“靶点X”的结合口袋特征，并寻找或生成一个初始的骨架（Scaffold）。

获取靶点结构：如果“靶点X”有实验结构（PDB ID），直接下载。如果没有，则使用AlphaFold2或类似工具预测其结构。假设我们预测后发现它是一个含有深部疏水口袋的蛋白。
```
# 使用ColabFold预测靶点X结构 python run_prediction.py --fasta targetX.fasta --output_dir ./targetX_af2
```
分析结合口袋：使用PyMOL或ChimeraX，或者程序化工具（如pymol命令行、ProDy库），识别出口袋的关键残基、形状、静电势和疏水性。记录下口袋中心的坐标和可能形成关键相互作用的残基位置（如氢键供体/受体、芳香环）。
寻找初始骨架：我们有几种策略：
- 策略A（基于天然骨架）：从PDB中搜索所有小的、稳定的蛋白质结构（如锌指、WW结构域等），作为候选骨架。使用结构比对工具（如TM-align）评估它们与靶点口袋的形状互补性。
- 策略B（生成初始骨架）：直接使用无条件扩散模型（如RFdiffusion的无条件生成模式），生成一批小的（例如，50-80个残基）、紧凑的蛋白质结构。然后使用对接软件（如HDOCK,AutoDock Vina）快速筛选出与靶点口袋形状匹配度高的几个骨架。
经验技巧：对于迷你蛋白设计，倾向于选择含有二硫键（Cys-Cys）的天然骨架，因为二硫键能极大地稳定小蛋白的结构，提高其热稳定性和蛋白酶抗性。在搜索或生成时，可以加入“含有至少一对Cys”作为过滤条件。

4.2 阶段二：基于扩散模型的结合界面设计（生成技术核心）

假设我们通过阶段一，选择了一个含有β-α-β折叠的小蛋白骨架scaffold.pdb作为起点。现在要用扩散模型为其“雕刻”出能与靶点X口袋完美结合的表面。

准备条件信息：这是扩散模型的条件生成步骤。我们需要定义“约束”。
- 空间约束（Inpainting）：在RFdiffusion中，我们可以将骨架中远离预设结合区的部分“固定”（固定其坐标），只让模型对预设结合区及其附近进行扩散和生成。这相当于告诉模型：“保持其他部分不变，只重新设计这个局部区域，使其能结合靶点”。
- 化学约束（Hotspot Residues）：如果我们通过分析，知道靶点口袋内有一个关键的精氨酸（Arg）需要负电残基（Asp/Glu）来形成盐桥，我们可以将这个约束作为“热点残基”输入。例如，指定骨架上的某个位置必须生成天冬氨酸（Asp）。

运行条件扩散生成：

python scripts/run_inference.py \ inference.input_pdb=scaffold.pdb \ inference.output_prefix=design_round1 \ inference.ckpt_override_path=./models/Complex_base_ckpt.pt \ 'contigmap.contigs=[A1-80/A1-80]' \ # 固定整个骨架（A链1-80残基） 'ppi.hotspot_res=[B100-110]' \ # 假设靶点X是B链，其100-110残基是口袋区域，我们想让设计的蛋白结合这里 inference.num_designs=100 \ # 生成100个候选设计 inference.design_start_num=0

这个命令会生成100个新的蛋白质结构，它们都基于scaffold.pdb的骨架，但在与靶点B链100-110区接触的界面被重新设计。

生成结果初筛：生成的100个结构质量参差不齐。我们需要进行快速初筛：
- 结构合理性：计算每个生成结构的pLDDT（使用AlphaFold2快速预测）或Rosetta energy score。过滤掉分数过低（通常pLDDT<70）的设计，它们可能结构不稳定。
- 界面互补性：使用简单的几何碰撞检测（如计算界面原子间的clash score）和表面积埋藏（SASA变化）来评估形状匹配度。
- 关键相互作用检查：程序化检查设计的界面上，是否在我们预设的热点位置形成了想要的相互作用（如盐桥、氢键）。

4.3 阶段三：序列设计、优化与验证

扩散模型生成了结构，但每个结构对应着一个氨基酸序列（在生成过程中同时被设计）。我们需要进一步优化这个序列。

逆折叠优化：使用专门的逆折叠网络（如ProteinMPNN），以生成的结构为固定模板，重新为整个蛋白（或仅界面区域）设计序列。ProteinMPNN通常能产生更自然、更可折叠的序列。
```
# 假设我们有一个生成的结构 design_001.pdb python protein_mpnn/run.py \ --pdb_path design_001.pdb \ --out_folder ./mpnn_output \ --num_seq_per_target 10
```
这会为design_001.pdb生成10条不同的序列，这些序列在理论上都能折叠成类似design_001.pdb的结构。
序列-结构一致性验证：这是至关重要的一步。我们不能完全相信逆折叠网络。必须用AlphaFold2对设计出的新序列进行结构预测，将预测的结构与原始设计结构进行比对（计算RMSD）。如果RMSD很小（如<2Å），说明序列和结构是自洽的，设计是成功的。如果RMSD很大，则意味着这个序列可能无法折叠成我们想要的结构，需要被淘汰。
```
# 对ProteinMPNN生成的一条序列seq_001.fasta进行AF2预测 python run_prediction.py --fasta seq_001.fasta --output_dir ./verify_seq001 # 使用TM-align或PyMOL对齐 verify_seq001/ranked_0.pdb 和 design_001.pdb，计算RMSD
```
物理细化与分子对接：
- 能量最小化：使用分子力学力场（如AMBER, CHARMM）或Rosetta的relax功能，对设计出的蛋白-靶点复合物进行能量最小化，消除原子间的轻微碰撞，优化键长键角。
- 刚性对接验证：将经过AF2验证和能量最小化的设计蛋白，与靶点蛋白进行分子对接模拟（如使用HADDOCK或ZDOCK）。观察对接得到的结合模式是否与我们设计时预设的模式一致，结合自由能是否有利。

4.4 阶段四：体外实验验证循环（硅上到线下）

尽管AI设计大大提升了成功率，但最终必须经过实验检验。计算出的优秀设计，需要进入“设计-构建-测试-学习”（DBTL）循环。

实验构建：将筛选出的Top 5-10条序列，进行基因合成，并在大肠杆菌或酵母等系统中表达纯化蛋白。
实验测试：
- 结构验证：使用圆二色谱（CD）验证二级结构是否与预测一致；对于小的迷你蛋白，甚至可以用核磁共振（NMR）解析其溶液结构，与AI预测结构进行精确比对。
- 结合验证：使用表面等离子共振（SPR）或等温滴定量热法（ITC）定量测量设计蛋白与靶点X的结合亲和力（KD值）。
- 功能验证：如果靶点X是酶，测试设计蛋白是否抑制其活性；如果靶点是细胞表面受体，测试设计蛋白是否影响下游信号。
数据反馈与模型迭代：将实验成功和失败的数据（哪些序列表达了可溶蛋白？哪些结合了？KD值多少？）收集起来，可以用于微调（Fine-tune）我们的生成模型或逆折叠模型。例如，用成功表达的序列-结构对作为正样本，失败的对作为负样本，继续训练模型，使其下一次设计时更倾向于产生“可表达、可稳定折叠”的序列。这就是AI驱动设计闭环的核心。

5. 常见问题、挑战与未来方向

在实际操作中，你会遇到各种各样的问题。以下是一些典型挑战和应对思路。

5.1 预测与生成中的典型陷阱

问题	可能原因	排查与解决思路
AF2预测置信度（pLDDT）很低	1. 目标蛋白是无序区域（IDR）。 2. MSA搜索到的同源序列太少，进化信息不足。 3. 蛋白是全新的折叠，训练数据中未见。	1. 检查序列，富含Pro, Glu, Ser, Thr等残基可能是IDR标志。AF2不擅长预测IDR。 2. 尝试放宽MSA搜索参数（如`--max-seq`调高），或使用`--use\_env`选项引入环境序列。 3. 接受现实。可尝试集成多个不同结构的预测模型（如RoseTTAFold），或结合物理模拟（分子动力学）进行采样。
扩散模型生成的结构物理不合理	1. 原子碰撞严重。 2. 主链扭转角（phi/psi）落在拉氏图非允许区。 3. 疏水残基暴露在表面，亲水残基埋在内部。	1. 使用`OpenMM`或`Rosetta relax`进行能量最小化和短时间MD松弛。 2. 使用`MolProbity`或`WHAT\_IF`在线服务器检查立体化学质量，修复异常二面角。 3. 在序列设计（逆折叠）阶段，加入“亲疏水性”约束，或使用能考虑溶剂化效应的设计工具。
设计的序列无法表达或聚集	1. 序列含有稀有密码子或翻译暂停位点。 2. 蛋白表面疏水斑块导致聚集。 3. 蛋白本身不稳定，在体内被降解。	1. 优化密码子，使用宿主偏好性密码子，并避免mRNA二级结构。 2. 在设计中引入表面电荷（如增加带电荷残基Lys, Arg, Asp, Glu）或糖基化位点以提高溶解性。 3. 在计算阶段就引入稳定性预测，如使用`Rosetta ddG`或深度学习工具`DeepDDG`预估突变对稳定性的影响，选择更稳定的变体。
生成的结构与目标形状不匹配	1. 扩散模型的条件控制不够强或设置错误。 2. 初始骨架与目标形状差异太大。	1. 仔细检查条件输入的格式和参数。在RFdiffusion中，`contigmap`和`ppi.hotspot_res`的设置需要反复调试。可以先用简单的对称性生成任务测试条件控制是否生效。 2. 尝试不同的初始骨架，或使用“inpainting”模式，只对局部进行大刀阔斧的修改，保留更多原始结构。

5.2 计算资源与效率优化

蛋白质AI计算极其昂贵。一些优化策略：

模型蒸馏与量化：研究社区已出现更轻量级的AF2版本（如OpenFold，或一些蒸馏模型）。对于生成式模型，探索使用半精度（FP16）甚至整型（INT8）量化进行推理，可以大幅减少显存占用和加速。
云计算与弹性调度：对于大规模生成或筛选，使用AWS、GCP或Azure的云计算服务，按需启动多GPU实例进行并行处理。使用Kubernetes或Slurm进行作业调度和管理。
缓存与复用：MSA搜索是预测流程中最耗时的步骤之一。对于相同的序列或高度相似的序列，务必缓存MSA结果，避免重复计算。

5.3 未来方向与个人思考

这个领域正在飞速发展，几个值得关注的方向：

多模态与统一模型：未来的模型可能不再区分“预测”和“生成”，而是一个统一的、能够理解序列、结构、功能甚至文本描述（如“生成一个绿色的荧光蛋白”）的多模态基础模型。类似于蛋白质版的“ChatGPT”。
动态与构象集合：当前模型主要预测静态的单一结构。但蛋白质是动态的，其功能往往依赖于构象变化。开发能预测构象集合（Ensemble）或动态轨迹的模型，是下一个前沿。
与实验技术的深度闭环：AI不仅指导设计，还能直接指导实验。例如，根据AI预测的困难区域，指导冷冻电镜（Cryo-EM）的数据采集策略；或者根据AI生成的候选分子，自动设计高通量实验进行验证，并将结果实时反馈给模型。
可解释性与可控性：当前的扩散模型某种程度上还是个“黑箱”。我们如何理解它“学会”的蛋白质设计规则？如何更精细地控制生成结果的属性（如特异性、免疫原性、表达量）？这需要开发新的模型解释技术和约束方法。

从我个人的实践来看，最大的体会是：蛋白质AI正在从“辅助工具”变为“驱动引擎”。它不再仅仅是加速已知过程的计算器，而是能提出人类未曾设想的新方案、新分子的“共事者”。成功的钥匙在于紧密融合计算与实验，让AI的“大胆假设”能够被实验“小心求证”，并快速形成迭代反馈。这个过程充满挑战，但每一次看到自己设计的分子在试管中展现出预期功能时，那种跨越虚拟与现实的成就感，是无与伦比的。对于刚入门的同行，我的建议是，从一个具体的小问题开始（比如优化一个已知酶的热稳定性），亲手走完从预测、生成、计算验证到简单实验测试的全流程，这比读十篇论文都更有收获。