单细胞分析实战：用scVI和scANVI搞定多批次数据整合（附完整Python代码）-编程实验室

单细胞分析实战：用scVI和scANVI搞定多批次数据整合（附完整Python代码）

在单细胞RNA测序（scRNA-seq）研究中，数据整合是一个无法回避的挑战。当你手头的数据来自不同实验批次、不同测序平台或不同实验室时，批次效应就像一道无形的墙，阻碍着我们对生物信号的准确解读。想象一下，你花费数月收集的珍贵数据，却因为技术差异而无法合并分析——这种挫败感每个生物信息学研究者都深有体会。

传统方法如CCA或Harmony虽然简单易用，但在处理复杂批次效应时往往力不从心。而基于深度学习的scVI和scANVI框架，则为我们提供了一种全新的解决方案。它们不仅能有效消除批次差异，还能保留关键的生物学变异，让跨数据集的分析变得前所未有的可靠。

本文将带你从零开始，一步步实现多批次单细胞数据的深度整合。无论你是刚接触单细胞分析的研一学生，还是需要处理大型图谱项目的资深研究员，这套端到端的解决方案都能为你节省大量试错时间。我们会重点解决三个核心问题：

如何准备数据以满足scVI的输入要求？
关键参数如n_latent和gene_likelihood该如何选择？
整合效果该如何量化评估？

1. 环境准备与数据加载

在开始之前，我们需要搭建一个稳定的Python环境。推荐使用conda创建独立环境，避免依赖冲突：

conda create -n scvi python=3.8 conda activate scvi pip install scvi-tools scanpy scib matplotlib seaborn

对于大型数据集（细胞数>5万），建议配置GPU加速。以下是检查GPU可用性的代码：

import torch print("GPU available:", torch.cuda.is_available()) print("GPU name:", torch.cuda.get_device_name(0))

加载数据时，特别注意检查计数矩阵的存储位置。单细胞数据通常有以下几种存储形式：

数据位置	描述	是否适合scVI
adata.X	主矩阵	需为原始计数
adata.layers['counts']	单独层存储	最佳选择
adata.raw.X	原始数据备份	需转换到layer

正确的数据加载方式应该是：

import scanpy as sc adata = sc.read_h5ad("lung_atlas.h5ad") print(adata.layers.keys()) # 确认counts层存在 # 如果没有counts层，需要手动指定 if 'counts' not in adata.layers: adata.layers['counts'] = adata.X.copy()

2. 数据预处理：高变基因筛选的艺术

高质量的高变基因（HVG）筛选是成功整合的关键。不同于传统流程，scVI整合对HVG选择尤为敏感。以下是优化后的筛选步骤：

# 保留完整数据备份 adata.raw = adata # 批次感知的高变基因筛选 sc.pp.highly_variable_genes( adata, flavor="seurat_v3", n_top_genes=2000, layer="counts", batch_key="batch", subset=True ) # 检查筛选结果 print("Selected HVGs:", adata.var.highly_variable.sum())

常见问题及解决方案：

警告"data does not contain counts"：通常是因为数据经过SoupX校正或其他预处理。需要确认：
- 值是否为非负实数
- 是否仍保持计数数据的方差特性
- 必要时进行整数化处理：adata.layers['counts'] = np.round(adata.layers['counts']).astype(int)
批次特异性基因干扰：可通过增加batch_key参数，让算法自动识别并处理批次特异性基因。

3. scVI模型构建与训练

3.1 模型初始化

正确设置setup_anndata是避免后续错误的关键一步：

import scvi # 基础设置 scvi.model.SCVI.setup_anndata( adata, layer="counts", batch_key="batch" ) # 高级设置（包含协变量） # scvi.model.SCVI.setup_anndata( # adata, # layer="counts", # categorical_covariate_keys=["donor"], # continuous_covariate_keys=["pct_counts_mt"] # )

3.2 关键参数解析

创建SCVI模型时，这些参数直接影响整合效果：

vae = scvi.model.SCVI( adata, n_layers=2, # 编码器/解码器层数 n_latent=30, # 潜在空间维度 gene_likelihood="nb" # 基因表达分布假设 )

参数选择指南：

参数	推荐值	适用场景
n_layers	2-3	大多数数据集
n_latent	20-50	大型数据集需更高维度
gene_likelihood	"nb" (负二项)	标准scRNA-seq数据
gene_likelihood	"zinb" (零膨胀负二项)	高dropout率数据

3.3 模型训练技巧

训练过程中的这些细节能显著提升效果：

vae.train( train_size=0.9, # 训练集比例 early_stopping=True, # 启用早停 early_stopping_patience=10 # 耐心参数 ) # 监控训练过程 plt.plot(vae.history["elbo_train"], label="train") plt.plot(vae.history["elbo_validation"], label="validation") plt.legend()

常见训练问题排查：

内存不足：减小batch_size（默认128）
训练不稳定：降低learning_rate（默认0.001）
过拟合：增加dropout_rate（默认0.1）

4. 结果提取与可视化

获取潜在表示后，我们可以进行下游分析：

# 提取潜在表示 adata.obsm["X_scVI"] = vae.get_latent_representation() # 聚类分析 sc.pp.neighbors(adata, use_rep="X_scVI") sc.tl.leiden(adata, resolution=0.5) # 加速可视化 from scvi.model.utils import mde adata.obsm["X_mde"] = mde(adata.obsm["X_scVI"]) # 批次效应评估 sc.pl.embedding( adata, basis="X_mde", color=["batch", "leiden"], frameon=False, ncols=1 )

当你有细胞类型注释时，升级到scANVI能获得更好的生物学保留：

lvae = scvi.model.SCANVI.from_scvi_model( vae, adata=adata, labels_key="cell_type", unlabeled_category="Unknown" ) # 训练时使用标签信息 lvae.train(max_epochs=20, n_samples_per_label=100) # 获取优化后的表示 adata.obsm["X_scANVI"] = lvae.get_latent_representation()

5. 整合效果量化评估

使用scIB指标进行客观评估：

from scib.metrics import silhouette_batch, lisi_graph def compute_metrics(adata, emb_key, label_key, batch_key): metrics = {} # 批次混合度 metrics["iLISI"], _ = lisi_graph(adata, batch_key, label_key) # 生物学保留度 _, metrics["cLISI"] = lisi_graph(adata, batch_key, label_key) # 轮廓系数 metrics["sil_batch"] = silhouette_batch( adata, batch_key, label_key, emb_key ) return metrics scvi_metrics = compute_metrics(adata, "X_scVI", "cell_type", "batch") scanvi_metrics = compute_metrics(adata, "X_scANVI", "cell_type", "batch") print("scVI metrics:", scvi_metrics) print("scANVI metrics:", scanvi_metrics)

典型结果解读：

iLISI > 0.7：批次混合良好
cLISI < 0.3：生物学结构保留完整
sil_batch接近0：批次效应基本消除

6. 实战技巧与排错指南

在实际项目中，这些经验能帮你节省大量时间：

内存优化技巧：

# 对于超大数据集 vae = scvi.model.SCVI( adata, n_latent=30, gene_likelihood="nb", use_cuda=True, # 启用GPU batch_size=512 # 增大批大小 )

常见报错解决方案：

"Missing count data"：

assert "counts" in adata.layers, "Counts layer missing!"

"Non-integer counts"：

adata.layers['counts'] = np.round(adata.layers['counts']).astype(int)

"Batch key not found"：

assert "batch" in adata.obs, "Please add batch information to adata.obs"

参数调优策略：

先固定n_latent=30，调整n_layers（2-3）
然后微调n_latent，观察iLISI/cLISI变化
最后尝试不同的gene_likelihood选项

对于特别复杂的数据集，可以尝试分阶段整合：先按实验批次分组整合，再进行全局整合。

单细胞分析实战：用scVI和scANVI搞定多批次数据整合（附完整Python代码）