从测序仪到差异基因：一文讲透RNA-seq数据归一化为什么非做不可（RPKM/TPM深度对比）-编程实验室

从测序仪到差异基因：RNA-seq数据归一化的底层逻辑与实战选择

第一次接触RNA-seq数据时，我被那些密密麻麻的数字矩阵弄得一头雾水。为什么同一个基因在不同样本中的raw counts差异能高达几十倍？为什么导师坚持要用TPM而不是看起来更"标准"的RPKM？直到我在分析一批癌症样本时，因为选错归一化方法差点得出完全相反的结论，才真正明白这些看似枯燥的数字背后隐藏的生物学意义。

1. 为什么raw counts不足以比较基因表达？

当我们拿到RNA-seq的原始数据时，首先看到的是一个基因表达矩阵——每行代表一个基因，每列代表一个样本，单元格中的数字是该基因在该样本中被检测到的reads数。这些raw counts看似直观，却隐藏着三个关键偏差源：

测序深度偏差：就像用不同倍数的显微镜观察细胞，测序深度（sequencing depth）决定了我们能"看到"多少转录本。假设：

样本A测了10 million reads
样本B测了50 million reads

即使两个样本中某个基因的真实表达量相同，样本B的raw counts也会天然高于样本A。如果不校正这个偏差，我们可能会误认为样本B中该基因表达上调。

基因长度偏差：想象比较两本书的受欢迎程度——一本是100页的短篇小说，另一本是1000页的长篇巨著。即使读者对两者的喜爱程度相同，长篇著作被借阅的次数也会更多，仅仅因为它提供了更多被借阅的机会。同理，较长的基因会产生更多转录本片段，导致更高的raw counts。

组成偏差：当某个基因在样本中异常高表达时，它会"抢占"其他基因的测序资源。例如：

样本X中基因A占全部表达的80%
样本Y中基因A只占20%

即使基因B在两个样本中的绝对表达量相同，在样本Y中的raw counts会显得更低，因为测序资源被基因A"稀释"了。

注意：raw counts虽然不能直接用于样本间比较，但在差异表达分析（如DESeq2）中仍是必需的输入数据，因为这些工具内置了归一化步骤。

2. RPKM/FPKM：先校正测序深度还是基因长度？

2.1 RPKM的计算逻辑与局限

RPKM（Reads Per Kilobase per Million）的计算公式如下：

RPKM = (基因的raw counts × 10^9) / (基因长度 × 样本总reads数)

这个公式实际上包含两个连续的标准化步骤：

测序深度校正：除以样本总reads数（以百万为单位），消除测序深度差异
基因长度校正：除以基因长度（以千碱基为单位），消除基因长度影响

用一个简单的例子说明：

基因	raw counts	基因长度(kb)	样本总reads(百万)	RPKM
A	1000	2	10	50
B	500	5	5	20

虽然基因A的raw counts是基因B的两倍，但经过RPKM标准化后，我们发现基因A的实际表达密度更高。

RPKM的核心问题在于它先校正测序深度，这使得不同样本的RPKM值总和可能差异很大——这在比较样本间基因表达比例时会造成误导。

2.2 FPKM：双端测序的变体

FPKM（Fragments Per Kilobase per Million）与RPKM的计算逻辑完全相同，唯一的区别在于：

单端测序：每个read就是一个fragment，此时FPKM=RPKM
双端测序：一对成功比对的paired-read计为一个fragment

# 单端测序数据转换为FPKM fpkm <- rpkm_data # 直接等价 # 双端测序数据转换 fpkm <- counts / (gene_length * total_fragments / 10^9)

3. TPM：更合理的标准化策略

3.1 为什么TPM更受推荐？

TPM（Transcripts Per Million）看似与RPKM/FPKM相似，但标准化顺序发生了关键改变：

先校正基因长度：用raw counts除以基因长度（kb）
再校正测序深度：用长度校正后的值除以校正后总和（百万为单位）

数学表达式为：

TPM = (基因的raw counts / 基因长度) / (∑(所有基因raw counts/基因长度) / 10^6)

这种顺序调整带来了一个宝贵特性：所有样本的TPM总和相同（都是百万），使得样本间的比较更加合理。

3.2 RPKM与TPM的实战对比

假设两个样本中的三个基因表达情况如下：

基因	长度(kb)	样本1 raw counts	样本2 raw counts
A	2	1000	2000
B	5	500	1000
C	10	200	400

计算得到的标准化值：

RPKM结果：

基因	样本1 RPKM	样本2 RPKM
A	50	50
B	10	10
C	2	2

TPM结果：

基因	样本1 TPM	样本2 TPM
A	714286	714286
B	142857	142857
C	142857	142857

虽然两种方法都显示基因表达比例相同，但TPM更直观地反映了相对表达量（总和为百万），而RPKM的绝对值难以直接解释。

4. 如何选择适合的归一化方法？

4.1 方法对比指南

方法	适用场景	优点	缺点
Raw counts	差异表达分析(DESeq2, edgeR)	保留原始分布	不能直接比较样本间表达量
RPKM/FPKM	单个样本内基因比较	直观易懂	样本间总和不一致
TPM	样本间基因表达比较	总和一致，可比性强	计算稍复杂
RPM/CPM	sRNA或长度相近的转录本分析	简单快速	忽略基因长度影响

4.2 实战建议

差异表达分析：坚持使用raw counts配合专用工具（如DESeq2的median-of-ratios方法）
样本间比较：优先选择TPM
单样本可视化：可以使用RPKM/FPKM
特殊RNA类型：对小RNA（如miRNA），RPM/CPM可能更合适

在R语言中实现这些转换：

# 计算TPM calculate_tpm <- function(counts, lengths) { rate <- counts / lengths tpm <- rate / sum(rate) * 1e6 return(tpm) } # 计算RPKM calculate_rpkm <- function(counts, lengths, total_counts) { rpkm <- counts / (lengths * total_counts / 1e9) return(rpkm) }

5. 常见误区与疑难解答

5.1 "为什么我的TPM值看起来这么大？"

TPM的总和是百万，所以当分析的基因数量较少时，单个基因的TPM值会相应增大。例如：

分析全转录组（约2万基因）：平均TPM约50
分析特定通路（100个基因）：平均TPM约10,000

这并不表示表达量真的很高，只是计算基数不同。

5.2 "能否将RPKM转换为TPM？"

可以，转换公式为：

TPM = (RPKM × 样本总reads数) / (∑(所有基因RPKM × 基因长度) / 10^3)

但更推荐从raw counts重新计算，避免累积误差。

5.3 "双端测序数据应该用FPKM还是TPM？"

选择逻辑与单端测序相同：

需要样本间比较 → 选TPM
仅展示单样本表达 → FPKM也可接受

关键是要在整个研究中保持方法一致。

在一次酵母时间序列实验中，我最初使用RPKM比较不同时间点的表达变化，结果发现"管家基因"的表达看似随时间增加——这实际上是细胞生长导致总RNA增加造成的假象。改用TPM后，这些基因的表达比例保持稳定，真实的时间依赖性变化才显现出来。

从测序仪到差异基因：一文讲透RNA-seq数据归一化为什么非做不可（RPKM/TPM深度对比）