news 2026/6/19 16:18:40

知识扩展-高精度空转（HD、Xenium、CosMx）banksy数据增强的意义

张小明

前端开发工程师

1.2k 24

文章封面图 — 知识扩展-高精度空转（HD、Xenium、CosMx）banksy数据增强的意义

作者，Evil Genius

大家先看看下面HD的分析示例，供大家思考。

之前一直有一个问题就在于高精度空转的banksy聚类与数据本身聚类的之间的异同。

目前文章采用banksy的数量并不多，且理解上不是很容易，其与直接注释之间的区别我们需要探讨一下。

首先我们来看看bansky的分析原理

Banksy的核心思想是将邻居细胞的空间信息“注入”到目标细胞中，创造一个新的、富含微环境信息的特征向量。

Banksy做了两件关键事：

构建空间滞后向量：对于目标细胞i的每个基因g，不仅考虑它自身的表达量 Ei,gEi,g，还计算其周围邻居细胞（在半径r内）该基因表达量的加权平均值（空间滞后项 Li,gLi,g）。这个滞后项反映了该基因在局部微环境中的富集程度。

创建增强特征矩阵：将原始表达向量 EiEi 和一个或多个不同尺度（不同半径r）的空间滞后向量 LiLi 拼接（Concatenate）在一起，形成一个“增强”的特征向量：[E_i, L_i(r1), L_i(r2), ...]。

在增强的特征空间中进行聚类：使用这个融合了自身信息和局部环境信息的增强矩阵进行降维和聚类。

那么直接注释呢？

通常指直接使用每个细胞（根据细胞边界分割得到）或每个微环境区域（如果未分割）的基因表达谱（所有检测到的基因的计数）进行分析。

方法：对每个空间单元（细胞）的基因表达矩阵进行标准化、降维、聚类、注释。

本质：只利用了“细胞自身”的转录组信息。它回答的问题是：“这个细胞内部表达了哪些基因？”

局限性：

忽略空间背景：一个细胞的功能和状态深受其“邻居”的影响。例如，一个处于肿瘤-免疫边界和处于肿瘤核心的相同癌细胞，其状态可能不同，但仅靠内部基因表达可能无法区分。

对微环境不敏感：无法有效识别由多种细胞类型有序排列形成的空间功能单元（如生发中心、血管周围生态位、肿瘤浸润前沿）。

信号稀疏性：即使分辨率很高，单个细胞内的基因检测数目仍有限，直接分析可能噪声较大。

Banksy增强的意义（与直接注释的区别）

方面	直接注释	Banksy增强后注释
信息基础	仅限细胞自身转录组	自身 + 局部微环境的转录组信息
聚类依据	细胞类型（内在身份）	细胞生态型（内在身份 + 空间上下文）
能识别什么	主要的细胞类型（如T细胞、B细胞、癌细胞、成纤维细胞）	1. 相同的细胞类型，不同的空间状态（如：边界 vs 核心的癌细胞；生发中心内 vs 滤泡外的B细胞）。 2. 由多种细胞有序组合形成的空间域（如：三级淋巴结构、血管周围生态位、组织分层结构）。
结果可视化	细胞按类型着色，在空间上可能分散分布。	空间上出现连续的、具有明确边界的“区域”，这些区域在生物学上更有意义。
生物学洞见	“有什么细胞？”	“细胞在如何组织？它们如何相互作用？功能单元是什么？”
对技术噪声的稳健性	较低，受单个细胞检测效率影响大。	较高，因为空间滞后项起到了局部平滑和去噪的作用，利用了邻居信息来稳定信号。

具体到数据上的应用价值

对于Xenium和CosMx这种亚细胞分辨率数据，Banksy的优势：

揭示肿瘤异质性：不仅能区分癌细胞亚型，还能区分出侵袭前沿、免疫抑制核心、血管化区域等具有不同空间背景和临床意义的癌细胞生态型。

精细解析免疫微环境：识别耗竭T细胞聚集区、三级淋巴结构（TLS）的不同区域（生发中心、滤泡外围）、髓系细胞的空间聚集态。这是直接注释难以做到的。

发现新的空间生物标志物：Banksy识别的“空间细胞生态型”或“空间域”可能比单纯的细胞类型更具预后或治疗预测价值。

改善低表达细胞类型的注释：对于一些难以捕获的稀有细胞或低RNA含量细胞（如某些神经元亚型），其空间邻居模式可能非常有特征性，Banksy可以利用这种模式信息辅助其正确聚类和注释。

对于Visium HD（虽然分辨率稍低，但点密度极高），Banksy同样可以用于识别组织形态学上的功能区域，其原理是相通的。

那么我们总结一下就是先进行直接注释了解基本细胞组成，再使用Banksy进行空间增强分析来揭示细胞组织和功能的空间背景。

如果大家认真的话，应该会想起之前的文章知识扩展--分子亚型和细胞亚型的异同与联系, 其实banksy走的是第三条聚类路线，即依据邻域的分子差异进行亚群细分，三种聚类思路大家需要思考了。

总结：就是依据邻域的基因表达差异进行在分群和依据邻域的细胞类型种类差异再分群之间的区别。

维度	依据邻域基因表达差异再分群	依据邻域细胞类型差异再分群
分析对象	一个空间单元（细胞/点位）及其周边区域的所有基因表达信号的聚合特征。	一个空间单元（细胞/点位）周围邻居的细胞类型标签的组成与结构。
核心输入	1. 空间坐标 2. 所有基因的表达矩阵（或降维后的特征）	1. 空间坐标 2. 预先定义好的细胞类型标签
计算方法	计算空间滞后项或局部微环境表达谱。如Banksy的 L_i(r)。本质是基因表达的局部平滑与特征提取。	计算细胞类型共定位或邻域组成向量。如：构建“在细胞i的50μm半径内，有3个T细胞，5个癌细胞，1个巨噬细胞...”这样的组成向量。
回答的问题	“这个局部区域在转录组功能上处于什么状态？” (例如：免疫激活态、代谢旺盛态、缺氧应激态)	“这个细胞被什么类型的邻居所包围？” 或 “这个局部区域由哪些细胞类型以何种比例组成？”(例如：T细胞-癌细胞混合区、纯上皮区、基质富集区)
发现的模式	功能/状态域：基于转录活性的空间连续区域。能发现相同细胞类型在不同微环境下的状态亚群（如同为癌细胞，处于侵袭前沿和核心的基因表达谱不同）。	细胞生态位/邻域类型：基于细胞社会结构的离散单元。能发现反复出现的、稳定的多细胞组合。
优点	1. 更敏感，揭示潜在状态：能捕捉细胞对环境响应的细微变化，即使细胞类型未变。 2. 无监督，无需预先定义：直接从数据中发现模式，可能找到全新的、未预期的功能区域。 3. 包含更丰富信息：基因表达信息量远大于类别标签。	1. 解释直观，易于沟通：结果直接与已知的细胞类型挂钩，生物学家易于理解。 2. 稳健：对批次效应和技术噪声相对不敏感，因为细胞类型标签是相对稳定的高阶特征。 3. 可直接联系已知生物学：容易与已知的组织结构（如滤泡、生发中心）对应。
缺点	1. 解释可能复杂：发现的“状态域”需要后续分析才能理解其生物学意义。 2. 对技术噪声敏感：基因表达数据本身存在波动。	1. 依赖注释质量：结果完全取决于第一步细胞类型注释的准确性。错误的注释会级联放大。 2. 信息损失：丢失了细胞状态异质性的信息。两个组成相同的邻域，其内部细胞状态可能截然不同。 3. 类别可能僵化：无法识别“新”的邻域类型，除非它由独特的细胞类型组合构成。
典型方法	- Banksy (构建空间滞后特征) - SpatialPCA, MERINGUE (空间平滑与特征提取) - 采用空间约束的聚类 (如BayesSpace)	- Neighborhood analysis (Giotto, Squidpy) - Cell neighborhood composition (CNC) 聚类 - Interactions/niche identification (如STELLAR)
生物学意义	空间功能单位：反映组织局部区域的生理、病理或代谢活动的整体状态。	空间结构单位：反映组织基本的建筑模块和多细胞互作的基本单元。

具体例子：分析一个肿瘤微环境

假设有一个包含癌细胞 (T)、耗竭T细胞 (Tex)、巨噬细胞 (Mφ) 的空间样本。

1. 依据邻域基因表达差异再分群

方法：对每个细胞，计算其周围50μm半径内所有细胞的基因表达平均值，得到一个“微环境表达谱”。然后对所有细胞的这种谱进行聚类。

可能结果：

Cluster A (免疫激活域)：高表达 IFNG, GZMB, CXCL9/10 等基因。即使这个区域由Tex和T细胞混合组成，但整体显示出强烈的免疫反应信号。
Cluster B (免疫抑制/缺氧域)：高表达 VEGFA, HIF1A, TGFB 等基因。整体处于免疫抑制和缺氧状态。
Cluster C (增殖域)：高表达细胞周期相关基因。整体处于活跃增殖状态。

洞见： “我的肿瘤里有三个功能截然不同的区域：一个在激烈对抗免疫系统，一个在‘躺平’并营造缺氧环境，还有一个在快速生长。” 这能直接提示哪些区域可能对免疫治疗敏感（Cluster A）。

依据邻域细胞类型差异再分群

方法：统计每个细胞周围50μm内各类细胞的数量，得到一个向量 [#T, #Tex, #Mφ]，然后根据这些向量进行聚类。

可能结果：

Neighborhood Type 1 (免疫沙漠)： [高, 低, 低]。几乎全是癌细胞，缺乏免疫浸润。
Neighborhood Type 2 (战斗前线)： [中, 高, 中]。癌细胞和Tex、Mφ紧密混合，是直接的互作界面。
Neighborhood Type 3 (髓系富集区)： [低, 低, 高]。主要由巨噬细胞主导。

洞见： “我的肿瘤里存在三种社会结构：纯癌区、癌-免疫混战区、巨噬细胞主导区。” 这有助于理解肿瘤的空间组织架构。

联系与整合策略

顺序串联（最常见）：

Step 1: 进行高质量的细胞类型注释（直接注释）。

Step 2: 基于细胞类型进行邻域分析，识别出基本的组织结构（如免疫沙漠、三级淋巴结构）。

Step 3: 在Step 1的基础上，使用邻域基因表达分析（如Banksy），对特定细胞类型（如T细胞）进行状态亚分，揭示其在Step 2 识别出的不同邻域（如沙漠vs前线）中的功能差异。

信息互补：

基因表达域可以解释“为什么”会出现某种细胞邻域（例如，因为缺氧信号募集了巨噬细胞）。

细胞邻域类型为基因表达域提供了直观的细胞社会学背景。

联合分析是黄金标准：

组织的建筑蓝图（由哪些细胞邻域类型构成）。

每个区域的功能状态（各个区域的整体基因活动特征）。

关键细胞在特定环境中的角色（如边境的T细胞 vs 核心的T细胞）。

生活很好，有你更好。

版权声明: 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系邮箱：809451989@qq.com进行投诉反馈，一经查实，立即删除！

网站建设 2026/6/15 12:42:00

宏智树 AI：论文 “查重红 + AI 痕” 双预警？用 “学术重构术” 让文字重获 “人味儿”

作为每天和论文写作打交道的教育博主，后台最常见的求助是：“降重后语句不通，反而被导师批‘像 AI 写的’”“AIGC 检测率飙到 60%，改到凌晨还是超标”“为了躲查重，把‘固定效应模型’改成‘稳定作用模式’&#xff0c…

作者头像

李华

网站建设 2026/6/15 12:40:45

宏智树 AI 颠覆学术 PPT：从 “信息堆砌” 到 “价值可视化” 的 3 步蜕变

“把 5 万字论文浓缩成 12 页 PPT，熬到三点还是文字墙”“开题 PPT 被导师批‘逻辑断层，像拼贴画’”“答辩时评委盯着混乱的图表，连问‘核心创新点在哪’”—— 学术 PPT 的痛点从不是 “没内容”，而是 “不会用可视化语言传递核…

作者头像

李华

网站建设 2026/6/15 18:31:13

2 天，用函数计算 AgentRun 爆改一副赛博朋克眼镜

作者：简志背景一年前，我购入了 Meta Ray-ban 眼镜，Meta 对于眼镜本体的开发及 App 更新很快，但由于没有中文支持和开放的 SDK 导致对国内用户非常不友好。2025 年 11 月，Meta 终于放出了 Device Access Toolkit 让…

作者头像

李华

网站建设 2026/6/17 16:44:56

2026 年，鸿蒙是普通开发者最后一次上车机会？

从一个真实 App「学习小栈」，看懂 HarmonyOS 的红利期如果你是 Android / 前端 / 独立开发者，2026 年还在犹豫要不要学 HarmonyOS——那你真正该担心的，不是“学不会”，而是“没机会”。因为这一次，窗口期真的不长了。…

作者头像

李华

网站建设 2026/6/15 19:28:11

Go 微服务分布式事务 TCC 模式实战全指南

Go 微服务分布式事务 TCC 模式实战全指南适用场景：高并发核心资源（库存 / 资金 / 配额）一致性控制在微服务架构下，跨服务的数据一致性始终是一个绕不开的问题。传统依赖数据库事务的方式，在分布式环境中要么不可行，要么性能代价极高。 TCC（Try-Confirm-Cancel）模式，…

作者头像

李华

网站建设 2026/6/18 15:17:31

基于CODESYS平台的S7客户端通讯源码解析与西门子PLC的互操作性研究

基于CODESYS平台的S7客户端与西门子PLC通讯源码工业现场的数据通讯就像车间里的八卦，设备之间总得互相传点悄悄话。今天咱们聊聊CODESYS平台下用C语言搞S7协议通讯的黑科技——别看西门子PLC平时一副高冷样，其实撩拨起来也没那么难。先甩段硬核代码镇楼&…

作者头像

李华