拓扑数据分析实战：从持久图到机器学习特征向量化-编程实验室

1. 拓扑数据分析：从数学原理到机器学习实战

如果你处理过图像、点云或者图数据，一定遇到过这样的困境：传统的统计特征，比如像素值、节点度数、边权重，有时候就是抓不住数据的“形状”和“结构”。比如，两个社交网络可能节点和边的数量都差不多，但一个可能是紧密的社区结构，另一个则是松散的长链，这种拓扑上的本质差异，用常规特征很难量化。又比如，在药物发现中，一个分子的药效可能与其三维结构中是否存在特定的“口袋”或“通道”强相关，这些空洞结构同样是拓扑特征。

这就是拓扑数据分析（Topological Data Analysis, TDA）大显身手的地方。它不关心数据点的具体坐标，而是关心它们连接起来形成的“形状”——有多少个连通块？有没有环？有没有空腔？这些特征在数据发生旋转、平移甚至轻微形变时都能保持不变，为我们提供了极其鲁棒的描述符。我最初接触TDA是为了解决一个图分类的难题，传统图神经网络（GNN）在特定结构上容易过拟合，而引入拓扑特征后，模型的泛化能力和可解释性都得到了显著提升。

TDA的核心产出是一张“持久图”（Persistence Diagram），它记录了这些拓扑特征（我们称之为“洞”，0维洞是连通分量，1维洞是环，2维洞是空腔等）在数据“生长”过程中的诞生与消亡。但问题来了，持久图本身是一组二维平面上的点集，每个数据样本的点数还不一样，这没法直接扔进SVM或者神经网络里。所以，我们必须进行“向量化”（Vectorization），把这些拓扑故事翻译成固定长度的特征向量。这个过程充满了选择：用哪种向量化方法？如何设置参数才能既捕捉重要信号又过滤掉噪声？本文将结合我在图数据上的实战经验，拆解从构建过滤、生成持久图，到选择并优化向量化方法的完整链条，并提供可复现的代码思路和避坑指南。

2. 核心概念拆解：过滤、持久图与向量化

在深入技术细节之前，我们必须建立起对TDA工作流的直观理解。整个过程可以类比为用一台动态的“显微镜”观察数据。

2.1 过滤：为数据构建一个生长过程

过滤（Filtration）是TDA的第一步，也是最关键的一步，它决定了我们能看到什么样的拓扑特征。简单说，就是为你的数据定义一个“尺度”或“阈值”参数，让数据从这个尺度下“生长”出来。

2.1.1 不同数据类型的过滤构建

对于最常见的三种数据类型，构建过滤的思路截然不同：

点云数据：比如一组三维空间中的坐标。最常用的方法是Vietoris-Rips过滤。我们选择一个距离阈值 ε。当 ε=0 时，每个点都是孤立的；随着 ε 增大，距离小于 ε 的点之间会连上边，形成单纯复形；ε 继续增大，三角形、四面体等也会形成。这个过程中，连通区域会合并，环会出现又消失。
- 实操要点：计算所有点对之间的距离矩阵是主要开销。对于大规模点云，通常采用近似算法或先进行降维。giotto-tda或Dionysus库可以高效计算。
图像数据：对于灰度图像，可以将其视为一个在像素网格上的高度函数。子水平集过滤是标准做法：设定一个灰度阈值，将所有灰度值低于该阈值的像素视为“实体”，高于的视为“背景”。随着阈值从0（全背景）增加到255（全实体），拓扑特征随之变化。
- 实操要点：通常将图像二值化后处理更高效。对于彩色图像，可以先转换到灰度空间，或对每个颜色通道分别进行拓扑分析。
图数据：这是本文的重点。图的过滤构建最为灵活，也最需要结合领域知识。主要有两类思路：
- 基于节点/边函数的过滤：为每个节点或边赋予一个实数值（如节点重要性、边权重），然后根据这个值对图进行“过滤”。例如，在社交网络中，用节点度数作为函数，从高度数的核心人物开始，逐步包含低度数的外围成员。
- 基于距离的过滤：比如幂过滤，从图的1-邻域（每个节点及其直接邻居）开始，逐步扩展到2-邻域、3-邻域。这能捕捉图的局部到全局的结构扩张。

注意：对于图数据，选择子水平集过滤（保留函数值低的元素）还是超水平集过滤（保留函数值高的元素），结果可能天差地别。例如，在用节点度数过滤时，子水平集会从低度数节点开始，可能先看到许多孤立点；而超水平集会从高度数核心开始，可能一开始就是一个大连通块。需要根据你的问题语义来决定。一种更完备的方法是使用扩展持久性，它能同时记录两种过滤产生的特征。

2.1.2 阈值选择：分辨率与成本的权衡

构建过滤需要选择一组递增的阈值{ε₁, ε₂, ..., εₘ}。阈值数量m决定了过滤的“分辨率”。

m 太小：可能会错过一些拓扑特征短暂出现又消失的过程，导致信息丢失。
m 太大：计算成本急剧上升（持久同调的计算复杂度通常与单纯形数量呈超线性关系），并且可能引入大量冗余的“噪声”特征，这些特征寿命极短，位于持久图的对角线附近。

经验法则：

对于图数据：如果使用节点/边函数过滤，通常选择10-20个阈值就能取得不错的效果。阈值可以等间距选取，但更佳的方法是：从数据集中随机采样一批图，绘制所有节点函数值的分布直方图，然后选择该分布的分位数（如第10, 20, ..., 90百分位数）作为阈值。这样能更好地适应数据的实际范围。
对于点云：阈值范围通常从0到最大点对距离。计算成本是主要考量，需要在分辨率和计算时间之间取得平衡。可以前半段密集，后半段稀疏，因为大尺度下的拓扑结构往往变化缓慢。
对于图像：灰度值范围是[0,255]。如果关注整个范围，使用50-100个阈值。如果只关心特定灰度区间（如[100,200]），则应将阈值集中在这个区间内。

2.2 持久图：拓扑特征的出生死亡证明

在过滤的每一步，我们都可以计算该尺度下数据的同调群（Homology Groups）。同调群的秩（Betti数）告诉我们当前有多少个k维“洞”。持久同调（Persistent Homology）的精妙之处在于，它不仅仅记录每个尺度下的静态特征，更追踪每个特征在整个过滤过程中的生命周期。

一个1维环（圈）可能在阈值 ε_b 时“诞生”（形成），在 ε_d 时“死亡”（被更密集的连接填满）。我们将这个特征记录为持久图上的一个点(b, d)，其中 b=ε_b 是出生时间，d=ε_d 是死亡时间。点的横纵坐标之差 (d - b) 称为该特征的寿命。寿命越长，说明这个特征在多个尺度下都稳定存在，越可能是数据的本质结构；寿命越短，则越可能是噪声。

所有k维特征的点构成了k维持久图 PD_k。持久图上的点都位于对角线 y=x 的上方。对角线本身（出生=死亡）代表那些瞬间出现又消失的平凡特征，在理论处理中通常被认为具有无穷多重性。

2.2.1 如何解读一张持久图？

假设我们分析一个形状像数字“8”的点云。

PD₀（0维，连通分量）：你会看到大量点沿着x轴（出生时间=0）分布，它们的死亡时间各异。这对应着初始时每个点都是一个独立分量，随着尺度增大，它们逐渐合并。最后会有一个点死亡时间为无穷大（或设定的最大阈值），代表最终那个唯一的连通分量。
PD₁（1维，环）：你会看到两个明显的点远离对角线。一个点坐标大约在(0.3, 0.9)，代表“8”字上方的小环；另一个在(0.6, 1.7)，代表下方的大环。它们的寿命（y-x）都很长，是显著特征。

2.2.2 Wasserstein距离：量化拓扑差异

得到两个数据集X和Y的持久图后，如何比较它们的拓扑相似性？直接比较点集是困难的。Wasserstein距离（又称Earth Mover‘s Distance）是衡量两个持久图之间差异的黄金标准。

直观理解：把一张持久图上的点想象成一堆土堆，另一张图上的点想象成一系列土坑。Wasserstein距离就是把所有土堆搬到土坑里所需的最小“工作量”（这里工作量是点的移动距离）。计算时，允许将点匹配到对角线（即“填平”或“挖出”），这巧妙地处理了两张图特征数量不同的问题。

p-Wasserstein距离：当p=1时，是总搬运成本；p=2时，对成本进行平方惩罚；p=∞时，是瓶颈距离，只关心那个需要移动最远的点对的距离。
如何选择p？如果你的数据拓扑特征数量多且细小特征可能包含信息（如图像纹理），用p=1或2。如果你只关心最显著的拓扑特征（如分子中是否存在某个大空腔），那么瓶颈距离（p=∞）更合适，它对特征数量不敏感，只关注差异最大的那个特征。

3. 向量化实战：将拓扑故事转化为特征向量

持久图是美妙的数学对象，但对机器学习模型不友好。向量化就是将它们转换为固定长度的实数向量。下面介绍几种主流方法及其实现细节。

3.1 Betti曲线：最直观的计数向量

Betti数 β_k(ε) 表示在阈值 ε 下，数据中k维洞的数量。Betti曲线就是随着 ε 变化，β_k(ε) 形成的函数。将其在选定的阈值上采样，就得到了Betti向量。

计算方法：对于给定的阈值序列[ε₁, ε₂, ..., εₘ]，计算每个 ε_i 下的复形 K_i，并计算其k维Betti数 β_k(K_i)。得到的向量就是[β_k(ε₁), β_k(ε₂), ..., β_k(εₘ)]。

Python伪代码思路：

import numpy as np import gudhi as gd def compute_betti_curve(point_cloud, thresholds): """ 计算点云的Betti曲线（以0维为例）。 point_cloud: (n_samples, n_dimensions) 数组 thresholds: 一维数组，过滤阈值 """ betti_numbers = [] # 构建Vietoris-Rips复形（简化示例，实际需用GUDHI等库） # 这里假设有一个函数能计算给定阈值下的Betti数 for eps in thresholds: # 1. 根据eps构建邻接关系（距离 < eps的点相连） # 2. 构建单纯复形（如使用GUDHI的RipsComplex） # 3. 计算该复形的0维Betti数（连通分量数） # beta_0 = gd.rips_complex.RipsComplex(points=point_cloud, max_edge_length=eps).create_simplex_tree().persistence() # 实际计算需要调用持久同调库，并提取0维特征的死亡时间 # 以下为示意 beta_0 = estimate_betti_0(point_cloud, eps) betti_numbers.append(beta_0) return np.array(betti_numbers) # 连接不同维度的Betti向量 betti_0_vec = compute_betti_curve(data, thresholds) betti_1_vec = compute_betti_curve(data, thresholds, dim=1) # 假设有1维计算函数 topological_vector = np.concatenate([betti_0_vec, betti_1_vec])

优点与局限：

优点：计算相对简单，无需先计算完整的持久图，有快速算法。结果非常直观，β₀ 曲线直接反映连通分量的合并过程。
缺点：不稳定。数据的一个微小扰动可能导致一个特征死亡时间发生较大变化，从而让Betti曲线在某个阈值处发生跳跃。在需要稳定性的统计推断中需谨慎使用。

3.2 持久景观：强调显著特征的函数向量

持久景观（Persistence Landscapes）通过一系列分段线性函数来转化持久图，它明确地放大了远离对角线（长寿命）的特征。

生成过程：

对持久图中每个点 (b, d)，构造一个生成函数 Λ(t)，它是一个三角形函数，在 t=b 和 t=d 处为0，在 t=(b+d)/2 处达到峰值 (d-b)/2。
对于每个参数 t，将所有生成函数在 t 处的函数值从大到小排序。
第 m 个持久景观函数 λ_m(t) 就定义为在 t 处，所有生成函数值的第 m 大值。

通常，我们只取前几个（如 λ₁, λ₂）景观函数，在每个阈值上采样，然后拼接成向量。

Python伪代码思路：

def persistence_landscape(persistence_diagram, thresholds, num_landscapes=2): """ persistence_diagram: 列表，元素为 (dim, (birth, death)) 元组 thresholds: 采样点序列 num_landscapes: 要计算的景观层数 """ # 分离出特定维度的点，例如维度1（环） points = [p for dim, p in persistence_diagram if dim == 1] landscapes = np.zeros((num_landscapes, len(thresholds))) for idx, t in enumerate(thresholds): values_at_t = [] for b, d in points: if b <= t <= d: # 计算三角形函数在t处的值 if t <= (b+d)/2: value = t - b else: value = d - t values_at_t.append(value) else: values_at_t.append(0) # 排序并取前N个最大值 values_at_t.sort(reverse=True) for k in range(num_landscapes): landscapes[k, idx] = values_at_t[k] if k < len(values_at_t) else 0 # 将多层景观展平为一个向量 return landscapes.flatten()

优点：具有稳定性保证，对噪声不敏感，能有效突出重要拓扑特征。在学术研究中应用广泛。

3.3 轮廓：加权平均的灵活变体

轮廓（Silhouette）可以看作是持久景观的一种平滑和加权版本。它不再取第k大值，而是对所有生成函数 Λ_i(t) 进行加权平均。

公式：ψ_p(t) = [Σ_i (d_i - b_i)^p * Λ_i(t)] / [Σ_i (d_i - b_i)^p]

核心在于权重参数 p：

p > 1（如 p=2）：赋予长寿命特征更大的权重，进一步抑制噪声。当你的数据中只有少数几个关键拓扑模式时，这是好选择。
p = 1：线性加权，每个特征的贡献正比于其寿命。
p < 1（如 p=0.5）：赋予短寿命特征相对更大的权重。当数据的“纹理”（即大量小特征）可能包含重要信息时（如某些纹理图像），可以尝试。

实操心得：p是一个强大的超参数。在我的图分类任务中，我发现当图的拓扑结构由少数几个明显的社区（长寿命的0维特征）决定时，p=2的轮廓效果最好。而当任务与图中大量短程循环（如化学分子中的小环）有关时，p=0.5能带来性能提升。建议在验证集上对p进行网格搜索。

3.4 持久图像：将持久图转化为2D特征图

持久图像（Persistence Images）的思路完全不同。它将持久图上的每个点 (b, d) 视为一个2D高斯分布的中心，然后在整个定义域上积分，生成一个像图像一样的2D网格（矩阵）。

步骤：

对每个点赋予权重，通常为寿命的p次方：w_i = (d_i - b_i)^p。
将每个点转化为一个2D高斯函数：G_i(x,y) = w_i * exp(-[(x-b_i)²+(y-d_i)²]/(2σ²))。
在持久图区域上定义一个 k x l 的网格。
对每个网格单元 (r,s)，计算所有高斯函数在该单元上的积分值（或近似为在网格中心的值），得到矩阵元素 μ_rs。
最终得到的 k x l 矩阵就是持久图像，可以展平为向量使用。

关键超参数：

分辨率 (k, l)：决定了输出向量的维度。需要平衡信息保留和模型复杂度。
带宽 σ：高斯函数的标准差。σ 小，图像尖锐，对点位置敏感；σ 大，图像平滑，更稳定但可能丢失细节。一种自适应策略是让 σ_i 与点的寿命成正比。
权重指数 p：与轮廓中的p作用类似，控制对长/短寿命特征的强调。

优点：输出是结构化的2D数组，非常适合作为卷积神经网络（CNN）的输入，能与深度学习框架无缝结合。同样具有稳定性。

3.5 核方法：隐式高维空间中的相似度计算

核方法不进行显式向量化，而是直接定义两个持久图之间的相似性函数（核函数）。这个核函数可以代入支持向量机（SVM）等核方法中使用。

持久加权高斯核：计算两个持久图中所有点对之间的加权高斯核，权重通常是点的寿命。它强调长寿命特征之间的匹配。
切片Wasserstein核：基于Wasserstein距离构建核函数，理论性质优美。

优点：有时能获得比显式向量化更好的性能，尤其是当核函数设计得当时。缺点：计算成本高。对于包含N个样本的数据集，计算核矩阵需要 O(N²) 次持久图两两比较，在大数据集上不实用。而显式向量化是 O(N) 的。

4. 图数据拓扑分析专项指南

图数据是TDA应用的热点领域，但也面临独特的挑战，主要是计算复杂度。一个具有n个节点的图，其单纯复形的规模可能达到O(2^n)。下面介绍两种关键的加速技术。

4.1 图约简：CoralTDA与PrunIT

在计算图的持久同调时，我们经常发现大部分计算消耗在那些对最终持久图没有贡献的部分上。两种约简策略可以大幅提升效率。

4.1.1 CoralTDA：利用k-核过滤

k-核（k-core）是图的一个子图，其中每个节点的度数至少为k。一个关键的理论发现是：一个图的 (k+1)-核包含了计算其k维持久图 PD_k(G) 所需的全部信息。

这意味着什么？如果你想计算1维持久图（追踪环），你只需要在图的2-核上计算即可。那些度数小于2的节点（悬挂节点、叶子节点）根本不会参与1维环的形成，可以安全移除。这通常能极大减少图的规模。

Python实现示例（使用NetworkX）：

import networkx as nx def reduce_by_coral_tda(graph, target_dim=1): """ 使用CoralTDA思想对图进行约简，以计算target_dim维持久同调。 graph: NetworkX图 target_dim: 目标维度，例如要计算PD1，则target_dim=1 """ # 计算 (target_dim + 1)-core k_core = nx.k_core(graph, k=target_dim + 1) return k_core # 示例：计算一个社交网络的1维拓扑特征，只需在其2-核上进行 original_graph = load_your_graph() reduced_graph = reduce_by_coral_tda(original_graph, target_dim=1) # 然后在 reduced_graph 上构建过滤并计算PH，结果与在 original_graph 上计算 PD1 相同。

4.1.2 PrunIT：支配节点剪枝

另一种约简策略基于“支配”关系。如果节点u的1-邻域完全包含节点v的1-邻域（即N(u) ⊃ N(v)），则称u支配v。只要在过滤中，被支配节点v的加入时间晚于支配节点u，那么移除v将不会改变任何维度的持久图。

这类似于在社交网络中，如果一个“小透明”的所有朋友都是一个“核心人物”的朋友的子集，那么在某些分析中，移除这个“小透明”可能不影响整体结构。PrunIT算法通过迭代识别并移除被支配节点来压缩图。

实操建议：对于大规模图，先应用CoralTDA进行快速粗剪枝，再考虑使用PrunIT进行进一步精细约简。组合使用这两种方法，我在处理万节点级别的引文网络时，将持久同调计算时间减少了70%以上。

4.2 过滤函数的选择策略

对于图数据，过滤函数f: V → R（节点函数）或g: E → R（边函数）的选择至关重要，它决定了你观察图的“视角”。

领域特定函数是最优解：如果任务本身有明确的节点/边权重，就用它。例如，在蛋白质相互作用网络中，使用蛋白质的某种重要性得分；在交通网络中，使用边的通行时间或流量。
通用启发式函数：当没有明确函数时，可以考虑：
- 节点函数：热核签名。它描述了热量在图上扩散后节点上的分布，能捕捉节点在多尺度下的局部结构信息，对图的小扰动相对稳定。
- 边函数：Ollivier-Ricci曲率。衡量边在网络中作为“桥”或“冗余连接”的程度。高曲率边通常是连接不同社区的桥，低曲率边则位于社区内部。这能很好地区分边的结构角色。
可学习的过滤函数：这是当前的前沿方向。与其手动设计，不如将过滤函数参数化（如一个小神经网络），并与下游的机器学习任务（如图分类）进行端到端联合训练。让模型自己学会从哪个“视角”看图的拓扑对任务最有用。已有一些开源代码（如TopoModelX中的组件）可以尝试集成。

5. 工程实践：流程、调参与问题排查

将TDA集成到机器学习流水线中，需要一套系统的工程方法。

5.1 标准工作流与代码框架

一个稳健的TDA特征提取流程如下：

数据预处理：归一化节点/边函数值，确保阈值范围一致。
图约简（可选但推荐）：根据目标维度应用CoralTDA或PrunIT。
构建过滤：选择过滤函数和阈值序列。务必在整个训练集上计算阈值分布（如分位数），并用相同的阈值序列应用于验证集和测试集，这是避免数据泄露的关键。
计算持久图：使用gudhi、ripser或Dionysus等库。对于图数据，gudhi的FlagComplex或SimplexTree结合自定义过滤函数是常用选择。
向量化：选择一种或多种方法（如Betti曲线、持久图像）将持久图转换为特征向量。
特征集成：将得到的拓扑特征向量与传统的图特征（如节点度分布、聚类系数）或节点嵌入拼接，形成最终的特征向量。
模型训练与评估：使用常规的ML模型（如随机森林、SVM、GNN）进行训练。

示例代码框架：

import numpy as np import gudhi as gd from sklearn.preprocessing import StandardScaler from sklearn.ensemble import RandomForestClassifier from sklearn.model_selection import train_test_split class TDAFeatureExtractor: def __init__(self, filtration_func='degree', thresholds=20, vectorization='betti'): self.filtration_func = filtration_func self.thresholds = None # 将从训练数据学习 self.vectorization = vectorization def fit(self, list_of_graphs): # 1. 从训练集中学习阈值 all_func_values = [] for G in list_of_graphs: if self.filtration_func == 'degree': values = list(dict(G.degree()).values()) # ... 其他函数 all_func_values.extend(values) # 选择分位数作为阈值 self.thresholds = np.quantile(all_func_values, np.linspace(0, 1, self.thresholds)) return self def transform(self, list_of_graphs): features = [] for G in list_of_graphs: # 2. 为每个图构建过滤序列并计算PH # 此处简化，实际需构建 simplex tree 并计算持久同调 # pd = compute_persistence_diagram(G, self.thresholds) # 3. 向量化 if self.vectorization == 'betti': vec = compute_betti_vector(pd, self.thresholds) # elif ... 其他向量化方法 features.append(vec) return np.array(features) # 使用流程 graphs, labels = load_data() X_tda = TDAFeatureExtractor(vectorization='persistence_image').fit_transform(graphs) X_combined = np.hstack([X_tda, traditional_graph_features]) # 结合传统特征 X_train, X_test, y_train, y_test = train_test_split(X_combined, labels) clf = RandomForestClassifier().fit(X_train, y_train) score = clf.score(X_test, y_test)

5.2 超参数调优指南

TDA流水线中的超参数需要仔细调整：

过滤相关：
- 阈值数量 (m)：从10-20开始尝试。使用验证集性能作为指导。增加m直到性能平台期或计算时间不可接受。
- 阈值选取策略：等间距 vs. 基于数据分位数。后者通常更鲁棒，特别是当数据函数值分布不均匀时。
向量化相关：
- Betti曲线：几乎无需调参，除了阈值。
- 轮廓 (Silhouette)：权重指数 p是最关键的参数。在 {0.5, 1, 2} 中网格搜索。
- 持久图像 (Persistence Image)：
  - 分辨率 (k, l)：从较小的网格开始（如10x10），逐步增加。分辨率越高，特征维度越高，可能需配合降维（如PCA）。
  - 带宽 σ：尝试与平均寿命成比例的值，如 σ = 0.1 * (平均寿命)。也可以作为一个超参数进行搜索。
  - 权重指数 p：同上，在 {0.5, 1, 2} 中尝试。
通用策略：由于TDA特征计算成本较高，建议采用分层调参。先固定向量化方法（如从Betti曲线开始），优化过滤参数（阈值数量、函数）。然后，用找到的最佳过滤参数，去比较不同向量化方法及其参数。使用贝叶斯优化等高效超参搜索工具可以节省时间。

5.3 常见问题与解决方案

问题1：计算时间太长，特别是对于大图。

排查：首先确认图的规模。检查是否应用了图约简（CoralTDA）。确认过滤阈值数量是否过多。
解决：
- 强制使用CoralTDA进行预约简。
- 减少阈值数量，或使用非均匀阈值（在函数值变化剧烈的区域密集，平缓区域稀疏）。
- 考虑使用近似持久同调算法或采样方法（如对点云进行下采样）。
- 对于非常大的图，可以尝试在图的子结构（如通过随机游走采样子图）上计算拓扑特征，再进行聚合。

问题2：拓扑特征没有带来性能提升，甚至使模型变差。

排查：检查拓扑特征是否与任务相关。可视化一些样本的持久图，看不同类别的图在拓扑上是否有肉眼可辨的差异。检查特征缩放，拓扑特征可能与传统特征尺度差异巨大。
解决：
- 特征选择/降维：拓扑特征可能维度高且存在冗余。使用PCA、t-SNE进行可视化，或使用LASSO等嵌入特征选择的方法进行筛选。
- 调整向量化方法：如果你认为长寿命特征重要，尝试用p=2的轮廓或持久图像。如果你认为短寿命特征（“纹理”）重要，尝试p=0.5或Betti曲线。
- 重新审视过滤函数：可能当前选择的节点/边函数无法揭示对分类有用的拓扑差异。尝试热核签名、Ollivier曲率等更复杂的函数，或者探索可学习的过滤函数。
- 检查信息泄露：确保阈值是在训练集上确定的，再应用于测试集。

问题3：向量化后的特征维度不一致。

排查：这通常不会发生，因为向量化方法（Betti曲线、轮廓等）输出固定长度。如果维度不一致，可能是由于不同样本的持久图点数量不同，但在计算向量化函数时采样点（阈值）是固定的，所以输出维度应一致。
解决：确保为所有样本使用完全相同的阈值序列进行向量化函数的计算或采样。这是流程中的关键步骤。

问题4：如何解释拓扑特征对模型预测的贡献？

排查：这是TDA的一大优势——可解释性。但需要将向量化特征反向映射回原图。
解决：
- 对于Betti曲线，可以观察是哪个阈值区间内的连通分量或环的数量对分类最重要。
- 对于持久图像，可以找出对分类器权重贡献最大的图像区域，对应回持久图中寿命在特定范围的(b,d)点。
- 更高级的方法是使用拓扑注意力机制，或者识别出那些产生重要（长寿命）拓扑特征的原始数据子结构（例如，是图中的哪个子图形成了一个稳定的环？）。这需要跟踪持久同调计算过程中的生成元（cycles），一些库如gudhi提供了相关接口。

拓扑数据分析为理解复杂数据的形状打开了一扇新窗户。它不是一个“即插即用”的银弹，而是一套需要精心调校的工具。从理解过滤的语义开始，选择合适的向量化方法来捕捉你关心的拓扑模式，再到严谨的工程实现和调参，每一步都需要结合具体数据和任务进行思考。当传统特征乏力时，不妨试试TDA，它可能会为你揭示数据中隐藏的几何奥秘。在我的项目中，正是通过分析分子图中环状结构的持久性，成功区分了具有相似原子组成但活性迥异的化合物，这是传统图特征难以做到的。