1. 多维尺度分析(MDS)技术原理与核几何映射
多维尺度分析(MDS)作为一种经典的降维技术,其核心目标是将高维数据点间的相似性关系在低维空间中保持。在核几何的上下文中,我们首先需要构建基于欧几里得平方距离的矩阵D = d²√JS,其中JS代表Jensen-Shannon散度。这个距离矩阵承载了不同核函数之间的概率差异信息。
1.1 距离矩阵的双重中心化处理
MDS算法的第一步是对距离矩阵进行双重中心化处理。这个数学操作的本质是消除数据的平移影响,使得后续分析能够专注于数据点之间的相对关系而非绝对位置。具体操作如下:
- 计算平方距离矩阵D^(2),其中每个元素d_ij²表示第i个和第j个核函数之间的平方距离
- 构建双重中心化矩阵B = -1/2 * J D^(2) J,其中J = I - 1/n * 11'是中心化矩阵
- 这个处理确保了最终得到的Gram矩阵B能够反映数据的内在几何结构
关键提示:双重中心化处理是MDS能够保持距离关系的关键步骤,它消除了坐标系选择带来的任意性,使得后续分析具有旋转和平移不变性。
1.2 特征分解与低维嵌入
完成双重中心化后,我们通过对Gram矩阵进行特征分解来获取数据的低维表示:
B = VΛV'其中Λ是对角矩阵,包含按降序排列的特征值,V是对应的特征向量矩阵。我们选择前p个正特征值及其对应的特征向量,计算嵌入坐标:
X = V_p Λ_p^(1/2)这样得到的X就是一个n×p的矩阵,其中每一行对应一个核函数在p维空间中的坐标。在实际应用中,p通常远小于原始核库的大小(如10-20维),这得益于组合核函数之间存在的强几何相关性。
1.3 核几何的连续表示
通过MDS得到的坐标本身并不具备直接的可解释性,它们的意义来自于所保持的几何关系。在嵌入空间中:
- 诱导相似高斯过程先验的核函数会彼此靠近
- 产生不同分布的核函数则会相距较远
这种表示将原本离散的核库转化为一个连续的Rp空间表示,反映了核函数空间的内在结构。图11和图12的实验结果表明,MDS空间中的核坐标能够很好地表示真实的成对距离。
2. 核空间几何结构的验证与分析
2.1 k-means聚类验证
为了验证提出的核流形的有效性,我们在嵌入空间上进行了独立的结构分析。使用k-means聚类(k=5)对15维MDS坐标进行分析,观察到在使用提出的概率度量时,簇内和簇间成对距离存在明显分离:
- 簇内距离紧密集中在零附近(不相似度D < 0.1)
- 簇间距离则分布在更广的范围(0.1 < D < 0.5)
这种清晰的分离表明,嵌入空间中归为一组的核函数诱导了高度相似的高斯过程先验,而不相似的核函数在几何上也被很好地分离开来。图13和图14通过箱线图和直方图直观展示了这种分离模式。
2.2 层次聚类补充验证
补充的层次聚类分析进一步确认了这一结构。图15中的树状图显示:
- 密切相关的核函数在非常低的连接距离处合并
- 逐渐不相似的核函数只在更大的距离处聚集
当成对距离矩阵根据层次结构重新排序时,会出现明显的块对角模式,揭示了组内距离持续较小的区域。这些分析表明,15维嵌入保留了有意义的结构相似性:在嵌入空间中接近的核函数在k-means和层次聚类下都保持接近,为贝叶斯优化提供了可靠的几何基础,用于推理相似性、多样性和探索。
3. 核空间的贝叶斯优化实现
3.1 核空间的高斯过程代理模型
为了在核空间上应用贝叶斯优化,我们构建了一个高斯过程代理模型,其输入是核描述符而非物理输入。核库中的每个核都由MDS嵌入得到的一个点zi∈Rp表示,与每个点关联的目标是对应GP模型拟合数据的对数边际似然。
我们在嵌入核坐标上定义了一个几何感知的"核的核"协方差函数。从一个在MDS坐标上的平稳径向基函数(RBF)核开始:
kK(zi,zj) = σ² exp(-∥zi - zj∥²₂ / 2ℓ²)其中欧几里得距离∥zi - zj∥₂近似于相应GP先验之间的转换后的概率不相似性。由于嵌入保持了核-核距离,这个协方差将高相似性分配给诱导相似分布的核,将低相似性分配给具有不同归纳偏置的核。
在实验中,我们还评估了一个多尺度"核的核"代理模型,建模为具有不同长度尺度的RBF分量的混合:
kK_multi(zi,zj) = Σ wm exp(-∥zi - zj∥²₂ / 2ℓ²m)这捕捉了核流形中的局部和全局结构。这种构造产生了一个定义在核空间本身上的高斯过程,允许BO利用核空间中的平滑性和不确定性结构。
3.2 贝叶斯优化流程
在MDS嵌入空间上执行BO的最后一步是:
- 在嵌入坐标上放置高斯过程代理模型,使用标准核(如平方指数或Matérn)来捕捉流形上模型证据的平滑变化
- 目标函数仍然是由候选核定义的GP模型的对数边际似然
- 由于这个评估很昂贵(需要超参数学习和后验计算),BO框架提供了一个样本高效的机制来识别有前景的核
- 获取函数(通常是预期改进)在连续潜在空间上进行优化
- 获取最大化产生一个连续坐标,然后匹配到最近的嵌入核进行评估
- 用这个新观察更新代理模型,并重复该过程
通过迭代,BO以原则性的方式探索核流形,偏好具有高不确定性或高预测证据的区域,同时避免对相似核的冗余评估。
4. 实验结果与性能分析
4.1 合成函数与真实数据基准测试
我们在十个不同的函数上评估了通过BO进行的核选择:七个经典合成基准(Eggholder、Ackley、Dropwave、Schwefel、Rastrigin、Lévy和Bukin)和三个真实世界时间序列数据集(国际航空公司乘客、Mauna Loa CO2和内部热历史序列)。
在合成基准上,使用多尺度"核的核"代理模型的核选择空间上的BO显示出更快的收敛速度和明显减少的方差。对于崎岖和欺骗性的景观(如Eggholder和Schwefel),它迅速逃离不良区域并在几次迭代内接近接近最优区域,而单RBF"核的核"基线进展较慢且经常陷入局部最小值。
具有振荡或周期结构的函数(Dropwave、Rastrigin)受益于核流形几何:周期性和准周期性核在嵌入中相邻,使得能够有效选择适当的模型。相比之下,标准RBF模型对这些函数过度平滑,产生较慢且不太稳定的收敛。
三个真实世界时间序列数据集提出了不同的挑战,包括长程依赖、季节成分、不规则周期、趋势-季节性交互和非平稳结构。在所有案例中,多尺度"核的核"BO都优于其他方法,证实了"核的核"表示在真实、嘈杂、工业相关数据上的实用性。
4.2 与LLM引导遗传算法的比较
我们将基于BO的核结构优化策略与LLM引导的遗传算法(LLM-GA)搜索方法和随机搜索基线进行了比较。结果显示:
- 单RBF和多尺度"核的核"BO在大多数函数上达到最高或并列最高的LML
- 两种LLM-GA变体都大幅落后并表现出大方差
- 性能对LLM-GA突变概率高度敏感,表明不稳定的搜索动态和需要仔细调整
- 即使是纯探索(随机核选择)通常也优于基于LLM的方法
LLM-GA相对于我们的几何方法的持续表现不佳,突显了符号探索与高斯过程先验的功能几何之间的基本不匹配。由于LLM通过自回归令牌预测而非几何推理操作,它们高度容易受到"句法脆弱性"的影响。
4.3 案例研究:增材制造中的熔池几何数据
我们将框架应用于由激光功率和扫描速度定义的二维工艺参数空间,使用Thermo-Calc®增材制造(TCAM)模块计算的熔池宽度作为输出量。结果显示:
- 在稀疏数据集上使用默认RBF核训练GP导致显著缺陷:预测均值缺乏局部保真度,不确定性图在稀疏采样区域显示广泛的高方差区域
- 优化后的核显著缓解了这些问题:尽管使用相同的稀疏训练集,预测的宽度场与TCAM测量结果密切匹配,预测不确定性在输入域上几乎均匀且较低
- 这表明优化的复合核可以灵活地表示底层物理过程,同时捕获功率和速度之间的平滑趋势和微妙交互,而不会过拟合
从工程角度来看,这些结果很重要。制造工艺设计通常需要对尚未通过实验探索的参数空间区域有信心。那些区域的高不确定性可能转化为昂贵的试错。通过将整个符号核库嵌入到Hellinger信息的MDS空间中,该框架自动选择其归纳偏置最匹配激光-物质相互作用多尺度物理的核,即使远离训练数据也能提供可靠的预测。
4.4 案例研究:使用优化核的贝叶斯优化
为了评估核优化如何影响贝叶斯优化性能,我们首先使用"核的核"框架识别每个测试函数的最佳复合核,然后将测试函数本身视为BO目标,并比较两个代理:选定的复合核与标准RBF核。结果显示:
- 对于Dropwave和Ackley函数,具有任务特定复合核的BO始终优于RBF基线
- 复合核在最初几次迭代内就接近观察到的最佳值,而RBF核收敛较慢且具有更高的变异性
- 这些改进是在不修改获取策略或优化预算的情况下实现的,确认观察到的收益完全来自于"核的核"方法实现的几何感知核选择
在多目标贝叶斯优化TCAM基的可打印性标准时,使用优化复合核的BO比RBF基线实现了更快的超体积增长和更高的最终超体积。这表明所有三种缺陷模式的同时减少更有效。优化核方法还显示出改进的样本效率和跨运行的减少变异性,突出了学习核表示的鲁棒性。
5. 实施细节与性能考量
5.1 计算效率比较
我们比较了提出的基于BO的核结构优化策略与LLM-GA工作流和纯探索的计算效率。结果显示:
- LLM-GA工作流产生了显著更高的计算时间,平均需要我们提出的BO方法和纯探索执行时间的3.4至5.7倍
- 这种开销可归因于查询LLM进行基于提示的核生成所固有的推理延迟,以及重复API调用的累积延迟
- BO方法在保持计算效率的同时,实现了更好的优化效果
5.2 核优化的预算影响
虽然核优化会产生绝对计算开销,但其实际影响必须相对于真实贝叶斯优化工作流中目标评估的成本来解释。在许多科学和工程应用中:
- 单个BO迭代对应于昂贵的实验或模拟,通常从几分钟到几小时或几天不等
- 在静态数据集上执行核优化会产生约1-2分钟的初始成本
- 随后的BO迭代可能每个评估需要10分钟(或更多)
- 经过10次BO迭代后,数据集增长到60个点,重新优化核再次产生可比较的边际成本
- 在这种机制下,核优化相对于约100分钟用于目标评估,贡献了约2分钟的开销,相当于总运行时间增加约2%
随着单个BO评估成本的增加(例如到30分钟、几小时甚至几天的实验),核优化引入的相对开销迅速下降并变得可以忽略不计。因此,内联核优化不会显著膨胀总BO预算,并且在代理保真度对样本效率至关重要的情况下是完全合理的。