CatBoost模型在银河系恒星年龄测定中的应用与天体物理发现-编程实验室

1. 项目概述：当机器学习遇见银河考古

给几十万甚至上百万颗恒星“测年龄”，听起来像是天方夜谭，但这正是当前银河系考古学（Galactic Archaeology）最核心也最棘手的挑战之一。恒星年龄是解读星系形成历史的“化石记录”，但传统的测年方法——比如将观测到的恒星参数（温度、光度、金属丰度）与复杂的恒星演化模型（如BaSTI、MIST）进行比对——不仅计算量巨大，还严重依赖于模型本身的物理假设，系统误差难以避免。

我的工作，就是尝试用机器学习这把“新锤子”，来敲开恒星年龄测定这扇厚重的大门。具体来说，我构建了一个基于CatBoost回归器的模型，目标是为斯隆数字巡天（SDSS）APOGEE DR17数据释放中的红巨星，批量估算出经过星震学校准的可靠年龄。最终，我们生成了一个包含125,445颗恒星的年龄星表，不仅效率远超传统方法，还意外地发现了银河系近期可能存在气体吸积事件的新证据。如果你对如何将前沿的数据科学工具应用于基础科学问题感兴趣，或者正在寻找一个特征工程与模型优化紧密结合的实战案例，那么接下来的内容或许能给你带来一些启发。

2. 核心思路与方案选型：为什么是CatBoost？

在动手敲代码之前，选择一个合适的模型框架至关重要。面对恒星物理参数与年龄之间复杂的、非线性的、且可能存在多重共线性的关系，我们为什么最终选择了CatBoost？

2.1 树模型家族的优势

首先，我们排除了简单的线性模型。恒星演化绝非线性过程，金属丰度（[Fe/H]）与年龄的关系、不同元素丰度比（如[α/Fe]）所蕴含的化学演化信息，都需要模型有强大的非线性拟合能力。神经网络当然是一个选择，但对于我们这种数据量（训练集约6500颗星）并非极度庞大、且需要模型具备良好可解释性以验证天体物理合理性的场景，基于决策树的集成学习方法展现出了独特的优势：

对特征量纲不敏感：我们的输入特征包括以K为单位的有效温度（Teff）、以dex为单位的对数表面重力（log g）和金属丰度、以及以kpc为单位的空间坐标。树模型不需要我们做繁琐的标准化，简化了预处理流程。
天然处理混合类型数据：虽然本项目特征全是数值型，但树模型能轻松处理类别型特征，为未来纳入恒星光谱类型等离散信息留有余地。
捕捉复杂交互：决策树通过层层分裂，可以自动捕捉到特征之间高阶的交互作用，例如“高[α/Fe]且低[Fe/H]”可能共同指向一颗年老恒星。
一定的可解释性：通过特征重要性排序，我们可以知道哪些参数（如log g、[α/Fe]）对年龄预测贡献最大，这与天体物理学的先验知识相互印证，增加了结果的可信度。

2.2 CatBoost的脱颖而出

在梯度提升决策树（GBDT）家族中，我们有XGBoost、LightGBM和CatBoost等多个优秀选择。CatBoost最终胜出，主要基于其在工程实践上的几个关键特性，这些特性对于科学数据建模尤为重要：

有序提升（Ordered Boosting）：这是CatBoost解决“预测偏移”（Prediction Shift）问题的核心。传统GBDT在计算梯度时使用相同的全数据集，容易导致模型过拟合。CatBoost采用一种排列顺序，为每个样本计算梯度时只使用排在该样本之前的样本，这大大降低了过拟合风险，对于天文学中常见的小样本、高噪声数据尤其友好。
对类别特征的原生优化：虽然本项目未使用，但其高效的类别特征处理方式意味着未来扩展模型时（例如加入观测仪器或天区信息）会更加顺畅。
鲁棒性与精度：在许多公开数据集的基准测试中，CatBoost在避免过拟合的同时，常常能取得最佳或接近最佳的精度。对于我们的科学目标——生成一个可靠、稳健的年龄星表——模型的稳健性比追求极限的微小精度提升更为重要。

注意：模型选择没有银弹。我们也在前期用相同数据测试了XGBoost和LightGBM。CatBoost在验证集上表现出更稳定的中位数分数误差（Median Fractional Error），特别是在年龄分布的极端区域（如年老星），其误差增长更缓慢，这直接坚定了我们的选择。

2.3 整体技术路线图

我们的项目管线可以概括为以下核心步骤：

数据制备：整合APOKASC-2（Kepler星震样本）和TESS-SCVZ星震样本，与APOGEE DR17进行交叉匹配，获得约6539颗拥有星震学年龄（作为训练标签）和丰富光谱参数的恒星。
特征工程与筛选：从APOGEE和Gaia数据中提取候选特征，通过物理意义分析和统计相关性（如斯皮尔曼相关系数）筛选出最具预测力的子集。
数据预处理：处理数据偏移、解决年龄标签分布极不均匀（样本中年轻星远多于年老星）的问题。
模型训练与优化：使用CatBoostRegressor，通过网格搜索和交叉验证优化超参数。
模型验证与泛化：在独立的K2-GALAH星震样本上测试模型性能，评估其泛化能力。
大规模预测与应用：将训练好的模型应用于APOGEE DR17主红巨星样本（MRS），生成年龄星表，并进行天体物理学分析。

3. 数据基石：构建可靠的训练样本

机器学习模型的上限由数据决定。在天体物理领域，获取大量、高精度、标签可靠的训练数据本身就是一项重大挑战。

3.1 星震学年龄：我们追求的“黄金标准”

恒星年龄无法直接测量，必须通过模型推断。星震学（Asteroseismology）通过分析恒星亮度随时间变化的微小脉动（即星震），可以极其精确地推算出恒星的平均密度。结合有效温度、金属丰度等参数，就能以较高的精度确定恒星的年龄。来自Kepler卫星的APOKASC-2星表和TESS卫星的MCK星表，提供了这样一批经过星震学精确校准的恒星年龄，它们构成了我们模型的“真相”标签。

然而，这两个来源的数据存在系统偏移。下图展示了两个样本在关键参数上的分布差异，这种“数据偏移”如果不加处理，会直接损害模型的泛化性能。

参数	APOKASC-2 样本特点	MCK (TESS) 样本特点	潜在影响与处理
有效温度 Teff	分布相对集中，偏重于较冷的红巨星	覆盖范围更广，包含更多较热的恒星	合并样本可拓宽模型适用的温度范围，但需注意边缘区域的预测不确定性。
金属丰度 [Fe/H]	更偏向于金属丰度较高的恒星	包含了更多贫金属星	有利于模型学习到金属丰度与年龄关系的完整谱系，对研究银河系早期演化至关重要。
表面重力 log g	由于观测选择效应，log g分布可能不同	分布可能更接近“自然”的红巨星分布	合并后使训练数据分布更接近我们要预测的APOGEE MRS总体分布。
空间位置	主要指向Kepler连续观测场	分布在TESS的连续观测带	合并减少了空间选择偏差，使模型更少依赖于特定天区的特殊性质。

我们的策略是将两个样本合并，形成一个更具多样性和代表性的训练集。这相当于告诉模型：“你要学会适应来自不同仪器、不同观测条件的数据。” 实践证明，这种处理显著提升了模型在未知数据上的稳定性。

3.2 特征选择：给模型“投喂”正确的信息

APOGEE DR17提供了数百个光谱学测量值，从整体金属丰度到单个元素的丰度比。全盘输入不仅会造成“维度灾难”，还会引入大量噪声。我们的特征选择遵循两个原则：天体物理意义和统计显著性。

核心特征集最终包括：

基本物理参数：有效温度Teff、表面重力log g、整体金属丰度[Fe/H]、α元素丰度比[α/Fe]。这些是恒星结构和演化的基石。
关键化学丰度：我们特别关注了[Ce/Fe]（铈铁比）。铈是s-过程元素的主要代表，其丰度随恒星年龄和诞生环境有显著变化，是潜在的“化学时钟”。但需注意，APOGEE对弱吸收线的测量在低信噪比下不可靠，我们通过设定[Ce/Fe]误差阈值，剔除了低质量数据点。
运动学与空间坐标：从Gaia DR3数据中导出的银河系坐标系下的位置（X, Y, Z）和速度（U, V, W），以及轨道参数如引导半径R_guide。这些信息将恒星置于银河系的动力学背景中，年老恒星和年轻恒星在运动学特性上存在系统性差异。
光度与质量：基于Gaia测光和距离估算的恒星光度L，以及通过光谱或星震关系估算的质量M。

我们使用斯皮尔曼秩相关系数矩阵来可视化特征与年龄、以及特征之间的相关性。例如，我们发现[α/Fe]与年龄有较强的正相关（年老恒星通常α元素更富集），而[Fe/H]与年龄整体呈负相关（年轻恒星通常金属含量更高），这与银河系化学演化图像一致。剔除高度共线的特征，防止了模型权重分配失真。

实操心得：警惕“数据泄露”。一个常见的陷阱是使用了“未来信息”。例如，绝不能使用任何基于等龄线或演化模型本身推导出的参数（如某些质量、年龄的初始估计值）作为特征来预测年龄，这会导致严重的循环论证和虚假的高精度。我们所有特征都是独立于年龄标签的观测值或直接推导值。

4. 模型构建实战：从数据清洗到超参调优

有了干净的数据和明确的特征，接下来就是搭建和训练CatBoost模型的核心环节。这个过程充满了工程细节上的抉择。

4.1 应对不平衡的年龄分布

天文样本的一个典型问题是：年轻恒星的数量远多于年老恒星。在我们的训练集中，年龄小于50亿年的恒星占了绝大多数，而超过100亿年的恒星非常稀少。如果直接用原始数据训练，模型会倾向于优化对年轻星的预测，而“忽视”年老星，导致对年老星的预测误差极大。

我们采用了组合策略来解决这个问题：

目标变量变换：对年龄标签Age取以10为底的对数，即log10(Age)。这个非线性变换压缩了年龄的动态范围，使得年轻星和年老星在数值尺度上的差异减小，优化算法能更平等地对待所有样本的误差。
随机过采样：针对“年老星”（我们定义为Age > 10 Gyr）这一少数类别，进行随机过采样，增加其在训练集中的副本数量。这相当于在每次训练迭代中，让模型更多地“看到”并学习年老星的特征模式。

# 示例代码：使用imbalanced-learn库进行随机过采样 from imblearn.over_sampling import RandomOverSampler # 定义多数类和少数类（这里简化以年龄10 Gyr为界） # X_train, y_log_age_train 是原始训练特征和对数年龄 ros = RandomOverSampler(sampling_strategy={1: 500}, random_state=42) # 将少数类样本数增加到500 X_train_resampled, y_train_resampled = ros.fit_resample(X_train, y_log_age_train)

为什么这么做有效？对数变换改变了损失函数的景观，使得预测误差在年轻和年老区域对总损失的贡献更加均衡。过采样则从数据层面给予了少数类更多的权重。两者结合，确保了模型在整个年龄区间都有较好的表现。最终评估时，我们的模型在10-11 Gyr年龄区间的中位数分数误差达到了约7%，而对于最难预测的年龄小于1 Gyr的恒星，误差约为43%，这符合天体物理预期（年轻星在赫罗图上聚集，难以区分）。

4.2 CatBoost超参数调优详解

CatBoost有许多超参数，我们通过网格搜索结合5折交叉验证，寻找在验证集上分数误差中位数最小的组合。以下是几个关键参数及其物理意义：

超参数	含义与作用	我们探索的范围与最终选择	调优考量
`learning_rate`	学习率，控制每棵树的贡献权重。	`[0.01, 0.03, 0.05, 0.1]`	较小的学习率（如0.03）通常需要更多树（`iterations`）来达到良好拟合，但模型更平滑、泛化更好。我们最终选择了0.05，在训练效率和精度间取得平衡。
`depth`	单棵决策树的最大深度。	`[4, 6, 8, 10]`	深度越大，树越复杂，拟合能力越强，但也更容易过拟合。考虑到特征数量中等且关系复杂，深度6-8表现最佳，能捕捉交互作用而不至于过度记忆噪声。
`l2_leaf_reg`	叶子权重的L2正则化系数。	`[1, 3, 5, 10]`	惩罚叶子节点取值的极端情况，是控制过拟合的强力工具。我们的数据有一定噪声，适度的正则化（如3）有助于提升稳健性。
`iterations`	boosting迭代次数（树的数量）。	`[500, 1000, 1500]`	我们配合早停法（`early_stopping_rounds=50`）使用，让模型在验证集性能不再提升时自动停止，防止过拟合。最终模型通常在800-1000轮收敛。
`random_strength`	分割点搜索时的随机强度。	`[1e-9, 1]`	引入随机性有助于提升模型多样性，增强泛化能力。我们使用了默认值1，让CatBoost发挥其有序提升的抗过拟合优势。

调优过程在计算集群上完成，每次交叉验证都确保训练集和验证集的数据分布（特别是年龄分布）大致相同。最终选择的参数组合在独立测试集（从训练数据中预留）上表现稳定。

4.3 模型评估与泛化测试

模型的好坏不能只看训练集上的表现。我们采用了两层验证：

交叉验证：在合并的APOKASC-2+MCK训练集内部进行，评估模型的平均性能和稳定性。
独立外部验证：使用完全独立的K2-GALAH星震样本。这个样本来自不同的望远镜（K2）、不同的光谱巡天（GALAH），且空间分布不同。用训练好的模型预测这些恒星的年龄，并与它们的星震学年龄对比。

这是最关键的一步。如果模型在K2样本上表现显著下降，说明它只是“记住”了APOGEE-Kepler/TESS数据的特定模式，而非学会了普适的物理规律。令人欣慰的是，我们的模型在K2样本上表现出了与训练集相当的误差水平，中位数分数误差没有显著恶化。这强有力地证明了模型的泛化能力，意味着我们可以相对放心地将其应用于整个APOGEE DR17红巨星样本。

5. 结果解读与天体物理发现

模型通过验证后，我们将其应用于APOGEE DR17的“主红巨星样本”（Main Red Star Sample, MRS），最终生成了包含125,445颗恒星的年龄星表。这才是工作的开始，从海量数据中挖掘科学发现才是最终目的。

5.1 年龄空间分布图：揭示银河系结构

我们将每颗恒星的预测年龄标注在其银河系坐标（X, Y）上，绘制了年龄空间分布图。这张图直观地展示了不同年龄恒星��银河系中的位置，如同一幅银河系演化的“地层图”。

年轻恒星盘（Age < 6 Gyr）：清晰地显示出向外围（大半径R处）的“翘曲”（flaring）结构。这与之前Ness (2018)和Anders et al. (2023)的研究结果一致，表明银河系薄盘在外围显��增厚，年轻恒星分布更广。
年老恒星：更多地集中在银河系中心区域和厚盘成分中，空间分布更为集中。

5.2 意外发现：年轻的贫金属星群

在分析年龄-金属丰度关系时，一个有趣的模式浮现出来：我们发现了两组年龄小于20亿年、但金属丰度显著低于太阳（[Fe/H] < -1.0）的恒星。这非常反常，因为按照经典的银河系化学演化图景，恒星随着时间推移逐渐富集金属，如此年轻的恒星理应具有较高的金属丰度。

我们对这两组恒星进行了深入分析：

化学丰度：它们具有相似的特定元素丰度模式（如[α/Fe], [Ce/Fe]），暗示着可能共同的起源。
运动学：计算它们的轨道参数（如角动量Lz）发现，它们在相空间中也呈聚集状态，进一步支持了同源的可能性。
独立验证：对于每组中最亮、质量最大的恒星，我们绕开机器学习模型，使用传统的BaSTI恒星演化轨迹进行直接拟合。这是一项计算密集型但非常可靠的方法。结果证实，这些恒星的年龄确实小于27亿年。

这一发现的天体物理意义重大。它可能预示着银河系在近期（过去几十亿年内）经历过一次或多次贫金属气体的吸积事件。这些外部落入的气体未经过充分的恒星核合成富集，因此形成了新一代的贫金属恒星。这为Spitoni et al. (2023)提出的“三阶段吸积”化学演化模型提供了观测上的支持证据。我们的机器学习模型，通过高效筛选出海量数据中的特殊样本，为这一假设提供了关键线索。

6. 经验、局限与未来展望

回顾整个项目，从数据准备到科学发现，有几个关键点值得与大家分享。

6.1 实操中的教训与技巧

误差传递至关重要：APOGEE提供的参数（如Teff, [Fe/H]）都有观测误差。简单地将中心值输入模型会忽略误差带来的不确定性。我们采用了一种蒙特卡洛方法：对每颗星，根据其参数误差分布进行多次采样，生成多组“可能”的参数值，分别输入模型得到一系列年龄预测，最终年龄及其误差取这些预测值的统计中位数和散布。这使我们的年龄星表包含了更合理的误差估计。
警惕“垃圾进，垃圾出”：光谱参数的质量参差不齐。我们花费了大量精力在数据清洗上：剔除信噪比过低的谱线、剔除参数误差过大的恒星、处理缺失值（对于少量缺失的化学丰度，我们使用同类型恒星的典型值进行插补，并添加标志位）。对于[Ce/Fe]这种对信噪比敏感的元素，设置严格的质量切边显著提升了模型性能。
模型解释性工具：利用CatBoost内置的get_feature_importance函数或SHAP值分析，我们确认log g（与恒星演化阶段强相关）和[α/Fe]（银河系化学演化的关键示踪剂）是预测年龄最重要的两个特征。这不仅验证了模型的物理合理性，也帮助我们理解模型做决策的依据。

6.2 当前模型的局限性

必须坦诚，我们的模型远非完美：

系统误差的继承：模型的“真相”标签来自星震学年龄，而星震学年龄本身依赖于一整套恒星模型（如脉动模型、不透明度表）。因此，我们的预测年龄无法摆脱这些底层模型的系统误差。
外推风险：训练样本覆盖的参数空间（如极低金属丰度、极高温度）有限。对于落在训练集分布区域之外的恒星，模型的预测将高度不确定，甚至可能是错误的。在星表中，我们对这类恒星给出了更大的误差条或进行了标注。
分辨率限制：对于年龄小于10亿年的恒星，模型误差迅速增大（>40%）。这是因为在赫罗图上，年轻的主序前恒星和年轻的低质量主序星可能具有非常相似的可观测参数，导致模型难以区分。

6.3 未来的改进方向

这个项目只是一个起点，未来有多个令人兴奋的改进方向：

更大、更优的训练集：即将发布的SDSS-V数据和未来的PLATO星震任务，将提供数量更多、质量更高、参数空间覆盖更广的星震学校准样本。这将是提升模型精度和可靠性的根本。
模型架构探索：可以尝试图神经网络（GNN），将恒星在银河系中的空间位置和运动学关系（如同一个星流、星团）作为图结构信息输入，让模型学习恒星之间的关联，而不仅仅是孤立地看待每颗星。
不确定性量化：开发能够输出概率化年龄分布的模型（如贝叶斯神经网络），而不仅仅是一个点估计值加误差条，这将为后续的银河系建模提供更丰富的信息。
多任务学习：同时预测年龄、质量、距离等多个参数，让模型共享底层特征表示，可能比单独预测每个参数效果更好。

这个项目让我深刻体会到，在数据密集的天体物理领域，机器学习不再只是一个辅助工具，它正在成为产生新发现、提出新问题的核心引擎。它不能替代物理模型和深入理解，但它能以前所未有的效率扫描数据海洋，将那些隐藏在复杂关系中的模式呈现在我们面前，指引着传统理论模型去解释和探索。