增材制造机器学习可复现性：从理论到实践的避坑指南-编程实验室

1. 项目概述：为什么增材制造中的机器学习研究需要“可复现性”？

在增材制造（AM，俗称3D打印）的研发一线待了十几年，我亲眼见证了机器学习（ML）技术如何从一个“锦上添花”的辅助工具，演变为过程监控与质量预测（PQ-AM）系统中不可或缺的核心。从通过摄像头实时识别FDM打印的翘曲缺陷，到利用热成像数据预测金属激光粉末床熔融（LPBF）的熔池形态，ML模型正在成为保障打印质量、实现智能闭环控制的关键。

然而，一个长期困扰着我和许多同行的问题是：“这篇论文里的方法，我能在自己的设备和数据上复现出来吗？”答案往往令人沮丧。你可能兴致勃勃地按照一篇顶会论文的描述，搭建了相似的实验平台，采集了数据，训练了模型，但最终性能却与原文宣称的相去甚远。问题出在哪里？是材料批次不同？传感器型号有细微差异？数据预处理漏了某个归一化步骤？还是模型训练时少设置了一个随机种子？

这就是可复现性危机在增材制造与机器学习交叉领域的集中体现。它远不止是“代码跑不通”那么简单，而是一个贯穿硬件系统、传感配置、数据流水线、算法实现乃至计算环境的系统性难题。一个缺乏可复现性的研究，无论其宣称的准确率多高，其工程价值和应用潜力都会大打折扣。它无法被同行验证，无法被工业界采纳，最终只能停留在论文里。

本文要探讨的，正是如何为这个领域建立一套“操作规范”。我们基于一项前沿的学术研究，将其提出的可复现性调查流程与检查清单，转化为一线工程师和研究者能直接上手使用的“避坑指南”和“自查手册”。这不是空泛的理论，而是结合了两个真实案例（FFF翘曲检测与LPBF熔池预测）的实战复盘。我会详细拆解每个环节中那些容易被忽略、却足以导致复现失败的细节，并分享我们团队在尝试复现他人工作时踩过的“坑”以及填“坑”的经验。

无论你是正在设计自己的ML监控系统的工程师，还是试图复现前沿研究以推进自己工作的学者，理解并践行这套可复现性框架，都将使你构建的系统更可靠、你的研究成果更经得起推敲，从而真正推动增材制造智能化的发展。

2. 核心概念拆解：可复现性、可重复性与可复制性

在深入方法论之前，我们必须厘清几个经常被混用的关键概念：可复现性（Reproducibility）、可重复性（Repeatability）和可复制性（Replicability）。在增材制造与机器学习结合的语境下，它们的区别至关重要。

2.1 定义与区分

根据原始研究并结合工程实践，我们可以这样理解：

可重复性：同一团队，同一套设备，重复相同的实验过程。这考察的是你自家系统的稳定性。比如，今天用你的那台Ultimaker和某个品牌的PLA，按照既定参数打印10个测试件，其尺寸波动是否在允许范围内。这主要受设备状态、环境温湿度、材料批次一致性等因素影响。
可复制性：不同团队，使用你提供的完全相同的实验设置（包括设备型号、传感器、软件版本等），尝试复现你的结果。这相当于把你实验室的整个“套件”原封不动地搬到另一个实验室。挑战在于，即使设备型号相同，个体间也存在差异；且精确复制整个软硬件环境成本极高。
可复现性：不同团队，使用不同的实验设置（可以是不同的3D打印机、不同型号的摄像头、不同的计算平台），基于你论文中提供的完整方法描述，能否获得与你报告的性能相近的结果。这是本文关注的核心，也是衡量研究工程价值与普适性的黄金标准。它要求你的方法描述足够通用和详尽，使得他人能在不同条件下“重建”系统的核心功能。

简单来说：

可重复性是检验你自己的“手稳不稳”。
可复制性是检验你的“全套装备”能否被完整搬运。
可复现性是检验你的“设计蓝图”是否足够清晰、健壮，能让别人用不同的“建材”盖出功能相似的“房子”。

2.2 为什么ML-AM系统的可复现性尤其困难？

增材制造本身就是一个多物理场、多变量耦合的复杂过程。当引入机器学习后，复杂性从物理域延伸到了数据域和算法域，形成了一个典型的信息-物理融合系统。其可复现性挑战是叠加的：

硬件异构性：不同实验室的3D打印机（即使是同一型号）、传感器（如相机的CMOS型号、镜头素质）、数据采集卡等存在差异，导致原始信号特征不同。
数据生成路径长：从“设计文件->切片参数->打印过程->传感数据->特征提取->模型输入”，任何一个环节的微小偏差都会在后续被放大。例如，相机安装角度偏差1度，可能导致图像中关键区域的像素位移，进而影响基于视觉的模型。
ML的随机性：神经网络权重的随机初始化、训练数据的打乱顺序、超参数搜索的随机性等，都会导致最终模型性能的波动。如果没有固定随机种子并详细记录，两次训练得到的模型可能就不一样。
跨学科知识壁垒：做ML的专家可能不熟悉AM工艺中“层间温度”、“扫描策略”对数据的影响；做AM的专家可能对“学习率衰减策略”、“梯度裁剪”等ML概念感到陌生。这种知识断层导致论文中经常遗漏对方领域认为“常识”但实则关键的信息。

因此，提升可复现性，本质上是建立一套跨学科的、标准化的“通信协议”，确保从制造物理到数据算法的全链条信息透明、无歧义。

注意：许多研究止步于“可重复性”，在自己的设备上跑出了漂亮的结果就发表了。但真正的工程价值体现在“可复现性”上。如果你的方法只能在特定品牌的某台机器上工作，其普适意义将非常有限。

3. 可复现性调查流程：基于CRISP-DM的六步法

为了系统化地解决可复现性问题，我们借鉴了数据挖掘领域的经典方法论——跨行业数据挖掘标准流程（CRISP-DM），并将其适配到ML-AM系统的生命周期中，形成了一套可复现性调查流程。这个流程不仅用于评估他人工作的可复现性，更可以指导你规划和报告自己的研究工作。

3.1 第一阶段：业务理解——定义系统与目标

这一阶段的核心是厘清你要解决什么制造问题，以及整个硬件系统是如何构成的。复现者需要像侦探一样，从论文中还原出完整的物理实验场景。

制造系统：到底用的是哪种3D打印技术？是熔融沉积成型（FFF/FDM）、激光粉末床熔融（LPBF）、还是立体光刻（SLA）？机器的具体品牌和型号是什么（例如，Creality Ender-3， EOS M 290）？这是所有工作的物理基础。
系统定制化：论文中的系统是商用现货，还是经过了深度改装？例如，是否加装了额外的冷却系统、封闭的成型舱、或定制的铺粉机构？这些改装会显著影响工艺条件。
材料系统：使用了什么材料？包括材料名称（如PLA, ABS, Ti-6Al-4V）、牌号、供应商、直径（对于线材）、粒径分布（对于粉末）、甚至批次号。材料性能的波动是AM中最大的变量之一。
建模目的：模型要干什么？是分类（如正常/缺陷）、回归（如预测孔隙率、表面粗糙度）、还是控制（如实时调整激光功率）？明确的目标决定了后续数据标注、模型选择和评估指标。
传感的物理现象：传感器到底在“看”什么？是几何形貌（可见光相机）、热场分布（红外热像仪）、声发射信号（声学传感器）、还是熔池辐射（光电二极管）？这连接了制造过程与数据来源。

实操心得：在这一步，最容易遗漏的是定制化细节。作者可能觉得“在打印机舱门上加装了一个小风扇”不值一提，但这个风扇可能极大地改变了局部气流和冷却速率，从而影响了热成像数据的特征。在报告中，任何对标准设备的改动都应详细记录。

3.2 第二阶段：数据理解——剖析传感与原始数据

理解了“做什么”和“用什么做”，接下来就要弄明白“数据怎么来的”。这是将物理现象转化为数字信息的关键一步。

传感器规格：不仅仅是“一个摄像头”，而是CMOS型号、分辨率、帧率、像素尺寸、光谱响应范围等。例如，“Mikrotron EOSens 3CL相机，像素尺寸8μm，窗口120×120像素，帧率10kHz”这样的描述才是可用的。不同型号的传感器，其噪声水平、动态范围、灵敏度差异巨大。
传感器设置与校准：传感器是如何配置的？相机的焦距、光圈、快门速度、白平衡、增益是否设置？传感器是否经过校准（例如，热像仪的黑体校准、麦克风的声压级校准）？这些设置直接决定了原始数据的质量和可比性。
传感器部署：传感器装在哪？位置、角度、视野（FOV）、照明条件（光源类型、位置、强度）是什么？例如，“相机垂直于打印平台，距离平台200mm，视野覆盖整个成型区域，两侧配备45度角入射的漫射LED白光光源”。光照条件的微小变化会彻底改变图像的特征。
数据基本信息：原始数据是什么形态？是图像（.png, .tiff）、时间序列（.csv）、音频（.wav）还是多模态融合？数据的维度、长度、通道数是多少？
数据统计信息：数据集有多大？样本数量、类别分布（对于分类问题）、特征值的范围（均值、标准差）是多少？是否存在严重的类别不平衡？这些信息对于评估模型性能和设计数据拆分策略至关重要。
实验设计：数据是在什么工艺条件下采集的？打印参数（层厚、打印速度、喷嘴/激光功率、扫描策略）、零件几何形状、环境条件（舱内温度、湿度）都必须明确。是全因子实验、随机采样还是主动学习式的自适应采样？实验设计决定了数据的代表性和多样性。

常见问题：很多论文只提“使用了高清相机”，但缺少部署细节。我们曾复现一个工作，按照描述买了同款相机，但性能不佳。后来发现原作者在镜头前加了一个特定的窄带滤光片以抑制背景干扰，而这一关键信息在论文中只字未提。传感器部署图（甚至照片）和详细的参数表是必不可少的。

3.3 第三阶段：数据处理——从原始数据到模型输入

原始数据通常不能直接喂给模型。这个阶段涉及利用领域知识（数据准备）和通用ML技术（数据预处理）对数据进行清洗、转换和增强。

数据准备：这是领域相关的转换。例如：
- 图像处理：在视觉检测中，可能需要根据标定板进行图像畸变校正；在熔池监控中，需要从原始热图像中分割出熔池区域（ROI）；对于时序信号，可能需要进行时频变换（如FFT）提取频域特征。
- 数据对齐：在多传感器系统中，需要时空同步不同来源的数据。例如，将高速相机帧与激光功率控制信号的时间戳精确对齐。
- 特征工程：基于物理知识构造特征。例如，从层析图像中计算孔隙的纵横比、面积，从声发射信号中提取振铃计数、能量等。
数据预处理：这是与模型相关的标准化操作。例如：
- 归一化/标准化：将特征缩放到统一范围（如[0,1]或零均值单位方差），防止某些特征因量纲过大而主导训练。
- 数据拆分：如何划分训练集、验证集和测试集？是简单随机划分、按批次划分、还是按时间划分？必须严防数据泄露，即测试集的信息以任何形式在训练阶段被使用。
- 数据增强：对于图像数据，常用的有旋转、翻转、裁剪、加噪声等。但要注意增强的合理性，例如在检测打印翘曲时，垂直翻转可能不适用，因为重力方向是固定的。
数据可用性：数据集或代码是否开源？提供原始数据或处理后的数据是提升可复现性的最有效途径。如果因保密无法公开，也应提供数据生成的详细仿真方法或数据合成流程。

避坑技巧：数据准备步骤的代码往往比模型代码更具价值，也更容易被忽略。建议将数据准备的每一步（如ROI裁剪的坐标计算、特征提取的公式）写成独立的、文档清晰的函数或脚本。在论文中，用伪代码或流程图说明关键的数据转换步骤。

3.4 第四阶段：建模——算法、结构与训练

这是ML的核心，也是当前论文中信息缺失的“重灾区”。复现者需要知道用什么模型、模型长什么样、以及如何把它训练出来。

机器学习算法：明确说明使用的是哪种算法范式。是卷积神经网络（CNN）、循环神经网络（RNN）、Transformer、还是经典的随机森林（Random Forest）？是监督学习、无监督学习还是半监督学习？
模型结构细节：对于神经网络，这包括：
- 网络架构图：最好提供清晰的示意图。
- 层细节：卷积层的数量、滤波器大小（kernel size）、步长（stride）、填充（padding）；池化层的类型和大小；全连接层的神经元数量。
- 激活函数：每一层后使用的激活函数（ReLU, Sigmoid, Tanh等）。
- 特殊结构：是否使用了残差连接（Residual Connection）、注意力机制（Attention）、或归一化层（BatchNorm）？
模型训练细节：这是确保结果确定性的关键。
- 优化器：使用Adam、SGD还是其他？学习率是多少？是否使用了学习率调度器（如StepLR, CosineAnnealing）？其参数如何？
- 损失函数：交叉熵损失、均方误差（MSE）还是自定义损失函数？
- 批次大小、训练轮数。
- 正则化：是否使用了Dropout？比率是多少？是否使用了L1/L2权重衰减？
- 初始化与随机种子：固定所有随机种子（Python, NumPy, PyTorch/TensorFlow等）是保证可重复性的基石。必须记录。
超参数搜索：模型的最优超参数（如学习率、网络深度、Dropout率）是如何找到的？是网格搜索、随机搜索还是贝叶斯优化？搜索的空间范围是什么？使用了哪种交叉验证策略？这个过程如果缺失，复现者将无从知道报告的性能是经过大量调参的“幸运结果”，还是稳健的最优解。
模型与代码可用性：在GitHub等平台公开训练好的模型文件（如.pt, .h5）和完整代码仓库，是最高效的复现方式。代码仓库应包含清晰的README.md、依赖包列表（requirements.txt或environment.yml）和示例运行脚本。

血泪教训：我们曾复现一篇论文，其描述的网络结构是“一个四层CNN”。我们搭建了模型，但性能差很多。后来联系作者才发现，他们在第一层和第二层卷积之间使用了一个未在文中提及的跳跃连接（skip connection），而这个连接对梯度流动至关重要。模型结构的描述必须精确到每一层的连接方式。

3.5 第五阶段：评估——度量与选择

如何判断模型的好坏？必须清晰定义评估协议。

评估指标：根据任务类型选择合适的指标。分类任务常用准确率、精确率、召回率、F1分数、AUC-ROC；回归任务常用均方误差（MSE）、平均绝对误差（MAE）、决定系数（R²）。要说明选择该指标的理由。
评估方法：是简单的留出法（Hold-out），还是k折交叉验证？如果是时间序列数据，是否采用前向链式验证？测试集是否在整个训练/调参过程中完全被隔离？
模型选择：最终报告的性能是来自验证集还是独立的测试集？严禁使用测试集进行模型选择或超参数调优，这会导致对泛化性能的乐观估计。

注意事项：在工业场景中，单一的准确率可能不够。例如，在缺陷检测中，漏检（将缺陷判为正常）的成本可能远高于误检（将正常判为缺陷）。因此，可能需要同时报告多个指标，或使用加权F1分数。

3.6 第六阶段：部署——计算环境

虽然许多学术研究不涉及实际产线部署，但训练和测试模型的计算环境会影响结果，尤其是涉及随机性的操作。

计算硬件：使用的CPU型号、GPU型号（如NVIDIA RTX 4090）、内存大小。GPU的不同架构和驱动版本可能对低精度计算产生微小差异。
计算软件：操作系统、编程语言版本（Python 3.8.10）、深度学习框架及版本（PyTorch 1.12.1, TensorFlow 2.10.0）、关键依赖库（NumPy, OpenCV, scikit-learn）的版本。强烈建议使用虚拟环境（conda或venv）并导出环境配置文件。

一个真实案例：一篇论文使用MATLAB的fitnet函数训练了一个简单的神经网络。我们用PyTorch实现了“相同”的结构和训练逻辑，但结果差异很大。后来发现，fitnet内部默认的权重初始化方法、优化器（如Levenberg-Marquardt）和收敛准则与PyTorch的标准实现完全不同。软件生态的差异不容小觑。

4. 实战复盘：两个案例研究的复现之旅

理论说再多，不如看实战。我们选取了两篇具有代表性的论文进行复现，严格遵循上述流程和清单，完整展示了从“按图索骥”到“联系作者补全信息”，最终成功复现的过程。

4.1 案例一：FFF打印翘曲实时检测系统

原始研究目标：利用一个普通数码相机，在FDM/FFF打印过程中，实时拍摄每层结束时的照片，通过一个轻量级CNN模型判断零件角落是否发生翘曲，一旦检测到翘曲即停止打印，避免材料浪费和平台损坏。

我们的复现目标：使用不同的3D打印机（Qidi Tech I-Fast）和不同型号的相机（Canon PowerShot G7 X），仅依据论文描述（必要时联系作者），复现该检测系统，并达到与原文相近的检测准确率。

复现过程与缺失信息排查：

我们首先仅根据论文公开的信息进行复现。下表记录了我们在每个阶段根据检查清单发现的问题：

阶段	检查项	论文提供情况	我们的处理与发现
业务理解	制造系统、材料、建模目的	充分	明确。我们使用了不同的打印机和颜色不同的PLA（灰 vs 白），这引入了第一个变量——领域偏移。
数据理解	传感器规格、部署	基本充分	我们按照描述部署了相机和光源。但论文未明确说明相机焦距、光圈等具体设置，我们从示例图片反推，将焦点对准打印件。
数据理解	传感器校准	缺失	论文未提及。我们默认使用相机自动模式。
数据处理	数据准备（ROI裁剪）	部分缺失	论文说“裁剪零件角落区域”，但未说明自动还是手动裁剪，以及裁剪框的具体算法或规则。我们采用了手动居中裁剪。
数据处理	数据预处理（划分比例）	部分缺失	论文说将训练集进一步划分为训练和验证子集，但未给出具体比例。我们采用了常见的8:2比例。
建模	模型结构（初始学习率）	部分缺失	CNN结构描述清晰，但未给出优化器的初始学习率。我们假设了一个常用值0.01。
建模	超参数搜索方法	缺失	论文未说明如何得到最终的模型超参数。我们自行进行了随机搜索。
建模	代码/模型可用性	缺失	未提供。

第一次复现结果：使用论文信息+我们自行假设的参数，得到的模型在测试集上准确率为92.8%，低于原文报告的99.3%。

联系作者与信息补全：我们联系了原作者，获得了缺失的关键信息：

传感器校准：确认除了调整焦距对准零件，无其他特殊校准。
数据准备：原系统采用手动裁剪，且不要求角落严格居中，以增强模型对零件位置微小变化的鲁棒性。他们还在打印平台上使用了不同颜色的非反光胶带来增加数据集的多样性。
数据预处理：确认训练/验证划分比例为8:2。
超参数搜索：原作者使用了贝叶斯优化进行超参数搜索，并提供了具体的搜索空间（如学习率范围、卷积核数量范围等）。

第二次复现结果：在补全信息后，我们调整了数据增强策略（模拟位置变化和背景变化），并采用了贝叶斯优化进行超参数搜索。最终，模型测试准确率提升至98.4%，非常接近原文的99.3%。

核心教训：

领域偏移是常态：复现时使用不同的硬件（打印机、相机）必然导致数据分布变化。超参数搜索不是可选项，而是复现的必选项。原文的超参数搜索方法（如贝叶斯优化）和范围是极其宝贵的参考信息。
数据增强策略源于对实际场景的理解：原作者“不居中裁剪”和“使用多色胶带”的做法，是基于对实际打印过程中零件位置可能偏移、平台背景可能变化的深刻理解。这种领域知识驱动的数据准备策略，在论文中应用文字明确阐述，而非简单一句“进行了数据增强”。
“简单”操作也需明确规则：即使是“裁剪”这样的操作，其具体实现规则（如裁剪框大小、是否允许偏移）也会影响模型学到的特征。

4.2 案例二：LPBF熔池面积预测模型

原始研究目标：基于激光功率、扫描速度等工艺参数，以及邻近熔池的时空效应（NBEM特征），使用前馈神经网络（FFNN）预测当前熔池的面积。

我们的复现目标：使用原作者提供的同一套NIST数据集，复现其预测模型，达到相近的预测误差（MAPE）。

复现过程与“灾难性”失败：

这个案例的特殊之处在于，我们复现的是模型本身，而非整个硬件系统。数据是给定的，这似乎降低了难度。然而，我们第一次尝试却遭遇了巨大失败。

阶段	检查项	论文提供情况	我们的处理与发现
数据处理	数据预处理	完全缺失	论文未提及任何预处理。我们直接使用原始特征进行训练。
建模	模型结构细节	部分缺失	给出了网络层数和神经元数，但未说明激活函数、权重初始化方法。我们使用ReLU和PyTorch默认初始化。
建模	模型训练细节	严重缺失	论文只说使用了“Levenberg-Marquardt训练方法”和留一法交叉验证。未提及损失函数、训练轮数、停止准则等。我们用PyTorch的常用配置（MSE损失，Adam优化器，训练300轮）实现。
建模	计算软件	缺失	未说明。我们用Python/PyTorch实现。

第一次复现结果：预测的平均绝对百分比误差（MAPE）高达2036.59%，完全不可用，而原文的MAPE约为15%。

问题诊断与解决：我们再次联系作者，获得了缺失的“魔鬼细节”：

数据预处理：原始数据在输入模型前进行了归一化。这是一个在ML中非常常见但论文中经常被省略的步骤。
模型训练细节：作者使用了MATLAB的fitnet函数。该函数有大量默认设置，包括特定的初始化方式、内部优化逻辑和早停策略。仅仅知道“Levenberg-Marquardt”算法名是不够的，还需要知道其在fitnet中的具体实现方式。
软件环境：明确为MATLAB。

第二次复现结果：我们在Python中尽可能模拟fitnet的默认行为（包括数据归一化、早停策略等），最终将MAPE成功降低至15.13%，与原文结果高度一致。

核心教训：

软件栈的差异是隐形的“杀手”：PyTorch/TensorFlow和MATLAB/scikit-learn等不同框架，即使实现“相同”的算法，其默认参数、数值精度和优化细节也可能天差地别。必须明确声明使用的软件、库及其版本号。
“常识性”步骤必须写明：对于ML从业者，“数据归一化”可能是肌肉记忆。但对于跨学科的读者（例如专注于工艺的AM研究者），这很可能被忽略。论文中必须明确列出所有数据处理和模型训练的步骤，不能有任何“想当然”。
算法名称不等于实现：提及“使用FFNN”或“使用Levenberg-Marquardt算法”只是起点。必须描述其具体配置，或提供可审查的代码。

5. 领域现状调查：我们做得有多差？

基于提出的23项检查清单，我们对2018-2023年间发表的70篇ML-AM过程监控与质量预测领域的论文进行了系统性调查。结果揭示了严峻的现实：

制造系统信息最全：约85%的论文较好地描述了打印机、材料和建模目标。这得益于作者多具备制造背景。
传感系统信息参差不齐：约78%的论文说明了传感器类型，但只有不到70%的论文提供了足够的传感器设置、校准和部署细节。这是导致复现失败的主要硬件盲区。
数据集信息存在缺口：超过85%的论文提到了数据，但只有约65%提供了足够的数据格式、统计信息和实验设计细节。仅有约11%的论文公开了数据集。
模型相关信息严重缺失：这是重灾区。
- 虽然95%的论文说明了使用的ML算法，但只有约66%的论文充分描述了模型结构。
- 仅有约56%的论文充分描述了模型训练细节。
- 高达60%的论文完全未提及或仅模糊提及超参数搜索方法。
- 代码和模型的开源率极低（均低于15%）。
- 计算软硬件环境描述不足（约30%）。

调查结论：当前该领域的研究，在机器学习实践层面的可复现性非常薄弱。许多工作出色地解决了AM领域的物理问题，并巧妙地应用了ML，但在报告ML实践时，却遗漏了大量对复现至关重要的细节。这很大程度上源于跨学科合作中存在的“知识沟”——AM专家可能不熟悉ML社区的报告规范，反之亦然。

6. 给研究者和工程师的行动指南

基于以上分析和案例，我总结出以下几点实操建议，希望能帮助你提升自己工作的可复现性，或更有效地评估他人的工作：

写作时，以“一个陌生的研究生在另一所实验室”为假想读者：不要假设读者拥有和你完全相同的设备、软件或领域知识。详尽描述每一个步骤。
采用“检查清单”辅助写作与审稿：在撰写论文或审阅他人稿件时，将本文的23个问题作为清单逐一核对。这能极大减少信息遗漏。
硬件细节，图文并茂：对于实验系统，提供带标注的示意图或照片，清晰展示传感器位置、角度、照明。以表格形式列出所有硬件（打印机、传感器、镜头、光源）的品牌、型号和关键规格。
数据流水线，代码化与可视化：将数据准备和预处理的每一步都编写成模块化的代码。在论文中用流程图展示从原始数据到模型输入的全过程，并说明每一步的目的和关键参数。
模型描述，力求“傻瓜式”复现：
- 提供网络结构图。
- 以表格形式列出每一层的详细配置（类型、参数、输出尺寸）。
- 必须写明所有超参数，包括学习率、批次大小、优化器参数、随机种子。
- 必须说明超参数是如何确定的（例如，“通过50轮随机搜索，在以下范围内确定：学习率 [1e-4, 1e-2]，隐藏层单元数 [32, 128, 256]”）。
拥抱开源，但需规范：如果可能，在GitHub等平台开源代码、配置文件、和训练好的模型。仓库应包含：
- README.md：项目概述、环境安装指南、快速开始脚本。
- requirements.txt或environment.yml：精确的依赖列表。
- scripts/：数据预处理、训练、评估的脚本。
- configs/：所有超参数的配置文件。
- 如果数据不能公开，提供生成合成数据的脚本或访问真实数据的详细申请流程。
在局限性中坦诚说明：如果因商业机密无法公开某些硬件参数或数据，应在论文的“局限性”部分明确说明，并讨论这可能对可复现性造成的影响。