PyTorch中通过设置随机种子使训练结果可复现-编程实验室

由于存在随机性，在同一台机子上，即使完全一致的代码，默认情况下，PyTorch每次训练的结果也有差异，无法复现。做了少许改动后，重新训练，结果有微小的变化，无法判断这变化是因改动导致的，还是因随机性导致的。

即使代码和各种超参、配置完全相同，只要存在随机性或非确定性算子，PyTorch的多次训练结果几乎多少都会有所差异，差异可能来自随机性、CUDA算子、并行执行、数值精度等多个层面：

1.权重初始化使用随机数，如nn.init.xavier_uniform_

2.DataLoader中的shuffle为True时以及DataLoader中的多进程worker，即num_workers不为0时

3.Dropout在训练时随机丢弃神经元

4.数据增强中RandomCrop、RandomFlip等

5.浮点数运算的非确定性，如浮点数运算的顺序、浮点数运算的累积误差

6.CUDA/GPU中的非确定性算子：Conv2d、BatchNorm等

7.cuDNN中的每次运行可能选不同kernel

即使同一台机子，不同GPU/驱动/CUDA版本也可能有差异

可以通过设置随机种子方式(控制所有随机源)来尝试复现训练结果，但无法保证在不同的PyTorch版本或不同平台上都能获得完全可复现的结果，此外，即使使用相同的随机种子，CPU和GPU执行的结果也可能无法复现。实现及测试代码如下：

import torch import torch.nn as nn import numpy as np import random import os def set_seed(seed=42): os.environ['PYTHONHASHSEED'] = str(seed) os.environ['CUBLAS_WORKSPACE_CONFIG'] = ':4096:8' random.seed(seed) np.random.seed(seed) torch.manual_seed(seed) torch.cuda.manual_seed(seed) torch.cuda.manual_seed_all(seed) torch.backends.cudnn.deterministic = True torch.backends.cudnn.benchmark = False torch.use_deterministic_algorithms(True) def seed_worker(worker_id): worker_seed = seed + worker_id np.random.seed(worker_seed) random.seed(worker_seed) return seed_worker def test_random(): data = [random.random() for _ in range(4)] print(f"random: {data}") data = [random.uniform(10, 20) for _ in range(4)] print(f"random: {data}") def test_numpy(): data = np.random.random(4) print(f"numpy: {data}") data = np.random.randn(4) print(f"numpy: {data}") class TinyNet(nn.Module): def __init__(self): super().__init__() self.fc = nn.Linear(8, 6) self.initialize_weights() def initialize_weights(self): nn.init.kaiming_uniform_(self.fc.weight, nonlinearity='relu') def forward(self, x): return self.fc(x) def test_torch(): data = torch.rand(4) print(f"torch: {data}") data = torch.randn(4) print(f"torch: {data}") model = TinyNet() weight_flat = model.fc.weight.flatten() for i in range(min(4, len(weight_flat))): print(f"{weight_flat[i]:.6f}", end=" ") print() # if num_workers is not 0 in DataLoader, then worker_init_fn and generator need to be set # worker_init_fu = seed_worker # set_seed(seed) # generator = torch.Generator().manual_seed(seed) if __name__ == "__main__": seed_worker = set_seed(42) # seed_worker is used by DataLoader test_random() test_numpy() test_torch() print("====== execution completed ======")

说明：

1.random.seed(seed)：Python随机数生成器设置种子

2.np.random.seed(seed)：NumPy随机数生成器设置种子

3.torch.manual_seed(seed)：PyTorch随机数生成器，为所有设备(包括CPU和CUDA)设置随机数生成器种子

4.torch.cuda.manual_seed(seed)：设置当前GPU生成随机数的种子。即使CUDA不可用，调用此函数也是安全的；在这种情况下，它会被静默忽略

5.torch.cuda.manual_seed_all(seed)：设置所有GPU上生成随机数的种子。即使CUDA不可用，调用此函数也是安全的；在这种情况下，它会被静默忽略

6.torch.backends.cudnn.deterministic = True：控制CUDA使用确定性算法

7.torch.backends.cudnn.benchmark = False：禁用基准测试功能，会导致cuDNN确定性地选择一个算法，但这可能会降低性能

8.torch.use_deterministic_algorithms(True)：避免使用非确定性算法。确定性操作通常比非确定性操作慢，因此模型的单次运行性能可能会降低。在已知某个操作是非确定性操作(且没有确定性替代方案)时抛出错误

9.os.environ['CUBLAS_WORKSPACE_CONFIG'] = ':4096:8'：当CUDA版本>=10.2时，需设置环境变量CUBLAS_WORKSPACE_CONFIG

10.os.environ['PYTHONHASHSEED'] = str(seed)：设置哈希种子

执行结果如下图所示：执行多次，每次输出结果相同

GitHub：https://github.com/fengbingchun/NN_Test

基于Spring Boot的在线考试系统设计与实现毕业设计

博主介绍：✌ 专注于Java,python,✌关注✌私信我✌具体的问题，我会尽力帮助你。一、研究目的本研究旨在设计并实现一个基于Spring Boot框架的在线考试系统，以满足现代教育领域对在线考试系统的需求。具体研究目的如下：提高考试效率…

李华

基于知识的精益研发（Knowledge-based Lean RD / Lean Product Development）的研究脉络与关键议题

文献综述：基于知识的精益研发（Knowledge-based Lean R&D / Lean Product Development）的研究脉络与关键议题研究共同问题：为什么“精益”在研发中离不开“知识” 从你筛选的文献摘要线索来看，研究者普遍面对同一矛…

李华

Excalidraw品牌使用规范：Logo与名称引用规则

Excalidraw品牌使用规范：Logo与名称引用规则在开源工具日益普及的今天，一个清晰、一致的品牌形象不仅是项目辨识度的核心，更是社区信任的基石。Excalidraw 作为一款以手绘风格著称的协作白板工具，凭借其简洁的设计哲学和强大的可…

李华

.NET链路追踪全套解决方案：从理论到实践的完整指南

在分布式系统日益复杂的今天，一次用户请求可能涉及多个服务、数据库、缓存等组件的交互。当系统出现故障或性能瓶颈时，如何快速定位问题根源？链路追踪（Distributed Tracing）正是解决这一难题的关键技术。本文将围绕.NE…

李华

.NET+AI | Agent | 工具调用中间件对比（13）

MAF 与 MEAI 工具调用中间件集成一句话简介MEAI 的 UseFunctionInvocation 与 MAF 的 Function Middleware 是嵌套协作关系，前者负责自动化循环，后者负责业务控制。🎯 核心价值✅ 嵌套协作：UseFunctionInvocation 在外层&#xff…

李华

Excalidraw撤销重做层级限制：最多能回退几步？

Excalidraw撤销重做层级限制：最多能回退几步？ 在数字白板工具日益成为团队协作核心载体的今天，一个看似不起眼的功能——“撤销”（Undo），却常常决定着用户是否愿意长期使用这款产品。尤其是在 Excalidraw 这…

李华