pytorch随机种子作用,pytorch模型优化

最近被pytorch的模型复现搞了一波心态，每次训练结果不一样，一开始还以为自己的网络优化有效，谁知每次训练结果是不固定的，调了很久终于让模型固定了下来，在此记录下这个坑。
针对pytorch1.7.1进行随机种子的设置，使得网络每次训练结果固定。这样就能方便查看是修改网络导致的精度提升还是随机性导致的。

def setup_seed(seed):# 下面两个常规设置了，用来np和random的话要设置 np.random.seed(seed) random.seed(seed) os.environ['PYTHONHASHSEED'] = str(seed) # 禁止hash随机化 os.environ['CUBLAS_WORKSPACE_CONFIG'] = ':4096:8' # 在cuda 10.2及以上的版本中，需要设置以下环境变量来保证cuda的结果可复现 torch.cuda.manual_seed(seed) torch.cuda.manual_seed_all(seed) # 多GPU训练需要设置这个 torch.manual_seed(seed) torch.use_deterministic_algorithms(True) # 一些操作使用了原子操作，不是确定性算法，不能保证可复现，设置这个禁用原子操作，保证使用确定性算法 torch.backends.cudnn.deterministic = True # 确保每次返回的卷积算法是确定的 torch.backends.cudnn.enabled = False # 禁用cudnn使用非确定性算法 torch.backends.cudnn.benchmark = False # 与上面一条代码配套使用，True的话会自动寻找最适合当前配置的高效算法，来达到优化运行效率的问题。False保证实验结果可复现。

除了cuda和cudnn的随机性，若使用Dataloder的话也要注意设置，参照官网：https://pytorch.org/docs/stable/notes/randomness.html。

def worker_init_fn(worked_id): worker_seed = torch.initial_seed() % 2**32 np.random.seed(worker_seed) random.seed(worker_seed)Data.DataLoader( dataset=xxx, batch_size=xxx, shuffle=xxx, # 关键是下面这两个，上面自己随便设置 worker_init_fn=worker_init_fn, num_workers=0,)

上述操作应该只能保证在同一设备固定，除非两台设备装的所有环境都一样，可能两台设备的结果都一样。
如果经过上述操作在同一设备仍然固定不了，这就是个值得思考的问题。看看是不是设置了nn.LSTM的dropout参数，听说这个是不能用随机种子固定的，有空到时试一下。