项目方案:开始模型培训-结束流程
问题说明:一个数据集刚跑完,换另一个数据集继续实验,训练一开始就出现错误,很辛苦。 总之是999未知错误。
runtime error 3360 cuda runtime error (999 ) : unknownerroratc :/CB/py torch _ 1000000000/work/aten/src )。 thc unn/generic/classnllcriterion.Cu :235运行时错误(999 ) : unknownerroratc 3360/CB/py arror : thcgeneral.CPP:47原因分析:看cuda runtime error,很清楚cuda发生了故障,然后看999,这是神马吗? 感冒之灵? 代码错误将被排除,因为您只能更改数据集的路径,而不能将其移动到其他文件中。
可能是cuda的初始化和加载有问题。
解决方案:1.针对linux系统
重新加载nvidia内核模块
sudormmodnvidia _ uvmsudomodprobenvidia _ uvm http://www.Sina.com /
没有任何问题是重新安装解决不了的,如果有,重新安装CUDA两次!
2.针对所有系统
熟悉windows意味着不想改变系统。 重新安装CUDA是那么困难。 懒惰有懒惰万能的解决办法。3.针对Windows系统