Ubuntu16.04下安装NVIDIA驱动和cuda填坑日记

时间:2024-03-13 06:59:55

1.版本兼容问题

cuda版本有两种:
一种是driver version ,对应libcuda.so文件。驱动版本是在GPU安装驱动时安装上的,输入nvidia-smi时显示的cuda版本就是这个driver verison。
一种是runtime version,对应libcudart.so文件。rt版本是安装cuda run文件时安装上的,输入nvcc -V时显示的cuda版本就是这个runtime version。

cuda和nvidia 驱动有个版本要求。这个可以查看下官网或者其他博客,比如cuda10.0的gpu驱动最低要410.48

2.坑的描述

之前我设备用的rtx 2060的卡,驱动装的410.73,cuda装的cuda10.0.130。nvidia-smi输出正常,跑ai算法正常cuInit(0)返回cuda_success也就是0。
问题来了:组织又采购了新一批显卡虽然也是rtx 2060可是装上410.73驱动后,nvidia-smi在Name一栏显示Err。明显是驱动不能识别显卡了。好,那就装高本版的驱动呗。装上编辑这篇博客最新的驱动450.66。nvidia-smi输出正常。其实也不算正常,cuda version 还是显示10.0,其实应该是11.0.这下好了跑ai算法跑不起来,cuInit失败,返回803,有时候是804

3.填坑

原来是我的环境变量连接到之前的libcuda.so了,也就是410.73.导致驱动不兼容问题。好吧,那就把正确的cuda driver 驱动指定好就完事了。
Ubuntu16.04下安装NVIDIA驱动和cuda填坑日记