解决tensorflow下的报错。mportError: libcudart.so.8.0:

时间:2021-09-10 22:28:23

错误 :

ImportError: libcudart.so.8.0: cannot open shared object file: No such file or directory

这个是因为使用tensorflow gpu版本的原因。首先我顺着报错上给的链接到了:https://www.tensorflow.org/install/install_sources#common_installation_problems
然后找到我的错误:
https://*.com/questions/42013316/after-building-tensorflow-from-source-seeing-libcudart-so-and-libcudnn-errors

我发现我的环境变量也已经设置了(我有两个目录一个是cuda,一个是cuda-8。我设置的cuda-8)。。但是还是拨错。很无奈,就继续找问题。后来我意识到是cuDNN的原因,网上说可以通过源码安装取消cuDNN的支持。这个具体我没有尝试,因为毕竟实验室的机器上8个k80,就要火力全开。后来我找啊找,找到了:
https://github.com/NVIDIA/DIGITS/issues/8
于是我就执行了

sudo ldconfig /usr/local/cuda-8/lib64

但是提示报错

/sbin/ldconfig.real: /usr/local/cuda-8.0/lib64/libcudnn.so.5 不是符号连接

百度和google是最好的老师~
http://blog.csdn.net/hjxu2016/article/details/69389597
http://blog.csdn.net/syfzhzh/article/details/52317948
建立好连接之后,重新执行ldconfig就好了!

总结

已经有两次出现这种问题了,楼主实验室的服务器是公用的,上边很多东西是别人装的,所以我的环境不是自己从0开始搭建的,所以很多细节不知道。而且目测那个小伙子最后添加cudnn那几个文件的时候没有做链接,致使我一直从后向前把每一步都走了一遍终于找到问题的根了。。

记得前几天装用于深度学习的docker环境的时候也是这样,我没有按照作者步骤一步一步走~最后出问题了不知道怎么回事各种百度各种google。。还是找不到问题,最后无奈,看了下他前边的设置环境的地方,才找到自己错误的根源。。

这几天因为这些事挺浪费时间的,但是感觉还是很值得的,让我懂得了很多错误其实都是因为自己不细心和对底层还有环境的不了解。