deepin15.5+cuda9.0+cudnn+tensorflow1.5.0+pytorch
Tofloor
poster avatar
yanming0914
deepin
2018-04-16 00:53
Author
Deepin15.5+cuda9.0+cudnn7.1+tensorflow1.5+pytorch0.3.0
本文主要参考以下博文:
https://blog.csdn.net/balixiaxuetian/article/details/79154013,帮了我不少忙,鸣谢博主
最新版的tensorflow1.7 和torch0.3都还不支持cuda9.1,真是坑
硬件:台式:g4560, gt1030
神舟笔记本:g4560+gtx1050
显卡驱动:NVIDIA-Linux-x86_64-384.130.run
装了一周的cuda,ubuntu之类的坑都踩过,写下这篇文档以备回顾
准备工作:
[size=10.5000pt]1、安装依赖包:
l sudo apt-get install libprotobuf-dev libleveldb-dev libsnappy-dev libopencv-dev libhdf5-serial-dev protobuf-compiler  
l   
l sudo apt-get install --no-install-recommends libboost-all-dev  
l   
l sudo apt-get install libopenblas-dev liblapack-dev libatlas-base-dev  
l   
l sudo apt-get install libgflags-dev libgoogle-glog-dev liblmdb-dev  
l   
l sudo apt-get install git cmake build-essential
2、禁用nouveau:
打开文件:
sudo gedit /etc/modprobe.d/blacklist-nouveau.conf
写入:
blacklist nouveau
options nouveau modeset=0
配置生效:
sudo update-initramfs -u
重启:
Reboot
检查:
lsmod | grep nouveau
如果没有输出,说明禁用成功
3、安装驱动:
从NVIDIA官网下载驱动:NVIDIA-Linux-x86_64-384.130.run
关闭桌面:
sudo service lightdm stop
ctrl+alt+F2进入终端模式
使用 sudo bash NVIDIA-Linux-x86_64-384.130.run 安装驱动,询问到是否build kernel DKMS 的时候选择no
安装好之后重启
使用nvidia-smi检查是否安装成功:
有输出说明成功
配置环境变量:
sudo gedit ~/.bashrc
加入:
export LD_LIBRARY_PATH=/usr/lib/x86_64-linux-gnuLD_LIBRARY_PATH
export LD_LIBRARY_PATH=/lib/x86_64-linux-gnuLD_LIBRARY_PATH
使环境变量生效:
source ~/.bashrc
4、安装cuda9.0
在桌面环境下即可进行
sudo sh cuda_9.1.85_387.26_linux.run --no-opengl-libs
看完协议后:
1. Install NVIDIA Accelerated Graphics Driver for Linux-x86_64 387.26?  
2. (y)es/(n)o/(q)uit: n
1. Install NVIDIA Accelerated Graphics Driver for Linux-x86_64 387.26?  
2. (y)es/(n)o/(q)uit: n  
3.   
4. Install the CUDA 9.1 Toolkit?  
5. (y)es/(n)o/(q)uit: y  
6.   
7. Enter Toolkit Location  
8.  [ default is /usr/local/cuda-9.0 ]: Enter   
9.   
10. Do you want to install a symbolic link at /usr/local/cuda?  
11. (y)es/(n)o/(q)uit: y  
12.   
13. Install the CUDA 9.0 Samples?  
14. (y)es/(n)o/(q)uit: y  
15.   
16. Enter CUDA Samples Location  
17.  [ default is /home/ccem ]: Enter
配置环境变量:
sudo gedit ~/.bashrc
加入:
export PATH=/usr/local/cuda/binPATH
export LD_LIBRARY_PATH=/usr/local/cuda/lib64LD_LIBRARY_PATH
使环境变量生效:
source ~/.bashrc
检查:
cd /usr/local/cuda-9.1/samples/1_Utilities/deviceQuery
sudo make
./deviceQuery
如果出现显卡信息,并且最后一行为:
Result = PASS
说明成功, 如果为FAIL 则是显卡驱动和cuda不符合,另外安装
卸载cuda:
1. cd /usr/local/cuda/bin  
2. sudo ./uninstall_cuda_9.0.pl
到/usr/local下:
sudo rm -r cuda-9.0
5、安装CUDNN:
解压:cudnn-9.0-linux-x64-v7.1.tgz
得到cuda文件夹, 进入include文件夹:
sudo cp cudnn.h /usr/local/cuda/include/ #复制头文件
       
进入lib64文件夹:
1. sudo cp lib* /usr/local/cuda/lib64/ #复制动态链接库  
2. cd /usr/local/cuda/lib64/   
3. sudo rm -rf libcudnn.so libcudnn.so.7  #删除原有动态文件  
4. sudo ln -s libcudnn.so.7.1.2 libcudnn.so.7  #生成软衔接  
5. sudo ln -s libcudnn.so.7 libcudnn.so  #生成软链接
随后需要将路径/usr/local/cuda/lib64 添加到动态库:
sudo gedit /etc/ld.so.conf.d/cuda.conf
添加:
/usr/local/cuda/lib64
检查:
nvcc -V
有输出说明成功
6、安装tensorflow:
最新版的tensorflow-gpu1.7 和tensorflow-gpu1.6在import tensorflow as tf 的时候到会报错,无法运行,只能安装tensorflow-gpu1.5
(1) sudo apt install python-pip
(2) sudo pip install numpy, pandas, matplotlib, scipy, scikit-learn, scikit-image
(3) sudo pip install tensorflow-gpu==1.5.0
7、安装pytorch
到pytorch官网:http://pytorch.org/
点击:Click here for previous versions of PyTorch
进入下一个页面:
根据cuda版本和python版本进行选择
(1)sudo pip install torch-0.3.0.post4-cp27-cp27mu-linux_x86_64.whl
(2) sudo pip install torchvision

Reply Favorite View the author
All Replies
avatar
mxdlzg
deepin
2018-04-16 03:09
#1
我这几天一直在折腾这个,最后让我发现一个方法,我觉得暴力添文件的话基本哪个版本的tensorflow都能跑
1 先用官网的run安装cuda9.0,不安驱动
2 安装bumblebee 和primus, --no-install-recommends
3 手动安装对应cuda版本的驱动,这时候应该是bumblebee正常运行了,但是tensorflow找不到驱动的so文件,好像手动安的驱动没有对应的libcuda.so.1这个文件
4 下载nvidia官网的对应版本驱动,不要安装,手动解压缩
5 在解压好的文件夹内找到对应的libcuda。so库,缺什么补什么,少什么添什么,直接把文件丢进/usr/lib/下,或者/usr/lib/nvidia下面
6 下载对应版本的cudnn丢进lib里,这样tensorflow基本就能跑了,bumblebee也正常
我用的是tensorflow-gpu 1.7.0,没有任何问题
Reply View the author