[Seek Help] 20.2.3版本对深度学习pytorch的cuda版本安装支持有问题
Tofloor
poster avatar
能吃善睡
deepin
2021-08-18 19:02
Author

我的台式机显卡为gtx 1070,有双硬盘,装了双系统。

windows系统的nvidia驱动版本是466.77,cuda版本是11.3.121,用miniconda安装pytorch的cuda版本,工作一切正常。

 

deepin系统的nvidia驱动版本是460.73,根据pytorch官方网站的安装指令,用miniconda安装pytorch的cuda版本。

分别试过多种安装指令,例如  

conda install pytorch torchvision torchaudio cudatoolkit=11.1 -c pytorch -c conda-forge

conda install pytorch torchvision torchaudio cudatoolkit=10.2 -c pytorc

conda install pytorch==1.8.0 torchvision==0.9.0 torchaudio==0.8.0 cudatoolkit=10.2 -c pytorch

conda install pytorch==1.8.0 torchvision==0.9.0 torchaudio==0.8.0 cudatoolkit=11.1 -c pytorch -c conda-forge

等等,还根据  
docs.nvidia.com/cuda/cuda-toolkit-release-notes/index.html
列表所指示的cuda版本与nvidia驱动版本对应选择关系,
试过cuda的 cudatoolkit=11.2.2

上述尝试都失败,表现为在安装完成后进入python命令行,
import torch是正常的,torch.cuda.is_aviable()返回false

请问各位版友和deepin官方,是不是因为nvidia 460.73驱动版本与cuda的版本有冲突造成的呢?或者是其他原因造成的呢?该怎样解决?
谢谢!!
Reply Favorite View the author
All Replies
羡慕朝西的生活
deepin
2021-08-18 20:12
#1
还根据  
docs.nvidia.com/cuda/cuda-toolkit-release-notes/index.html
列表所指示的cuda版本与nvidia驱动版本对应选择关系,
试过cuda的 cudatoolkit=11.2.2

上述尝试都失败,表现为在安装完成后进入python命令行
----------------------------------------------
CUDA 11.4 Update 1 >=470.57.02 >=471.41
CUDA 11.4.0 GA >=470.42.01 >=471.11
CUDA 11.3.1 Update 1 >=465.19.01 >=465.89
CUDA 11.3.0 GA >=465.19.01 >=465.89
CUDA 11.2.2 Update 2 >=460.32.03 >=461.33
CUDA 11.2.1 Update 1 >=460.32.03 >=461.09
CUDA 11.2.0 GA >=460.27.03 >=460.82
CUDA 11.1.1 Update 1 >=455.32 >=456.81
CUDA 11.1 GA >=455.23 >=456.38
CUDA 11.0.3 Update 1 >= 450.51.06 >= 451.82
CUDA 11.0.2 GA >= 450.51.05 >= 451.48
CUDA 11.0.1 RC >= 450.36.06 >= 451.22
CUDA 10.2.89 >= 440.33 >= 441.22
你的驱动版本是460.73,也就是说装上面哪一个都行,装完cudatoolkit之后再根据这个的版本选择pytorch、tf、paddlepaddle、cudnn等深度学习环境的版本

请问各位版友和deepin官方,是不是因为nvidia 460.73驱动版本与cuda的版本有冲突造成的呢?或者是其他原因造成的呢?该怎样解决?
谢谢!!
===============================================================
cuda有俩版本,一个是驱动版本,也就是nvidia-smi打印出来的版本,还有一个是runtime版本,就是装完cudatoolkit,使用sudo /usr/local/cuda/samples/1_Utilities/deviceQuery/deviceQuery查询出来的版本,下面是我的结果

deviceQuery, CUDA Driver = CUDART, CUDA Driver Version = 11.2, CUDA Runtime Version = 11.0, NumDevs = 1

Reply View the author
能吃善睡
deepin
2021-08-18 21:30
#2
羡慕朝西的生活
还根据  
docs.nvidia.com/cuda/cuda-toolkit-release-notes/index.html
列表所指示的cuda版本与nvidia驱动版本对应选择关系,
试过cuda的 cudatoolkit=11.2.2

上述尝试都失败,表现为在安装完成后进入python命令行
----------------------------------------------
CUDA 11.4 Update 1 >=470.57.02 >=471.41
CUDA 11.4.0 GA >=470.42.01 >=471.11
CUDA 11.3.1 Update 1 >=465.19.01 >=465.89
CUDA 11.3.0 GA >=465.19.01 >=465.89
CUDA 11.2.2 Update 2 >=460.32.03 >=461.33
CUDA 11.2.1 Update 1 >=460.32.03 >=461.09
CUDA 11.2.0 GA >=460.27.03 >=460.82
CUDA 11.1.1 Update 1 >=455.32 >=456.81
CUDA 11.1 GA >=455.23 >=456.38
CUDA 11.0.3 Update 1 >= 450.51.06 >= 451.82
CUDA 11.0.2 GA >= 450.51.05 >= 451.48
CUDA 11.0.1 RC >= 450.36.06 >= 451.22
CUDA 10.2.89 >= 440.33 >= 441.22
你的驱动版本是460.73,也就是说装上面哪一个都行,装完cudatoolkit之后再根据这个的版本选择pytorch、tf、paddlepaddle、cudnn等深度学习环境的版本

请问各位版友和deepin官方,是不是因为nvidia 460.73驱动版本与cuda的版本有冲突造成的呢?或者是其他原因造成的呢?该怎样解决?
谢谢!!
===============================================================
cuda有俩版本,一个是驱动版本,也就是nvidia-smi打印出来的版本,还有一个是runtime版本,就是装完cudatoolkit,使用sudo /usr/local/cuda/samples/1_Utilities/deviceQuery/deviceQuery查询出来的版本,下面是我的结果

deviceQuery, CUDA Driver = CUDART, CUDA Driver Version = 11.2, CUDA Runtime Version = 11.0, NumDevs = 1

你好,谢谢。我试过cuda的版本包括  10.2, 11.1,  11.2 ,对应的pytorch试过1.9.0和1.8.0,都不行的。所以我才发帖寻求帮助,看看是否有安装成功的版友能指点迷津。

Reply View the author
羡慕朝西的生活
deepin
2021-08-18 22:57
#3
能吃善睡

你好,谢谢。我试过cuda的版本包括  10.2, 11.1,  11.2 ,对应的pytorch试过1.9.0和1.8.0,都不行的。所以我才发帖寻求帮助,看看是否有安装成功的版友能指点迷津。

这不科学,我一直用deepin做深度学习的

Reply View the author
能吃善睡
deepin
2021-08-19 00:03
#4
羡慕朝西的生活

这不科学,我一直用deepin做深度学习的

请问你升级到20.2.3没?或者全新安装20.2.3?

Reply View the author
zeyark
deepin
2021-08-20 06:06
#5

参考,https://bbs.deepin.org/zh/post/224964

安装支持的N卡驱动版本号,deepin源里的有点老,不一定支持

Reply View the author
能吃善睡
deepin
2021-08-20 06:32
#6
zeyark

参考,https://bbs.deepin.org/zh/post/224964

安装支持的N卡驱动版本号,deepin源里的有点老,不一定支持

收到,感谢!周末尝试 

Reply View the author
羡慕朝西的生活
deepin
2021-08-20 19:47
#7
能吃善睡

请问你升级到20.2.3没?或者全新安装20.2.3?

升级的

Reply View the author
能吃善睡
deepin
2021-08-23 21:04
#8
zeyark

参考,https://bbs.deepin.org/zh/post/224964

安装支持的N卡驱动版本号,deepin源里的有点老,不一定支持

根据  

deepin20.2.3 ,kernel 5.10.50 安装nvidia-legacy-340XX并添加dkms- Community - Deepin Technology

首先在北外的镜像站和163的镜像站查找目录,因为 zeyark 版友的显卡是选择legacy目录,而我的显卡不属于legacy,所以在

debian/pool/non-free/n/nvidia-graphics-drivers/

目录中找到最新版本的源代码 470.57.02-2,随后按 zeyark 版友给出的步骤用

apt source nvidia-graphics-drivers

下载到该版本。随后用

sudo dpkg-buildpackage

安装时报依赖关系错误:Umet build dependences: debhelper-compat (= 13) dh-sequence-dkms dh-exec libglvnd-dev

使用apt可以下载 dkms dh-exec libglvnd-dev 包,但是找不到 dh-sequence-dkms  包 和 debhelper-compat 包,并且apt检测到的 debhelper 包版本为 12.1.1

看来暂时不能继续安装了,至少得等 debhelper 包版本升到13

 

 

 

 

Reply View the author
能吃善睡
deepin
2021-08-23 21:26
#9
羡慕朝西的生活

升级的

请问你的机器运行  nvidia-setting 有没有报错
(nvidia-settings:18462) GLib-Gobject-CRITICAL **: 13:13:52:431: g_value_set_boxed 等等

(nvidia-settings:18462) dbind-WARNING**: 13:13:52:438: Error retrieving accessibility bus address: 等等

(nvidia-settings:18462) Glib-GObject-CRITICAL **: 13:13:52:501: g_object_unref: assertion 等等

 

我的机器运行 nvidia-settings 会报这些错,但是运行 nvidia-smi 显示显卡是工作的。

昨天我手工下载cuda的run文件安装好,用nvcc -V检测cuda 11.2.2版本正常,但是 nvidia-smi 不显示cuda信息,并且允许cuda的测试程序 deviceQuery 报错

CUDA Device Query (Runtime API) version (CUARRT static linking)

cudaGetDeviceCount returned 35

-> CUDA driver version is insufficient for CUDA runtime version

Result = FAIL

 

 

Reply View the author
羡慕朝西的生活
deepin
2021-08-24 18:59
#10
能吃善睡

请问你的机器运行  nvidia-setting 有没有报错
(nvidia-settings:18462) GLib-Gobject-CRITICAL **: 13:13:52:431: g_value_set_boxed 等等

(nvidia-settings:18462) dbind-WARNING**: 13:13:52:438: Error retrieving accessibility bus address: 等等

(nvidia-settings:18462) Glib-GObject-CRITICAL **: 13:13:52:501: g_object_unref: assertion 等等

 

我的机器运行 nvidia-settings 会报这些错,但是运行 nvidia-smi 显示显卡是工作的。

昨天我手工下载cuda的run文件安装好,用nvcc -V检测cuda 11.2.2版本正常,但是 nvidia-smi 不显示cuda信息,并且允许cuda的测试程序 deviceQuery 报错

CUDA Device Query (Runtime API) version (CUARRT static linking)

cudaGetDeviceCount returned 35

-> CUDA driver version is insufficient for CUDA runtime version

Result = FAIL

 

 

我的nvidia-setting没问题,我觉得可以不用管吧,deviceQuery报错cuda装的不合适吧

Reply View the author
能吃善睡
deepin
2021-08-25 22:39
#11
羡慕朝西的生活

我的nvidia-setting没问题,我觉得可以不用管吧,deviceQuery报错cuda装的不合适吧

我打算过两天空闲时间装470版本的n卡驱动,配11.3版本的cuda,再试试

 

Reply View the author