阿里云GPU服务器安装Nvidia GPU驱动的步骤

1.1 目的 本文档提供在各类常用Linux发行版操作系统及Windows操作系统上手动安装Nvidia GPU驱动的步骤。
1.2 适用范围 本文档适用的操作系统包括:CentOS 6.5、CentOS 7.x、Red Hat Enterprise Linux 6.7 、Red Hat Enterprise Linux 7.x、Ubuntu 14.04、Ubuntu 16.04、BCLinux 6.5、BCLinux 7.x、Windows Server 2008 64位、Windows Server 2012 64位,不支持32位Linux及Windows操作系统。
安装步骤
2.1 下载GPU驱动文件

1. 进入Nvidia官网(https://www.nvidia.cn/Download/index.aspx?lang=cn),
2. 根据阿里云服务器镜像类型及GPU型号,下载对应版本的驱动文件:

如果在操作系统下拉列表中没有对应阿里云服务器镜像的服务器操作系统,请单击下拉列表底部的“选择所有操作系统”。此时可选的操作系统包括:

注意:
1) Debian操作系统,选择Linux 64-bit
2) CentOS 6.5、BCLinux 6.5 系列操作系统,选择Linux 64-bit RHEL6
3) CentOS 7.x、BCLinux 7.x 系列操作系统,选择Linux 64-bit RHEL7

3. 确认无误后,单击下载按钮开始下载。
2.2 CentOS 6.5、BCLinux 6.5、Red Hat Enterprise Linux 6.7阿里云服务器安装GPU驱动 1. 将2.1节下载的GPU驱动文件上传到阿里云服务器中
2. 在阿里云服务器中安装与阿里云服务器操作系统kernel版本相同的kernel-devel及kernel-headers包
阿里云服务器需要配置好yum源,如果没有配置yum源,则需要手动将相关rpm包下载到阿里云服务器中。
3. 安装kernel-devel、kernel-headers及必要的工具
$ sudo yum install -y kernel-devel-$(uname -r) kernel-headers-$(uname -r)
$ sudo yum install -y python-perf perf perl
安装完成后,执行如下命令查看是否安装完成
$ sudo rpm -qa | grep kernel
$ sudo rpm -qa | grep -Eperf|perl"

注意
如果yum源中没有对应kernel版本的kernel-devel和kernel-headers软件包,那么建议升级操作系统内核到较新的版本,以便安装相关依赖。
首先检查yum源中可用的kernel、kernel-devel和kernel-headers版本
$ sudo yum list --showduplicates kernel
$ sudo yum list --showduplicates kernel-devel
$ sudo yum list --showduplicates kernel-headers
选择一个版本,保证该版本下同时有kernel、kernel-devel以及kernel-headers的包,比如:3.10.0-957.27.2,然后执行:
$ sudo yum upgrade kernel-3.10.0-957.27.2
$ sudo yum install kernel-headers-3.10.0-957.27.2 kernel-devel-3.10.0-957.27.2

安装完成后,重启阿里云服务器
$ sudo reboot

4. 安装epel源
$ sudo yum install epel-release
$ sudo yum clean all& yum makecache
5. 安装Nvidia GPU驱动
$ sudo rpm -i nvidia-diag-driver-local-repo-rhel6-418.67-1.0-1.x86_64.rpm
以2.1节下载的版本为准
$ sudo yum clean all& yum makecache
$ sudo yum install -y cuda-drivers
$ sudo nvidia-modprobe
$ sudo reboot

6. 安装验证
执行如下命令检查Nvidia GPU驱动是否安装成功
$ sudo nvidia-smi
2.3 CentOS 7.x、BCLinux 7.x、Red Hat Enterprise Linux 7.x阿里云服务器安装GPU驱动 1. 将2.1节下载的GPU驱动文件上传到阿里云服务器中
2. 在阿里云服务器中安装与阿里云服务器操作系统kernel版本相同的kernel-devel及kernel-header包
阿里云服务器需要配置好yum源,如果没有配置yum源,则需要手动将相关rpm包下载到阿里云服务器中。
3. 安装kernel-devel及kernel-headers
$ sudo yum install -y kernel-devel-$(uname -r) kernel-headers-$(uname -r)
安装完成后,执行如下命令查看是否安装完成
$ sudo rpm -qa | grep kernel
$ sudo rpm -qa | grep python-perf

注意
如果yum源中没有对应kernel版本的kernel-devel和kernel-headers软件包,那么建议升级操作系统内核到较新的版本,以便安装相关依赖。
首先检查yum源中可用的kernel、kernel-devel和kernel-headers版本
$ sudo yum list --showduplicates kernel
$ sudo yum list --showduplicates kernel-devel
$ sudo yum list --showduplicates kernel-headers
选择一个版本,保证该版本下同时有kernel、kernel-devel以及kernel-headers的包,比如:3.10.0-957.27.2,然后执行:
$ sudo yum upgrade kernel-3.10.0-957.27.2
$ sudo yum install kernel-headers-3.10.0-957.27.2 kernel-devel-3.10.0-957.27.2

安装完成后,重启虚拟机
$ sudo reboot

4. 安装epel源
$ sudo yum install epel-release
$ sudo yum clean all& yum makecache
5. 安装Nvidia GPU驱动
$ sudo rpm -i nvidia-diag-driver-local-repo-rhel7-418.67-1.0-1.x86_64.rpm
以2.1节下载的版本为准
$ sudo yum clean all& yum makecache
$ sudo yum install -y cuda-drivers
$ sudo nvidia-modprobe
$ sudo reboot

6. 安装验证
执行如下命令检查Nvidia GPU驱动是否安装成功
$ sudo nvidia-smi
2.4 Ubuntu 14.04阿里云服务器安装GPU驱动 1. 将2.1节下载的GPU驱动文件上传到阿里云服务器中
2. 安装Nvidia GPU驱动
$ sudo dpkg -i nvidia-diag-driver-local-repo-ubuntu1404-418.67_1.0-1_amd64.deb
以2.1节下载的版本为准
$ sudo apt-get update
$ sudo apt-get install cuda-drivers
如果安装驱动的过程中,有些依赖包找不到,可以手动去Internet下载
$ sudo nvidia-modprobe
$ sudo reboot

3. 安装验证
执行如下命令检查Nvidia GPU驱动是否安装成功
$ sudo nvidia-smi
2.5 Ubuntu 16.04阿里云服务器安装GPU驱动 1. 将2.1节下载的GPU驱动文件上传到阿里云服务器中
2. 安装Nvidia GPU驱动
$ sudo dpkg -i nvidia-diag-driver-local-repo-ubuntu1604-418.67_1.0-1_amd64.deb
以2.1节下载的版本为准
$ sudo apt-get update
$ sudo apt-get install cuda-drivers
如果安装驱动的过程中,有些依赖包找不到,可以手动去Internet下载
$ sudo nvidia-modprobe
$ sudo reboot

3. 安装验证
执行如下命令检查Nvidia GPU驱动是否安装成功
$ sudo nvidia-smi
2.6 Windows Server 2008阿里云服务器安装GPU驱动 1. 将2.1节下载的GPU驱动文件上传到阿里云服务器中
2. 双击GPU驱动exe安装文件,按提示安装GPU驱动即可

注意:
说明:对于Windows系统,GPU驱动安装生效后,Windows自带的远程连接(RDP)协议不支持DirectX、OpenGL等相关应用。您需要自行安装VNC服务和客户端,或其它支持的协议,例如PCOIP、XenDeskop HDX 3D等。
2.7 Windows Server 2012阿里云服务器安装GPU驱动 1. 将2.1节下载的GPU驱动文件上传到阿里云服务器中
2. 双击GPU驱动exe安装文件,按提示安装GPU驱动即可

注意:
说明:对于Windows系统,GPU驱动安装生效后,Windows自带的远程连接(RDP)协议不支持DirectX、OpenGL等相关应用。您需要自行安装VNC服务和客户端,或其它支持的协议,例如PCOIP、XenDeskop HDX 3D等。
2.8 参考排错方法 针对Linux阿里云服务器,当执行nvidia-smi命令验证驱动安装是否成功时,如果返回报错:
NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.
那么可以执行如下命令:
$ sudo nvidia-bug-report.sh

然后在执行命令所在的路径查看日志文件,如在/tmp路径下执行的命令,那么查看日志文件:
$ less /tmp/nvidia-bug-report.log.gz
从文件中可以查看到部分报错信息。