M60显卡安装部署说明
1 概述
本文档旨在为GPU项目在部署或者简单演示,提供部署详细指导。包括硬件安装、M60 License服务器部署及注意事项、显卡驱动安装与更新
2 M60环境安装部署
2.1 M60显卡的安装
2.1.1 M60显卡的物理安装
M60显卡安装于RH2288H V3服务器,需要准备好Riser卡和显卡电源延长线(与K系列显卡一样,M60显卡是通过安装在Riser卡上,再接入服务器主板上,由主板或Riser为显卡提供供电。显卡电源延长线有时也被称为显卡电源线。)
M60显卡安装于E9000 CH220V3,将M60显卡安装于主板的扩展盒中,不需要Riser卡,需要显卡电源延长线。
兼容服务器参考:
http://www.nvidia.com/object/grid-certified-servers.html
注意:
1)每个服务器最多可接入两块M60显卡,每块显卡 峰值功率 300W,且需要专用的电源线为GPU供电,更多服务器配置信息及注意事项请参考:华为服务器兼容性助手
http://support.huawei.com/onlinetoolsweb/ftca/
2)BIOS配置:
在BIOS菜单“Advanced--Misc Configuration”中“Pci 64-bit Decode”的配置应为Enabled。
作用:设置pci 64-bit Decode功能,启用本功能后,外接设备被分配的地址空间可以大于4GB。
说明:出厂默认为Enabled,请确认配置为 Enabled
3)RH2288H V3的Riser卡购件中,包括了显卡的显卡电源延长线。而E9000 CH220V3中,需要单独采购显卡的电源延长线。具体可以见下文中的附件。
2.1.2 附1:RH2288H V3参考配置
序号 |
部件编码 |
型号 |
描述 |
总数 |
1 |
RH2288H V3 |
RH2288H V3 |
|
|
1.1 |
基本配置 |
基本配置 |
|
|
|
02310YJA |
BC1M02HGSA |
RH2288H V3 (8*2.5英寸硬盘机箱)H22H-03 |
1 |
|
02310YKC |
BC1M01FGEA |
SM210板载网卡-4xGE电口(Broadcom 5719)-RJ45 |
1 |
|
02310YKP |
BC1M03FANA |
8056 Plus风扇组件 |
4 |
|
02311SSV |
BC1M26RISE |
PCIe提升卡-2槽位(x16,x16)-GPU专用-适用RH2288H V3 |
1 |
|
02310QWX |
EN3MCACC |
750W白金交流电源模块 |
2 |
1.2 |
Haswell EP CPU |
Haswell EP CPU |
|
|
|
02311CDT |
BC1M11CPU |
英特尔至强E5-2667 v3(3.2GHz/8-core/20MB/135W)处理器(带散热器) |
2 |
1.3 |
DDR4 内存 |
DDR4 内存 |
|
|
|
06200213 |
N24DDR402 |
DDR4 RDIMM内存-16GB-2400MT/s-2Rank(1G*8bit)-1.2V-ECC |
5 |
1.4 |
硬盘(带拉手条) |
硬盘(带拉手条) |
|
|
|
02311HAK |
N300S1210W2 |
通用硬盘-300GB-SAS 12Gb/s-10K rpm-128MB及以上-2.5英寸(2.5英寸托架) |
2 |
1.5 |
RAID卡及配件 |
RAID卡及配件 |
|
|
|
02310YLY |
BC1M03ESMN |
SR130(LSI3008) SAS/SATA RAID卡-RAID0,1,1E,10-不支持带外管理-12Gb/s-no Cache-适用RH2288 V3/RH2288H V3的8&24硬盘机箱 |
1 |
1.6 |
PCIe卡 |
PCIe卡 |
|
|
|
06320094 |
63K2WE8Y |
Tesla M60 |
1 |
|
05052582 |
RESECZSF |
GRID vWS Perpetual License, SUMS 1st year |
4 |
2.1.3 附2:E9000 CH220 V3参考配置
序号 |
部件编码 |
型号 |
描述 |
总数 |
1 |
E9000 |
E9000 |
|
|
1.1 |
刀片基本配置 |
刀片基本配置 |
|
|
1.1.1 |
刀片主控板 |
刀片主控板 |
|
|
|
03056137 |
IT11GRUB05 |
4*X8+2*X16 PCIe资源扩展单元-CH220 V3 |
1 |
1.1.2 |
Haswell EP CPU |
Haswell EP CPU |
|
|
|
41020500 |
EHSE52667 |
英特尔至强E5-2667 v3(3.2GHz/8-core/20MB/135W)处理器 |
2 |
1.1.3 |
DDR4 内存 |
DDR4 内存 |
|
|
|
06200225 |
N24DDR404 |
DDR4 RDIMM内存-16GB-2400MT/s-2Rank(1G*8bit)-1.2V-ECC |
5 |
1.1.4 |
硬盘(带拉手条) |
硬盘(带拉手条) |
|
|
|
02311HAK |
N300S1210W2 |
通用硬盘-300GB-SAS 12Gb/s-10K rpm-128MB及以上-2.5英寸(2.5英寸托架) |
2 |
1.1.5 |
RAID卡及其它配件 |
RAID卡及其它配件 |
|
|
|
03021FTX |
BC0MESMCE600 |
RU120(LSI2308) SAS/SATA RAID卡-RAID0,1,1E,10-6Gb/s-no Cache |
1 |
1.1.6 |
网络扣卡 |
网络扣卡 |
|
|
|
03021SMF |
IT1DMGEA0100 |
MZ110-4*GE端口扣卡,PCIE 2.0 X4 |
1 |
1.1.7 |
PCIe卡 |
PCIe卡 |
|
|
|
06320094 |
63K2WE8Y |
Tesla M60 |
1 |
|
05052582 |
RESECZSF |
GRID vWS Perpetual License, SUMS 1st year |
1 |
|
04151046 |
QQYNTZEV |
电源电缆-0.55m-(H2X4(4.2))-(3*18UL1007红+5*18UL1007黑)-(H2X4(4.2)-I)-GPU电源线 |
2 |
2.1.4 附3:附图:显卡电源线连接示意图
说明:以下仅以RH2288H V3为例,说明显卡的电源延长线如何连接,最后将Riser卡直接接在主板上。
图1_RH2288HV3_M60显卡完成电源连线后,效果图如下:
原则:白色接口对白色接口,黑对黑。
图2_M60显卡逻辑图如下:
当是RH2288H V3时,图中显卡的电源线连接至Riser卡的电源接口。
当是E9000 CH220 V3时,图中显卡的电源线连接至主板上电源接口。
图3_M60显卡拆箱硬件图,自带1分2的电源线(因为显卡自带的1分2的电源线很短,所以需要显卡电源延长线),效果图如下:
图4_RH2288HV3_需要购买的Riser卡(带有显卡电源线延长线),如果是E9000 CH220 V3,则需要购买显卡的电源线延长线
2.2 M60驱动安装
切换图形模式:
M60区分为科学计算模式和图形模式,M60默认为计算模式,需要设置为图形模式。安装主机驱动前,需要切换到图形模式。
具体操作步骤,参考FusionCloud桌面云解决方案文档中“安装与调测”->“特性指南”->”F112_高性能图形处理(GPU硬件虚拟化)”->”创建M60 GPU虚拟机”中的“切换图形模式”。
驱动安装:
M60显卡的使用,需要在服务器和虚拟机上,安装同一套驱动程序。
例如:(以下仅为举例,请以实际版本为准)NVIDIA-GRID-UVP-367.64-369.71
需要在服务器安装:NVIDIA-vGPU-uvp-210.0-367.64.x86_64.rpm
为虚拟机绑定显卡,然后虚拟机上安装对应 OS下的驱动:例如369.71_grid_win8_win7_server2012R2_server2008R2_64bit_international.exe
在服务器上,安装或是卸载显卡驱动后,请重启服务器。
安装成功的标准:ssh登录服务器:以root权限,执行nvidia-smi,返回gpu的使用情况,无报错。如下图所示:
具体操作步骤,参考FusionCloud桌面云解决方案文档中“安装与调测”->“特性指南”->”F112_高性能图形处理(GPU硬件虚拟化)”->”创建M60 GPU虚拟机”中的“安装主机驱动”。
3 M60 License服务安装部署
3.1 GRID License授权的工作原理
下图给出了M60 GRID License 授权的概要:
GRID License 授权架构
通过上图我们可以看到,GRID分为三个版本(虚拟工作站vWS、虚拟PC和虚拟应用vApps),当带有VGPU的虚拟机运行的时候会请求License服务器中的License授权,根据License服务器中的GRID License版本,加载不同的VGPU驱动(普通驱动和专业卡驱动)。我们可以看到虚拟PC和虚拟应用的License加载的都是普通的显示驱动。
整个License获取和释放的过程发生在如下两个阶段:
License获取阶段:
虚拟机在启动的时候通过访问License服务器的地址+端口7070发起License的请求,当正常获取License后加载GRID驱动。
License释放阶段:
当关闭虚拟机的时候,之前虚拟机获得的License会自动释放,还回到License服务器中。
需要明确的一点:当虚拟机处于关闭状态的时候是不占用任何的GRID License的。此外如果客户使用的是K1,K2的GPU是不需要License授权的。只有在使用 Tesla M60 GPU 时,GRID 虚拟工作站或虚拟 PC 的授权版本须经由网络从NVIDIA GRID License 服务器获取到 license,激活使用。
3.2 GRID License服务器部署流程
3.3 License server平台支持规格
3.3.1 虚拟机规格
硬件配置 |
|
|
支持操作系统 |
最低配置 |
CPU |
2U |
Windows: Windows 7 32/64bit、 Windows8/8.1,32/64bit、 Windows10 64bit、 Windows server 2008R2 Linux: Red Hat Enterprise Linux 7.1 64bit、 CentOS 7.1 64bit 说明: 目前仅支持英文Windows、Linux操作系统。 |
内存 |
4G |
目前Grid版本在演进过程中,License的文件格式也在变更,建议部署时查看对应的License发布文档来确认对应的系统要求。如最新的License,windows系统只支持Win10 64bit和server2016,同时需要安装.Net Framework4.0 以上版本等。
3.3.2 虚拟机创建
可直接通过FC进行创建,确保硬件配置能够满足上面的规格要求。
3.3.3 安装操作系统
根据用户实际使用需求安装所需的操作系统,平台所支持的系统类型,参考章节(虚拟机规格)。
3.3.4 注意事项(重要)
Ø 具有16 GB内存的4+ CPU内核的高端配置,适合处理多达15万个许可客户端。主机平台必须运行支持的Windows操作系统。
Ø NVIDIA License Server 尽量安装在英文版操作系统(或使用英文版的浏览器)中,不然会产生与web 浏览器不兼容的情况
Ø 目前不支持在Linux控制台模式下安装。 License服务器安装程序必须在图形桌面环境中运行。
Ø 平台必须具有固定(不变)IP地址。平台必须至少有一个不变的以太网MAC地址,以便在注册服务器和在NVIDIA许可门户网站中生成许可证时用作唯一标识符。
Ø 平台的日期/时间必须准确设置。
3.4 License server软件包获取
3.4.1 进入官网
https://www.nvidia.com/en-us/design-visualization/solutions/virtualization/
点击下载软件链接:Software Download
3.4.2 跳转至登录界面
如果之前有过NVIDIA帐号,请在注册界面点击下方的 cancel;
如果从未申请过NVIDIA帐号,请先注册,然后登录注册邮箱激活你的帐号。
3.4.3 登录NVIDIA账号
如果已存在NVIDIA账号,在注册界面点击下方cancel后,登录NVIDIA账号,
或直接输入:https://nvid.nvidia.com/dashboard/ 登录NVIDIA账号
3.4.4 获取License 软件安装包
依次点击: Software & Services à Product Information àNVIDIA Grid,进入下载页面
点击:License Manager for windows/License Manager for Linux 链接,下载所需软件包
3.4.5 License软件包介绍
通过上述步骤,可以下载到License Manager压缩包:
NVIDIA-ls-windows-XXXX.XX-XXXX.zip
NVIDIA-ls-linux- XXXX.XX-XXXX.tgz
Windows安装包,解压后可获取:
setup.exe :用于安装于Windows 虚拟机上
GRID License Server User Guide.pdf :Windows License 服务器用户指南
GRID License Server Release Notes.pdf :Windows License服务器版本说明
Linux安装包,解压后可获取:
setup.bin :用于安装于Linux虚拟机上
GRID License Server User Guide.pdf :Linux License 服务器用户指南
GRID License Server Release Notes.pdf :Linux License服务器版本说明
3.4.6 获取产品激活密钥(PAK)
获取方法一:
从NVIDIA销售处,下单并处理订单后,您会收到包含产品激活密钥的欢迎电子邮件。此邮件包含产品激活密钥(PAK)
以下是欢迎电子邮件的示例:
获取方法二:
如果下单后只拿到许可密钥,可以通过许可密钥为您的账户兑换产品激活密钥(PAK),
依次点击:Software & Services à Redeem Product Activation Keys,进入Redeem Product Activation Keys页面,在下方表单中输入许可密钥进行兑换:
详细请参阅《GRID-Quick-Start-Guide-August-2016》
3.5 Windows 7平台License server安装
3.5.1 安装Java运行环境及要求
从www.oracle.com下载当前的Java 32位安装包,并安装在win7_32bit虚拟机上
Ø GRID许可证服务器需要Java运行时环境(JRE)版本1.7或更高版本。在Windows 32位和64位平台上,GRID许可证服务器需要安装一个32位JRE。
Ø 许可证服务器基于WEB浏览器的管理界面支持以下浏览器:Mozilla Firefox 17或更高版本、Google Chrome版本27或更高版本、IE9或更高版本。
3.5.2 License server 安装
在win7_license服务器上,解压获取到的License软件安装包,NVIDIA-ls-windows-XXXX.XX-XXXX.zip包,运行setup.exe
安装步骤1
选择: “I accept the terms of the license Agreement” à点击 Next;
安装步骤2
选择: “I accept the terms of the license Agreement” à点击 Next;
安装步骤3
可自定义安装路径,这里选择默认,点击 Next;
安装步骤4
默认勾选: “License server(port 7070)”,需要勾选上“Management interface (port 8080)” à点击 Next;
安装步骤5
点击“Install”
安装步骤6
安装完成,点击”Done”,完成安装。
验证安装
验证许可证服务器是否正常运行,在win7_license服务器主机上打开Web浏览器并连接到http:// localhost:8080 / licserver,显示License管理界面。
如未显示管理界面,请参阅《GRID License Server User Guide》,第4章中的故障排除。
3.5.3 获取License文件
步骤1:获取MAC地址
在License管理界面,打开License Server Configuration,通过Server host ID,获取到MAC地址,如下图所示:
步骤2:注册License服务
在有公网的办公机上,打开NVIDIA官网登录到”NVIDIA SOFTWARE LICENSING CENTER”页面。
依次点击: Grid Licensing à Register License Serverà,进入Register License Server页面,将获取到的MAC地址,输入“MAC address”中,并点击“Create”,如下图所示:
创建完成后,需要进入分配license页面。
注意:如果没有执行本步骤,会导致导出的BIN文件中,没有真实可用的license信息。
然后点击Map Add-Ons,会显示目前账号一共可以分配的用户数。
在Qty to Add框中填入需要分配的用户数量,然后点击Map Add-Ons就完成了分配。分配的数量可以通过重复上述步骤进行添加和删除,但是测试license不允许调低分配的用户数。
步骤3:下载License文件
创建完后,生成许可证*.bin文件,并下载保存到win7_license服务器上。
3.5.4 加载License文件
在win7_License服务器上,使用IE打开http://localhost:8080/licserver , 显示License管理界面,
从左侧菜单,依次点击:License ServeràLicense Management,使用License服务器配置菜单导入,刚下载保存好的许可证*.bin文件,并点击Upload。如下图所示:
至此,win7_License服务器安装完成。
License服务器详细配置请参考《GRID License Server User Guide》,章节3(Operation)。
3.6 Grid Virtual Workstation with Virtual GPU License配置
3.6.1 Windows虚拟机配置License
在Windows虚拟机桌面 右键à打开”NVIDIA控制面板“点击”Licensing“àManage License任务项中设置,如下所示:
License 服务器字段可输入域名或者IP,端口号默认是7070。成功设置后点击”Apply”按钮,重启生效。
看不到Manage License任务项的原因有:
(1)当前vGPU、GPU不需要license,或者驱动不支持license;
(2)Licensing控件被隐藏,参见《GRID-Licensing-Guide》的 4.3 节。
3.6.2 Linux虚拟机配置License
Linux 上的License设置,须编辑配置文件,Linux版本的驱动中提供了配套的配置文件模板,详细操作方法见《GRID-Licensing-Guide》的2.3节。
3.7 Grid Virtual Workstation with Pass-through GPU License配置
GRID Virtual Workstation在Tesla GPU上以GPU直通模式运行,可用于Windows和Linux VM。 虚拟工作站需要GRID Virtual Workstation版本,并提供以下功能:
(1)最多4个4k分辨率的虚拟显示器(未经许可的Tesla GPU支持单个虚拟显示头,最大分辨率为2560x1600)。
(2)工作站特定的图形功能和加速度。
(3)专业应用的认证驱动程序。
3.7.1 Windows客户机配置License
在Windows虚拟机桌面 右键à打开”NVIDIA控制面板“点击”Licensing“àManage License任务项中设置à在”License Edtion:”选择 ”GRID Virtual Workstation“,如下图所示:
License 服务器字段可输入域名或者IP,端口号默认是7070。成功设置后点击”Apply”按钮,重启生效。
3.7.2 Linux客户机配置License
Linux 上的License设置,须编辑配置文件。Linux版本的驱动中提供了配套的配置文件模板,详细操作方法见《GRID Licensing Guide》的3.3节
4 NVIDIA显卡驱动更新
显卡驱动更新,无论是在主机服务器或是虚拟机中,都是卸载旧版本,重启,安装新版本的过程。
注意:升级过程中会要求重启服务器和虚拟机,请事先知会客户影响。
4.1 更新显卡驱动流程
对于显卡硬件虚拟化应用场景,需要按顺序执行如下步骤。
对于显卡直通的应用场景,只需要更新虚拟机里面的驱动版本即可。
一:准备工作:
1、 升级过程中会要求重启服务器和虚拟机,请事先知会客户影响。先将待升级的VM所在的服务器 上的虚拟机关机。
2、 将待升级的rpm包,拷至目的服务器上,建议操作为/var目录下。
说明:如果以root用户登录或是拷贝时,提示无权限,可以暂时先打开root用户的登录权限,执行完后再关闭。
3、 更新用户虚拟机,需要有administrators群组权限的帐号,请事先准备好。
4、 先行准备好服务器的相关信息(包括BMC 、gandalf 、root等相关帐号和密码信息)
5、 登录FC和FA的Portal界面,查看告警,并确保当前环境正常。
二:在服务器上,更新显卡驱动:
1. 先以root用户登录需要升级的服务器。并执行TMOUT=0 ,关闭ssh自动退出功能。(后续每一次登录都需要执行TMOUT=0)
相关命令:TMOUT=0
相关截图:
2. 检查服务器上是否已安装有NVIDIA的驱动。
相关命令:rpm -qa|grep NV //rpm查询命令,查找出NV开头的包。
相关截图:
说明:一般情况下,NVIDIA的rpm安装的包 文件名称与rpm查出来的软件名称并不相同。
3. 对比需要在服务器上安装rpm包驱动,如果当前版本与目的版本不同,则需要先卸载旧版本。rpm –e 后面接步骤1中查出的版本号
相关命令:rpm -e NVIDIA-vGPU-kepler-uvp-210.0-352.54
相关截图:
4. 重启服务器
相关命令:reboot
相关截图:
5. 以root用户登录,至文件目录下,安装新的rpm包。
相关命令:rpm -ivh /var/ NVIDIA-vGPU-kepler-uvp-210.0-361.40.x86_64.rpm
相关截图(版本对应安装实际版本):
说明:如上提示信息为正常提示,已与UVP同事确认无影响。
6. 重启服务器。请参考第5步骤的命令和截图
7. 以root用户登录服务器,查询是否已安装成功。请参考2步骤中的命令及截图。
相关命令为:rpm -qa|grep NV
相关截图(版本对应安装实际版本):
8. 以root用户登录服务器,查询显卡是否正常。
相关命令:nvidia-smi
相关截图:
说明:截图内容无需完全一致,如果有正常的显卡信息输出即可。
至此,完成了服务器上的显卡驱动程序的更新。
三:在虚拟机上,更新显卡驱动:
1、 前期准备:为了防止更新显卡驱动的过程中,出现无法登录的情况。请先准备如下两个操作:(2个操作步骤只需要执行一个,请注意安全风险,升级完成后,请回退如下配置)
a) 请先打开 RDP远程登录、确认关闭了VM内的防火墙,以便可以RDP方式登录。
b) 安装tightvnc软件。
2、 在控制面板中,找到当前的NVIDIA驱动程序的版本号,如果不是目标版本,请先卸载。按如下顺序卸载即可,在最后的驱动程序卸载完成后,请重启虚拟机。
3、 安装新的驱动程序。确认自己的OS位数,执行对应的安装包。建议默认方式安装(例如:362.13_grid_win8_win7_64bit_english.exe,具体的包名,请以一线为准)
4、 安装完成后,请重启虚拟机。
5、 重启完成后,请登录VM,检查:
a) HDP方式登录后,可以为全屏窗口。
b) 在虚拟机的设备管理器中,可以查找到目标显卡。正常工作状态。
6、 回退步骤1中的准备工作,不修改用户虚拟机的配置。
4.2 更新后验证
请一线根据自己的业务情况,验证是否可以正常可用。
4.3 关于回退
整个更新过程,都是卸载,重新安装的过程。如果需要回退,请使用之前准备的更新前的安装包。卸载当前包,重启,安装目标包,重启。流程相同。
转载地址: https://forum.huawei.com/enterprise/zh/thread-442311.html