首页 > 编程知识 正文

英伟达特斯拉v100显卡(2060 eth)

时间:2023-05-06 12:35:00 阅读:79319 作者:2811

最近几周我想写点什么,现在谈谈GPU/显卡吧。 上图信息量有点大,下面慢慢说…

我昨天看了国外来的新闻。 “硬件检查工具AIDA64的更新日志中出现了一个名为GeForece RTX T10-8的显卡。 它基于TU102核心构建。 ”下图:

我记得在NVIDIA的几个RTX Super扩展卡推出之前,有传言说2080 Ti也有Super机型,可以将显示内存从11GB提高到12GB。 也就是说,它是384-bit位宽的完整规格,与Titan RTX相同。 之后NV散布了谣言,但这次推测该T10-8是RTX 2080 Ti Super还是什么。

但是我确实不这么认为。 两个简单原因:第一,“-8”可能代表8GB的显存; 第二,“T10”并不是一个全新的名字。 因为以前的Turing (图灵)体系结构已经有Tesla T10。

NV计算卡定位差异: Tesla T4

Turing系列和RTX光线跟踪GPU发布后,通用计算高端卡仍然是Tesla V100,P100和更高版本中只有Volta体系结构的这个“大核心”支持FP64双精度浮点计算NV全面公开发布的Tesla新品只有T4,这一定有自己的想法。

Tesla基于TU104核心,低轮廓,功耗只有70W。 相比之下,它拥有2560个CUDA Core,显存高达16GB,功耗明显相当高。

与HPC经常使用Tesla V100不同,T4是VDI——GPU桌面虚拟化APP应用程序,包括AI/机器学习中的信息(推理)和将16GB显存分成8个2GB的vGPU 除了单独卖钱的网格许可证选择外,Tesla T4还提供16VF的SRIOV支持。

AI深度学习计算(尤其是信息)面临着各种高效方案的竞争,正如我们在《OCP China Day:Nervana神经网络处理器、Ruler还有500G?》中所写的,而不仅仅是GPU的选择。 NV最擅长的还是图形显示(包括后端计算云游戏),这方面的ASIC和FPGA无从下手。

在最新的NVIDIA驱动程序中,Turing体系结构中只有一个Tesla。 我看到Tesla、Quadro和TITAN的设备id末尾有. 10DE。 也就是说,只提供工厂卡。

面向云游戏的Tesla T10 :规格安静变化

除非您在NVIDIA网站上仔细查看过RTX Server页面,否则很难找到此NVIDIA很少主动宣传过的Tesla T10。 Cloud Gaming——云游戏会不会是下一个增长点?

这张照片的左右两边剪下了两个旧/新的资料,你注意到有什么不同吗?

NV这个系统实际上是8U机

架的刀片服务器。每机箱内10个双节点刀片(也就是20节点)。

具体到单节点的配置,CPU是1颗Intel i9 8核,2颗Tesla T10 GPU。不过NV最新的资料中隐去了RTX的型号(已经不提Tesla了),并将显存从8GB提高到16GB。那么原来的“T10-8”会不会就改成GeForce了呢?

在“Tesla T10 16GB”显存增大的同时,新版资料中还加入了vGPU支持。按照我的理解,在没有vGPU的情况下,每个双GPU节点可能是运行单一Windows/Linux系统,以进程级别隔离在上面运行的“云游戏”应用;或者利用IDV/PCV这类PC虚拟化软件,在Linux Hypervisor底层上装2个虚拟机(很可能是Win),把显卡分别以独占方式穿透进去。

这次vGPU(GRID Gaming)的引入,估计就能把显卡切割给更多的虚拟机,以达到比进程更好的隔离效果来适配某些游戏。至于“Tesla T10 16GB”具体切分为几个vGPU使用,我稍后会讲。

先来看看Tesla T10 GPU的规格,3584个CUDA Core应该属于TU102核心,参考上表,恰好与上一代的GP102的GTX 1080 Ti数量相同。按照NV网站的说法在游戏中能够达到GeForce RTX 2080(属于TU104)的水平,而功耗只有150W。这个有点像Tesla T4的做法,用相对“大核心”降低频率以实现更好的能耗比,当然T10的成本应该比2080要高,卖价也会是如此吧?

以前在对比GPU服务器时经常会看空间密度,这次的RTX Server在8U内容纳40个GPU与传统机型的设计思路不太一样。比如我在《4U 10卡机器学习服务器:为什么PCIe比NVLINK能效比高?》介绍的Dell DSS8440,8U内2台能放进20个300W功耗的Tesla V100;1U 4卡的PowerEdge C41x0,8节点能达到的密度更高——32 x 300WGPU。云游戏并不需要单卡性能太高,而是更在意能耗比和CPU的配比。

上面这段资料提到GRID vGaming软件能让40个GPU同时运行160个PC游戏,如果是每个CPU节点启动8个虚拟机的话,每个虚机平均能够分配到4GB显存的vGPU、1个CPU核心、接近4GB内存和60GB左右SSD容量,运行主流中等负载3D游戏差不多够了。

如果在数据中心配置30套RTX Server,可以服务数千个并发用户。

挖矿之外,GeForce在数据中心允许的另一用途?

无论RTX Server中的“T10 16GB”是否还叫Tesla,包括我和一些同行朋友都认为:如果是传统NV对Tesla的定价习惯,想在对成本要求苛刻的云游戏市场中广泛应用是有些困难的。

就像NV之前只允许GeForce在数据中心用于区块链计算(俗称挖矿)那样,商业公司都希望自己的利益最大化。当然NV也不傻,他们在GeForce RTX上保留Tensor Core全部能力的同时,将显存容量严格限制在上一代的水平,这将显著影响一些更大规模计算的性能(如渲染)。没有显存ECC支持也无法充分保证长时间高负荷运行的稳定,规模大些的商业HPC用户基本上只能选Tesla和Quadro。

还有些功能从技术上是难以限制的,比如一些VR应用和3D游戏调用同样的GPU处理单元,这时GeForce就可能和同等硬件规格的Quadro专业显卡跑一样快。具体到此类场景,用户肯定会看性价比,而传统制造业对图形工作站的选型则是另一种情况(具体先不展开了)。

举上面这个例子,我是想说明NV为云游戏设计了“Tesla T10”+ vGPU虚拟化的基础设施,但最终市场选择可能会更看重性价比。因为还有Intel的PC Farm方案,有些特殊情况数据中心里也可以放多节点PC,AMD的Radeon游戏显卡也没有限制吧?

至此,我把GeForece RTX T10-8相关背景交待差不多了。当然以上有许多个人推断的内容,我还想继续猜一下T10会长什么样?

NVIDIA P104“专用矿卡”,图片引用自技嘉网站。

记得前两年人们用显卡挖矿最多的时候,除了GeForce 1060以上全面缺货和涨价之外,这款专用的P104也是一卡难求。大家知道普通GeForce显卡挖矿损坏是不保修的,P104还提供3个月质保。

如果GeForece RTX T10-8正式名称确实如此,我想它可能也是专为云游戏应用而设计的。具体比RTX 2080贵多少我说不准,但也可能会像P104这样去掉显示输出接口?——因为并不需要本地连接显示器。另外一点:Tesla现在都是被动散热,GeForece RTX T10-8会采用风扇主动散热吧?

以上也算是我对云游戏计算平台的一点小见解。云游戏/VR应用中还涉及远程图形传输协议(视频推流)、针对低延迟网络的5G通信等技术,以后有机会再跟大家聊。

注:本文只代表作者个人观点,与任何组织机构无关,如有错误和不足之处欢迎在留言中批评指正。进一步交流技术,可以加我的QQ/微信:490834312。如果您想在这个公众号上分享自己的技术干货,也欢迎联系我:)

尊重知识,转载时请保留全文。感谢您的阅读和支持!

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。