英伟达特斯拉v100显卡(2060 eth)

最近几周我想写点什么，现在谈谈GPU/显卡吧。上图信息量有点大，下面慢慢说…

我昨天看了国外来的新闻。 “硬件检查工具AIDA64的更新日志中出现了一个名为GeForece RTX T10-8的显卡。它基于TU102核心构建。 ”下图：

我记得在NVIDIA的几个RTX Super扩展卡推出之前，有传言说2080 Ti也有Super机型，可以将显示内存从11GB提高到12GB。也就是说，它是384-bit位宽的完整规格，与Titan RTX相同。之后NV散布了谣言，但这次推测该T10-8是RTX 2080 Ti Super还是什么。

但是我确实不这么认为。两个简单原因：第一，“-8”可能代表8GB的显存；第二，“T10”并不是一个全新的名字。因为以前的Turing (图灵)体系结构已经有Tesla T10。

NV计算卡定位差异： Tesla T4

Turing系列和RTX光线跟踪GPU发布后，通用计算高端卡仍然是Tesla V100，P100和更高版本中只有Volta体系结构的这个“大核心”支持FP64双精度浮点计算NV全面公开发布的Tesla新品只有T4，这一定有自己的想法。

Tesla基于TU104核心，低轮廓，功耗只有70W。相比之下，它拥有2560个CUDA Core，显存高达16GB，功耗明显相当高。

与HPC经常使用Tesla V100不同，T4是VDI——GPU桌面虚拟化APP应用程序，包括AI/机器学习中的信息(推理)和将16GB显存分成8个2GB的vGPU 除了单独卖钱的网格许可证选择外，Tesla T4还提供16VF的SRIOV支持。

AI深度学习计算(尤其是信息)面临着各种高效方案的竞争，正如我们在《OCP China Day：Nervana神经网络处理器、Ruler还有500G？》中所写的，而不仅仅是GPU的选择。 NV最擅长的还是图形显示(包括后端计算云游戏)，这方面的ASIC和FPGA无从下手。

在最新的NVIDIA驱动程序中，Turing体系结构中只有一个Tesla。我看到Tesla、Quadro和TITAN的设备id末尾有. 10DE。也就是说，只提供工厂卡。

面向云游戏的Tesla T10 :规格安静变化

除非您在NVIDIA网站上仔细查看过RTX Server页面，否则很难找到此NVIDIA很少主动宣传过的Tesla T10。 Cloud Gaming——云游戏会不会是下一个增长点？

这张照片的左右两边剪下了两个旧/新的资料，你注意到有什么不同吗？

NV这个系统实际上是8U机

架的刀片服务器。每机箱内10个双节点刀片（也就是20节点）。

具体到单节点的配置，CPU是1颗Intel i9 8核，2颗Tesla T10 GPU。不过NV最新的资料中隐去了RTX的型号（已经不提Tesla了），并将显存从8GB提高到16GB。那么原来的“T10-8”会不会就改成GeForce了呢？

在“Tesla T10 16GB”显存增大的同时，新版资料中还加入了vGPU支持。按照我的理解，在没有vGPU的情况下，每个双GPU节点可能是运行单一Windows/Linux系统，以进程级别隔离在上面运行的“云游戏”应用；或者利用IDV/PCV这类PC虚拟化软件，在Linux Hypervisor底层上装2个虚拟机（很可能是Win），把显卡分别以独占方式穿透进去。

这次vGPU（GRID Gaming）的引入，估计就能把显卡切割给更多的虚拟机，以达到比进程更好的隔离效果来适配某些游戏。至于“Tesla T10 16GB”具体切分为几个vGPU使用，我稍后会讲。

先来看看Tesla T10 GPU的规格，3584个CUDA Core应该属于TU102核心，参考上表，恰好与上一代的GP102的GTX 1080 Ti数量相同。按照NV网站的说法在游戏中能够达到GeForce RTX 2080（属于TU104）的水平，而功耗只有150W。这个有点像Tesla T4的做法，用相对“大核心”降低频率以实现更好的能耗比，当然T10的成本应该比2080要高，卖价也会是如此吧？

以前在对比GPU服务器时经常会看空间密度，这次的RTX Server在8U内容纳40个GPU与传统机型的设计思路不太一样。比如我在《4U 10卡机器学习服务器：为什么PCIe比NVLINK能效比高？》介绍的Dell DSS8440，8U内2台能放进20个300W功耗的Tesla V100；1U 4卡的PowerEdge C41x0，8节点能达到的密度更高——32 x 300WGPU。云游戏并不需要单卡性能太高，而是更在意能耗比和CPU的配比。

上面这段资料提到GRID vGaming软件能让40个GPU同时运行160个PC游戏，如果是每个CPU节点启动8个虚拟机的话，每个虚机平均能够分配到4GB显存的vGPU、1个CPU核心、接近4GB内存和60GB左右SSD容量，运行主流中等负载3D游戏差不多够了。

如果在数据中心配置30套RTX Server，可以服务数千个并发用户。

挖矿之外，GeForce在数据中心允许的另一用途？

无论RTX Server中的“T10 16GB”是否还叫Tesla，包括我和一些同行朋友都认为：如果是传统NV对Tesla的定价习惯，想在对成本要求苛刻的云游戏市场中广泛应用是有些困难的。

就像NV之前只允许GeForce在数据中心用于区块链计算（俗称挖矿）那样，商业公司都希望自己的利益最大化。当然NV也不傻，他们在GeForce RTX上保留Tensor Core全部能力的同时，将显存容量严格限制在上一代的水平，这将显著影响一些更大规模计算的性能（如渲染）。没有显存ECC支持也无法充分保证长时间高负荷运行的稳定，规模大些的商业HPC用户基本上只能选Tesla和Quadro。

还有些功能从技术上是难以限制的，比如一些VR应用和3D游戏调用同样的GPU处理单元，这时GeForce就可能和同等硬件规格的Quadro专业显卡跑一样快。具体到此类场景，用户肯定会看性价比，而传统制造业对图形工作站的选型则是另一种情况（具体先不展开了）。

举上面这个例子，我是想说明NV为云游戏设计了“Tesla T10”+ vGPU虚拟化的基础设施，但最终市场选择可能会更看重性价比。因为还有Intel的PC Farm方案，有些特殊情况数据中心里也可以放多节点PC，AMD的Radeon游戏显卡也没有限制吧？

至此，我把GeForece RTX T10-8相关背景交待差不多了。当然以上有许多个人推断的内容，我还想继续猜一下T10会长什么样？

NVIDIA P104“专用矿卡”，图片引用自技嘉网站。

记得前两年人们用显卡挖矿最多的时候，除了GeForce 1060以上全面缺货和涨价之外，这款专用的P104也是一卡难求。大家知道普通GeForce显卡挖矿损坏是不保修的，P104还提供3个月质保。

如果GeForece RTX T10-8正式名称确实如此，我想它可能也是专为云游戏应用而设计的。具体比RTX 2080贵多少我说不准，但也可能会像P104这样去掉显示输出接口？——因为并不需要本地连接显示器。另外一点：Tesla现在都是被动散热，GeForece RTX T10-8会采用风扇主动散热吧？

以上也算是我对云游戏计算平台的一点小见解。云游戏/VR应用中还涉及远程图形传输协议（视频推流）、针对低延迟网络的5G通信等技术，以后有机会再跟大家聊。

注：本文只代表作者个人观点，与任何组织机构无关，如有错误和不足之处欢迎在留言中批评指正。进一步交流技术，可以加我的QQ/微信：490834312。如果您想在这个公众号上分享自己的技术干货，也欢迎联系我：）

尊重知识，转载时请保留全文。感谢您的阅读和支持！