导航菜单

英伟达推出首款Pascal显卡即怪异的Tesla P100

首款基于Nvidia全新Pascal架构的全功能GPU。尽管Tesla P100是针对专业人士和深度学习系统而不是针对消费者的,但如果消费者Pascal GPU是类似的东西-并且它们很有可能成为现实-游戏玩家和发烧友都将看到性能的巨大提升。

该 特斯拉P100是第一个全尺寸的Nvidia GPU基于所述TSMC 16nm以下的FinFET制造工艺状AMD,NVIDIA一直停留使用较旧的28nm工艺自2012年以来,和第一到特征的第二代高带宽存储器的(HBM2) 。三星在一月份开始批量生产更快,更高容量的HBM2内存。尽管最近有传言称Nvidia和AMD都将由于其价格过高而在今年不使用HMB2,但实际上,AMD的最新路线图表明其新的Polaris GPU将不会使用HBM2,但 Nvidia至少在其专业人士方面取得了飞跃系列的GPU。

P100更高效的制造流程,架构升级和HBM2的结果大大提高了英伟达当前性能冠军(如基于Maxwell的Tesla M40和Titan X / Quadro M6000)的性能。英伟达表示,P100的半精度(FP16)浮点性能达到21.2 Teraflop,单精度(FP32)为10.6 teraflop,双精度为5.3 teraflops(1/2速率)。相比之下,Titan X和Tesla M40仅提供7 teraflops的单精度浮点性能。

得益于更宽的4096位内存总线,内存带宽在Titan X上达到720GB / s的两倍以上,而容量高达16GB。有趣的是,Tesla P100甚至不是完全启用的Pascal版本。它基于该公司的新GP100 GPU,并启用了60个流式多处理器(SM)中的56个。GP100芯片的表面积为610平方毫米,与GM200 Titan X大致相同。由于采用了较小的16纳米工艺,因此与其缩小芯片,Nvidia并没有选择简单地将相同的空间填满一个还有更多的晶体管(精确地说是153亿个),几乎是高端GM200 Maxwell芯片的两倍。

虽然Nvidia尚未公开Pascal架构的所有底层细节,但从初始信息中可以收集到一些有趣的花絮。核心时钟为1328MHz,升压时钟为1480MHz,均远高于基于Maxwell的GPU,以及300W TDP。Pascal的每个SM具有64个FP32 CUDA内核,而Maxwell具有128个,每个SM也包含32个FP64 CUDA内核。这导致了双精度浮点数的1/2速率性能。Pascal还能够在单个FP32 CUDA内核中打包两个FP16操作。HBM2存储器以四个4GB堆栈进行布局,每个堆栈具有1024位的宽度,总共有4096位的内存总线。

P100还支持NVLink,这是一种专有互连技术,早在2014年就宣布推出,该技术可使多个GPU直接相互连接或以比PCI Express 3.0当前提供的带宽高得多的带宽支持CPU。它还支持多达八个GPU连接,而不是四个PCIe和SLI。

Nvidia首席执行官黄仁勋在2014年最初宣布NVLink时表示:“ GPU的内存快而小,而CPU的内存快而慢。” “加速的计算应用程序通常将数据从网络或磁盘存储移动到CPU内存,然后将数据复制到GPU内存,然后再由GPU处理。通过NVLink,数据可以以更快的速度在CPU内存和GPU内存之间移动。 ,使GPU加速的应用程序运行得更快。”

Huang当时还嘲笑包装Pascal图形的系统的速度将比基于Maxwell的系统快10倍,但是在GTC 2016上,他发布P100时提高了赌注,他说某些任务的速度会提高12倍增加速度。他声称,在Maxwell加速的PC上在25小时内完成的任务在Pascal系统上可能仅需两个小时。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。