AI浪潮下的硬件风暴：除了谷歌和英伟达，还有哪些科技巨头参与其中？

作者：漫谈互联网来源：漫谈互联网公众号

分享到：

05-18

在前两天的谷歌I/O大会上，在安卓P之外，谷歌还发布了非常重要的硬件：TPU3.0。这是这家科技巨头第三次发布新版本的机器学习专用处理器。除了谷歌和业内英伟达，还有哪些科技巨头也参与到了AI硬件的研发当中？

人工智能需要大量的计算资源进行训练。但是这个规模有多大？很多人是没概念的。对于大公司来说，对资源的要求非常高，尤其是神经网络，比如谷歌I/O大会大放异彩的安卓电池节约模式和自动亮度调整，就是Deepmind的产品，Deepmind在官方新闻并未透露让手机学习这些行为需要多少资源，但是在围棋项目上可以窥探一下。

▲2000个P100运行两三周才能训练出强大的围棋程序

Deepmind训练AlphaGo Zero的时候，2000个TPU跑了40天。Alpha Zero训练则是调用了5000个TPU。写成论文之后，Facebook在重现论文的时候，则是使用了2000个GPU运行了两三周的时间，这个GPU都是英伟达的P100，一个8GPU的学习服务器英伟达就要卖到上百万人民币。

▲TPU：每小时6.5美元，训练AlphaGo要数百万美元

让巨头们狠下心来自己搞AI硬件的动力来自多个方面，一来谷歌自己做针对TensorFlow优化的TPU效果好，二来现在谷歌云都可以租赁分时使用TPU资源了，对于擅长硬件或是云计算的科技巨头们来说，是时候发展自己的AI硬件了，这正在成为大公司的游戏。

CPU在任务处理器里出现两个核心，可以追溯到十多年前的奔腾四时代，刚刚出现的HyperThreaing技术。不过很多年过去，由于CPU的单个核心任务繁重，所以就算是服务器的版本，核心数也不过20多个就基本到头了。

▲GPU更多的核更适合机器学习和AI

在神经网络出现之后，要用计算机系统去模拟更多的人大脑的神经元，这样神经网络在训练的时候对资源的开销非常大。因为神经网络的特点是节点多，这对于核心不多的CPU来说就需要非常大的服务器集群。但是当时人们发现了显卡，单个显卡上面有很多个单元，正好适合训练人工智能的神经网络。

在TitanV当中，英伟达加入了640个张量单元用来加速AI训练速度

▲英伟达的股票过去几年成为投资热点，暴涨了数倍

而神经网络单个节点并不需要多高的计算能力，这让显卡企业英伟达迅速的推出了针对神经网络、机器学习专用的GPU，过去几年英伟达的股价暴涨数倍。科技巨头们采购的GPU往往以万计，只有这个规模才能满足他们对于探索的需求。

▲DGX-2可以支持单机16个V100GPU

现在英伟达成为了业内最大的机器学习GPU的供应商，并且英伟达自己也提供DGX系列机器学习服务器，今年的新款可以单机支持16个GPU，过去是8个。可以说英伟达是AI时代最大硬件赢家也不为过。

▲赢家自信的微笑

这里我们回到开头，Facebook训练围棋程序ELF用了多少个GPU？2000个！英伟达总裁黄仁勋还可以笑很久很久。

谷歌最早的Google Brain搞机器识图的时候，就是大规模的GPU集群。据说曾经用力上万张GPU来进行学习训练。因为GPU并没有针对性的对谷歌的TensorFlow框架进行优化。而到了和李世石下围棋的版本，则已经开始使用自己的TPU，但是多达50个。

▲谷歌完整经历了从CPU到GPU再到TPU的流程

到了与柯洁下棋的时候，可以看到机器已经变成了只要一个4U左右的4TPU服务器就可以，这就是专用芯片的威力，对于AI和神经网络，专用芯片的效率提升是指数式的，而不是线性的几个机架缩小到1个。

▲TPU2.0：四个一张PCB，算力可以达到180TFlops

谷歌的TPU全称叫做Tensor Processing Unit，张量处理单元，它针对谷歌的深度学习框架TensorFlow定制开发，TPU推出只有8位的低精度计算，并且有不小的板载内存以减少对内存的访问，但是优化后可以极大的提高机器学习的效率。

▲TPU3.0的高功耗不得不用上水冷散热

▲下面8个互联机架有每秒1000万亿次的能力

与柯洁下棋的是TPU二代，四个TPU有180TFlops的计算能力。而这两天的谷歌I/O上则推出了TPU3.0版本，功耗进一步加大，使用了水冷。根据谷歌CEO Pichai的话说，要比过去快十倍以上：这其实说的是一整个集群模块，可以达到100PFlops，也就是所说的每秒1000万亿次。

当然TPU不是万能的，它针对的是谷歌的学习框架，而Facebook的学习PyTorch框架基本就没法用，所以目前来说还只是针对性的硬件。

谷歌的TPU本质上是ASIC，当然机器学习不止一条路，微软就在5月7日的Build2018大会上，宣布了Project Brainwave的预览版，这其实比谷歌的I/O还早了几天。

▲微软押宝FPGA

▲微软Project Brainwave团队负责人Doug Burger展示FPGA模块

微软押宝的是FPGA（现场可编程门阵列Field Programmable Gate Array，简称FPGA），微软始终认为FPGA更灵活，可以适应多种机器学习的类型。微软还声称，FPGA可以使用图形识别模型每1.3毫秒就识别一张图片，而根据微软CEO Satya Nadella的演讲，FPGA的延迟要比TPU低5倍。

▲近看FPGA，可以插在全高的PCIE服务器模块上加速AI和深度学习计算

微软的FPGA灵活性在于不仅仅支持TPU支持的TensorFlow，也支持微软自己的人工智能认知工具包，前面说的识别图片就是最基础的人工智能应用之一。与谷歌云支持TPU差不多，微软也即将在Azure云中支持FPGA的人工智能、机器学习加速。

最近关于国产半导体的事情闹得沸沸扬扬。其实半导体这种成熟的工业，要追赶的路还很长，不要妄自菲薄，也不要有点成绩就沾沾自喜嚷嚷赶英超美才是正确的态度，路是一步一步走出来的。最近国内的芯片领域的领军企业、具有深厚中国科学院背景的寒武纪就推出了MLU。

▲寒武纪的成品模块与芯片

MLU造型上和英伟达标准版的显卡有点像，也是在PCB后部用一个涡轮风扇横向吹风散热的结构，这种结构成熟，可以很容易的放到机箱里面。当然我们更关心的是性能。根据寒武纪官方公布的数字，INT8模式下最高可以达到166.4TFLOPS，大概和谷歌的TPU2.0性能相当。

MLU和GPU一样，都相当灵活，可以容易的放到机箱、服务器里面起到专门的AI加速作用，并且MLU的工艺是TSMC的16nm，估计未来国内很多AI领域的研究会围绕MLU展开。

▲机器学习硬件的应用场景，分学习和应用推理两部分

今天列举的只是众多的AI硬件当中的几个，还有大量获得千万美元以上风投公司的AI硬件在路上，烧钱背后是人们意识到了AI同过图灵测试之后展现的强大，尤其是谷歌I/O大会上的谷歌助手，让人分辨不出就是是人还是机器。但无论如何，硬件越强大、AI越智能，越能解放我们的双手和劳动力，让真正的大脑投入到思考当中。

查看原文

阅读9126

浪潮硬件

关注漫谈互联网微信号：mthlw2016