Nvidia收购Mellanox背后的野心和启示

来源:内容由公众号半导体行业观察(ID:icbank)原创,作者:李飞,谢谢!

Nvidia是今天全球公认的GPU技术和市场双冠王。除此之外,Nvidia也在积极布局云端服务器市场,其中的一项重要举措就是收购Mellanox。

Mellanox是一家以色列高性能网络芯片和解决方案提供商,其产品包括Smart NIC,网络交换机芯片和高速数据互联等。Mellanox是一家以色列公司,它在人工智能兴起的时候推出了其独特的超高性能InfiniBand数据互联产品,大大提升了数据中心人工智能训练的速度和效率,此后就牢牢占据了人工智能相关云端服务器数据互联产品的高地。在Nvidia收购Mellanox之前,Mellanox的RDMA等重要技术已经和Nvidia GPU一起出现在了许多云端高性能服务器中。

Nvidia从去年开始收购Mellanox的流程,各国政府审批的时间接近一年。由于之前高通收购NXP的交易没有及时通过中国的审批而最终失败,因此Nvidia收购Mellanox是否能过中国的审批也成了之前各方关注的一个不确定因素。随着上周中国的审批终于获得批准,Nvidia收购Mellanox的政府审批流程已经完成,预计将于4月底完成交易。

除此之外,在Nvidia宣布要收购Mellanox但是在收购还未完成之前,在今年的早些时候,Mellanox宣布了要收购网络安全和智能IP提供商Titan IC。Titian IC总部位于北爱尔兰贝尔法斯特,成立于2007年,其提供的IP主要针对网络安全和内容智能。举例来说,在数据中心中,恶意入侵的网络流量通常都存在一些固定的特征,而Titan IC提供的硬件IP和软件就能实现在硬件加速器中检测这些特征,从而让CPU可以去做其他事情。事实上,这样的需求一直存在,只是之前用CPU做也能足够快,但是随着大数据时代的来临,一方面数据流量大大增加,另一方面在存储和网络方面使用专用的基于X86服务器也难以在成本和性能上满足应用的需求,因此在近几年这些把相关网络算法硬化成专用加速器的做法也得到了重视,而Titan IC就是这样一家公司。据悉,在Mellanox要收购Titan IC之前,Titan IC的RXP技术已经在Mellanox的产品中得到了应用,而随着智能网络安全专用算法加速硬件越来越重要,收购也是顺理成章。

Nvidia、Mellanox和Titan IC的收购将提升云端人工智能芯片产品的门槛

我们认为,Nvidia、Mellanox和Titan IC的套娃式收购将大大提升云端人工智能芯片产品的门槛。该收购案完成后,或将对云端AI芯片市场产生很大的长远影响。

首先,我们看到,Nvidia对Mellanox的收购有些类似上下游式整合——Nvidia代表了云端人工智能的生态,而Mellanox则代表了云端人工智能的核心技术,收购后意味着该核心技术与Nvidia的生态牢牢地绑定了在一起。

众所周知,Nvidia的GPU在目前是云端人工智能加速的主流解决方案。虽然也有一些其它AI芯片公司提供云端人工智能训练的加速,但是谈到与Nvidia的比较都显得缺乏竞争力,最多只能算是Nvidia之外的一个候补供货方案。为什么?究其根本,并不是这些AI芯片公司的峰值算力不够,而是在生态上难以与Nvidia的CUDA生态做竞争,在软件方案上缺乏Nvidia CUDA这样的完整编程和工具链,而这些完整的工具链需要很长的时间积累,目前也正是Nvidia最高的壁垒。

如果说以上只是Nvidia生态在单机训练上的竞争门槛的话,那么在目前广为应用的分布式训练上,Nvidia则构筑了更高的门槛。分布式训练中,需要将数据分布到多台服务器上去做单步训练,同时在完成单步训练之后,需要将分布在多台服务器上的权重和梯度信息做一次同步,才能继续训练,而该同步过程对于多台服务器之间的数据交换则形成了很大的考验。一方面,在硬件上会需要高速的数据交换互联,另一方面,在底层软件方面,也需要高效的接口,防止数据交换的软件层成为性能的瓶颈。也正是因为分布式训练对于数据交互的高需求,在2016年之前都没有特别好的解决方案,直到Mellanox的InfiniBand出现成为了高性能互联解决方案。后来随着技术的迭代,目前以太网+RDMA的方案(同样是Mellanox的强项)成为了常规的解决方案,而Nvidia的NCCL则成为了底层软件接口的标准。换句话说,在Nvidia收购Mellanox之前,Mellanox的数据互联方案+Nvidia的GPU底层接口经过多年迭代已经形成了一个非常完善的工程解决方案,而其它AI芯片公司想要复制Nvidia GPU的分布式训练则势必要重复一遍这样的迭代过程。

一旦Nvidia GPU+Mellanox网络技术的上下游生态绑定,那么在整合完之后就会诞生一个巨头,并大大提升竞争门槛。在收购完成之后,Nvidia GPU和Mellanox的以太网+RDMA就成为了一家人,其它AI芯片公司要加入竞争,则必然会在分布式计算方面遇到来自Nvidia更大的压力,这也意味着竞争门槛大大提高——例如,为了能真正进入分布式训练是一个必选项的云端AI芯片市场,则必须能自主掌握RDMA等分布式训练需要的数据交换技术,而能做到这一点的公司寥寥无几——一个例子就是Habana,其一大亮点就是其AI训练芯片中包含RDMA,这或许也是Intel之前高价收购Habana的重要考虑因素。

而在Mellanox收购了Titan IC之后,这三者的结合则更是提供了包含人工智能+高速数据互联解决方案+网络安全加速的横跨多个领域的完整方案,也让其产品在数据中心竞争中占据了极为有利的位置。

更重要的是,Nvidia的野心并不仅仅在人工智能,而是想要扩展到更广的数据中心高性能计算领域。例如,在未来十年内,我们认为除了人工智能之外,还有许多有很大潜力的计算会需要在云端完成。举例来说,与健康相关的基因计算就是一个重要方向,而Nvidia也在之前收购了从事基因计算并行化领域的初创公司ParaBricks,显示了它在该方向的布局。而对于云端分布式计算来说,事实上Nvidia GPU+Mellanox RDMA+Nvidia CUDA都将形成难以撼动的整体解决方案,这样的黄金组合或许将统治云端高性能计算加速市场很久。

中国半导体行业需要考虑相关布局

Nvidia收购Mellanox之后意味着欧美半导体公司在云端计算领域正在加快进步的步伐,中国半导体行业和相关公司应考虑加快布局。

首先,从常规行业竞争来说,如前所述,Nvidia+Mellanox的完整方案提升了竞争壁垒,如果中国的半导体行业再不能进入该行业,则意味着在技术快速发展的未来几年,中国公司和Nvidia之间的技术差距会越拉越大,也就是说云端AI这一个高技术同时也高利润率的行业我们将拱手相让,直到等到该领域的技术发展接近饱和时才能真正进入竞争行列。然而,即使中国公司在未来几年和Nvidia竞争不切实际的话,如果想要在数年后才慢慢追赶,那么也应该在今天考虑开始布局,因为追赶也是需要时间的——正如海思的手机芯片从第一代完成设计到真正赶上世界顶尖水平用了数年的时间。

其次,从非常规竞争的角度考虑,一旦因为政治原因中国无法再进口Nvidia的产品,那么在中国国内公司无法填补空白情况下,对于中国以人工智能为代表的新基建造成的伤害将非常大。目前,Nvidia的GPU加速方案对于人工智能(以及以基因计算为代表的新兴科学计算)来说是像CPU一样的核心组件,因此我们也希望能有中国半导体公司能替补空白。

综上,云端服务器的加速解决方案一方面是高利润率的市场,另一方面对于中国的新基建也是核心器件,因此无论是从市场角度还是从安全角度考虑,中国半导体行业都应该能积极布局这个市场。从技术和商业上来说,华为显然是最适合也最有动力做这件事情的中国公司。首先,从技术上来说,华为在网络交换、NIC芯片等领域都已经有了多年的技术积累,而在加速芯片方向也有Ascend系列成功推出,因此在芯片技术上整体是最接近的,其中芯片上目前还缺少GPU这样的大规模训练加速芯片,但是以华为的能力相信能够在未来几年内拿出一套方案来——相比Nvidia来说,中国的大规模训练加速芯片无需去考虑渲染等需求,可以去掉Nvidia的历史包袱,做得更纯粹一些。其次,从商业上来说,华为也有动力去做这件事情:5G+云+AI的融合大概率将是华为未来的战略,而在该战略中,已经屡屡登上美国名单的华为不会希望核心器件(GPU)被抓在他人手里。

除了华为之外,我们也希望能够有更多的上下游企业能一起在这个方向上努力。如前所述,Nvidia的最大壁垒其实是生态,而如果我们想加速发展这个生态,那么光靠华为一家公司是远远不够的,它需要AI服务提供商从计算框架上提供支持,它需要主流的云服务厂商(如阿里,百度等)为半导体芯片从需求侧提供切实的发展方向,它也需要来自于同行业的良性竞争来促进其发展。例如,在大规模训练加速方面,除了华为外我们还看到了寒武纪、燧原等中国初创公司,希望在未来几年内,我们能看到在云端服务器市场有更多中国半导体公司走进主流视野。

发表评论

邮箱地址不会被公开。 必填项已用*标注