深度:32家公司决战云端AI芯片!

时间:2019-06-11 11:26:34  来源:龙翔网

【龙翔网修改】

原标题:深度:32家公司决战云端AI芯片!

智东西(大众号:zhidxcom)

文 | 心缘

2019年,新的云端AI芯片战场正如火如荼。

曩昔几年,人工智能(AI)从一个被小看的学术冷门研讨忽然爆红,一路狂奔到商业化的最前沿,在安防、金融、教育、制作、家居、文娱等各个与人们日子休戚相关的范畴掀起了一股智能化晋级和万物互联的飓风。

这场史无前例的技能革命的直接推进者,是国外谷歌微软Facebook、国内BAT等互联网巨子以及一众重生的AI草创企业,而这些公司快速在AI范畴开疆辟土的魂灵支柱,则是供给连绵不断高密度核算才能的AI硬件供给商。

AI硬件运用场景一般分为云端和终端,云端首要指大规划数据中心和服务器,终端包含手机、车载、安防摄像头、机器人等丰厚的场景。

无论是在线翻译、语音帮手、个性化引荐仍是各种下降开发者运用门槛的AI开发渠道,凡是需求AI技能之处,背面都需求云端AI芯片废寝忘食地为数据中心供给强壮的算力支撑。

依据NVIDIA在2017年亮出的数据,到2020年,全球云端AI芯片的商场规划累计将逾越200亿美元,这个体量巨大的商场已成为各路芯片巨子凶相毕露之地。

NVIDIA通用图形处理单元(GPGPU)便是乘着深度学习的春风青云直上,股价在2015年仍是20美元,到2018年10月飙升至292美元,市值逾越肯德基和麦当劳,一跃成为AI范畴榜首股,市值数十亿美元,坐享无限风光。

其火箭般的涨势惊醒了一众潜在竞赛对手,风暴呈现在地平线上。半导体巨子、AMD等奋勇赶上,谷歌、亚马逊、百度、跨界自研,还稀有十家重生芯片创企揭竿而起,意图通过自研架构等办法打破云端AI芯片功用的天花板,重塑这一商场的地图。

本文将对云端AI芯片的战事进行全景式复盘,盘点参加战局的五大半导体巨子、七大中美科技巨子和20家国内外芯片创企,看从前缔造神话的NVIDIA,能否维系它的传奇帝国?现在现已呈现或许正在开发的新核算架构,能否适配未来的算法?哪些企业更有望在强手如林的竞赛环境中生存下来?

谁能主导这场云端AI芯片战事,谁就把握了将在未来云核算和AI商场的战争中赢得更多话语权。

一、十年押注,AI核弹发射

悉数始于意外,又绝非一次意外。

十几年前,英伟达(NVIDIA)在阅历过和数十家对手的剧烈厮杀后,和AMD成为图形显卡范畴的两大霸主。那时,大大都NVIDIA职工们,并不知道人工智能(AI)是什么。

彼时,NVIDIA总营收规划约30亿美元,其开创人兼CEO黄仁勋做了一个冒险的决议——每年为CUDA项目砸5亿美元,通过一系列改动和软件开发,将GPU转化成更通用的核算东西,累计总额近100亿美元。

这是一个极具前瞻性的决议。2006年,全球首款GPU上的通用核算处理方案CUDA现世,这一技能为编程人员带来越来越便利的入门体会,逐步为NVIDIA GPU堆集了健旺安定的开发者生态。

直到2012年,NVIDIA遇到了深度学习的风口。

这一年,加拿大多伦多大学教授、机器学习范畴权威、神经网络之父Geoffrey Hinton带领课题组用GPU练习卷积神经网络(CNN)AlexNet,一举拿下ImageNet图画辨认竞赛的冠军,将AI推到了学术界焦点的历史性拐点。

GPU并非为深度学习而生,其并行核算才能竟与深度学习算法的逻辑一拍即合。每个GPU稀有千个内核并行,这些中心一般履行许多初级的、繁复的数学运算,非常合适运转深度学习算法。

之后,越来越强的“CUDA+GPU”组合,凭仗无敌的处理速度和多使命处理才能,敏捷抓获一大批研讨人员们的芳心,很快就成为全球各大数据中心和云服务基础设施的必备组件。

巨子们的云端AI芯片之战,悄然拉开序幕。

二、芯片巨子激战云端:NVIDIA独霸,英特尔AMD奋起

起步早加上生态稳健,NVIDIA很快就成为云端AI芯片商场的领导者。

NVIDIA在通往更强的道路上一往无前,连续展现令人惊叹的Tensor Core、NVSwitch等技能,不断打造新的功用标杆。此外,它还构建了GPU云,使得开发者随时能够下载新版的深度学习优化软件仓库容器,极大程度上下降了AI研制与运用的门槛。

就这样,NVIDIA靠时刻、人才和技能的堆集,垒起了坚不可摧的城墙。想要城池者,无不需求遵从NVIDIA指定的规律。到今天,NVIDIA的工程师军团已逾万人,其GPU+CUDA核算渠道是迄今为止最为老练的AI练习方案,吞食掉绝大大都练习商场的蛋糕。

从功用来看,云AI芯片首要在做两件事:练习(Training)和推理(Inference)。

练习是把海量数据塞给机器,通过重复调整AI算法,使其学习把握特定的功用。这个进程需求极高的核算功用、精度和通用性。

推理则是将练习好的模型拿来运用,它的参数现已固化,也不需求海量数据,对功用、精度和通用性的要求没有练习那么高。

GPU在练习商场的是一座难以翻越的高山,但在对功耗要求更高的推理商场,它的优势相对没那么显着。

而这儿,也是入局偏晚的半导体巨子们集合的方向。

▲芯片巨子首要云端AI芯片产品不彻底统计

1、GPU:NVIDIA赢者通吃,AMD抢垒7nm

芯片是赢者通吃的商场,云端AI芯片亦不例外,NVIDIA为加快数据中心运用推出的高中低端通用GPU,一直是各路玩家参阅的功用标杆。

NVIDIA在短时刻内投入数十亿美元动用数千工程师,于2016年推出了榜首个专为深度学习优化的Pascal GPU。2017年,它又推出了功用比较Pascal进步5倍的新GPU架构Volta,神经网络推理加快器TensorRT 3也同期露脸。

在最新季度财报中,NVIDIA数据中心收入同比增加58%至7.92亿美元,占公司总收入的近25%,在曩昔的四个季度中一共到达了28.6亿美元。假如它能够坚持这种增加,估计2019年的数据中心将到达约45亿美元。

和NVIDIA在GPU范畴长时刻相争的AMD,亦在积极地推进对AI加快核算的研制。2016年12月,AMD宣告主打AI与深度学习的加快卡方案——Radeon Instinct。

说起来,AMD在深度学习范畴的起步离不开我国公司的支撑。百度是榜首家在数据中心选用AMD Radeon Instinct GPU的我国公司,后来阿里巴巴也跟AMD签了合同。

现在AMD的GPU依然至少落后于NVIDIA的一代Tesla V100,不过在NVIDIA新招未发之时,AMD首先在其Next Horizon会议上宣告推出全球首款7nm GPU,名为Radeon Instinct MI60,内存带宽高达1 TB /秒,并宣称其7nm GPU通过AMD Infinity Fabric Link等技能,成为国际上最快的双精度加快器,能够供给高达7.4 TFLOPS的浮点功用。

除了供给GPU芯片,AMD也在通过推出ROCm敞开软件渠道等办法构建更强壮的开源机器学习生态系统。

虽然GPU暂时还抗不过NVIDIA,不过AMD有自己一起的优势。AMD既有GPU又有CPU,能够在其GPU与CPU间用Infinity Fabric完结无缝衔接,而英特尔至强处理器+NVIDIA GPU就很难做到这样的完美衔接。

相同扎在GPU商场安营扎寨的还有Imagination Technologies,只不过它长时刻深耕于移动GPU。从2017年到2018年,Imagination宣告了三款新的PowerVR图形处理单元(GPU),主打AI终端商场。

在上一年年末,Imagination高管在承受采访时泄漏,Imagination或许会宣告推出面向AI练习的GPU。

2、FPGA:赛灵思打出立异牌,英特尔“买”出全套大礼包

在AI推理的运用傍边,FPGA相较专用集成电路(ASIC)具有灵敏可编程的优势,它们能够针对特定的作业进行即时重新装备,比GPU功耗更低。

▲处理器的灵敏性与功用差异

FPGA范畴的老迈老二终年是赛灵思和英特尔Altera,面对新式的AI商场,体内的立异基因亦是摩拳擦掌。

赛灵思行将上线的大杀器叫Versal,这是业界首款自适应核算加快渠道(Adaptive Compute Acceleration Platform ,ACAP),选用台积电7nm工艺,集成了AI和DSP引擎,其软硬件均可由开发者进行编程和优化。

这一杀器用了4年的时刻来打磨,据称Versal AI Core的AI揣度功用估计比业抢先的GPU进步8倍。依照此前赛灵思开释的音讯,Versal将在本年发货。

有业界人士以为,Versal系列或许会改动AI推理商场。

假如说NVIDIA翻开AI的大门,靠的是天然符合的基因,那么英特尔则是靠“买买买”的捷径,快速跻身云AI芯片的前排。作为几十年的半导体霸主,英特尔一出手方针便是成为“全才”。

众所周知,英特尔耸峙不倒的主力是至强处理器。至强处理器犹如一个才智出众的军师,运筹帷幄,能处理各种使命,但假如你让他去铸造武器,他的功率则彻底比不过一个脑筋简略但有一身蛮力的武夫。

因而,面对具有许多重复性简略运算的AI,让至强处理器去处理此类使命既是大材小用,成果又很低效。英特尔的做法是给至强处理器调配加快器。

没有做AI加快器的技能布景怎么办?英特尔大笔一挥,直接买!

2015年12月,英特尔砸下167亿美元买走其时的可编程逻辑器材(FPGA)的前年老二Altera,现在英特尔凭着“Xeon+Altera FPGA”异构芯片的打法,将数据中心某些使命提速十倍有余。

尤其是近一年来,英特尔对FPGA的加码肉眼可见。前两年,英特尔连续推出号称是史上最快FPGA芯片的Stratix 10系列,这一系列取得了微软的喜欢。

微软推出根据英特尔Stratix 10 FPGA的云端处理方案Project Brainwave,称其运转速度达39.5 TFLOPS,推迟缺乏1 ms。

除了Stratix 10 FPGA芯片外,英特尔先是上一年12月在重庆落户了其全球最大的FPGA立异中心,后又在本年4月亮出被悄然打磨了数年的新武器——全新架构的FPGA Agilex,集成了英特尔最早进的10nm工艺、3D封装、第二代HyperFlex等多种立异技能。

英特尔的FPGA现已在服务器商场开端站稳脚跟,而另一项重要的买卖还处于蛰伏期。

2016年8月,英特尔花了三四亿美元买下专心于打造深度学习专用于硬件的加州创企Nervana,收买后不久,前Nervana CEO就被晋升为英特尔AI作业部总负责人,首款选用台积电28nm工艺的深度学习专用芯片Lake Crest在2018年量产,并宣称功用是其时最快的GPU的10倍。

2018年5月,英特尔全新云AI芯片Nervana神经网络处理器(Nervana Neural Network Processors,NNP)——Spring Crest正式露脸,据称其功耗小于210瓦,练习功用比Lake Crest进步3-4倍,将于2019年下半年向用户敞开。

关于云端AI芯片推理,英特尔在拉斯维加斯举办的CES上泄漏,它正在与Facebook就Nervana神经网络处理器NNP-I的推理版别密切协作。NNP-I将是一个片上系统(SoC),内置英特尔10nm晶体管,并将包含IceLake x86内核。

比照谷歌的TPU来看,英特尔人工智能作业群(AIPG)副总裁、Nervana团队中心成员Carey Kloss以为TPU 2.0类似于Lake Crest,TPU 3.0类似于Spring Crest。

3、新晋入局者:终端芯片巨子高通

在移动芯片范畴如日中天的高通,也刚刚举起进军云核算和超算范畴的敲门砖。

本年4月,高通宣告推出Cloud AI 100加快器,将高通的技能拓宽至数据中心,估计将于2019年下半年开端向客户出样。

据悉,这款加快器根据高通在信号处理和成效方面的技能堆集,专为满意急剧增加的云端AI推理处理的需求而规划,能够让分布式智能从云端遍及至用户的边际终端,以及云端和边际终端之间的悉数节点。

高通产品办理高档副总裁Keith Kressin称:“高通CloudAI 100加快器将为当今业界的数据中心的AI推理处理器建立全新标杆——无论是选用CPU、GPU和/或FPGA的哪种组合办法来完结AI推理的处理器。”

此外,他还介绍说,高通现在正处在优势方位支撑完好的从云端到边际的AI处理方案,一切的AI处理方案均可与具有高速率和低时延优势的5G完结衔接。

三、跨界巨子跌出:互联网霸主争上游

比较上面对云和数据中心商场狼子野心的芯片巨子们,下面这些跨界玩家的心思可就相对“单纯”许多。

这些中美互联网巨子的方针不是直接与NVIDIA、英特尔或AMD竞赛,而是向他们自己的云客户供给强壮的算力,削减对传统芯片制作商的依靠。

他们自研芯片的挑选也不尽相同,谷歌、亚马逊等挑选专用芯片(ASIC)的道路,而微软等则致力于运用现场可编程门列(FPGA)。

▲跨界科技巨子首要云端AI芯片产品不彻底统计

1、谷歌: 专用AI芯片商用开路人

作为最早开端做AI相关研制的科技公司之一,谷歌亦是试水专用AI芯片的前锋,最早验证ASIC能够在深度学习范畴替代GPU。

谷歌于2016年推出了自己开发的AI芯片Tensor Processing Unit(TPU),现已进入第三代,为谷歌的语音助理、谷歌地图、谷歌翻译等各种AI运用供给算力支撑。开端规划的TPU用于深度学习的推理阶段,而新版别现已能够用于AI练习。

谷歌宣称,运用32种最好的商用GPU练习机器翻译系统需求一天的时刻,相同的作业量需求在8个衔接的TPU上花费6个小时。

谷歌现在只在自己的数据中心内运营这种设备,没有对外出售。不过最近,谷歌表明将答应其他公司通过其云核算机服务购买其TPU芯片。

谷歌TPU在谷歌对外服务的商场是有约束的,TPU只能用与和运转Google TensorFlow AI结构,用户无法运用它们来练习或运转运用Apache MxNet或Facebook的PyTorch构建的AI,也不能将它们用于GPU占有着登峰造极方位的非AI HPC运用程序中。

但谷歌对此表明满意,因为它将TPU和TensorFlow视为其全面的AI领导力的战略。针对其软件进行了优化的软件针对其软件进行了优化,能够构建强壮而经用的渠道。

本年开年的新音讯是谷歌在印度班加罗尔建立了新的芯片团队gChips,并从英特尔、高通、博通和NVIDIA等传统芯片公司那里大举招兵买马,至少招募了16名技能老兵。

2、内部商用在即:微软FPGA、百度昆仑与华为昇腾

上一年5月,微软AI芯片Brainwave敞开云端测验版,称Project Brainwave核算渠道运用的FPGA芯片为实时AI而规划,比谷歌运用的TPU芯片处理速度快上了5倍(微软AI芯片Brainwave敞开云端试用版 比TPU快5倍)。微软Azure履行副总裁Jason Zander还曾表明,微软Azure实践上规划了许多自研芯片,用于数据中心。

不得不供认,国内科技巨子给芯片起名字,那文化水平高出国外不止一个Level。

百度给云端AI芯片命名的“昆仑”是我国榜首神山,相传这座山的先主,被古人尊为“万山之宗”、“龙脉之祖”,嫦娥奔月、西游记、白蛇传等众所周知的神话传说都与此山有所相关。

华为云端AI芯片的“昇腾”则取超逸尘世、上升、器宇轩昂之义,颇受文人墨客的喜欢。

百度和华为都是国内早早跨界造芯的科技公司。早在2017年8月,百度就在加州Hot Chips大会上发布了一款256核、根据FPGA的云核算加快芯片,协作伙伴是赛灵思。华为做芯片就更早了,2004年就建立半导体公司海思,只不过从前都是做终端的芯片处理方案。

2018年下半年,以它们为代表的新一轮造芯实力吹响了我国云端AI芯片冲击的号角。

百度是国内较早试水造芯的科技巨子,最早在2010年就开端用FPGA做AI架构的研制,2011年展开小规划布置上线,2015年打破几千片的布置规划,2017年布置逾越了10000片FPGA,百度内部数据中心、自动驾驶系统等都在大规划运用。

2017年8月,百度发布了一款256核、根据FPGA的XPU芯片,这款是和赛灵思协作的,中心很小,没有缓存或操作系统,功率与CPU适当。

随后在2018年7月举办的百度AI开发者大会上,百度宣告其时业界的算力最高的AI芯片——昆仑。

参数方面,昆仑芯片由三星代工,选用14nm工艺,内存带宽达512GB/s,中心稀有万个,能在100W以上的功耗供给260 TOPS的算力。

以NVIDIA最新图灵(Turing)架构的T4 GPU为比照,T4最大功耗为70W,能供给的最高算力也是260 TOPS,但这款GPU比昆仑芯片的发布晚了2个月,并且初期并没有在我国开售。百度主任架构师欧阳剑在本年的AI芯片立异峰会上泄漏,本年“昆仑”会在百度内部大规划运用。

华为的云端AI芯片昇腾910更是直接在发布现场和NVIDIA与谷歌正面PK。昇腾910直接用起了最早进的7nm工艺,选用华为自研的达芬奇架构,最大功耗350W。华为打的旗号是截止到发布日期“单芯片核算密度最大的芯片”,半精度(FP16)运算才能到达256 TFLOPS,比NVIDIA V100的125 TFLOPS足足高了一倍。

徐直军乃至表明,假定集齐1024个昇腾910,会呈现“迄今为止全球最大的AI核算集群,功用到达256P,不论多么杂乱的模型都能轻松练习。”这个大规划分布式练习系统,名为“Ascend Cluster”。

落地方面,百度 称其昆仑将于本年年内涵百度数据中心大规划运用,华为的昇腾910原方案在本年Q2上市,现在在贸易战的布景之下,不知道会不会推迟。

3、奥秘主义:亚马逊、阿里与脸书

作为中美云核算商场的龙头,阿里巴巴和亚马逊虽然略微迟到,但肯定不会缺席。

两家的研制意图都很清晰,是为了处理图画、视频辨认、云核算等商业场景的AI推理运算问题,进步运算功率、下降本钱。

阿里巴巴达摩院上一年4月宣告,Ali-NPU功用将是现在市面上干流CPU、GPU架构AI芯片的10倍,制作本钱和功耗仅为一半,性价比超40倍。同月,阿里全资收买大陆仅有的自主嵌入式CPU IP核公司中天微。

新发展发生在9月,阿里将中天微与达摩院自研芯片事务兼并,整组成一家芯片公司平头哥。研制Ali-NPU的重任由平头哥接棒,第一批AI芯片估计2019年下半年问世,将运用在阿里数据中心、城市大脑和自动驾驶等云端数据场景中。未来将通过阿里云对外敞开运用。

在模仿验证测验中,这款芯片的原型让铺设阿里城市大脑的硬件本钱节省了35%。但尔后,阿里简直未再宣告相关发展的声响。

亚马逊的云AI芯片Inferentia是上一年11月在拉斯维加斯举办的re:Invent大会上发布的。

这款芯片的技能源头要追溯到亚马逊在2015年头花费3.5亿美元收买的以色列芯片公司Annapurna Labs。依照官方介绍,每个Inferentia芯片供给高达几百TOPS的算力,多个AWS Inferentia芯片可构成不计其数的TOPS算力。该芯片仍在开发中,按预告,这款芯片将于2019年末上市。

Facebook的造芯方案浮出水面的很早,但却是信息曝光最少的玩家。

除了买下相对老练的芯片公司外,招兵买马也是常备之选。Facebook的造芯方案在上一年4月初露端倪,官网上发布了招聘ASIC&FPGA规划工程师的广告,用于组成芯片团队。3个月后,美媒彭博社报导称,Facebook挖走谷歌高档工程师主管Shahriar Rabii担任副总裁兼芯片负责人。

Facebook首席人工智能科学家、最新图灵奖取得者Yann LeCun在承受采访时泄漏,其造芯首要是未来满意对网站进行实时视频监控的需求。

而比及本年1月时,英特尔在全球消费电子展(CES)上表明,正与Facebook协作开发一款新的AI芯片,用于加快推理,并力求在本年下半年开发完结。

不过迄今为止,外界对Facebook AI芯片的功用信息一窍不通。

四、新秀迭出:国内创企抢先落地,国外创企酝酿大招

AI的复兴推翻了以往由英特尔、AMD、高通等尖端芯片公司carry全工业的安稳局势,为新的一批芯片创业者发明了时机。

一些草创公司期望从头开端创立一个新渠道,一直到硬件,专门针对AI操作进行优化。期望通过这样做,它能够在速度,功耗,乃至或许是芯片的实践尺度方面逾越GPU。

▲国内草创企业首要云端AI芯片产品不彻底统计

1、我国创企:比特大陆寒武纪领衔,依图智能密度超NVIDIA

先说国内做云端AI芯片创企,其间最耀眼的当属比特大陆和中科寒武纪。

比特大陆作为矿机芯片老迈业界出名,但在曩昔一年的比特币大落潮中,比特大陆首战之地堕入言论漩涡,上市方案未能按期完结。

这家2013年建立的公司,在2015年就发动AI芯片事务。继2017年推出榜首代28nm云端AI芯片产品BM1680后,它在2018年榜首季度发布第二代BM1682,迭代时刻仅9个月。

依照比特大陆上一年发布的造芯方案,12nm的云端芯片BM1684应在2018年年末推出,BM1686将在2019年推出,很或许选用7nm制程,不过这两款芯片都缓不济急。

和比特大陆相同一起发力云端和终端芯片的还有AI小芯片独角兽中科寒武纪。

寒武纪曾因嵌在华为首款手机AI芯片中麒麟970中的神经网络处理器(NPU)成功打响知名度,成为国内外AI芯片创企中的当红炸子鸡,在阅历A、B两轮融资后,全体估值约25亿美元(约170多亿人民币)。

2018年5月,寒武纪正式发布榜首代云AI芯片MLU100,据称能够以更低的功率供给比NVIDIA V100更好的功用。其客户科大讯飞曾宣告测验成果,称MLU100芯片在语音智能处理的能耗功率抢先国际竞赛对手的云端GPU方案5倍以上。

一年后,其第二代云端AI芯片思元270芯片未发先热,部分功用被知乎网友曝光,峰值功用和功耗都根本与NVIDIA Tesla T4根本相等,业界风闻寒武纪或许在低精度练习范畴有所打破。该芯片不出意外地话将于近期发布。

欲对标NVIDIA和谷歌的创企不止于此。

令人稍感意外的玩家是国内核算机视觉(CV)四小龙之一依图科技。本年5月,依图发布了与AI芯片创企熠知电子(ThinkForce)联合开发的首款云端AI芯片求索questcore。

熠知电子是一家低沉但不容小觑的上海AI芯片创企,于2017年获依图科技、云锋基金、红杉本钱、高瓴本钱的4.5亿元人民币A轮融资。其间心成员来自IBM、AMD、英特尔、博通、Cadence等半导体巨子,均有十年以上的芯片职业从业阅历。

这款云端深度学习推理定制化SoC芯片选用16nm制程和具有自主知识产权的ManyCore架构,据称最高能供给每秒15 TOPS的视觉推理功用,仅针对INT 8数据(8 位整数数据类型)进行加快,最大功耗仅20W,比一个一般的电灯泡还小。

依图表明,开发这款芯片不是想寻求NVIDIA那样几百个T的算力,而是垂青高核算密度。

和前述的跨界科技巨子们相同,依图芯片商用的榜首步也是结合其本身软硬件和处理方案打包出售,不会独自售卖,第二、三代产品也都在预备中。

上海的抢手造芯新实力还有燧原科技。它能够说是国内最年青的AI芯片造芯者,2018年3月建立,取得由腾讯领投的3.4亿元人民币Pre-A轮融资,主攻云端AI加快芯片及相关软件生态的研制投入。这是腾讯榜初次出资国内AI芯片创企。

燧原科技的开创团队首要来自于AMD,其开创人赵立东此前曾任职于 AMD 我国,后又赴锐迪科(现与展讯兼并为紫光展锐)任职总裁。

2019年6月6日,燧原科技宣告新一轮3亿元人民币融资,由红点创投我国基金领投,海松本钱、腾讯等出资。其深度学习高端芯片的奥秘面纱没有揭开。

和前几位玩家不同的是,天数智芯和登临科技挑选的是直接与NVIDIA对标的通用GPU(GPU)。

在国内,尚无能与NVIDIA平起平坐的GPGPU公司,这对创企而言是个值得切入的时机。

两家公司的造芯阵型都很老练,天数智芯的硬件团队根据AMD在上海和硅谷的GPU团队,登临科技的开创团队也是在GPU职业多年的老将。

现在天数智芯的高中低端GPGPU产品都在研制中,其高端芯片Big Island将一起支撑云端推理和练习。登临科技的GPGPU处理器也现已过FPGA验证,榜首代产品Goldwasser的规划已完结,方案在本年年末前可供客户测验运用。

还有一家创企名为龙加智,创立于2017年7月,由挚信本钱和翊翎本钱领投,致力于研制TPU芯片。

为了满意对低时延、高可靠性和数据安全的需求,龙加智推出新的芯片类型要害使命芯片 (Mission-Critical AI Processor),榜首代芯片命名Dino-TPU,最早运用于云端数据中心,算力逾越除最新款Nvidia Volta之外的一切GPU,时延仅为Volta V100的1/10,功耗为75W,且独具冗余备份和数据安全保证。

依照龙加智的开发方案,公司方案于 2018 年末完结榜首款芯片的流片。

2、美国创企:Wave 7nm芯片推出在即,Cerebras仍处于隐秘方式

在大洋彼岸,美国多家AI芯片创企也瞄准了云与核算中心商场。

一家上一年存在感较强的企业是Wave Computing。这家创企上一年收买了老芯片IP供货商MIPS,还推出MIPS敞开方案。它的累计融资到达1.17亿美元。

它的中心产品叫其数据流处理器单元(DPU),选用非冯诺依曼(von Neumann)架构的软件可动态重构处理器CGRA(Coarse grain reconfigurable array/accelerator)技能,适用于大规划异步并行核算问题。

其首要优势是使得硬件愈加灵敏地适配于软件,在可编程性(或通用性)和功用方面到达很好的归纳平衡,下降AI芯片开发门槛,不会遭到GPU等加快器中存在的内存瓶颈的影响。

Wave的榜首代DPU选用16nm制程工艺,以6 GHz以上的速度运转,现已落地商用。据其高档副总裁兼CTO Chris Nicol介绍,新一代7nm DPU将引进MIPS技能,并选用高带宽内存HBM(High Band Memory),估计在下一年发布。

还有一家非常奥秘的创企Cerebras System,它于2016年在美国加利福尼亚兴办。即使它至今未发布任何产品,这并不阻碍它常常被与芯片巨子们混为一谈。

Cerebras的开创团队大多来自芯片巨子AMD。其联合开创人兼首席CEO安德鲁·费尔德曼(Andrew Feldman)此前曾兴办SeaMicro,这是一家低功耗服务器制作商,在2012年被AMD以3.34亿美元收买。尔后,费尔德曼花了两年半的时刻爬上了AMD的副总裁之位。

在三轮融资中,Cerebras筹集了1.12亿美元,其估值已飙升至高达8.6亿美元。现在,Cerebras仍处于隐秘方式,据相关人士泄漏,其硬件将为“练习”深度学习算法量身定制。

▲Cerebras运用深度学习加快器进行神经网络练习和推理专利

2017年4月建立的Groq开创团队更是抢眼,来自谷歌TPU十人中心团队中的8人。这家创企一出场就雄心壮志,官网显现器芯片算力将能到达400 TOPS。

SambaNova Systems比Groq晚7个月建立,总部坐落加州Palo Alto,开创人包含两位斯坦福大学教授Kunle Olukotun和ChrisRé和一位老牌芯片公司(Sun上一任开发高档副总裁)高管。

其A轮融资由谷歌母公司Alphabet的危险出资部分Google Venture(GV)领投,这是GV初次对人工智能芯片公司进行出资。本年4月,英特尔出资宣告向14家科技创业公司新出资总计1.17亿美元,SambaNova Systems也在名单中。

3、其他创企:英国独角兽Graphcore最受喜欢,大都芯片没有推出

除了中美外,其他地域的AI芯片创企也在蓄势待发。

最被看好的是一家资金雄厚的英国独角兽Graphcore,建立于2016年,估值到达17亿美元,累计融资3.12亿美元。这家创企可谓巨子收割机,出资阵型很强壮,包含红杉本钱、宝马、微软、博世和戴尔科技。

这家公司打造了一款专为机器智能作业负载而规划的智能处理单元(IPU),选用支撑片上互连和片上存储,从边际设备扩展到用于数据中心练习和推理的“Colossus”双芯片封装。

Graphcore在官网上如是写道:咱们的IPU系统旨在下降在云和企业数据中心加快AI运用程序的本钱,与现在最快的系统比较,将练习和推理的功用进步多达100倍。

在上一年年末的NeurIPS活动中,Graphcore展现了一个示例装备RackScale IPU-Pod,包含32个1U IPU-Machines,每个由4个Colossus GC2 IPU处理器组成,供给500 TFLOPS混合精度核算,逾越1.2GB的处理器内存以及逾越200TB/s的内存带宽。

▲Graphcore IPU-Pod racksale系统

另一家2016年建立的以色列创企Habana Labs,在上一年9月的AI硬件峰会上宣告现已预备推出其首款用于推理的AI芯片Goya,它显现了在Resnet50图画分类数据库中每秒分类15000张图画的吞吐量,比NVIDIA的T4设备高出约50%,推迟时刻为1.3ms,功耗仅为100 W。

其最新7500万美元B轮融资(2018年12月)由英特尔危险出资公司领投,资金将部分用于研制第二款芯片Gaudi,该芯片将面向练习商场,据称练习功用可线性扩展到1000多个处理器。

印度AlphaICs公司也是在2016年建立,正在规划AI芯片并致力于AI 2.0,期望通过该系列产品完结下一代AI。

AlphaICs的一位联合开创人之一是有“飞跃芯片之父”称谓的Vinod Dham,他与一些年青的芯片规划师们协作打造了可履行根据署理的AI协处理芯片——RAP芯片。

Dham表明,AlphaICs芯片在处理速度上相较竞赛对手更有优势,并称当时咱们看到的大多归于弱AI,而他们能够被称之为“强AI”。

依照Dham的说法,RAP芯片有望在2019年年中推出,“期望为真实的AI发明一个大爆炸”。

Tenstorrent是坐落加拿大多伦多的创企,由两位AMD前工程师Ljubisa Bajic和Milos Trajkovic兴办,中心团队大多来自NVIDIA和AMD,研制专为深度学习和智能硬件而规划的高功用处理器。

上一年早些时候,这家公司取得来自Real Ventures的种子轮出资,不过至今仍处于隐秘方式。

4、一起战队:光子AI芯片

在面向云和数据中心范畴的硬件实力中,一支特别的战队正遭到国内外科技巨子的喜欢,它便是光子AI芯片。

和惯例芯片不同,这些芯片选用光子电路来替代电子传输信号,他们比电子电路具有更高的传输速度、更低的推迟和更高的吞吐量。

2016年,MIT研讨团队打造了首个光学核算系统,该成果于2017年以封面文章的方式宣告在尖端期刊Nature Photonics杂志。正是这篇论文,在全球范围内启示更多人投入到光子AI芯片的研制之中。

仅是这一MIT团队,就在2017年孵化出Lightelligence和LightMatter两家美国公司。

Lightelligence在2018年2月拿到百度风投和和美国半导体职业高管1000万美元种子轮融资,LightMatter在2019年2月拿到由谷歌母公司Alphabet旗下的危险出资部分Google Ventures领投的2200万美元B轮融资。

Lightelligence称光子电路(Photonic Circuits)不只能在云核算范畴作为CPU的协处理器加快深度学习练习和推理,还能用于要求高效低能耗的网络边际设备。

本年4月,Lightelligence宣告成功开宣告国际榜首款光子芯片原型板卡(Prototype),其光子芯片已与谷歌、Facebook、AWS、BAT等级的客户接洽。

LightMatter相同要点面向大型云核管用据中心和高功用核算集群,他们曾打造出2个前期的芯片,其间一个芯片包含逾越十一个晶体管。

受MIT那篇论文的启示,2017年,国内榜首家光子AI芯片创企光子管用由来自在清华大学、北京大学、北京交通大学等10所高校的博士生创立。

这家公司在2018年9月取得天使轮融资,据称其光子芯片的功用是电子芯片的1000倍,而功耗只要电子芯片的1%。

就在本月,比尔盖茨也开端出资AI芯片,并且出资的是相同研制硅光技能的Luminous。其他出资者还包含Uber联合开创人Travis Kalanick的10100基金,以及现任Uber CEO Dara Khosrowshahi。

Luminous现在仅有7位成员,但它的食欲可不小,方针是为包含谷歌最新的Tensor Processing Unit AI芯片的3000块电路板创立一个替代品。它们选用的办法学习了其联合开创人Mitchell Nahmias在普林斯顿大学的前期神经形状光子学作业。

现在这几家创企一起存在的问题是,不清楚多久能发布首款量产的光子AI芯片,以及这些芯片的实践运用作用能否真实替代电子芯片的方位。

五、当时云端AI芯片首要应战

现在切入云AI芯片商场的玩家现已稀有十家,不过由NVIDIA主导、多家半导体巨子分食的软硬件和服务商场大体格式依然比较安稳,发生新的格式变化绝非一件易事。

1、粥多僧少,靠拢效应显着

关于芯片职业来说,足量的产能至关重要。

半导体巨子能够完结十倍、百倍的产能,而创企很难在创业初期就做到这一点。现在的创企多为IC规划厂商,假如他们想要成为像英特尔、三星那样“自给自足”的公司,或许需求花数十亿美元不止。

通过2015-2016年的半导体职业整合浪潮后,近两年半导体并购潮正在逐步“退烧”,大公司对芯片创企的出资或收买举动会愈加慎重。

2、人才抢夺愈演愈烈

云端AI芯片的中心竞赛力在于人才。

从当时商场上较受重视的云AI芯片公司来看,它们的研讨团队多是在芯片巨子有逾越十年从业阅历的职业老兵,并且往往有带头研制出相关成功产品的经历。

无论是半导体巨子仍是跨界造芯的科技巨子,根本上都在走两种途径,一是出资并购老练的芯片公司,另一种便是从挖走其他大公司的芯片高管。

3、立异难+落地难

英特尔研讨院院长宋继强从前向智东西表明,AI芯片的未来一定是多样化,不同品种的产品满意不同功耗、尺度、价钱的要求,AI一场马拉松,现在这场竞赛才刚刚开端。

现阶段,入局云AI芯片范畴的绝大大都巨子和创企都在打立异的招牌,包含立异的架构、存储技能以及硅光技能等。

因为对推进深度学习的新式核算资源的需求激增,许多人以为这是草创企业从巨子和出资组织手中争夺资金的可贵时机。

虽然玩家正在增多,打出的旗号也趋于多样化,但就现在而言,真实落地量产的立异硬件还很有限。云端AI芯片面对的窘境仍有许多,比方核算机系统结构普遍存在的摩尔定律难以维系和半导体器材方面的瓶颈。

研制芯片的进程或许需求数年时刻,现在大部分硬件仍在开发中或在前期实验方案中进行。因而,很难猜测哪些企业会完结许诺的功用。

结语: 三股实力,决战云端AI芯片之巅

整体来看,云端AI芯片商场正逐步分红三股实力,以英伟达、英特尔等为代表的半导体巨子,以谷歌、华为等为代表的中美科技巨子,和以寒武纪、Groq等为代表的芯片创企。其间,半导体巨子和芯片创企面向主攻通用芯片,而跨界造芯的科技巨子以及AI创企依图暂时不对外直接出售。

从运用范畴来看,虽然GPU的高能耗遭到业界越来越多的吐槽,但因其无与伦比的并行运算才能,使得云端AI练习范畴至今没有呈现能与NVIDIA GPU平起平坐的玩家。应战这一范畴的玩家首要是传统芯片巨子和创企,跨界的科技巨子有谷歌、百度和华为,首要选用的架构是通用GPU和ASIC。

在更重视能耗、时延、本钱、性价比等归纳才能的云端AI推理范畴,入局的玩家相对更多,FPGA和ASIC的优势相对高于GPU。具有全面AI芯片布局的英特尔气势正猛,其他玩家也不遑多让,中美几大互联网巨子根本上悉数参加战局,但部分巨子的芯片研制发展没有可知。

关于进步造芯实力,大都半导体巨子和科技巨子均挑选了出资、并购和挖芯片大牛的捷径,然后直接得到老练芯片团队的辅佐,快速补足人才和事务的空缺。而关于创企来说,取得出资界喜欢的根本都具有两大要素——富有经历的开创团队和具有立异技能的产品,从落地进程来看,我国芯片创企的脚步能够排在国际前列。

就现在来看,绝大大都AI运用依然依靠于在云端的练习和推理,在练习范畴,NVIDIA安定的生态系统依然是难以撼动的一座高山,在推理范畴,更是群雄逐鹿能者胜。跟着AI愈加广泛地落地到各行各业,云端AI芯片商场也会取得更大的增加空间,但这篇商场未必容得下这么多的玩家,资金、器材瓶颈、架构立异、适配快速改动的AI算法以及构建生态系统都是摆在这些企业面前的难题。什么是彻底合适云端练习和推理的AI芯片形状,也没有呈现一致的定论。
龙翔网发布!