“根本不可能超越英伟达。”资深芯片投资人思杰斩钉截铁地说,“就算AMD有比英伟达参数更强的芯片,也无法撼动英伟达在AI市场的地位。”
这几乎是AI芯片从业者的共识,无论是芯片巨头,还是有技术大牛的美英初创公司,想要坐上英伟达统治的加速计算的牌桌,和英伟达正面对抗的机会不大。
但如果商业竞争受到非商业力量的影响,就可能出现例外。
10月17号,美国商务部工业和安全局更新的针对中国的AI芯片出口管制规定,给了国产高性能AI芯片公司一个赶超英伟达的机会。
“美国最新的出口管制规定发布后,许多客户来主动联系我,其中就有之前态度冷淡的客户。”AI芯片公司的销售安瑞明显感觉到,“买不到英伟达GPU的时候,客户考虑的不是谁更好用,而是谁能用。”
进一步收紧的禁令,给国内高性能AI芯片公司当头一棒,也限制了英伟达在中国市场的发展。
“我们必须放弃一切幻想,做国产替代。”这是美国最新的禁令之后在AI芯片圈常听到的一句话。
在芯片领域做国产替代,是一条无比艰难的路,但必须走上这条路的时候,国内AI芯片的从业者们都在琢磨一条赶超英伟达的路径。你心中的路径是什么?
有人认为走一条完全不同的路才有超越的机会。
有人认为用英伟达的魔法也能打败英伟达。
还有人想到了商业模式创新的超越机会。
虽各持己见,但他们都非常清楚,要想要活下来,必须卷成本、卷软件,解决生产问题。
01
放弃一切幻想,国产芯片是*解
10月17日美国新的出口管制规定一发布,让本就抢手的英伟达H800 GPU坐上了过山车。
一卡难求的8卡H800 GPU服务器在禁令更新前价格已经高达210万元左右,美国禁令发布当天,价格马上跃升到了230-250万元。
一周之后,美国突然宣布本来在11月才生效的管制规定立即生效,瞬间将H800GPU服务器的价格推向顶峰,跳涨到350万元,相比禁令升级前的210万元,涨幅高达67%。
如今价格虽然稍微有所下降,但依旧在310-330万元的高位。
“10月底和11月,客户基本都在忙着抢货。抢不到货之后,大家都来认真谈国产芯片。”熟悉芯片市场的语晨同时看到,“美国的禁令就是一套组合拳,谁也无法忍受美国的朝令夕改,AI芯片公司不得不认真考虑下一代产品的方向,也要考虑国内代工的可能性。”
雷峰网了解到,10月17日的禁令升级之后,多家AI芯片公司都不得不改芯片设计,以符合美国新规的要求。
这次禁令进一步收紧,影响的范围比以往更大。
“2019年美国芯片禁令引发轩然大波的时候我已经在AI芯片行业,那时候还没有感受到AI芯片对我们来说生死攸关。”芯片软件工程师浩鑫这一次感受到,“如果我们没有强大的AI芯片,就可以被别人掐死,这事关民族的命运。”
在芯片行业十多年的子蕾同样感触颇深,“从美国的限制也可以看出,美国政府已经预判AI代表了真正的生产力,这是兵家必争之地。”
“我不知道最后谁能赢,但我知道如果我们输了会很惨,不仅会失去在科技上的领导力,还可能会被AI替代。”子蕾非常坚定,“不管是为了自己还是为了下一代,我们都必须站起来卷。”
美国和英国的公司,也和国内AI芯片公司一同被打了当头一棒。
英国初创公司Graphcore是少有的在国内有成建制团队的AI芯片公司,禁令发布之后,由于其芯片的特点,修改设计将使其产品不具备在中国市场的竞争力,Graphcore的员工的工作几乎就处于停滞状态,最后不得不解散中国团队。
英伟达同样被禁令限制,中国市场每年为英伟达的数据中心业务贡献上百亿美元的营收,不能向中国市场销售利润可观的高性能芯片,短期看是英伟达营收的损失,长期看是对中国市场的失控。
这也是英伟达一直在积极推出符合美国法规限制芯片的原因。
“H20性能是H800的1/5左右,但价格不会太便宜,因为占用的是H800的产能,可能价格是H800的1/2或者2/3,这样的产品对于客户来说不够有吸引力,国内公司购买这样的产品也难以和美国公司竞争。”语晨还说,“预计能在今年底送测的H20,现在也要推迟到明年上半年了,这是国产芯片的机会。”
最强大的对手也被限制,AI又是不容落后的产业,国内的AI公司已经没有其它选择,必须放弃一切幻想,把国产芯片做起来。
02
禁令利空所有人,除了华为
就像中国的AI芯片公司是追赶英伟达的*机会是个例外,华为也是这次禁令限制下的例外。
2019年开始,华为就被美国限制,从那时开始,华为就开始了国产化,比这一次受影响的国内AI芯片公司早4年开始做国产替代,让其昇腾AI芯片也成为了这一次被争相购买的对象。
科大讯飞在2023第三季度业绩说明会上公开表示,华为昇腾910B已经基本做到可对标英伟达A100。
“这说明华为在某些地方做的确实不错。”芯片算法工程师奕森直言,“对于使用DSA架构的华为来说,芯片的范化性是一个问题。”
DSA可以视作为某一类模型专门设计的芯片,“其范化性体现在局部上,如果专为某一类模型设计的DSA芯片在这类模型的范化性还不够好,那就说明软件工作还没做到位。”奕森认为。
这就涉及到软件成熟度以及生态的问题,也就是英伟达的护城河所在。对于华为能否基于其自研架构,构建起像英伟达一样强大的软件生态,浩鑫和语晨有不同的看法。
“在2017年Caffe是主流AI框架的时候,英特尔花了大量的精力去做OpenCL版本的Caffe,目的就是希望让更多开发者使用,以抢占AI市场。”浩鑫说,“但因为只有英特尔去维护这套东西,最终还是没有撼动英伟达的地位。所以即便华为花大量的人力和资源去做算法和应用的适配,也很难构建起强大的生态。”
语晨认为昇腾至少能在国内的政企市场成功。
“考虑到国内的特殊情况,政企市场在必须考虑国产替代的背景下,华为至少可以在这个市场大量投入,让其昇腾芯片用起来。”语晨也说,“至于在商业化市场能否成功,现在还不好做出判断。”
从芯片的设计、公司所拥有的资源等因素综合考虑,华为是目前AI训练市场最有机会的中国公司。
非常熟悉AI芯片领域的云硕做出了乐观预测,“未来国内AI训练市场属于华为,非中国市场属于英伟达。”
但这有个前提,华为要顺利解决芯片制造的问题。
按照思杰的乐观估计,国内要扩产14nm芯片产线最快也要到2025年之后。国内14nm还不成熟,并且涉及到半导体材料和设备的出口管制,需要时间。
“良率也非常关键,直接影响着最终的成本,这是在商业市场竞争的基础。”思杰态度明确,“不过每年国内半导体材料和设备的公司都能给我一些惊喜,所以虽然短期悲观,但我长期依旧看好。”
华为取得的成果,让那些想要通过创新赶超英伟达的人和公司有了信心。
03
英伟达没有魔法,用架构创新追赶
“ChatGPT对GPU的利用率只有个位数,对计算是巨大的浪费。”云硕指出,“不合理的存算比不利于生成式AI的普及。”
几十年没变的计算机系统结构迫切需要改变,这也是追赶英伟达的机会。
“大模型对于算力的需求呈现指数型增长,但GPU又贵功耗又高,GPU集群的线性度也随规模增大而下降,探索非冯诺依曼架构已经非常火热。”奕森早已体会到。
存算一体就是一种解决AI计算存算比不合理的思路,有一家国内头部互联网公司就在积极引入存算一体解决算力成本的问题。
“存算的架构就适合大模型计算,因为存算一体的架构计算密度低,存储密度高。”奕森看到了存算一体架构在大模型时代的优势。
但这只是理论,“存算的大规模落地还要解决很多生产制造方面的问题。”奕森也看到了存算面临的挑战。
如果将存算一体视作一种特殊的DSA,和华为的昇腾一样,同样面临着范化性和生态的挑战。
AI训练一定需要一个范化能力很强的系统,但到底要达到什么程度的范化性,有所争论。浩鑫坚持认为必须是英伟达GPGPU的生态,奕森则认为只要有足够范化性就可以。
许多人和奕森的观点相似,于是就产生了CPU+DSA这种兼顾通用性和高性能,超越英伟达的思路。
“Pytorch原生就支持x86 CPU,英特尔本来有*的机会通过CPU+DSA的路径赶超英伟达,不知道为什么英特尔没做成。”云硕有些不解。
子蕾也认为x86 CPU有很好的机会,“一般来说,一个模型调试阶段都是用CPU,用CPU上的精度作为在GPU上运行的精度要求,x86 CPU的生态非常好,结合加速器做加速很有机会,英特尔确实也有推出产品,只是可能之前没有押注大模型。”
CPU除了x86,还有Arm和RISC-V,RISC-V CPU是国内公司探索CPU+DSA路径的*选择。
由于RISC-V开源的特性,能够更积极响应市场需求。“看起来是RISC-V的CPU核心,实际上是AI核心,已经有公司使用RISC-V开始了探索。”子蕾观察到。
即便CPU+DSA的路径可以兼顾通用性和高性能,但英伟达最难以超越的还是CUDA生态,这是摆在想要走这条路线公司面前最难解决的问题。
子蕾对此并不悲观,“英伟达也没有什么魔法,CUDA生态也是英伟达一个个项目的实际经验,和模型适配积累出来的,硬件每两年就迭代一代,能复用的经验有限,软件的经验可以不断积累。如果我们认定国内一定要做出非GPU的生态,长期看,我相信我们能做出来。”
相较之下,浩鑫就有些悲观,“英伟达的CUDA生态做了十几年,而且是在全球客户的需求之下一点点建立起的生态,就算有中国的客户需求,有决心和耐心,也很难建立起和英伟达CUDA生态相当的生态。”
浩鑫也不是完全悲观,“国内公司也可以联合起来做一套相对开放的类CUDA生态。”雷峰网了解到,有人在尝试拉拢国内的DSA路线的公司共建生态。
04
用英伟达的「魔法」,赶超英伟达?
对于走英伟达CUDA兼容的路线,有一种观点,沿着英伟达的路永远不可能超越英伟达,当然这种观点大都来自走DSA路线的人。
“如果连追赶都做不到,何谈超越?”浩鑫坚持,“我不认为做CUDA兼容就不能超越英伟达。”
追赶和超越的机会来自英伟达面临的难题。
没有人会否认英伟达已经在AI领域有显著的优势,并且没有丝毫松懈的状态,是一个非常难以挑战的对手。
但自英伟达2017年发布Volta架构GPU,增加了专用加速核心Tensor Core之后,英伟达此后每一代GPU的性能提升主要来自专用计算单元的部分。
“英伟达算力的增长也在放缓,其解决的办法不是在通用计算单元上发力,而是在专用计算单元上。”浩鑫发现,“即便是英伟达,开发者也很难用起其专用加速单元,英伟达也推出专门的加速库。”
顺着这个思路,把英伟达的CUDA生态看作两大部分,一个是基于通用计算单元CUDA Core的生态,另一个是以Tensor Core为代表的专用加速生态。
这个思路和用DSA超越的思路有相似之处,都是从专用加速方面切入,设计出比英伟达专用加速单元更好的架构。
“GPU也是特定时期设计出的产品,一定有它的局限性。”奕森也说。
语晨也认为做CUDA兼容有超越英伟达的机会,不过他是从推理性价比的角度。
“AI推理需求可能是训练需求的3-5倍,通过CUDA兼容,完全可以针对常用的大模型进行推理优化,实现相比英伟达几倍的推理性价比。”语晨说,“在商业竞争中,同等条件下比的就是性价比,CUDA兼容是很重要的条件。”
“一旦国内公司用上了国产GPU,就很难再切换回去。”浩鑫的想法是,“兼容CUDA是为了让用户更方便迁移,后续的特性演进完全可以和英伟达不一样,并且用户会跟随硬件供应商。”
这也解释了一个疑问,国产AI芯片公司兼容CUDA生态是不是在帮英伟达建生态?
这就像是WPS兼容Word,不兼容Word没人会用,但WPS兼容Word的初衷并没有帮Word建生态的想法,即便会有这样的效果,但这种贡献对Word的生态微不足道。
“CUDA兼容如果有1%没做好,就会有没法补上的漏洞。并且,兼容CUDA永远会比英伟达慢很多拍,处于被动地位。”奕森说不能忽视CUDA兼容的问题,“国家搞自主可控,CUDA兼容属于自主可控吗?”
看起来,通用+专用的AI计算架构已经成为行业共识,彼此都在相互渗透和影响,很难判断哪条路径更优。
无论哪条路径,都要共同面对一个问题——英伟达没有制造问题,也有比所有国内AI芯片公司多的资源,有全球*的人才,在什么样的情况下有追赶和超越的机会?
05
不学英伟达卖整机,寻找商业模式创新的机会
理论上优秀的技术并不意味着最终会成功,历史已经无数次验证,商业和竞争影响成败。
“我们不应该学英伟达。”云硕解释,“国内的AI芯片公司几乎都在学英伟达做整机,这确实有高校和政企客户的需求,芯片公司也能做高营收。英伟达可以做整机赚更高利润,但我们不应该这么做。”
英特尔能够在IBM统治的大型机时代成功,是因为英特尔只做了最难做的CPU,横向整合,和微软、戴尔、Oracle等公司一起抢占了IBM的市场。Arm更*,只做了核心的芯片的IP,和谷歌安卓、不同芯片公司和OEM一起,成为了手机时代的*。
“英伟达的GPU不单卖,必须是一个主板加8张GPU卡一起卖。或者直接卖一个DGX整机,DGX的高毛利意味着整机中的机箱、风扇等也毛利丰厚,帮英伟达提升整体毛利。”云硕认为,“这就是国产AI芯片公司的机会,国产芯片公司如果能够专注在打磨芯片性能和SDK上,联合上下游产业链一起去做产品,从商业的角度找机会超越英伟达。”
“单卖芯片可能连自己都养不活。而且要做一颗能适配各种系统的芯片,对芯片团队的要求特别高。”子蕾对于Arm的成功这样看,“Arm成功并不是因为他们做了IP,关键在于智能手机时代在一众操作系统的激烈竞争之后,最终成功的安卓和iOS,都选择了Arm芯片,一旦系统和芯片深度适配之后,就很难改变,这帮助Arm走向成功。”
“英伟达就是AI领域的Arm+安卓,我不认为这种思路能成功。”语晨这样认为。
奕森倒是有更开放的态度,虽然不见得是英特尔或者Arm带来颠覆的思路,但商业模式创新一定是一种超越的思路。
就像对商业模式创新是否是超越英伟达路径的讨论一样,禁令之后,国内的AI芯片从业者更加意识到自己所从事的行业和工作的重要价值,对于国内高性能AI芯片公司更加乐观,这种乐观也有对生成式AI发展对算力需求的乐观。
这种背景之下,所有人都被限制,琢磨出一条超越英伟达的策略很重要,更现实的问题是要卷软件、卷成本、解决制造问题。
注:文中思杰、安瑞、语晨、浩鑫、子蕾、奕森、云硕均为化名