23

05

2025

华为正在黎明之前
发布日期:2025-05-23 22:02 作者:祈飞科技 点击:2334


  堂吉诃德举着破矛冲向风车,切格瓦拉的摩托车驶向安第斯山脉,盖茨比一直逃逐着心中的绿光,他们的命运终章永久只要两种笔法:加冕为盗火者,或坍缩成黑洞。所相关于连接的谜底,都能正在方程组的深处,找到最简练的表达,那些被高斯噪声吻过的频谱,正在喷鼻农的公式里凝结成精巧的消息,正在华为眼里都是的计较。越是外行业待得脚够久的人,越晓得此中的分量,高通芯片、英特尔/AMD芯片、Windows和操做系统等,这是公共显而易见看到的部门,还有更主要但不到的部门,例如数据库、ERP软件、各类出产东西等软件等,华为的营业面对全面停摆的风险。更主要的是,还有一个正在其时并不较着,但后来被验证的预言。“他们不只想遏制华为的现正在,更想摧毁华为的将来。”2018年,华为初次对外发布了AI计谋取全栈全场景AI处理方案,包罗全球首个笼盖全场景人工智能的华为昇腾系列芯片以及基于华为昇腾系列芯片的产物和云办事。“再穷也要对将来投资”,华为比任何人都更大白这一点,若是赶不上AI的时代海潮,二十年后就变成一家“泯然世人矣”的公司。现正在取将来交错成两条从线。华为倡议的“三丫坡会和”,成功保障了本身的出产运营,实现了环节产物和手艺的自从研发,涵盖硬件、数据库、两头件、使用软件等范畴。美国对AI的层层加码,华为连根基的AI算力供应都难以实现,又该若何取美国的AI企业合作?无从晓得,华为扛着多大的压力,但它没有给本人彷徨的时间。不久之后,华为内部就成立了一支特殊的“做和部队”,连系了包罗云、计较、芯片等营业线的精兵强将,这支步队领到的“军令”,就是霸占AI算力的“上甘岭”。英伟达和华为,恰如一个正在上甘岭的南坡,洋枪大炮沉兵布阵,另一个却正在北坡,小米加步枪突进。谜底指向超节点。单芯片机能掉队,那就靠系统机能力来填补,以至超越。一场决定将来10年以至20年成败的“冒险”,正在华为内部悄悄却激烈地启动了。2022年下半年,华为正式启动了超节点的研发,其时谁也没想到AI的成长会正在第二年就送来了第一个迸发点——ChatGPT发布,并正在全球掀起了大模子海潮。华为早有预见,做为根本设备供给商,华为的定位就是为各类使用“架桥修”,从5G到AI算力都是如斯,基于这种计谋导向,华为云前瞻性地判断出了AI的大成长,并决定要提前投入。第一个焦点问题很快到来,超节点立项的时候,ChatGPT还没发布,大模子还没显露趋向,更没人意料到DeepSeek的爆火,从一个时代进入到另一个时代,就用了不到2年的时间。“正在其时的下,64卡是够用的,可是我们要结构将来,并且以昇腾AI云办事供给算力办事,能够把超节点算力分隔或者归并,做大了没问题,做小了可能就会很被动。”华为一位项目组专家回忆道。彼时谁也不晓得AI的市场什么时候会来,资本无限,其时的昇腾也还不是计谋沉心。那么,能否要投入一个如斯花费精神,成果又不十分确定的大项目,是不是明智之举?超节点项目涉及到海思、计较和云等多个营业团队。华为云数据核心一位担任人暗示,“公司面对坚苦的时候,大师都想到火线去参和,到芯片的团队做贡献,公司还出格发了个文,号召大师做好本人的本职工做。而超节点项目让我们也成为了参和部队,大师心里很是骄傲和兴奋。”正在芯片能力掉队于英伟达一代的环境下,华为的策略是用“非摩尔定律补摩尔定律”,单芯片机能不脚,就上升到系统层面,由于大模子的锻炼推理本来就需要算力集群,才能阐扬出更高的结果。时间紧迫,使命艰难,计谋清晰。然而实践,却仍然。正在掉队的环境下,想要逃平以至超越英伟达,意味着需要付出更大的价格。当华为选择了384卡之后,那就只能采用光模块来通信的手艺线选择的全电通信,这是一个庞大的手艺挑和。业内有动静指出,英伟达此前也考虑过光模块方案,但因为其成本昂扬、功耗大且因为所需的光学收发器和两级收集导致不靠得住,最终被放弃。于是,英伟达NVL72超节点采用全铜线架构,一经摆设便连结固定形态,相对不变。错误谬误是:只能摆设2米以内,不然速度会大幅衰减,因而可连接芯片数量无限。而光模块则有高带宽和高速度的劣势,损耗低,适合长距离传输,因此可连接更多芯片,摆设矫捷。可是光模块毛病率高,这就需要数据核心有一套高效的毛病定位和修复系统,超节点长稳运转,不影响客户营业。不管是千卡集群,仍是万卡集群,仍是十万卡的集群,华为CloudMatrix 384超节点可实现1分钟毛病、3分钟毛病定界、10分钟毛病恢复。2025年4月,CloudMatrix 384超节点一经发布,便惹起了极大关心,海外的关心度比国内还要高得多。究其缘由,就像华为云副总裁黄瑾正在比来的华为云AI峰会所说:“CloudMatrix 384超节点具备MoE亲和、以网强算、以存强算、长稳靠得住、朝推夜训、即开即用六大领先手艺劣势,这项手艺立异跳出单点手艺系统性、工程性的立异算力架构通信效率瓶颈、内存墙限制、靠得住性短板三大手艺挑和。”能够说,华为云以系统架构立异从头定义新一代AI根本设备。SemiAnalysis得出的结论是,华为的芯片手艺掉队一代,但其自从研发的云端超等算力处理方案CloudMatrix 384却可领先于英伟达和AMD当前市售产物一代,间接对标英伟达GB200 NVL72系统,正在多项环节目标上展示出超越英伟达机架级处理方案的手艺劣势。“晚期光模块底子不成用”,上述华为云数据核心担任人还记得,光模块试验时的沮丧,“想用非摩尔去处理摩尔定律,成果非摩尔这边的问题反而更大,我们用了最土的法子,每一个光模块的端面全数摄影,再逐一阐发,处理了数不清的问题,才实现了较好的不变性。”保守的分布式系统素质上是一个松耦合系统,办事器之间一般用25Gbps或100Gbps以太网带宽就能够满脚绝大大都使用的需求。而AI时代的使用负载取保守营业有很大分歧,当前办事器集群的以太网互联带宽曾经越来越难满脚前面提到的AI时代的锻炼、推理等场景的需求。CloudMatrix 384实现了CPU、NPU、GPU、内存等多样资本的跨办事器同一池化,用“对等架构”替代掉保守的“从从架构”,让多元算力能够间接通信,不需要通过CPU,让系统可以或许矫捷设置装备摆设跨办事器的多种资本,构成一个大规模的紧耦合的多元算力池化架构,这是AI原生云根本设备最主要的能力。DeepSeek成为CloudMatrix 384显露峥嵘的一个缩影。DeepSeek利用了大规模专家并行(Expert Parallelism,大EP并行)的MoE模子架构,特点是大模子设置了多个专家来处置问题,1个卡(算力芯片)对应着1个专家,专家越多,效率越高,保守英伟达办事器都是8卡,CloudMatrix 384能够对应384个专家,极大提高专家数量,而且优化协同效率。硅基流动CEO袁进辉记得,2025年大年节,DeepSeek的爆火快速点燃市场,硅基流动和华为云当即决定要正在CloudMatrix 384上跑DeepSeek。若采用单机摆设方案,最终的机能远不如DeepSeek发布的摆设方案,且至多无数倍成本差距。更具挑和的是,虽然DeepSeek公开了大EP并行方案,但手艺难度较大,业内还没有其他团队快速复现这一摆设方式。效率和精度是焦点问题,每秒输出的token可能卡正在计较或者通信上,模子输出的成果可能和不分歧,颠末两边团队的数月攻关,DeepSeek正在CloudMatrix 384终究实现了较好的结果,可比肩H100摆设机能。无人晓得华为人若何渡过那些漫长黑夜,想来那必定是充满了焦炙、思疑和不甘。最终华为熬过了一道,CloudMatrix 384超节点不是起点,华为人来不及庆贺,表情整拆再出发,奔赴下一个疆场。