News

Guangdong BAIDU Special Cement Building Materials Co.,Ltd
— 新闻中心 —

英伟达B3神仙道神仙道:AI推理的「减速器」,供

克日,黄仁勋让海内科技圈提前过上了圣诞节。因为硅、封装以及芯片背板的成绩,英伟达的Blackwell GPU曾屡次传出耽误宣布的信息,但这并不让英伟达的脚步放缓。在GB200跟B200宣布6个月后,英伟达就发布将推出全新的GPU GB300跟B300。外界看来仿佛是一个按部就班的进程,但现实上,这长短常高效的迭代。全新GPU为年夜模子的推理跟练习机能带来宏大的晋升,对年夜模子公司跟存储供给商来说,无疑是一份宏大的圣诞礼品。B300是台积电4NP工艺(英伟达定制工艺,属于5nm制程节点的一局部)节点上的一个全新流片。定制化工艺做了一个调剂计划,公用于盘算芯片,使得B300浮点运算比B200高50%,GB300跟B300的热计划功耗分辨到达1.4KW跟1.2KW,比拟之下,GB200跟B200的热计划功耗分辨为1.2KW跟1KW。别的,B300的内存从8-Hi(8层重叠)进级到12-Hi HBM3E,每个GPU的HBM容量增添到288GB,但引脚速率将坚持稳定,以是每个GPU的内存带宽依然是8TB/s。不外,三星并不收到黄仁勋带来的礼品,由于至少在将来的9个月内,他们都不机遇拿到GB200跟GB300的订单。GPU卷内存的背地,是年夜模子的下一场战事「推理」英伟达改良GPU内存的背地,是为满意OpenAI O3对推感性能的更高请求。OpenAI O3采取KVCache技巧对模子的推理才能停止优化,即经由过程缓存留神力机制中的键(Key)跟值(Value)来增加冗余盘算,从而进步模子推理的速率。要害就是缓存之前的旧数据,仅对新输入的Token停止盘算,以是对缓存的机能提出了更高的请求。下图是在差别批处置巨细下,应用H100跟H200两种GPU处置长序列时,Meta开源年夜模子Llama3.1405B在FP8(8位浮点数表现法)精度下的处置速率。输入设置为1000个Token,输出19000个Token,由此模仿OpenAI o1跟o3模子中的头脑链。H100进级到H200的两个改良是:内存更高,速率更快。因为更多的内存带宽(H200 4.8TB/s vs H100 3.35TB/s),在全部可比拟的批处置中,交互效力平日进步43%。H200运转比H100更高的批处置,但本钱下降了3倍。内存容量晋升,在多个维度都市发生影响。因为恳求跟呼应之间的等候时光很长,推理模子可能会带来蹩脚的用户休会。假如可能收缩推理时光,这将增添用户的付费志愿。3倍的本钱差别是宏大的。在中代进级中,硬件产物可能实现3倍的变更,这在某种水平上,比摩尔定律、黄氏定律或其余全部硬件改良速率都要快得多。在年夜模子比赛中,最具才能跟差别化的模子可能收取明显的溢价,头部模子的毛利率超越70%,而落伍模子毛利率低于20%。固然,英伟达并不是独一一家能够进步内存容量的公司。ASIC同样能够做到,且现实上AMD在这方面可能处于更有利的位置,MI300X的192GB、MI325X的256GB以及MI350X的288GB,这些产物的内存容量比英伟达要高。GB200 NVL72跟GB300 NVL72在机能跟本钱方面都有很年夜的晋升,在推理中应用NVL72的要害是它使得72个GPU可能处置统一个成绩,并共享内存,且耽误极低。天下上不其余减速器领有全互联的交流衔接以及可能经由过程交流机停止全约简操纵。GB200 NVL72跟GB300 NVL72为实现很多要害功效带来了反动性的变更:更高的交互性使得头脑链的耽误更低。72个GPU疏散KVCache,以实现更长的头脑链(加强智能)。与典范的8个GPU效劳器比拟,更好的批量巨细扩大,使得本钱更低。在处置统一成绩时,能够搜寻更多的样本,以进步正确性,终极晋升模子机能。因而,NVL72的推感性价比比之条件高了10倍以上,特殊是在长推理链上。KVCache占用内存对经济效益是致命的,但NVL72可能将推理长度扩大到10万以上token并在高批量中停止。英伟达的「回身」,供给链的「震撼」英伟达在GB300的计划上有很年夜的修改,对GB200, 英伟达供给全部Bianca板(包含Blackwell GPU,Grace CPU, 512GB的LPDDR5X、VRM全体集成在一块印刷电路板上)以及交流托盘跟铜背板。对GB300,英伟达不再供给全部Bianca板,只供给“SXM Puck”模块上的B300以及BGA封装上的Grace CPU。HMC(混杂内存破方体)将由美国始创公司Axiado供给,调换失落了之前的供给商Aspeed。别的,交流托盘跟铜背板将仍由英伟达供给。客户当初须要自立洽购盘算板上其他的组件,外部存储器将采取LPCAMM模块,而不是焊接的LPDDR5X,美光或将成为这些模块的重要供给商。向SXM Puck的改变,为更多的OEM跟ODM供给了参加供给盘算托盘的机遇,从前只有纬创资通跟产业富联能够出产Bianca板。在此次供给商调剂中,纬创资通成为最年夜输家,由于他们得到了Bianca板的份额。绝对而言,产业富联固然得到了Bianca板的份额,但他们是SXM Puck模块的独家制作商,这局部带来的收益完整能够对消失落Bianca板带来的丧失。英伟达固然想找更多其余的SXM Puck模块供给商,但现在还不现实下单。另一个严重变更是VRM(电压调理模块),固然SXM Puck上有一些VRM,但年夜局部的VRM将由超年夜范围厂商或许OEM直接从VRM供给商处洽购。别的,英伟达还在GB300平台上供给了800G ConnectX-8 NIC(收集接口卡),这使得在InfiniBand跟以太网上的横向扩大带宽翻倍。因为上市时光的影响,英伟达之前撤消了GB200的ConnectX-8,而且废弃了在Bianca板上启用PCIe Gen 6(PCI Express接口的最新一代尺度)。市场信息标明,GB200跟GB300的耽误宣布,给硅谷的年夜厂们带来了很年夜的影响。而这背地通报出的旌旗灯号是从第三季度,大批订单转向了GB300。停止上周,全部年夜厂都决议应用GB300。一局部起因是更高的机能跟更年夜的内存,另一方面,英伟达曾经把持了年夜厂模子练习的运气。受制于产物上市时光、机架、冷却跟电源功率密度的严重变更,年夜厂在效劳器层级无奈对GB200停止太多变动。这招致Meta废弃了盼望从博通跟英伟达两个渠道洽购收集接口卡(NICs)的盼望,转而完整依附英伟达。谷歌也废弃了自家的收集接口卡,抉择与英伟达配合。硅谷年夜厂们习气了本钱优化,从CPU到收集,再到螺丝跟金属板。亚马逊是一个破例,定制化让他们“自愿”抉择了次优设置。因为亚马逊应用了PCIe交流机跟效力较低的200G弹性织物适配器NIC,无奈像Meta、谷歌、微软、甲骨文、X跟Coreweave那样安排NVL72,因而不得不应用NVL36,这也招致每个GPU的本钱更高,由于背板跟交流机内容更多。GB300的呈现为亚马逊带来转折,年夜厂可能定制主板、冷却体系等功效。这使得亚马逊可能构建本人的定制主板,跟着更多组件采取水冷,以及K2V6 400G NIC在2025年第三季度支撑HVM(硬件虚构化治理),亚马逊同样能够应用NVL72架构,并年夜幅改良其总体领有本钱(TCO)。本文由雷峰网(大众号:雷峰网)编译自:https://semianalysis.com/2024/12/25/nvidias-christmas-present-gb300-b300-reasoning-inference-amazon-memory-supply-chain/#b300-gb300-not-just-an-incremental-upgrade雷峰网原创文章,未经受权制止转载。概况见转载须知。 ]article_adlist-->   申明:新浪网独家稿件,未经受权制止转载。 -->
Tel
Mail
Map
Share
Contact