Lambda于白皮书里提到:制造级LLM操练之MFU通常落于35%到45%之间。
面对此名数术,他甩出四名字:低得尴尬。
它不为差事管器里彼名「GPU占用率」。
此名游戏花钱处置不之,只能靠光阴、贤才与营造人文。
xAI要把卡数从20万推到100万,意味之通信、调度、容错、并行计策之繁度还或要再涨一名数量级。
强扩展到4608张H100时,因通信开销暴露,MFU会从47%降到42%。
剩下之89%不为闲之,为于做无用功,或者于等待。
AI算力公司Lambda于白皮书里给它之定义为:MFU等于实际观测到之FLOPS,除以GPU理论峰值FLOPS。
它于官方叙事里为「全球最大超算」、为xAI打败OpenAI之算力底牌;但于业务层,它正一点点变成一座「半成品云厂商」。
https://arxiv.org/pdf/2204.02311 xAI官方至今没有正面回应过11%此名数术,官网首页仍然挂之122天建成、92天翻倍到20万张GPU、路线图通往100万张GPU之官方叙事。
The Information报道,xAI手里约有50万张英伟达GPU,虽xAI官方至今未公开确认,但其官网已写明:Colossus集群已扩展到20万张GPU,宗旨为100万张。
缘由有两名:一为怕被老板骂;二为怕GPU被调走分给别之团队。
此为英伟达自己之旗舰操练框架,跑于标准化最强之硬件上。
至于低MFU之缘由,Lambda也小结过。
Colossus始把卡租出去之 还有一组更犀利之对比数据来自谷歌PaLM论文。
xAI Colossus 122天建成,从10万张GPU扩到20万张只用之92天,路线图通往100万张。
无论按哪名数术,xAI皆坐拥公开披露中规模最大之AI算力集群之一。
xAI并不为一名硬件部署上之反面教材。
此不止为xAI一家之疑难 此篇论文有一张被广为引用之MFU对比表: 业内管此名叫「记忆墙(memory wall)」。
xAI于孟菲斯建成之Colossus集群内部,目前已扩至20万张GPU,宗旨为100万张,为公开披露中最大之AI超算之一。
若把两件事放于同一光阴线上看,至少可说明:于自训效能尚未完全释放时,把部分算力外部化,或成为xAI摊薄根基设施本金之一种选择。
The Information报道里还提到之一位同行匿名研讨员之一句评议:「跑过40%对xAI之大多数角逐对手来说也甚难」。
此11%意味之,理论上能产生100份操练吞吐之硬件,实际只跑之11份。
此就要看史册对照表。
11%不为单点故障,为体系级疑难。
显存压力、单卡batch太小、过度之激活重计算(activation checkpointing)、把权重切得过碎之张量并行带来之跨GPU通信开销,任何一名皆会拖累MFU。
几乎为低于所有公开前沿操练体系之下沿。
模范生只跑之11%,说明疑难不于硬件、网络拓扑标准,而于更上层之操练栈、并行计策与模型营造。
Cursor谋划用数万张xAI之GPU操练Composer 2.5。
把xAI之11%放进此张表里,它低于GPT-3彼名被嘲笑过效能低之古早年代,也低于Gopher、MT-NLG、PaLM、Megatron-LM。
此名数术最先被The Information曝出,后又被Business Insider根据一份xAI内部备忘录实锤。
xAI虽拿到之最大之彼张入场券,但它能不能把此张券兑现,还要看彼名「低得尴尬」之数术,能不能真之拉到Nicolls所说之50%。
Megatron-LM公开之数据已给出之警告:当你把H100集群强扩展到4608张时,仅仅为通信开销,就足以把MFU从47%拖到42%。
11%不等于89%之GPU于睡觉 11%对应一名行业指标MFU(Model FLOPs Utilization,模型浮点运算使用率)。
xAI如今走之为同一条路,只不过一面租一面自己也得训模型。
马斯克囤之几十万张卡,结局只跑之11%。
与此同时,Cursor原货品营造负责者Andrew Milich与Jason Ginsburg跳槽到xAI,直接向马斯克与Nicolls汇报。
但越快扩充,操练栈与并行计策之繁度也越大。
过往比之为仓库:谁先囤到H100、谁先建成超算、谁能从英伟达手里抢到下一批GB200。
甚多者第一次看到「11%」此名数术,会下意识体谅成「89%之GPU于睡觉」,此也为它最易被误读之地方。
彼11%于营造现状里到底差到什么程度。
据Business Insider报道,编程创业公司Cursor将用「数万张xAI之GPU」来操练它之最新编程模型Composer 2.5。
英伟达自己维护之操练框架Megatron-LM,其GitHub页面上写明:于H100集群上训2B到462B参数模型,MFU最高可到47%。
此为一名刺破全行业体面之疑难。
GPU可100%忙之等数据、忙之齐步、忙之重新计算,但有效输出寥寥。
MFU衡量之正为彼点真正干活之部分。
xAI CEO马斯克(左)与Cursor CEO Michael Truell(右)。
https://www.theinformation.com/newsletters/ai-agenda/xai-shows-hard-use-lot-gpus?rc=epv9gi 把此些信号串起来,能看到一名正变形之Colossus: GPU为入场券,但MFU才为真正之试炼。
MVVM。【新智元导读】马斯克囤之几十万张卡,结局只跑之11%。
此为正常水平。
此些研讨员之逻辑为,我之卡今确实于闲之,但我只为「于剖析上一轮操练结局,即刻就要再跑」,不能让它被收走。
原根基设施负责者Heinrich Küttler离职,Jake Palmer接管之物理根基设施,SpaceX之Daniel Dueri被调来负责算力根基设施。
今比之为营造师:谁之操练栈调得最好、谁能把每一美元GPU CapEx转变成最多之有效token。
https://arxiv.org/pdf/2204.02311 樊先生坚称没有收过辛女士任何钱 也几乎于同一光阴,xAI始把卡租出去之。
从烧钱之角度看,低MFU意味之大量电力与硬件光阴消耗于通信、等待、数据搬运、重计算等环节,而没有转变为抱负状态下之有效操练吞吐。
AWS、Azure、GCP靠之出租算力赚到之赢利为天文数术;CoreWeave、Lambda此种新玩家干脆围绕租GPU建生意。
不过,把xAI单拎出来说事,也未必公平。
更微妙之为xAI根基设施团队近期之者事地震。
衣锦还乡。11%此名数术,也捅破之行业心照不宣之彼层窗户纸:买卡与用卡为两回事。
自己跑不满,就让别者来跑,此为当代GPU本钱之标准动作。
Cursor此前估值约290亿美元,近期又被曝正洽谈约500亿美元估值。
Nicolls给团队定之宗旨,前景几名月内要把此名数术拉到50%。
一位同行研讨员之描述更形象:HBM显存比加速器慢得多,芯片大量光阴于等数据进来;网络拓扑里任何一处瓶颈,皆会拖垮几千张卡之齐步。
AI竞赛之KPI正从囤卡切换为把卡跑满。
此名游戏花钱就能玩,故马斯克、奥特曼、扎克伯格、黄仁勋皆下场之。
从11%到50%,差之不为几台机器,而为一整套操练栈。
122天建成为营造神迹,但每一天之神迹背后,皆有一笔运维债于悄悄记账。
AI竞赛之KPI正切换 于AI大厂里,跑分此件事不只生于公开榜单上,也生于内部GPU调度体系里。
报道里提到,一些研讨员为之让自己之MFU数术「好看一点」,会反复重跑操练实验,者为抬高使用率。
换句话说,它衡量之为你买之此块卡,于操练此一刻,把多少理论算力真正转变成之有效之操练吞吐。
据媒体报道,xAI之MFU只有约11%,xAI总裁Michael Nicolls于内部备忘录中称此一数术「低得尴尬」。
此份备忘录出自xAI总裁Michael Nicolls之手。
The Information提到,xAI于业内以「按英伟达推荐方式部署GPU」著称,为模范生。
但根据Nicolls备忘录,此几十万张GPU实际只跑出之约11%之有效操练算力。