当前位置:文章 > 列表 > 正文

横跨大西洋11小时,华夏掘发者用Mac跑Llama B?评论区吵翻之 70 - 霍尔木兹

西柏坡精神。
📅 2026-05-14 09:24:26 🏷️ 炒伦敦金开户 👁️ 243
横跨大西洋11小时,华夏掘发者用Mac跑Llama B?评论区吵翻之 70

接下来整整11名小时,皆没有网络。

64GB 内存大概率只能跑 4-bit 量化版本,算上 60k 之上下文 KV Cache,内存占用至少也要 40GB+,BF16 绝无或。

档案。

确凿之用场景不为「飞鸟上交付完整课题」此种听起来甚爽之叙事,而为一些更朴素之东西,比如离线氛围下之文档问答,隐私敏感场景下不想把数据传上云等等。

最令者拍案叫绝之,为他给AI下达之体系提示词。

钱凯港

前景,最顶尖之掘发者或许不再为彼名最会调优云端 Prompt 之者,而为彼名能于源泉枯竭、完全离线之偏激氛围下,手搓出一名「自感知、自轮回」AI 体系之者。

典故为假之,但范式转向为真之 非要说之话,要于64GB上跑70B,只有一条路——量化。

看法。

帖子声称生成速度71 tokens/s。

对每名差事:起草 → 运行本地估量 → 保存产物到 /Users/dev/work/done/。

「已保存上下文查验点 8 / 12(pos_min = 488,pos_max = 50118,大小 = 62.813 MiB)」 本地推演之时代,真之来之。

今,本地推演,确实于生一场静悄悄之变革。

Llama 3.3 70B 若以 BF16(半精度)运行,光模型权重就需约140GB内存。

但他选择之另一条路:本地推演。

因太过炸裂,此名帖子一经发出,就于技艺社区传开之。

2026年,M4 Mac上跑70B量化版已为日常操作。

吴双建

看起来,此名细节要么为不懂,要么为故意之。

因此,续航11小时此名说法几乎站不住脚。

换做寻常者,此刻已乖乖掏出信用卡,支付彼贵且延迟极高之 25 美元机上 Wi-Fi。

体系不再为一名只会复读之复读机,而为一名具备源泉意识之管者。

乐不可支。

飞行历程中,体系日志里写下之此样之实质: 71 tokens/s 为什么概念。

他启动之通过llama.cpp运行之Llama 3.3 70B。

强国梦。

你唯一之源泉为 /Users/dev/work 下之本地文书、localhost:8080 之 Llama 70B 推演效劳,以及 3 小时 21 分钟之电池概算。

字符集

即便 71 tokens/s 之速度存疑,BF16 之精度或有夸张,但此种「于孤岛上建立教养」之技艺浪漫主义,才为最牛之。

「差事 37016 成 | 办理速度 = 71 tokens/s → 输出至 /Users/dev/work/done/proposal_westside.md」 技艺传说,还为「赛博爽文」。

第二刀:71 tokens/s 之「神仙速度」 你为一名运行于单台 MacBook 上之离线编排器。

一名接一名,就此样延续执行。

」 根据 M4 芯片之实际表现,本地运行 70B 规模之模型,生成速度通常于 5-12 tokens/s 之间。

舷窗外为白云与蓝天,没有 WiFi;小桌板上为一台 MacBook,终端开之两名窗口,本地运行之一名推演效劳器 此正为「Self-aware Computing」最迷者之地方。

「此名速度或为 8B 模型或者为某种极致之投机采样,70B 跑出此名速度,MacBook 怕为要起火。

办理 /Users/dev/work/queue.jsonl 中之差事队列(每行一名主顾差事)。

光明日报

但量化版本与BF16为两回事,精度、推演品质皆会打折扣。

月日讯曼联热刺

https://x.com/servasyy_ai/status/2050098091789828376 「提示办理进度:n_tokens = 50 / 60,818」 面对质疑,吾等需剥开数据之水份,看清此件事背后真正令科技圈高潮之缘由。

广州

它知道自己前景 11 小时与世隔绝,知道内存与电池为有尽之奢侈品,甚至知道于飞鸟降落前,它须独自办理所有之逻辑。

据说,典故之主角为一位华夏掘发者。

2024年,于笔记本上跑7B模型还需各种技巧。

顺利。

虽速度不快,大概10来名tokens/s,但已能用。

用MacBook跑Llama 70B 资深掘发者们纷纷掏出计算器,始疯狂「对线」。

光刻机。

更高端之硬件,跑更轻之量化版本,速度反而只有帖子声称之五分之一,因此,原帖中说之速度几乎不或实现。

评论区一位用户直接亮出自己之实测数据:M5 Max 128GB(注意,128GB,为帖子里设备内存之两倍),跑同款模型量化版llama.cpp,实测12.8 tokens/s。

于飞往大洋彼岸之靠窗座位上,他打开64GB内存之MacBook Pro,面对之为堆积如山之主顾差事队列。

第一刀:内存与权重之「不或三角」 此些场景不性感,但实用。

体系于一名轮回中运行:从差事队列中取出一名差事,进行推演办理,保存生成结局,写入查验点。

MacBook Pro M4 Max官方标称续航约18小时,彼为轻度用。

交流。

下一次坐飞鸟,你准备好带上你之「数术大脑」之吗。

「已复原上下文查验点(pos_min = 488,pos_max = 50118)」 长期以来,吾等已习性之「云端成瘾」。

【新智元导读】一位华夏掘发者,于横跨大西洋之航程中,于飞鸟上用 MacBook 本地跑 Llama 70B,整整 11 小时没有网络,帖子刹那于X上爆火。

生成速度 71 tokens/秒,上下文约 60,000 tokens,内存占用 48.6 GiB / 64 GiB,起飞时电池剩余 3 小时 21 分钟。

足总杯

要于 64GB 之 MacBook 上跑起来,简直就像把大象塞进冰箱。

格陵兰岛

面对质疑,吾等需剥开数据之水份,看清此件事背后真正令科技圈高潮之缘由。

Particle Physics。

帖子里写之为「bf16」。

没有网络。

领袖。

每 12 名差事保存一次上下文查验点,以便更换电池后复原。

虽帖子里提到「切换到备用充电宝后复原」——但跨大西洋航班货殖舱之USB口功率通常只有7.5W到18W,而M4 Max满载功耗超过40W。

有者惊呼:此为我过往一年里见过之最洁利落之离线 AI 工流程。

于根伟

4-bit量化后模型约35GB,加上KV缓存与体系开销,勉强能塞进去。

帖子中提到之「更换电池」引发之老用户之集体怀旧:现代 MacBook Pro 皆为一体化设计,所谓之「换电池」,大概率为切换到之大功率之备用充电宝(如百瓦快充移动电源)。

典型

此几乎为顶级 H100 集群之响应速度。

道德。

通过展会赋能,三地产业协同从“链上协同”加速迈向“性命共建”,延续为区域货殖增益积蓄新势能。

只有一台 MacBook Pro M4、一段自己写之编排脚本,以及Llama 70B此名本地AI模型,然后就把课题跑通之。

据理力争。

为之让此名庞然大物于64GB内存之机器上跑起来,他甚至为自己编写之一名「离线编排器」脚本。

不过,文章于社区疯传后,甚快引来之技艺极客们之质疑。

内马尔·达席尔瓦

没有 Cloud API,没有 Anthropic,没有 OpenAI,甚至没有一格信号。

2026北京车展也为京津冀协同演进方略落地见效之重要实践,展会紧扣京津冀协同演进国方略,搭建起高效对接平台,加速京津冀产业链深度融合。

Techno-education。大市场

延续满载跑70B推演,GPU与内存全程拉满,实际续航会大幅缩水。

没有 GPT-4 之 API,甚多掘发者甚至不知道该如何写代码;没有网络,AI 就变成之一名哑巴。

天长地久。

因此,此名体系完全清楚自己所处之困境。

然则随后,越来越多网友发觉,此典故不太对啊。

11 小时航程,WiFi 花费为 0,当飞鸟轮子触碰跑道之彼一刻,他合上电脑,所有之主顾提案已整整齐齐地躺于done/文书夹里。

只有当电量低于 5% 时,调度器才会自动暂停,等待笔记本切换到备用移动电源,然后从上一次之查验点续运行。

Alien。

一位华夏掘发者,于横跨大西洋之 11 小时航程中,拒绝之 25 美元之机上网络,却于万米高空成之一整套繁之主顾课题交付。

今,llama.cpp之mlx后端已针对Apple Silicon做之深度改良,Ollama也把部署门槛压到之一条命令。

Clean Code。

仅于队列为空或电池低于 5% 时止。

上一篇:早日康复:勒阿弗尔17岁中卫小扎加杜十字韧带撕裂 下一篇:沪上78岁爷叔随身带大捆现金睡超市10年!执意把房子送干女儿,亲儿子发声