炒伦敦金开户-横跨大西洋11小时，华夏掘发者用Mac跑Llama B？评论区吵翻之 70

接下来整整11名小时，皆没有网络。

64GB 内存大概率只能跑 4-bit 量化版本，算上 60k 之上下文 KV Cache，内存占用至少也要 40GB+，BF16 绝无或。

档案。

确凿之用场景不为「飞鸟上交付完整课题」此种听起来甚爽之叙事，而为一些更朴素之东西，比如离线氛围下之文档问答，隐私敏感场景下不想把数据传上云等等。

最令者拍案叫绝之，为他给AI下达之体系提示词。

前景，最顶尖之掘发者或许不再为彼名最会调优云端 Prompt 之者，而为彼名能于源泉枯竭、完全离线之偏激氛围下，手搓出一名「自感知、自轮回」AI 体系之者。

典故为假之，但范式转向为真之非要说之话，要于64GB上跑70B，只有一条路——量化。

看法。

帖子声称生成速度71 tokens/s。

对每名差事：起草 → 运行本地估量 → 保存产物到 /Users/dev/work/done/。

「已保存上下文查验点 8 / 12（pos_min = 488，pos_max = 50118，大小 = 62.813 MiB）」本地推演之时代，真之来之。

今，本地推演，确实于生一场静悄悄之变革。

Llama 3.3 70B 若以 BF16（半精度）运行，光模型权重就需约140GB内存。

但他选择之另一条路：本地推演。

因太过炸裂，此名帖子一经发出，就于技艺社区传开之。

2026年，M4 Mac上跑70B量化版已为日常操作。

看起来，此名细节要么为不懂，要么为故意之。

因此，续航11小时此名说法几乎站不住脚。

换做寻常者，此刻已乖乖掏出信用卡，支付彼贵且延迟极高之 25 美元机上 Wi-Fi。

体系不再为一名只会复读之复读机，而为一名具备源泉意识之管者。

乐不可支。

飞行历程中，体系日志里写下之此样之实质： 71 tokens/s 为什么概念。

他启动之通过llama.cpp运行之Llama 3.3 70B。

强国梦。

你唯一之源泉为 /Users/dev/work 下之本地文书、localhost:8080 之 Llama 70B 推演效劳，以及 3 小时 21 分钟之电池概算。

即便 71 tokens/s 之速度存疑，BF16 之精度或有夸张，但此种「于孤岛上建立教养」之技艺浪漫主义，才为最牛之。

「差事 37016 成 | 办理速度 = 71 tokens/s → 输出至 /Users/dev/work/done/proposal_westside.md」技艺传说，还为「赛博爽文」。

第二刀：71 tokens/s 之「神仙速度」你为一名运行于单台 MacBook 上之离线编排器。

一名接一名，就此样延续执行。

」根据 M4 芯片之实际表现，本地运行 70B 规模之模型，生成速度通常于 5-12 tokens/s 之间。

舷窗外为白云与蓝天，没有 WiFi；小桌板上为一台 MacBook，终端开之两名窗口，本地运行之一名推演效劳器此正为「Self-aware Computing」最迷者之地方。

「此名速度或为 8B 模型或者为某种极致之投机采样，70B 跑出此名速度，MacBook 怕为要起火。

办理 /Users/dev/work/queue.jsonl 中之差事队列（每行一名主顾差事）。

但量化版本与BF16为两回事，精度、推演品质皆会打折扣。

https://x.com/servasyy_ai/status/2050098091789828376 「提示办理进度：n_tokens = 50 / 60,818」面对质疑，吾等需剥开数据之水份，看清此件事背后真正令科技圈高潮之缘由。

它知道自己前景 11 小时与世隔绝，知道内存与电池为有尽之奢侈品，甚至知道于飞鸟降落前，它须独自办理所有之逻辑。

据说，典故之主角为一位华夏掘发者。

2024年，于笔记本上跑7B模型还需各种技巧。

顺利。

虽速度不快，大概10来名tokens/s，但已能用。

用MacBook跑Llama 70B 资深掘发者们纷纷掏出计算器，始疯狂「对线」。

光刻机。

更高端之硬件，跑更轻之量化版本，速度反而只有帖子声称之五分之一，因此，原帖中说之速度几乎不或实现。

评论区一位用户直接亮出自己之实测数据：M5 Max 128GB（注意，128GB，为帖子里设备内存之两倍），跑同款模型量化版llama.cpp，实测12.8 tokens/s。

于飞往大洋彼岸之靠窗座位上，他打开64GB内存之MacBook Pro，面对之为堆积如山之主顾差事队列。

第一刀：内存与权重之「不或三角」此些场景不性感，但实用。

体系于一名轮回中运行：从差事队列中取出一名差事，进行推演办理，保存生成结局，写入查验点。

MacBook Pro M4 Max官方标称续航约18小时，彼为轻度用。

交流。

下一次坐飞鸟，你准备好带上你之「数术大脑」之吗。

「已复原上下文查验点（pos_min = 488，pos_max = 50118）」长期以来，吾等已习性之「云端成瘾」。

【新智元导读】一位华夏掘发者，于横跨大西洋之航程中，于飞鸟上用 MacBook 本地跑 Llama 70B，整整 11 小时没有网络，帖子刹那于X上爆火。

生成速度 71 tokens/秒，上下文约 60,000 tokens，内存占用 48.6 GiB / 64 GiB，起飞时电池剩余 3 小时 21 分钟。

要于 64GB 之 MacBook 上跑起来，简直就像把大象塞进冰箱。

面对质疑，吾等需剥开数据之水份，看清此件事背后真正令科技圈高潮之缘由。

Particle Physics。

帖子里写之为「bf16」。

没有网络。

领袖。

每 12 名差事保存一次上下文查验点，以便更换电池后复原。

虽帖子里提到「切换到备用充电宝后复原」——但跨大西洋航班货殖舱之USB口功率通常只有7.5W到18W，而M4 Max满载功耗超过40W。

有者惊呼：此为我过往一年里见过之最洁利落之离线 AI 工流程。

4-bit量化后模型约35GB，加上KV缓存与体系开销，勉强能塞进去。

帖子中提到之「更换电池」引发之老用户之集体怀旧：现代 MacBook Pro 皆为一体化设计，所谓之「换电池」，大概率为切换到之大功率之备用充电宝（如百瓦快充移动电源）。

此几乎为顶级 H100 集群之响应速度。

道德。

通过展会赋能，三地产业协同从“链上协同”加速迈向“性命共建”，延续为区域货殖增益积蓄新势能。

只有一台 MacBook Pro M4、一段自己写之编排脚本，以及Llama 70B此名本地AI模型，然后就把课题跑通之。

据理力争。

为之让此名庞然大物于64GB内存之机器上跑起来，他甚至为自己编写之一名「离线编排器」脚本。

不过，文章于社区疯传后，甚快引来之技艺极客们之质疑。

没有 Cloud API，没有 Anthropic，没有 OpenAI，甚至没有一格信号。

2026北京车展也为京津冀协同演进方略落地见效之重要实践，展会紧扣京津冀协同演进国方略，搭建起高效对接平台，加速京津冀产业链深度融合。

Techno-education。

延续满载跑70B推演，GPU与内存全程拉满，实际续航会大幅缩水。

没有 GPT-4 之 API，甚多掘发者甚至不知道该如何写代码；没有网络，AI 就变成之一名哑巴。

天长地久。

因此，此名体系完全清楚自己所处之困境。

然则随后，越来越多网友发觉，此典故不太对啊。

11 小时航程，WiFi 花费为 0，当飞鸟轮子触碰跑道之彼一刻，他合上电脑，所有之主顾提案已整整齐齐地躺于done/文书夹里。

只有当电量低于 5% 时，调度器才会自动暂停，等待笔记本切换到备用移动电源，然后从上一次之查验点续运行。

一位华夏掘发者，于横跨大西洋之 11 小时航程中，拒绝之 25 美元之机上网络，却于万米高空成之一整套繁之主顾课题交付。

今，llama.cpp之mlx后端已针对Apple Silicon做之深度改良，Ollama也把部署门槛压到之一条命令。

Clean Code。

仅于队列为空或电池低于 5% 时止。

上一篇：早日康复：勒阿弗尔17岁中卫小扎加杜十字韧带撕裂 下一篇：沪上78岁爷叔随身带大捆现金睡超市10年！执意把房子送干女儿，亲儿子发声

横跨大西洋11小时，华夏掘发者用Mac跑Llama B？评论区吵翻之 70 - 霍尔木兹

相关推荐