全网最佳IP代理服务商-

4.8元解锁GTP.特价118/年


如果您从事外贸、海外视频博主、海外推广、海外广告投放,欢迎选择我们。
让您轻易使用国外主流的聊天软件、视频网站以及社交网络等等

苹果怎么登录国外id账号密码

这引得不少人驻足围观,并产生了一些疑问:在 AI 大模型时代,买 Mac Studio 会比买单买 GPU 更划算吗?在 AI 任务中的实际表现,它会比其他高端 PC 表现更强吗?

在选择 M3 Max 时,他特意配置了 128GB 内存,因为 Llama.cpp 和 MLX 这些 AI 框架越来越流行,会迅速把可用内存全占完。但说实话,现在随着 AI 模型规模的增长和自动化工作流的复杂化,128GB 内存在实际使用中早已不够用,显得捉襟见肘。

Max Weinbach 提及, AI 开发者几乎清一色都用 Mac,甚至可以夸张地说——所有顶级实验室、顶级开发者的工作环境中,Mac 早已成为标配。

所以在看到新版 Mac Studio 出来之后,他就迫不及待地买了一台,具体配置如下:

在正式聊 M3 Ultra Mac Studio 运行 LLM 的表现之前,先来讲讲 LLM 为什么需要这么多内存。如果对这部分已经了解,可以直接跳过,这里主要是解释内存的重要性。

LLM 通常以 FP16(半精度浮点)格式存储,也就是每个参数占 2 字节。因此,计算方法很简单:参数数量 × 2 = 模型大小(GB 为单位)。

在 LLM 运行时,如果将模型量化到 4-bit,所需的内存可以减少一半甚至四分之一,具体取决于模型本身。例如,8B 参数模型在 4-bit 量化后大约占 4GB,QwQ 32B 约 20GB,而 DeepSeek R1 依然需要 350GB 内存。当然,还有更激进的 1.5-bit 或 2-bit 量化方式,但这通常会导致模型质量下降,除了做演示用途,基本上没什么实用价值。对于 DeepSeek R1 这样的超大模型来说,虽然 2-bit 量化能把需求降到 250GB,但依然是个庞大的数字。即便是最小版本的 DeepSeek R1,也需要 180GB 内存,但这还不是全部。

另一个占用大量内存的因素是上下文窗口(Context Window),也就是 LLM 处理信息的记忆范围。简单来说,模型能一次性处理多少文本,决定了它生成回应时的上下文理解能力。现在,大多数模型的上下文窗口已经扩展到 128K tokens,但一般用户实际使用的远低于这个数,大概 32K tokens 就够用了(ChatGPT Plus 也是 32K)。这些 token 需要存储在 KV Cache 里,它记录了模型输入的所有 token 以生成输出。

在客户端运行 LLM 最常用的框架是 llama.cpp,它会一次性加载完整的上下文窗口缓存 + 模型,比如QwQ 32B 本身只有 19GB,但加载后总共占用约 51GB 内存!这并不是坏事,在许多应用场景下租用国外海外苹果id,这种方式是合理的。

不过,像 Apple 的 MLX 框架就采用了更灵活的策略:仅在需要时才使用系统内存来存储 KV Cache。这样一来,QwQ 32B 初始加载时只占 19GB,随着使用逐步占用更多内存,最终在填满整个上下文窗口时达到 51GB。对于 M3 Ultra 或 M4 Max 这种配备超大内存的芯片来说,这种机制能让它们支持更高精度的模型。例如,QwQ 32B 在原生 BF16 精度下,完整上下文窗口加载后需要超过 180GB 内存。换句线B 级别的模型,光是运行就可能吃掉 180GB 内存,这些大模型的现实情况就是:有多少内存,它们就能用多少。

未来的趋势是:上下文窗口会越来越大,所以高内存才是最值得关注的“保值配置”。像 Qwen 和 Grok 3 这样的模型已经扩展到 100 万 tokens 上下文窗口,而 Grok 3 未来还计划开源。虽然大模型的大小会受到 Scaling law(扩展定律)的限制,但更大的上下文窗口对实际应用来说更重要,而这意味着需要大量内存。目前一些 RAG(检索增强生成)技术能一定程度上缓解内存需求,但从长远来看,上下文窗口的大小才是关键。想同时跑大模型 + 超大上下文窗口?512GB 内存起步,甚至更高。

另外,Mac Studio 还能通过 Thunderbolt 5 连接多台设备,并利用苹果专门的高速通道进行分布式计算,实现 1TB+ 的共享内存。不过,这个话题可以留到以后再聊。

总的来说,虽然你可以在手机或任何笔记本上运行 LLM,它确实能跑,但想要真正流畅地用在生产环境,进行模型评估,甚至作为 AI 工作站来使用,就必须要有足够大的 GPU 内存。

而目前,Mac Studio(M3 Ultra)是唯一能做到这一点的机器。

当然,如果直接买 H100 或 AMD Instinct 级别的 GPU,在推理速度上确实会更快,但从成本上看,这些设备的价格至少是 Mac Studio 的 6-80 倍,而且多数人最终还是要在云端部署模型,所以对本地开发者来说,性价比并不高。

至于训练大模型,那是另一个完全不同的难题。专注于在不同设备上运行大模型的实验室 Exo Labs 目前正在开发一个基于 Apple Silicon 的 LLM 训练集群,他们肯定更专业,未来可能会分享更多关于训练所需的内存细节。不过,最终的结论很简单:内存越大,体验越好。

在不同设备上跑大模型,重点来了!Max Weinbach 指出——Mac Studio 的 LLM 运行表现,几乎是所有桌面设备里最好的。

相比市面上的大多数 PC,Mac Studio 或其他配备统一内存(Unified Memory)的 Mac 可以更快地运行更强的模型,并且支持更大的上下文窗口。这不仅得益于 Apple Silicon 的硬件优势,还与 Apple 的 MLX 框架密切相关。MLX 不仅能够让模型高效运行,同时还能避免提前将 KV 缓存全部加载到内存中,并且在上下文窗口增大的情况下依然保持较快的 Token 生成速度。

不过,他强调,这次的测试并不是一个完全公平的对比。英伟达的 Blackwell 架构确实在数据中心和消费级 AI 应用上表现出色,但本次测试的重点是评估 AI 工作站上的 LLM 实际性能,因此测试结果更适合作为参考,而非直接比较。

以下是相同模型、相同种子、相同输入提示在三台不同机器上的表现,所有测试均在 128K Token 的上下文窗口下运行(或使用模型支持的最大窗口)。游戏 PC 使用 llama.cpp,Mac 设备则使用 MLX 进行测试:

当然,RTX 5090 也不是不能跑更大的大模型,它可以可以通过 CPU 卸载、惰性加载等方式,在推理过程中动态使用系统内存和 CPU 来运行更大的模型。不过,这会增加延迟,说实话,有了这么强的显卡,折腾这些其实没啥意义。

另外,还有像 TensorRT-LLM 这样的工具,可以把模型量化成 Blackwell 支持的原生 fp4 数据类型,但 Max Weinbach 透露,在尝试给 RTX 5090 编译时,遇到了不少错误,也没时间慢慢调试。理论上,如果用上 Nvidia 官方的优化,RTX 5090 在 Windows 上的表现应该比上面的测试结果好得多,但问题还是出在内存上——RTX 5090 只有 32GB,而 M3 Ultra 起步就是 96GB,最高能到 512GB。

这也就是 Apple Silicon 的另一大优势:省心。所有东西都优化好了,开箱即用。MLX 是目前最好的框架,不光苹果在更新,开源社区也在贡献,它能充分利用 Apple Silicon 的统一内存。虽然 RTX 5090 在 AI 计算的峰值性能上确实比 M3 Ultra 的 GPU 强,但 CUDA、TensorRT 这些软件栈在单机环境下反而成了限制。而在数据中心里,CUDA 和 TensorRT 确实无可替代。

所以,Max Weinbach 认为,最适合开发者使用的最佳组合其实是:桌面上用 M3 Ultra Mac Studio,数据中心租一台 8 张 H100 的服务器。Hopper 和 Blackwell 适合服务器,M3 Ultra 适合个人工作站。“虽然对比这些设备很有趣,但实际情况是,不同设备各有所长,不能直接替代彼此”苹果怎么登录国外id账号密码,Max Weinbach 说道。

Dave Lee 表示,DeepSeek R1 模型有 6710 亿个参数,体积高达 404GB,需要超高带宽的内存,一般来说只能靠 GPU 的专用显存(VRAM)来支撑。但得益于苹果的统一内存架构,M3 Ultra 直接把这部分需求整合进了系统内存里,在低功耗的情况下跑出了不错的效果。

测试中,Dave Lee 把 M3 Ultra 跑 DeepSeek R1 的表现跟苹果之前的芯片做了对比。像 R1 这么大的模型,传统 PC 方案通常需要多块 GPU 配合超大显存才能撑得住,功耗也会飙升。但 M3 Ultra 依靠统一内存架构,让 AI 模型可以像使用 VRAM 一样调用高带宽内存,单芯片就能高效运行。

不过值得注意的是,Dave Lee 强调,跑小模型时,M3 Ultra 还能留有余力,但面对 6710 亿参数的 DeepSeek R1,就必须用上最高配的 512GB 内存版本。另外,macOS 默认对 VRAM 分配有限制,Dave Lee 还特地手动调高了上限,把可用 VRAM 提升到了 448GB,才让模型顺利运行。

最终,DeepSeek R1 在 M3 Ultra Mac Studio 表现不错。虽然这里用的是 4-bit 量化版本,牺牲了一定的精度,但模型依然保持了完整的 6710 亿参数,速度为 16-18 tokens/秒。整体效果超出预期。相比之下,其他平台需要多块 GPU 才能达到相同性能,而 M3 Ultra 的优势在于能效——整机功耗不到 200W!

Dave 还提到,如果用传统多 GPU 配置来跑这个模型,功耗起码是 M3 Ultra 的 10 倍。

M3 Ultra还是价格太贵了,可以使用7900XTX4张显卡每一张显卡的显存是24g显存一共就是96G显存,外加256G内存。这样的配置性价比也是很高,40000块钱就可以搞定一台服务器。如果内存想升级到500G到1000G,整个服务器主机可能需要45,000到5万块钱。

山东交通职业学院现代物流管理专业构建“三阶递进、多元融合”实践教学体系

近日,在第十一届全国大学生物流仿真设计大赛上,山东交通职业学院现代物流管理专业的两支参赛队伍分别斩获特等奖、二等奖。“在国家级大赛上获奖,是我们坚持立德树人根本任务,将学生综合能力培养置于育人核心,通过系统性的实践教学体系重构与创新取得的最新成效。

近日,民间文艺版权保护与促进国际研讨会于泉州举办,世界目光再次聚焦于这座“世遗之城”。来自世界知识产权组织的300余名中外嘉宾共商议题,凸显了民间文艺版权保护的全球共识。作为民族文化的“活化石”,民间文艺版权保护绝非单纯的法律议题,更是守护文化根脉、激发创新活力的战略之举。

深耕肥胖研究30年、“瘦素”的提出者、曾获“医学诺奖风向标”——拉斯克奖的美国分子遗传学家杰弗里·弗莱德曼长啥样?这位“瘦素”之父其实身形高大宽厚,黑框眼镜,温文尔雅,一头短短的花白卷发,窝在沙发里。 前不久,他刚刚斩获了2025年阿尔巴尼医学中心奖,这份认可正来自他的母校。

山东作家马以林的最新著作《足迹》近日由作家出版社出版发行,这是一部以个人经历,描绘山东省府大院在几十年中故事的专著,是渗透着个人情感的人生历程的深情回望。

黄河新闻网长治讯:临近年末这一重要阶段,沁县农商银行城关支行积极行动,采取精准识别客户需求、强化内外协同合作、拓展多元服务场景等系列举措,全面统筹当前业务收官与明年业务开局规划,稳步推进年末客户储备工作,为2026年业务发展筑牢坚实的客户根基。

51岁的李阿姨近段时间总感觉下腹部有强烈的坠胀感,到医院检查后发现,她的子宫因多发肌瘤,已从9年前的小疙瘩长成20厘米大小的盆腔巨物,足足长大4倍,宛如排球大小,不仅填满了整个盆腔,还压迫着输尿管、膀胱等邻近器官。

#云南发布小喇叭#【注意!#云南老年优待证明年停止换发#】日前,云南省老龄工作委员会办公室印发《关于做好以居民身份证替代老年优待证的通知》(以下简称《通知》),自2026年1月1日起全面推行居民身份证替代纸质老年优待证享受老年优待服务的便捷化转型。

日前,中国海军辽宁舰航母编队在宫古海峡以东海域正常组织舰载战斗机飞行训练,事先公布了训练海空域,并在训练前多次向附近海域日舰现场通报,日舰已回复收到。中方:日本海上自卫队116舰,我是中国海军101舰,我编队将按计划,组织舰载机飞行训练。

文章参考官媒资料撰写,无任何不良引导请理性阅读,为阅读通顺文章可能存在润色,如有侵权或文章错误请私信指出!

你知道人生的意义是什么吗?人生意义就是两件,一个就是时间,再一个就是金钱,时间可以啊让你产生效益,产生什么效益啊?经济效益,一个就是你工作了就可以得到收入的金钱的效益,这就是人生的意义。

THE END
喜欢就支持一下吧
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称