【AI 硬件】苹果 AI 推理技术架构调研

2026 年 WWDC 在即,本文梳理苹果在 AI 推理方面的技术架构与关键数据,并与英伟达对比。数据截至 2026 年 6 月初;标注「约 / 待确认」者为厂商未公开、经第三方测算或外推的近似值,引用时请以量级参考为准。

概述

苹果本地 AI 推理走两条路径:NPU 路径(Neural Engine,经 Core ML 框架,服务人脸识别、语音识别等常驻轻量任务)与 GPU 路径(GPU 及每个核心内置的 Neural Accelerator,经 MLX / Metal,承担大语言模型、扩散模型等重型推理)。二者共享同一套统一内存。当前大语言模型推理的主力是 GPU 路径,而非 NPU。[32][34]

搭载 M5 的 14 英寸 MacBook Pro
搭载 M5 的 14 英寸 MacBook Pro——从 M5 / A19 这一代起,每个 GPU 核心都内置了 Neural Accelerator,本地大模型推理的主力也随之从 Neural Engine 转到了 GPU 路径。图源 Wikimedia Commons(CC0)。

两条推理路线

NPU(Neural Engine)路径

Neural Engine 是集成在 SoC 上、与 CPU/GPU 平级的独立协处理器,为低功耗、固定形状的常驻任务设计。软件上只能经 Core ML 触达:开发者用 coremltools 把模型转为 Core ML 格式,通过 MLComputeUnits 圈定候选硬件范围(CPU / GPU / ANE),但具体每层落点由系统调度器按算子兼容性决定——这是「请求」而非「强制」,不被支持的算子会静默回落到 CPU。[32][33] 苹果不提供可直接编程 ANE 的公开 API。

大语言模型不走这条路:Core ML 难以高效表达 LLM,且对 ANE 上的模型大小有限制;主流框架(MLX、llama.cpp、Ollama)实测都绕开 ANE,改用 GPU。[32][34] 一个有力旁证是,苹果自家的 MLX 框架明确不支持 ANE。[33]

GPU 路径(当前 LLM 推理主力)

链路为 模型 → MLX → Metal → GPU。MLX 是苹果 2023 年底推出、为统一内存从零设计的框架(地位类似 PyTorch),Metal 是底层 GPU 编程框架(地位类似英伟达的 CUDA)。[35][40]

从 M5 / A19 这一代起,每个 GPU 核心内置一个 Neural Accelerator(概念上对应英伟达的 Tensor Core),提供专用矩阵乘加运算;它经 Metal 4 的 Tensor API 可被开发者直接编程——与封闭、只能经 Core ML 触达的 ANE 形成鲜明对比。[5][6]

LLM 推理分两个阶段,瓶颈不同:首字延迟(prefill / TTFT)是算力受限,靠 Neural Accelerator(M5 相比 M4 提速最高约 4 倍);后续吐字(decode)是内存带宽受限,靠统一内存带宽。[6] 其中 decode 速度的经验公式为:tokens/s ≈ 内存带宽 ÷ 单 token 需读取的模型大小[37]

近几代硬件的 AI 算力演化

NPU(Neural Engine)的停滞

从 iPhone 到 M5 Max,Neural Engine 全线为 16 核(仅 Ultra 因拼合两颗 Max die 而翻倍至 32 核)。TOPS 从 M1 的约 11 涨到 M4 的约 38;M5 起苹果不再单独公布该数字,因为 AI 算力已分散到 GPU 的 Neural Accelerator。[9][26] 结论:NPU 不是苹果做产品分级的地方,真正的算力梯度在 GPU。

GPU 核数(AI 算力的真实梯度)

每个 GPU 核心均内置 Neural Accelerator;A19 的 Neural Accelerator 峰值算力是 A18 Pro 的约 4 倍。[1][2][3]

设备 / 芯片GPU 核数内存上限备注
iPhone 17(A19)58GB[2]
iPhone 17 Pro(A19 Pro)612GB[1]
M51032GB[7]
M5 Pro最高约 20(待确认)约 64GB
M5 Max40128GB当前笔记本天花板 [8]
M3 Ultra80512GB(现限约 96GB)当前 GPU 核数与内存最大 [15][16]

内存带宽演化

各代带宽(单位 GB/s)[9][10][11][12][13]:

代际基础版ProMaxUltra
M168200400800
M2100200400800
M3100150 ↓300 / 400819
M4120273546(无)
M5153待确认614待发布

要点:带宽长期温和爬升(基础版五代约 2.25 倍),Max 档三代停在 400 后才于 M4 Max 跃升至 546、M5 Max 614;M3 Pro 曾出现 25% 的倒退。[9] iPhone(A19 Pro)的 LPDDR5X 带宽约 75.8 GB/s。[4]

台式 Mac 现状(重要): 截至 2026 年 6 月,台式机尚未升级到 M5——Mac mini 为 M4 / M4 Pro,Mac Studio 为 M4 Max / M3 Ultra,Mac Pro 仍为 M2 Ultra(约 800 GB/s)。满血 M5 桌面(Mac Studio / mini)预计 2026 下半年发布,受 DRAM 短缺影响时间不确定。[16]

Mac Studio 桌面工作站
Mac Studio——配 M4 Max / M3 Ultra,凭借最高 512GB 统一内存,成为社区跑本地大模型(尤其 70B+ 稠密模型与 MoE)的高性价比选择。满血 M5 桌面预计 2026 下半年才发布。图源 Wikimedia Commons(CC BY-SA 4.0)。

推理性能增长

M5 整体 AI 性能约为 M4 的 3.5–4 倍、M1 的约 9.5 倍。[13][36] 但增长来自两块速率不同的部分:prefill 靠 Neural Accelerator 实现断点式飞跃(约 4 倍)[6];decode 仅约 28% 优于 M4 Max,随带宽缓慢提升。[37] 换言之,M5 真正补上的是「算力(prefill)」那条腿,「带宽(decode)」那条腿仍增长有限。

苹果 GPU 与英伟达 GPU 对比

架构哲学相反:苹果 GPU 采用 TBDR(基于图块的延迟渲染)——先把屏幕分块、做隐藏面消除,只着色可见像素,极致省带宽省电,源自移动端、无独立显存;英伟达采用 IMR(立即模式渲染)——靠专属高速显存暴力喂,追求绝对吞吐。[30][31]

算力

英伟达 GPU 由 SM(流式多处理器) 堆成,每个 SM 含 128 个 CUDA 核 + 4 个第五代 Tensor 核 + 1 个第四代 RT 核。[17][18] 一颗 Blackwell GPU 约 148–160 个 SM,最新的 Rubin 达 224 个 SM。[18][19][21] Tensor Core 自 2017 年 Volta 起已迭代到第五代;苹果的 Neural Accelerator 到 M5(2025)才出现,社区评估其成熟度大致相当于英伟达 2018 年的 Turing。[28]

英伟达 CES 2025 展示的 RTX Blackwell GPU 规格图
英伟达在 CES 2025 展示的 RTX Blackwell GPU——920 亿晶体管、GDDR7 显存、1.8 TB/s 显存带宽。对应的消费旗舰 RTX 5090(1.79 TB/s),约是苹果带宽最高的 M3 Ultra(约 819 GB/s)的两倍多。图源 Wikimedia Commons(CC0)。

存储结构

  • 苹果:统一内存,CPU / GPU / NPU 共享,无 PCIe 拷贝开销,容量大(M3 Ultra 可达 512GB)。[14]
  • 英伟达:独立显存,容量较小(RTX 5090 为 32GB,数据中心 B200 约 180GB)但带宽高。[23][25]
  • 一个直观对照:Llama 3.3 70B 在 FP16 下约需 140GB 显存,单张 RTX 5090 装不下,但一台大内存 Mac 可整体载入。[24]
英伟达 A100 数据中心 GPU(PCIe 形态)
英伟达 A100 数据中心 GPU(PCIe 形态)——独立显存(HBM)走「容量小但带宽高」路线,与苹果「容量大但带宽省电」的统一内存形成鲜明对照:同样跑 70B 大模型,英伟达靠多卡拼显存,苹果靠一台机器的大内存整体载入。图源 Wikimedia Commons(CC BY-SA 4.0)。

带宽

芯片阵营内存类型带宽
iPhone(A19 Pro)苹果LPDDR5X约 76 GB/s
M5苹果LPDDR5X153 GB/s
M5 Max苹果LPDDR5X614 GB/s
M3 Ultra苹果LPDDR5X约 819 GB/s
RTX 4090英伟达GDDR6X约 1.0 TB/s
RTX 5090英伟达GDDR71.79 TB/s
A100英伟达HBM2e约 2 TB/s
H100英伟达HBM33.35 TB/s
H200英伟达HBM3e4.8 TB/s
B200英伟达HBM3e约 8 TB/s

来源:[11][15][23][25]。苹果带宽最高的 M3 Ultra(约 819 GB/s)仅约一张 RTX 5090(1.79 TB/s)的一半、数据中心 B200(8 TB/s)的约 1/9。差距源于内存类型:苹果用省电型的 LPDDR5X,英伟达用带宽型的 GDDR7 / HBM。但苹果以远低的功耗换取(整机一两百瓦,对比 B200 单卡 1000W),「每瓦带宽」并不落下风。[25]

精度支持

  • 苹果 GPU 的 Neural Accelerator 原生支持 FP16、INT8(FP16 可双发射、算力翻倍);Neural Engine 同为 INT8 / FP16。[27][29]
  • 缺原生 FP8 / FP4:跑 4-bit 量化模型时,省的是内存与带宽,不是算力(权重需上转回 FP16/INT8 再计算)。[28]
  • 英伟达 Tensor Core 支持从 FP32 一直到 FP4 / FP6 / INT4 的宽精度光谱(Blackwell/Rubin 原生 NVFP4)。[19][22][26]

社区用苹果硬件跑 AI 的讨论

总体共识:用 Mac Studio / Mac mini(及 M5 Max MacBook Pro)做本地大模型推理,性价比高、体验出色[36][37] 以下为几个具体讨论案例。

案例:MLX 显著快于 llama.cpp

在 M5 上,MLX 比 llama.cpp 快约 30–60%、prefill(首字)快 3–4 倍,关键在于 MLX 用上了 llama.cpp 不用的 Neural Accelerator。[35] 一个典型实测:M4 Pro(64GB)跑 Qwen3-Coder-30B-A3B,MLX 约 130 tok/s,而 Ollama(llama.cpp 后端)仅 43 tok/s,相差约 3 倍。[38] Ollama 已于 2026 年 3 月把苹果后端切换到 MLX。[35]

案例:实测吐字速度

M5 Max 经 MLX:8B 模型约 230 tok/s,70B(Q4)约 28 tok/s,122B 约 15 tok/s。[36] M5 Max 整体比 M4 Max 约快 28%,主要随带宽提升。[37]

案例:MoE 模型是苹果的「天选场景」

MoE(混合专家)模型每个 token 只激活少量参数(如 Qwen 35B-A3B 总参 35B、激活仅 3B,推理时表现如 3B 模型),对带宽需求低,正好抵消苹果的带宽短板,同时发挥其大容量优势。[39] 2026 年 MoE 开源模型大量涌现,直接带动了苹果本地推理的口碑。[35]

案例:大内存装得下大模型

192GB 统一内存的 Mac Studio 能把 70B 参数模型整体载入内存运行而不抖动。[40] 这是苹果相对消费级独显(显存有限)的独特优势——「跑得下」本身就是价值。

边界:跑得下 ≠ 跑得快

对每个 token 都要动用全部权重的稠密大模型,带宽差距(数倍至近十倍)会实打实压低苹果的 decode 速度,英伟达吐字快得多;严肃训练与高吞吐推理仍在英伟达。[24][34] 因此苹果的优势集中在「本地、省电、跑得下大模型(尤其 MoE)」这一赛道,而非密集大模型的极致吞吐。

英伟达 DGX GB200 机柜
英伟达 DGX GB200 机柜——HBM3e 显存带宽约 8 TB/s,是 M3 Ultra(约 819 GB/s)的近 10 倍。严肃训练与高吞吐推理仍牢牢在英伟达这一侧;苹果的主场是另一条赛道——「本地、省电、跑得下」。图源 Wikimedia Commons(CC BY-SA 4.0)。

参考资料