【AI 硬件】苹果 AI 推理技术架构调研
2026 年 WWDC 在即,本文梳理苹果在 AI 推理方面的技术架构与关键数据,并与英伟达对比。数据截至 2026 年 6 月初;标注「约 / 待确认」者为厂商未公开、经第三方测算或外推的近似值,引用时请以量级参考为准。
概述
苹果本地 AI 推理走两条路径:NPU 路径(Neural Engine,经 Core ML 框架,服务人脸识别、语音识别等常驻轻量任务)与 GPU 路径(GPU 及每个核心内置的 Neural Accelerator,经 MLX / Metal,承担大语言模型、扩散模型等重型推理)。二者共享同一套统一内存。当前大语言模型推理的主力是 GPU 路径,而非 NPU。[32][34]

两条推理路线
NPU(Neural Engine)路径
Neural Engine 是集成在 SoC 上、与 CPU/GPU 平级的独立协处理器,为低功耗、固定形状的常驻任务设计。软件上只能经 Core ML 触达:开发者用 coremltools 把模型转为 Core ML 格式,通过 MLComputeUnits 圈定候选硬件范围(CPU / GPU / ANE),但具体每层落点由系统调度器按算子兼容性决定——这是「请求」而非「强制」,不被支持的算子会静默回落到 CPU。[32][33] 苹果不提供可直接编程 ANE 的公开 API。
大语言模型不走这条路:Core ML 难以高效表达 LLM,且对 ANE 上的模型大小有限制;主流框架(MLX、llama.cpp、Ollama)实测都绕开 ANE,改用 GPU。[32][34] 一个有力旁证是,苹果自家的 MLX 框架明确不支持 ANE。[33]
GPU 路径(当前 LLM 推理主力)
链路为 模型 → MLX → Metal → GPU。MLX 是苹果 2023 年底推出、为统一内存从零设计的框架(地位类似 PyTorch),Metal 是底层 GPU 编程框架(地位类似英伟达的 CUDA)。[35][40]
从 M5 / A19 这一代起,每个 GPU 核心内置一个 Neural Accelerator(概念上对应英伟达的 Tensor Core),提供专用矩阵乘加运算;它经 Metal 4 的 Tensor API 可被开发者直接编程——与封闭、只能经 Core ML 触达的 ANE 形成鲜明对比。[5][6]
LLM 推理分两个阶段,瓶颈不同:首字延迟(prefill / TTFT)是算力受限,靠 Neural Accelerator(M5 相比 M4 提速最高约 4 倍);后续吐字(decode)是内存带宽受限,靠统一内存带宽。[6] 其中 decode 速度的经验公式为:tokens/s ≈ 内存带宽 ÷ 单 token 需读取的模型大小。[37]
近几代硬件的 AI 算力演化
NPU(Neural Engine)的停滞
从 iPhone 到 M5 Max,Neural Engine 全线为 16 核(仅 Ultra 因拼合两颗 Max die 而翻倍至 32 核)。TOPS 从 M1 的约 11 涨到 M4 的约 38;M5 起苹果不再单独公布该数字,因为 AI 算力已分散到 GPU 的 Neural Accelerator。[9][26] 结论:NPU 不是苹果做产品分级的地方,真正的算力梯度在 GPU。
GPU 核数(AI 算力的真实梯度)
每个 GPU 核心均内置 Neural Accelerator;A19 的 Neural Accelerator 峰值算力是 A18 Pro 的约 4 倍。[1][2][3]
| 设备 / 芯片 | GPU 核数 | 内存上限 | 备注 |
|---|---|---|---|
| iPhone 17(A19) | 5 | 8GB | [2] |
| iPhone 17 Pro(A19 Pro) | 6 | 12GB | [1] |
| M5 | 10 | 32GB | [7] |
| M5 Pro | 最高约 20(待确认) | 约 64GB | |
| M5 Max | 40 | 128GB | 当前笔记本天花板 [8] |
| M3 Ultra | 80 | 512GB(现限约 96GB) | 当前 GPU 核数与内存最大 [15][16] |
内存带宽演化
各代带宽(单位 GB/s)[9][10][11][12][13]:
| 代际 | 基础版 | Pro | Max | Ultra |
|---|---|---|---|---|
| M1 | 68 | 200 | 400 | 800 |
| M2 | 100 | 200 | 400 | 800 |
| M3 | 100 | 150 ↓ | 300 / 400 | 819 |
| M4 | 120 | 273 | 546 | (无) |
| M5 | 153 | 待确认 | 614 | 待发布 |
要点:带宽长期温和爬升(基础版五代约 2.25 倍),Max 档三代停在 400 后才于 M4 Max 跃升至 546、M5 Max 614;M3 Pro 曾出现 25% 的倒退。[9] iPhone(A19 Pro)的 LPDDR5X 带宽约 75.8 GB/s。[4]
台式 Mac 现状(重要): 截至 2026 年 6 月,台式机尚未升级到 M5——Mac mini 为 M4 / M4 Pro,Mac Studio 为 M4 Max / M3 Ultra,Mac Pro 仍为 M2 Ultra(约 800 GB/s)。满血 M5 桌面(Mac Studio / mini)预计 2026 下半年发布,受 DRAM 短缺影响时间不确定。[16]

推理性能增长
M5 整体 AI 性能约为 M4 的 3.5–4 倍、M1 的约 9.5 倍。[13][36] 但增长来自两块速率不同的部分:prefill 靠 Neural Accelerator 实现断点式飞跃(约 4 倍)[6];decode 仅约 28% 优于 M4 Max,随带宽缓慢提升。[37] 换言之,M5 真正补上的是「算力(prefill)」那条腿,「带宽(decode)」那条腿仍增长有限。
苹果 GPU 与英伟达 GPU 对比
架构哲学相反:苹果 GPU 采用 TBDR(基于图块的延迟渲染)——先把屏幕分块、做隐藏面消除,只着色可见像素,极致省带宽省电,源自移动端、无独立显存;英伟达采用 IMR(立即模式渲染)——靠专属高速显存暴力喂,追求绝对吞吐。[30][31]
算力
英伟达 GPU 由 SM(流式多处理器) 堆成,每个 SM 含 128 个 CUDA 核 + 4 个第五代 Tensor 核 + 1 个第四代 RT 核。[17][18] 一颗 Blackwell GPU 约 148–160 个 SM,最新的 Rubin 达 224 个 SM。[18][19][21] Tensor Core 自 2017 年 Volta 起已迭代到第五代;苹果的 Neural Accelerator 到 M5(2025)才出现,社区评估其成熟度大致相当于英伟达 2018 年的 Turing。[28]

存储结构
- 苹果:统一内存,CPU / GPU / NPU 共享,无 PCIe 拷贝开销,容量大(M3 Ultra 可达 512GB)。[14]
- 英伟达:独立显存,容量较小(RTX 5090 为 32GB,数据中心 B200 约 180GB)但带宽高。[23][25]
- 一个直观对照:Llama 3.3 70B 在 FP16 下约需 140GB 显存,单张 RTX 5090 装不下,但一台大内存 Mac 可整体载入。[24]

带宽
| 芯片 | 阵营 | 内存类型 | 带宽 |
|---|---|---|---|
| iPhone(A19 Pro) | 苹果 | LPDDR5X | 约 76 GB/s |
| M5 | 苹果 | LPDDR5X | 153 GB/s |
| M5 Max | 苹果 | LPDDR5X | 614 GB/s |
| M3 Ultra | 苹果 | LPDDR5X | 约 819 GB/s |
| RTX 4090 | 英伟达 | GDDR6X | 约 1.0 TB/s |
| RTX 5090 | 英伟达 | GDDR7 | 1.79 TB/s |
| A100 | 英伟达 | HBM2e | 约 2 TB/s |
| H100 | 英伟达 | HBM3 | 3.35 TB/s |
| H200 | 英伟达 | HBM3e | 4.8 TB/s |
| B200 | 英伟达 | HBM3e | 约 8 TB/s |
来源:[11][15][23][25]。苹果带宽最高的 M3 Ultra(约 819 GB/s)仅约一张 RTX 5090(1.79 TB/s)的一半、数据中心 B200(8 TB/s)的约 1/9。差距源于内存类型:苹果用省电型的 LPDDR5X,英伟达用带宽型的 GDDR7 / HBM。但苹果以远低的功耗换取(整机一两百瓦,对比 B200 单卡 1000W),「每瓦带宽」并不落下风。[25]
精度支持
- 苹果 GPU 的 Neural Accelerator 原生支持 FP16、INT8(FP16 可双发射、算力翻倍);Neural Engine 同为 INT8 / FP16。[27][29]
- 缺原生 FP8 / FP4:跑 4-bit 量化模型时,省的是内存与带宽,不是算力(权重需上转回 FP16/INT8 再计算)。[28]
- 英伟达 Tensor Core 支持从 FP32 一直到 FP4 / FP6 / INT4 的宽精度光谱(Blackwell/Rubin 原生 NVFP4)。[19][22][26]
社区用苹果硬件跑 AI 的讨论
总体共识:用 Mac Studio / Mac mini(及 M5 Max MacBook Pro)做本地大模型推理,性价比高、体验出色。[36][37] 以下为几个具体讨论案例。
案例:MLX 显著快于 llama.cpp
在 M5 上,MLX 比 llama.cpp 快约 30–60%、prefill(首字)快 3–4 倍,关键在于 MLX 用上了 llama.cpp 不用的 Neural Accelerator。[35] 一个典型实测:M4 Pro(64GB)跑 Qwen3-Coder-30B-A3B,MLX 约 130 tok/s,而 Ollama(llama.cpp 后端)仅 43 tok/s,相差约 3 倍。[38] Ollama 已于 2026 年 3 月把苹果后端切换到 MLX。[35]
案例:实测吐字速度
M5 Max 经 MLX:8B 模型约 230 tok/s,70B(Q4)约 28 tok/s,122B 约 15 tok/s。[36] M5 Max 整体比 M4 Max 约快 28%,主要随带宽提升。[37]
案例:MoE 模型是苹果的「天选场景」
MoE(混合专家)模型每个 token 只激活少量参数(如 Qwen 35B-A3B 总参 35B、激活仅 3B,推理时表现如 3B 模型),对带宽需求低,正好抵消苹果的带宽短板,同时发挥其大容量优势。[39] 2026 年 MoE 开源模型大量涌现,直接带动了苹果本地推理的口碑。[35]
案例:大内存装得下大模型
192GB 统一内存的 Mac Studio 能把 70B 参数模型整体载入内存运行而不抖动。[40] 这是苹果相对消费级独显(显存有限)的独特优势——「跑得下」本身就是价值。
边界:跑得下 ≠ 跑得快
对每个 token 都要动用全部权重的稠密大模型,带宽差距(数倍至近十倍)会实打实压低苹果的 decode 速度,英伟达吐字快得多;严肃训练与高吞吐推理仍在英伟达。[24][34] 因此苹果的优势集中在「本地、省电、跑得下大模型(尤其 MoE)」这一赛道,而非密集大模型的极致吞吐。

参考资料
- Apple. iPhone 17 Pro 技术规格. apple.com/iphone-17-pro/specs
- Apple. iPhone 17 技术规格. apple.com/iphone-17/specs
- MacRumors. A19 vs. A19 Pro: iPhone 17 Chip Differences. macrumors.com/2025/09/09/iphone-17-a19-chip
- Notebookcheck. Apple A19 Pro Processor Benchmarks and Specs. notebookcheck.net/Apple-A19-Pro-Processor-Benchmarks
- Apple. Apple unleashes M5, the next big leap in AI performance for Apple silicon. businesswire.com/…/Apple-unleashes-M5
- Apple Machine Learning Research. Exploring LLMs with MLX and the Neural Accelerators in the M5 GPU. machinelearning.apple.com/research/exploring-llms-mlx-m5
- Eric Kim. Apple’s M5 Chip and the Future of Apple Silicon. erickimphotography.com/apples-m5-chip-future-of-apple-silicon
- Notebookcheck. Apple M5 Max Processor Benchmarks and Specs. notebookcheck.net/Apple-M5-Max-Processor-Benchmarks
- J.D. Hodges. Apple CPU Comparison Chart: M1, M2, M3, M4, M5 Max. jdhodges.com/blog/apple-cpu-compared-m1-m3-m3-m4-m5-max
- Of Zen and Computing. Apple Chip Comparison (M1 vs M2 vs M3 vs M4). ofzenandcomputing.com/apple-chip-comparison
- LaptopMedia. Apple M5 vs M4, M3, M2, M1 (+Pro/Max/Ultra). laptopmedia.com/comparisons/apple-m5-vs-m4-m3-m2-m1
- Low End Mac. M5 vs Every other Pro-Max-Ultra Apple Silicon Chip. lowendmac.com/2025/m5-vs-every-other-apple-silicon-chip
- Webwallah. MacBook Air M5 vs M4, M3, M2, M1. webwallah.in/macbook-air-m5-vs-m4-m3-m2-m1
- Apple. Apple reveals M3 Ultra, taking Apple silicon to a new extreme. apple.com/newsroom/2025/03/apple-reveals-m3-ultra
- Notebookcheck. Mac Studio with Apple M4 Max and M3 Ultra. notebookcheck.net/Mac-Studio-M4-Max-and-M3-Ultra
- Macworld. 2026 Mac Studio: M5 Ultra rumors, specs, RAM delay. macworld.com/article/2973459/2026-mac-studio-m5-rumors
- Tom’s Hardware. Desktop GPU roadmap: Nvidia Rubin, AMD UDNA & Intel Xe3. tomshardware.com/…/desktop-gpu-roadmap-nvidia-rubin
- Nagesh Vishnumurthy (Medium). NVIDIA Blackwell Architecture: A Deep Dive. medium.com/@kvnagesh/nvidia-blackwell-architecture-deep-dive
- NVIDIA Technical Blog. Inside NVIDIA Blackwell Ultra. developer.nvidia.com/blog/inside-nvidia-blackwell-ultra
- NADDOD (Medium). Three Key Processing Cores Inside NVIDIA GPUs. naddod.medium.com/three-key-processing-cores-inside-nvidia-gpus
- NVIDIA Technical Blog. Inside the NVIDIA Vera Rubin Platform. developer.nvidia.com/blog/inside-the-nvidia-rubin-platform
- NVIDIA. Tensor Cores: Versatility for HPC & AI. nvidia.com/en-us/data-center/tensor-cores
- Runpod. RTX 5090: Specs, AI Inference Benchmarks & LLM Guide. runpod.io/articles/guides/nvidia-rtx-5090
- Spheron. RTX 5090 vs H100 vs B200. spheron.network/blog/rtx-5090-vs-h100-vs-b200
- Runpod. Nvidia B200 GPU: Specs, VRAM, Price, and AI Performance. runpod.io/articles/guides/nvidia-b200
- DataDrivenInvestor (Medium). Apple’s Neural Engine vs. Traditional GPUs. medium.datadriveninvestor.com/apples-neural-engine-vs-traditional-gpus
- Tomas Zakharko. Investigating the GPU Neural Accelerators on Apple A19/M5. tzakharko.github.io/apple-neural-accelerators-benchmark
- TechBoards Forum. Apple A19/M5 GPU Neural Accelerators. techboards.net/threads/apple-a19-m5-gpu-neural-accelerators
- arXiv. Apple vs. Oranges: Evaluating the Apple Silicon M-Series SoCs for HPC. arxiv.org/html/2502.05317v1
- Apple Developer (WWDC20). Bring your Metal app to Apple silicon Macs (TBDR). developer.apple.com/videos/play/wwdc2020/10631
- hyeondg. Mobile GPUs and Tile-Based Rendering. hyeondg.org/gpu/tbr
- Starmorph. Apple Silicon LLM Inference Optimization Guide. blog.starmorph.com/blog/apple-silicon-llm-inference-optimization-guide
- GitHub. ggml-org/llama.cpp Discussion #336: Neural Engine Support. github.com/ggml-org/llama.cpp/discussions/336
- Local AI Master. Best Mac for Local AI 2026. localaimaster.com/blog/apple-silicon-ai-buying-guide
- Codersera. Apple Silicon LLMs: Complete Guide 2026. codersera.com/blog/apple-silicon-llms-complete-guide-2026
- AI Productivity. Apple M5 Max Local LLM: 128GB Inference Guide 2026. aiproductivity.ai/blog/apple-m5-max-local-llm-guide
- LLMCheck. M5 Max for Local AI: Apple Silicon Benchmark Guide. llmcheck.net/blog/apple-silicon-m5-max-local-ai-guide
- yage.ai. MLX: The Next Inference Engine for Apple Silicon. yage.ai/share/mlx-apple-silicon-en-20260331
- Michael Hannecke (Medium). Choosing an On-Device LLM Runtime on Apple Silicon. medium.com/@michael.hannecke/on-device-llm-runtime-apple-silicon
- Contra Collective. MLX vs. llama.cpp: Running Local AI on Apple Silicon. contracollective.com/blog/mlx-vs-llama-cpp-apple-silicon-local-ai