【AI 硬件】苹果 AI 推理技术架构调研

2026 年 WWDC 在即,本文梳理苹果在 AI 推理方面的技术架构与关键数据,并与英伟达对比。数据截至 2026 年 6 月初;标注「约 / 待确认」者为厂商未公开、经第三方测算或外推的近似值,引用时请以量级参考为准。

概述

苹果本地 AI 推理走两条路径:NPU 路径(Neural Engine,经 Core ML 框架,服务人脸识别、语音识别等常驻轻量任务)与 GPU 路径(GPU 及每个核心内置的 Neural Accelerator,经 MLX / Metal,承担大语言模型、扩散模型等重型推理)。二者共享同一套统一内存。当前大语言模型推理的主力是 GPU 路径,而非 NPU。[32][34]

搭载 M5 的 14 英寸 MacBook Pro——从 M5 / A19 这一代起,每个 GPU 核心都内置了 Neural Accelerator,本地大模型推理的主力也随之从 Neural Engine 转到了 GPU 路径。图源 Wikimedia Commons(CC0)。

两条推理路线

NPU(Neural Engine)路径

Neural Engine 是集成在 SoC 上、与 CPU/GPU 平级的独立协处理器,为低功耗、固定形状的常驻任务设计。软件上只能经 Core ML 触达:开发者用 coremltools 把模型转为 Core ML 格式,通过 MLComputeUnits 圈定候选硬件范围(CPU / GPU / ANE),但具体每层落点由系统调度器按算子兼容性决定——这是「请求」而非「强制」,不被支持的算子会静默回落到 CPU。[32][33] 苹果不提供可直接编程 ANE 的公开 API。

大语言模型不走这条路:Core ML 难以高效表达 LLM,且对 ANE 上的模型大小有限制;主流框架(MLX、llama.cpp、Ollama)实测都绕开 ANE,改用 GPU。[32][34] 一个有力旁证是,苹果自家的 MLX 框架明确不支持 ANE。[33]

GPU 路径(当前 LLM 推理主力)

链路为 模型 → MLX → Metal → GPU。MLX 是苹果 2023 年底推出、为统一内存从零设计的框架(地位类似 PyTorch),Metal 是底层 GPU 编程框架(地位类似英伟达的 CUDA)。[35][40]

从 M5 / A19 这一代起,每个 GPU 核心内置一个 Neural Accelerator(概念上对应英伟达的 Tensor Core),提供专用矩阵乘加运算;它经 Metal 4 的 Tensor API 可被开发者直接编程——与封闭、只能经 Core ML 触达的 ANE 形成鲜明对比。[5][6]

LLM 推理分两个阶段,瓶颈不同:首字延迟(prefill / TTFT)是算力受限,靠 Neural Accelerator(M5 相比 M4 提速最高约 4 倍);后续吐字(decode)是内存带宽受限,靠统一内存带宽。[6] 其中 decode 速度的经验公式为:tokens/s ≈ 内存带宽 ÷ 单 token 需读取的模型大小。[37]

近几代硬件的 AI 算力演化

NPU(Neural Engine)的停滞

从 iPhone 到 M5 Max,Neural Engine 全线为 16 核(仅 Ultra 因拼合两颗 Max die 而翻倍至 32 核)。TOPS 从 M1 的约 11 涨到 M4 的约 38;M5 起苹果不再单独公布该数字,因为 AI 算力已分散到 GPU 的 Neural Accelerator。[9][26] 结论:NPU 不是苹果做产品分级的地方,真正的算力梯度在 GPU。

GPU 核数(AI 算力的真实梯度)

每个 GPU 核心均内置 Neural Accelerator;A19 的 Neural Accelerator 峰值算力是 A18 Pro 的约 4 倍。[1][2][3]

设备 / 芯片	GPU 核数	内存上限	备注
iPhone 17(A19)	5	8GB	[2]
iPhone 17 Pro(A19 Pro)	6	12GB	[1]
M5	10	32GB	[7]
M5 Pro	最高约 20(待确认)	约 64GB
M5 Max	40	128GB	当前笔记本天花板 [8]
M3 Ultra	80	512GB(现限约 96GB)	当前 GPU 核数与内存最大 [15][16]

内存带宽演化

各代带宽(单位 GB/s)[9][10][11][12][13]:

代际	基础版	Pro	Max	Ultra
M1	68	200	400	800
M2	100	200	400	800
M3	100	150 ↓	300 / 400	819
M4	120	273	546	(无)
M5	153	待确认	614	待发布

要点:带宽长期温和爬升(基础版五代约 2.25 倍),Max 档三代停在 400 后才于 M4 Max 跃升至 546、M5 Max 614;M3 Pro 曾出现 25% 的倒退。[9] iPhone(A19 Pro)的 LPDDR5X 带宽约 75.8 GB/s。[4]

台式 Mac 现状(重要): 截至 2026 年 6 月,台式机尚未升级到 M5——Mac mini 为 M4 / M4 Pro,Mac Studio 为 M4 Max / M3 Ultra,Mac Pro 仍为 M2 Ultra(约 800 GB/s)。满血 M5 桌面(Mac Studio / mini)预计 2026 下半年发布,受 DRAM 短缺影响时间不确定。[16]

Mac Studio 桌面工作站 — Mac Studio——配 M4 Max / M3 Ultra,凭借最高 512GB 统一内存,成为社区跑本地大模型(尤其 70B+ 稠密模型与 MoE)的高性价比选择。满血 M5 桌面预计 2026 下半年才发布。图源 Wikimedia Commons(CC BY-SA 4.0)。

推理性能增长

M5 整体 AI 性能约为 M4 的 3.5–4 倍、M1 的约 9.5 倍。[13][36] 但增长来自两块速率不同的部分:prefill 靠 Neural Accelerator 实现断点式飞跃(约 4 倍)[6];decode 仅约 28% 优于 M4 Max,随带宽缓慢提升。[37] 换言之,M5 真正补上的是「算力(prefill)」那条腿,「带宽(decode)」那条腿仍增长有限。

苹果 GPU 与英伟达 GPU 对比

架构哲学相反:苹果 GPU 采用 TBDR(基于图块的延迟渲染)——先把屏幕分块、做隐藏面消除,只着色可见像素,极致省带宽省电,源自移动端、无独立显存;英伟达采用 IMR(立即模式渲染)——靠专属高速显存暴力喂,追求绝对吞吐。[30][31]

算力

英伟达 GPU 由 SM(流式多处理器) 堆成,每个 SM 含 128 个 CUDA 核 + 4 个第五代 Tensor 核 + 1 个第四代 RT 核。[17][18] 一颗 Blackwell GPU 约 148–160 个 SM,最新的 Rubin 达 224 个 SM。[18][19][21] Tensor Core 自 2017 年 Volta 起已迭代到第五代;苹果的 Neural Accelerator 到 M5(2025)才出现,社区评估其成熟度大致相当于英伟达 2018 年的 Turing。[28]

英伟达 CES 2025 展示的 RTX Blackwell GPU 规格图 — 英伟达在 CES 2025 展示的 RTX Blackwell GPU——920 亿晶体管、GDDR7 显存、1.8 TB/s 显存带宽。对应的消费旗舰 RTX 5090(1.79 TB/s),约是苹果带宽最高的 M3 Ultra(约 819 GB/s)的两倍多。图源 Wikimedia Commons(CC0)。

存储结构

苹果:统一内存,CPU / GPU / NPU 共享,无 PCIe 拷贝开销,容量大(M3 Ultra 可达 512GB)。[14]
英伟达:独立显存,容量较小(RTX 5090 为 32GB,数据中心 B200 约 180GB)但带宽高。[23][25]
一个直观对照:Llama 3.3 70B 在 FP16 下约需 140GB 显存,单张 RTX 5090 装不下,但一台大内存 Mac 可整体载入。[24]

英伟达 A100 数据中心 GPU(PCIe 形态)——独立显存(HBM)走「容量小但带宽高」路线,与苹果「容量大但带宽省电」的统一内存形成鲜明对照:同样跑 70B 大模型,英伟达靠多卡拼显存,苹果靠一台机器的大内存整体载入。图源 Wikimedia Commons(CC BY-SA 4.0)。

带宽

芯片	阵营	内存类型	带宽
iPhone(A19 Pro)	苹果	LPDDR5X	约 76 GB/s
M5	苹果	LPDDR5X	153 GB/s
M5 Max	苹果	LPDDR5X	614 GB/s
M3 Ultra	苹果	LPDDR5X	约 819 GB/s
RTX 4090	英伟达	GDDR6X	约 1.0 TB/s
RTX 5090	英伟达	GDDR7	1.79 TB/s
A100	英伟达	HBM2e	约 2 TB/s
H100	英伟达	HBM3	3.35 TB/s
H200	英伟达	HBM3e	4.8 TB/s
B200	英伟达	HBM3e	约 8 TB/s

来源:[11][15][23][25]。苹果带宽最高的 M3 Ultra(约 819 GB/s)仅约一张 RTX 5090(1.79 TB/s)的一半、数据中心 B200(8 TB/s)的约 1/9。差距源于内存类型:苹果用省电型的 LPDDR5X,英伟达用带宽型的 GDDR7 / HBM。但苹果以远低的功耗换取(整机一两百瓦,对比 B200 单卡 1000W),「每瓦带宽」并不落下风。[25]

精度支持

苹果 GPU 的 Neural Accelerator 原生支持 FP16、INT8(FP16 可双发射、算力翻倍);Neural Engine 同为 INT8 / FP16。[27][29]
缺原生 FP8 / FP4:跑 4-bit 量化模型时,省的是内存与带宽,不是算力(权重需上转回 FP16/INT8 再计算)。[28]
英伟达 Tensor Core 支持从 FP32 一直到 FP4 / FP6 / INT4 的宽精度光谱(Blackwell/Rubin 原生 NVFP4)。[19][22][26]

社区用苹果硬件跑 AI 的讨论

总体共识:用 Mac Studio / Mac mini(及 M5 Max MacBook Pro)做本地大模型推理,性价比高、体验出色。[36][37] 以下为几个具体讨论案例。

案例:MLX 显著快于 llama.cpp

在 M5 上,MLX 比 llama.cpp 快约 30–60%、prefill(首字)快 3–4 倍,关键在于 MLX 用上了 llama.cpp 不用的 Neural Accelerator。[35] 一个典型实测:M4 Pro(64GB)跑 Qwen3-Coder-30B-A3B,MLX 约 130 tok/s,而 Ollama(llama.cpp 后端)仅 43 tok/s,相差约 3 倍。[38] Ollama 已于 2026 年 3 月把苹果后端切换到 MLX。[35]

案例:实测吐字速度

M5 Max 经 MLX:8B 模型约 230 tok/s,70B(Q4)约 28 tok/s,122B 约 15 tok/s。[36] M5 Max 整体比 M4 Max 约快 28%,主要随带宽提升。[37]

案例:MoE 模型是苹果的「天选场景」

MoE(混合专家)模型每个 token 只激活少量参数(如 Qwen 35B-A3B 总参 35B、激活仅 3B,推理时表现如 3B 模型),对带宽需求低,正好抵消苹果的带宽短板,同时发挥其大容量优势。[39] 2026 年 MoE 开源模型大量涌现,直接带动了苹果本地推理的口碑。[35]

案例:大内存装得下大模型

192GB 统一内存的 Mac Studio 能把 70B 参数模型整体载入内存运行而不抖动。[40] 这是苹果相对消费级独显(显存有限)的独特优势——「跑得下」本身就是价值。

边界:跑得下 ≠ 跑得快

对每个 token 都要动用全部权重的稠密大模型,带宽差距(数倍至近十倍)会实打实压低苹果的 decode 速度,英伟达吐字快得多;严肃训练与高吞吐推理仍在英伟达。[24][34] 因此苹果的优势集中在「本地、省电、跑得下大模型(尤其 MoE)」这一赛道,而非密集大模型的极致吞吐。

英伟达 DGX GB200 机柜——HBM3e 显存带宽约 8 TB/s,是 M3 Ultra(约 819 GB/s)的近 10 倍。严肃训练与高吞吐推理仍牢牢在英伟达这一侧;苹果的主场是另一条赛道——「本地、省电、跑得下」。图源 Wikimedia Commons(CC BY-SA 4.0)。

参考资料

Apple. iPhone 17 Pro 技术规格. apple.com/iphone-17-pro/specs
Apple. iPhone 17 技术规格. apple.com/iphone-17/specs
MacRumors. A19 vs. A19 Pro: iPhone 17 Chip Differences. macrumors.com/2025/09/09/iphone-17-a19-chip
Notebookcheck. Apple A19 Pro Processor Benchmarks and Specs. notebookcheck.net/Apple-A19-Pro-Processor-Benchmarks
Apple. Apple unleashes M5, the next big leap in AI performance for Apple silicon. businesswire.com/…/Apple-unleashes-M5
Apple Machine Learning Research. Exploring LLMs with MLX and the Neural Accelerators in the M5 GPU. machinelearning.apple.com/research/exploring-llms-mlx-m5
Eric Kim. Apple’s M5 Chip and the Future of Apple Silicon. erickimphotography.com/apples-m5-chip-future-of-apple-silicon
Notebookcheck. Apple M5 Max Processor Benchmarks and Specs. notebookcheck.net/Apple-M5-Max-Processor-Benchmarks
J.D. Hodges. Apple CPU Comparison Chart: M1, M2, M3, M4, M5 Max. jdhodges.com/blog/apple-cpu-compared-m1-m3-m3-m4-m5-max
Of Zen and Computing. Apple Chip Comparison (M1 vs M2 vs M3 vs M4). ofzenandcomputing.com/apple-chip-comparison
LaptopMedia. Apple M5 vs M4, M3, M2, M1 (+Pro/Max/Ultra). laptopmedia.com/comparisons/apple-m5-vs-m4-m3-m2-m1
Low End Mac. M5 vs Every other Pro-Max-Ultra Apple Silicon Chip. lowendmac.com/2025/m5-vs-every-other-apple-silicon-chip
Webwallah. MacBook Air M5 vs M4, M3, M2, M1. webwallah.in/macbook-air-m5-vs-m4-m3-m2-m1
Apple. Apple reveals M3 Ultra, taking Apple silicon to a new extreme. apple.com/newsroom/2025/03/apple-reveals-m3-ultra
Notebookcheck. Mac Studio with Apple M4 Max and M3 Ultra. notebookcheck.net/Mac-Studio-M4-Max-and-M3-Ultra
Macworld. 2026 Mac Studio: M5 Ultra rumors, specs, RAM delay. macworld.com/article/2973459/2026-mac-studio-m5-rumors
Tom’s Hardware. Desktop GPU roadmap: Nvidia Rubin, AMD UDNA & Intel Xe3. tomshardware.com/…/desktop-gpu-roadmap-nvidia-rubin
Nagesh Vishnumurthy (Medium). NVIDIA Blackwell Architecture: A Deep Dive. medium.com/@kvnagesh/nvidia-blackwell-architecture-deep-dive
NVIDIA Technical Blog. Inside NVIDIA Blackwell Ultra. developer.nvidia.com/blog/inside-nvidia-blackwell-ultra
NADDOD (Medium). Three Key Processing Cores Inside NVIDIA GPUs. naddod.medium.com/three-key-processing-cores-inside-nvidia-gpus
NVIDIA Technical Blog. Inside the NVIDIA Vera Rubin Platform. developer.nvidia.com/blog/inside-the-nvidia-rubin-platform
NVIDIA. Tensor Cores: Versatility for HPC & AI. nvidia.com/en-us/data-center/tensor-cores
Runpod. RTX 5090: Specs, AI Inference Benchmarks & LLM Guide. runpod.io/articles/guides/nvidia-rtx-5090
Spheron. RTX 5090 vs H100 vs B200. spheron.network/blog/rtx-5090-vs-h100-vs-b200
Runpod. Nvidia B200 GPU: Specs, VRAM, Price, and AI Performance. runpod.io/articles/guides/nvidia-b200
DataDrivenInvestor (Medium). Apple’s Neural Engine vs. Traditional GPUs. medium.datadriveninvestor.com/apples-neural-engine-vs-traditional-gpus
Tomas Zakharko. Investigating the GPU Neural Accelerators on Apple A19/M5. tzakharko.github.io/apple-neural-accelerators-benchmark
TechBoards Forum. Apple A19/M5 GPU Neural Accelerators. techboards.net/threads/apple-a19-m5-gpu-neural-accelerators
arXiv. Apple vs. Oranges: Evaluating the Apple Silicon M-Series SoCs for HPC. arxiv.org/html/2502.05317v1
Apple Developer (WWDC20). Bring your Metal app to Apple silicon Macs (TBDR). developer.apple.com/videos/play/wwdc2020/10631
hyeondg. Mobile GPUs and Tile-Based Rendering. hyeondg.org/gpu/tbr
Starmorph. Apple Silicon LLM Inference Optimization Guide. blog.starmorph.com/blog/apple-silicon-llm-inference-optimization-guide
GitHub. ggml-org/llama.cpp Discussion #336: Neural Engine Support. github.com/ggml-org/llama.cpp/discussions/336
Local AI Master. Best Mac for Local AI 2026. localaimaster.com/blog/apple-silicon-ai-buying-guide
Codersera. Apple Silicon LLMs: Complete Guide 2026. codersera.com/blog/apple-silicon-llms-complete-guide-2026
AI Productivity. Apple M5 Max Local LLM: 128GB Inference Guide 2026. aiproductivity.ai/blog/apple-m5-max-local-llm-guide
LLMCheck. M5 Max for Local AI: Apple Silicon Benchmark Guide. llmcheck.net/blog/apple-silicon-m5-max-local-ai-guide
yage.ai. MLX: The Next Inference Engine for Apple Silicon. yage.ai/share/mlx-apple-silicon-en-20260331
Michael Hannecke (Medium). Choosing an On-Device LLM Runtime on Apple Silicon. medium.com/@michael.hannecke/on-device-llm-runtime-apple-silicon
Contra Collective. MLX vs. llama.cpp: Running Local AI on Apple Silicon. contracollective.com/blog/mlx-vs-llama-cpp-apple-silicon-local-ai

技术

2026 · 06 · 03