花钱买了三颗AI芯片,结果只有CPU在动:SER10 vs SER9 vs M4 Pro实测 原创

花钱买了三颗AI芯片,结果只有CPU在动:SER10 vs SER9 vs M4 Pro实测
花钱买了三颗AI芯片,结果只有CPU在动:SER10 vs SER9 vs M4 Pro实测

作者 | Don

来源 | 至顶AI实验室

很多人觉得买本地AI硬件最怕选错机器。但这不是最常见的坑。最容易犯的错,是选对了机器,却用错了里面的芯片。

零刻(Beelink) 最新的 SER10,搭载 AMD Ryzen AI 9 HX470(代号 Gorgon Point),内置 CPU、iGPU、NPU 三颗加速芯片,AMD 宣称合计 86 TOPS AI 算力。但Youtube博主Alex Ziskind实测发现,装好系统、装好 Ollama、开跑,推理全压在 CPU 上,iGPU 和 NPU 都在睡觉。

这不是 SER10 独有的问题。它暴露的是整个 AMD Windows 本地 AI 生态的一个系统性坑,三芯片在机,默认只用一个,还是最慢的那个

下面拆解这次实测的关键发现:CPU 性能代差在哪、三芯片各自的推理定位、以及最重要的,SER9 用户到底有没有必要升级。

三台机器,一个选型问题

视频把三台机器放在同一个考场:Beelink SER10(Ryzen AI 9 HX470,64GB DDR5),去年的 SER9(Ryzen AI 9 HX370,Strix Point),以及 M4 Pro Mac Mini(48GB 统一内存)。

花钱买了三颗AI芯片,结果只有CPU在动:SER10 vs SER9 vs M4 Pro实测

选这三台不是随意凑的,背后是一个真实的购机决策困境:SER10 比 SER9 贵,SER9 比 M4 Pro 便宜,M4 Pro 有苹果的生态和推理优化。预算有限时选哪个?

价格梯度大致是:SER9 约 500-600 美元,SER10 按配置 700-900 美元,M4 Pro Mac Mini 要到 2,099 美元(48GB/1TB/10GbE 配置)。同样预算下,SER10 的 64GB DDR5 在内存总量上反超了 M4 Pro 的 48GB,而且 SER10 的内存是用户可自行升级的,这一点 SER9 做不到。

有一个细节在规格表上几乎不会被注意到:SER9 和 SER10 搭载的是同一颗 iGPU,Radeon 890M。两代机器的图形芯片没有任何区别。这个事实后面会直接影响对 AI 性能升级的判断。

另外值得一提的是机器本身的扩展性。SER10 带 USB4、HDMI 2.1、DisplayPort 1.4,支持三屏 4K@240Hz 输出;网口从 SER9 的 2.5GbE 升级到了 10GbE。如果你把这台机器当服务器用,挂 NAS、跑本地 API、同时支撑多个客户端,网口的升级是实实在在的。一台 SER9 配上高速交换机反而成了瓶颈,这个场景是 SER10 独有的优势,跑分测不出来。

CPU 性能代差:有惊喜,也有失望

CPU 性能是多数开发者关心的第一件事。实测结果是,代差极度不均匀,完全取决于你做什么工作。

花钱买了三颗AI芯片,结果只有CPU在动:SER10 vs SER9 vs M4 Pro实测

V8 工具链基准(Web Tooling Benchmark)是本次最亮眼的结果。 SER9 的 TypeScript 得分是 20,SER10 是 34.14,提升了 65%,几乎追平了两台 Mac Mini(M4 base 和 M4 Pro 均为 35.99)。去年 SER9 在这个测试上落后 Mac 75%,今年这个差距基本消失了。Geekbench 多核也印证了类似的趋势:SER10 跑出 15,216,M4 Pro 是 15,321,差距不到 1%。

但 Python 多核算法测试,SER9 跑出 28.64 秒,SER10 跑出 28.9 秒,差了不到 0.3 秒,代差为零。

.NET 编译更难看。视频作者设计了一个合成基准(10 万个命名空间和类,递归嵌套),SER9 91 秒,SER10 90.9 秒,差了 0.1 秒。然后跑真实项目 Umbraco(成熟的开源 .NET CMS),结果更意外:SER9 149 秒,SER10 161 秒,新机反而比旧机慢了 12 秒,和两年前的 SER8 持平。

这里有一个实操细节值得专门提出来:首次运行 Umbraco 编译时开着 Windows Defender,SER10 跑出了 217 秒。关掉实时保护之后才降到 161 秒。把代码目录排除在 Defender 扫描之外,是 Windows 开发机上必须做的配置,不是可选项。

我对这组数据的判断是:Gorgon Point 的 IPC 提升主要体现在单线程密集计算(V8 工具链)上,对多进程、重 I/O 的编译工作没有明显帮助。前端 TypeScript 工具链用户会感受到明显升级,后端编译用户几乎感受不到。

这里还有一条反面教材值得记住:如果你只看 Geekbench 的多核跑分,SER10 和 M4 Pro 基本持平,很容易得出"终于追上苹果"的结论。但真实编译任务里,M4 Pro 仍然领先 30% 以上。综合 benchmark 和单项专项测试的差距,正是跑分党最容易踩进去的坑。

本地 LLM 的第一个坑:Ollama 默认走错芯片

 
 
 

现在进入本文最有价值的部分。

SER10 有三颗可以做 AI 推理的芯片:12 核 CPU、Radeon 890M iGPU、55 TOPS 的 XDNA 2 NPU。AMD 把三者加在一起标注为 86 TOPS,当作核心卖点。

花钱买了三颗AI芯片,结果只有CPU在动:SER10 vs SER9 vs M4 Pro实测

视频作者装好 Ollama,跑 Qwen 2.5 7B,打开 Task Manager 一看:CPU 跑满,GPU 利用率为零,NPU 根本不显示。 三芯片在机,只有 CPU 在干活,推理速度 14.2 tokens/s。

不是 bug,这是 Ollama 在 Windows 上的默认行为。修复只需要一步:

在 Windows 环境变量里添加 OLLAMA_VULKAN=1,然后重启 Ollama。

设置之后,GPU 利用率立刻跳到 100%。同一批模型的速度对比:

  • Llama 3.2 3B:27 t/s → 37.5 t/s(+39%)
  • Qwen 2.5 1.5B:47.5 t/s → 68.3 t/s(+44%)

一个环境变量,推理速度提升将近一半。 这个设置在 Beelink 官方材料里几乎没有提,大多数买来直接用的人都在用慢速模式。

三芯片全上阵:GPU 和 NPU 各有其位

启用 GPU 只是第一步。视频里还测了第三颗芯片,NPU,用的是 Lemonade Server(一个支持 NPU 混合推理的本地服务端工具)。

NPU 的分工和 GPU 不同。LLM 推理分两个阶段:prefill(预填充,处理输入 prompt) 和 decode(逐 token 生成输出)。GPU 擅长 decode,NPU 擅长 prefill。

视频作者用一个 4400 token 的长 prompt 测了三种模式下的 prefill 速度(Qwen 7B):

  • CPU:255 t/s
  • Vulkan iGPU:240 t/s
  • NPU 混合模式(Lemonade Server):631 t/s

NPU 混合模式的 prefill 速度是 iGPU 的 2.5 倍

这条数据的实际含义是:跑流式聊天(短输入、长输出),用 GPU decode 就够了;跑 RAG、Agent、代码补全,这些场景有大量长上下文输入,NPU 混合模式能让等待时间压缩到三分之一不到。两种用法不是替代关系,是分工关系。

花钱买了三颗AI芯片,结果只有CPU在动:SER10 vs SER9 vs M4 Pro实测

Lemonade Server 目前支持的模型和格式有限,接入已有工作流需要额外配置。视频作者把它定性为"值得关注但还需要更多验证的路径",这个判断比较务实。它本身支持通过标准 API 接口连接编码助手,理论上可以接入 Continue、Aider 一类的工具,但具体稳定性视频里没有深入验证。

从工程角度看,NPU 混合推理的价值不在于让单次对话更流畅,而在于让大批量长上下文任务变得可行。RAG 管道每次检索都要 prefill 一大段背景文本,如果 prefill 是瓶颈,整个管道的吞吐量就会卡死。631 t/s 的 prefill 速度意味着一个 4000 token 的上下文可以在不到 7 秒内处理完,这已经接近实用门槛。

另外需要强调:NPU 混合推理只在 SER10 上才有意义。 SER9 虽然也有 iGPU,但 NPU 配置不同,无法复现 631 t/s 这个结果。这是两台机器在 AI 推理路径上真正产生分叉的地方。

吃大模型:统一内存让显存规格失去意义

这段适合有"这台机器能跑多大模型"疑问的人看。

视频里演示了一件看起来不可能的事:Radeon 890M 的显存规格是 4GB,但视频作者往上加载了 Qwen 2.5 14B Q4 量化版(磁盘占用 8.37GB),49 层全部在 GPU 上,没有层被卸回 CPU。

原理不复杂,AMD 和苹果 M 系芯片一样,采用统一内存架构(UMA)。iGPU 可以透明使用系统内存作为显存延伸。加载 14B 模型后,GPU 实际占用了 20.98GB 内存(3.62GB 专用显存 + 17.36GB 共享系统内存),Windows 在后台悄悄完成了这个分配。

推理速度:prompt processing 约 50 t/s,generation 约 8.8 t/s。decode 阶段 8.8 t/s 对于实时对话来说偏慢,但用于批处理摘要、文档分析、离线 RAG 索引这类任务是够用的。模型越大,decode 速度越受带宽限制,这是 UMA 架构在大模型上共同面临的天花板,苹果 M 系芯片同样如此。

视频作者估计,64GB 机器还有约 25GB 的统一内存余量,22B 甚至 30B 的 Q4 量化模型都有可能装进去。 这对用本地 LLM 做长上下文任务的用户来说是个重要参考。

规格表上写"4GB 显存",实际可用的是你机器总内存的一大半。 买 AMD mini PC 看本地 AI 能力时,该看的数字是系统内存,不是显存。

至顶AI实验室洞见

说完实测数据,那类似于SER10这样的搭载 AMD Ryzen AI 9 HX470的AMD机器值得买吗?

该买 SER10 的情况:

如果你的工作流重度依赖 RAG 或长上下文 Agent,NPU 的 prefill 加速是真实收益,不是纸面参数。

你需要大内存且预期将来还要扩,SER9 的内存焊死,SER10 可以自己换条。

你的开发机需要 10GbE 网口接高速 NAS 或内网服务,SER9 只有 2.5GbE。

已有 SER9、主力用途是 iGPU 跑 LLM 的用户,暂时不用动。 两台机器的 GPU 完全一样,把 OLLAMA_VULKAN=1 设好,推理性能没有差别。下一次值得认真考虑升级的节点是代号 Medusa 的下一代,预计 2027 年,已获 AMD 官方路线图确认。

所以遇到类似选机场景时,就可以注意一下这些点:

NPU 和 GPU 的分工不是"谁更强",而是"谁负责哪个阶段"prefill, 长上下文用 NPU,decode 流式输出用 GPU,两者不可互换。
统一内存架构让"显存只有 4GB"这个数字失去意义,真正的上限是系统总内存,不是规格表上的显存数字。
先锁定真实工作负载,再看跑分,SER10 的 CPU 升级在 V8 工具链上显著,在编译上几乎为零,同一台机器对不同用户给出完全不同的答案。
iGPU 同款意味着软件层优化可以横向迁移,SER9 和 SER10 的 Vulkan 推理路径完全相同,今天为 SER9 摸索出的配置,直接适用于 SER10,反之亦然。
END
本文来自至顶AI实验室,一个专注于对AI计算机、工作站及各类AI相关硬件设备,开展基于真实使用场景评测的研究机构。

来源:至顶AI实验室

0赞

好文章,需要你的鼓励

2026

07/02

15:46

分享

点赞

邮件订阅