花钱买了三颗AI芯片，结果只有CPU在动：SER10 vs SER9 vs M4 Pro实测原创

花钱买了三颗AI芯片，结果只有CPU在动：SER10 vs SER9 vs M4 Pro实测

作者 | Don

来源 | 至顶AI实验室

很多人觉得买本地AI硬件最怕选错机器。但这不是最常见的坑。最容易犯的错，是选对了机器，却用错了里面的芯片。

零刻（Beelink）最新的 SER10，搭载 AMD Ryzen AI 9 HX470（代号 Gorgon Point），内置 CPU、iGPU、NPU 三颗加速芯片，AMD 宣称合计 86 TOPS AI 算力。但Youtube博主Alex Ziskind实测发现，装好系统、装好 Ollama、开跑，推理全压在 CPU 上，iGPU 和 NPU 都在睡觉。

这不是 SER10 独有的问题。它暴露的是整个 AMD Windows 本地 AI 生态的一个系统性坑，三芯片在机，默认只用一个，还是最慢的那个。

下面拆解这次实测的关键发现：CPU 性能代差在哪、三芯片各自的推理定位、以及最重要的，SER9 用户到底有没有必要升级。

三台机器，一个选型问题

视频把三台机器放在同一个考场：Beelink SER10（Ryzen AI 9 HX470，64GB DDR5），去年的 SER9（Ryzen AI 9 HX370，Strix Point），以及 M4 Pro Mac Mini（48GB 统一内存）。

选这三台不是随意凑的，背后是一个真实的购机决策困境：SER10 比 SER9 贵，SER9 比 M4 Pro 便宜，M4 Pro 有苹果的生态和推理优化。预算有限时选哪个？

价格梯度大致是：SER9 约 500-600 美元，SER10 按配置 700-900 美元，M4 Pro Mac Mini 要到 2,099 美元（48GB/1TB/10GbE 配置）。同样预算下，SER10 的 64GB DDR5 在内存总量上反超了 M4 Pro 的 48GB，而且 SER10 的内存是用户可自行升级的，这一点 SER9 做不到。

有一个细节在规格表上几乎不会被注意到：SER9 和 SER10 搭载的是同一颗 iGPU，Radeon 890M。两代机器的图形芯片没有任何区别。这个事实后面会直接影响对 AI 性能升级的判断。

另外值得一提的是机器本身的扩展性。SER10 带 USB4、HDMI 2.1、DisplayPort 1.4，支持三屏 4K@240Hz 输出；网口从 SER9 的 2.5GbE 升级到了 10GbE。如果你把这台机器当服务器用，挂 NAS、跑本地 API、同时支撑多个客户端，网口的升级是实实在在的。一台 SER9 配上高速交换机反而成了瓶颈，这个场景是 SER10 独有的优势，跑分测不出来。

CPU 性能代差：有惊喜，也有失望

CPU 性能是多数开发者关心的第一件事。实测结果是，代差极度不均匀，完全取决于你做什么工作。

花钱买了三颗AI芯片，结果只有CPU在动：SER10 vs SER9 vs M4 Pro实测

V8 工具链基准（Web Tooling Benchmark）是本次最亮眼的结果。 SER9 的 TypeScript 得分是 20，SER10 是 34.14，提升了 65%，几乎追平了两台 Mac Mini（M4 base 和 M4 Pro 均为 35.99）。去年 SER9 在这个测试上落后 Mac 75%，今年这个差距基本消失了。Geekbench 多核也印证了类似的趋势：SER10 跑出 15,216，M4 Pro 是 15,321，差距不到 1%。

但 Python 多核算法测试，SER9 跑出 28.64 秒，SER10 跑出 28.9 秒，差了不到 0.3 秒，代差为零。

.NET 编译更难看。视频作者设计了一个合成基准（10 万个命名空间和类，递归嵌套），SER9 91 秒，SER10 90.9 秒，差了 0.1 秒。然后跑真实项目 Umbraco（成熟的开源 .NET CMS），结果更意外：SER9 149 秒，SER10 161 秒，新机反而比旧机慢了 12 秒，和两年前的 SER8 持平。

这里有一个实操细节值得专门提出来：首次运行 Umbraco 编译时开着 Windows Defender，SER10 跑出了 217 秒。关掉实时保护之后才降到 161 秒。把代码目录排除在 Defender 扫描之外，是 Windows 开发机上必须做的配置，不是可选项。

我对这组数据的判断是：Gorgon Point 的 IPC 提升主要体现在单线程密集计算（V8 工具链）上，对多进程、重 I/O 的编译工作没有明显帮助。前端 TypeScript 工具链用户会感受到明显升级，后端编译用户几乎感受不到。

这里还有一条反面教材值得记住：如果你只看 Geekbench 的多核跑分，SER10 和 M4 Pro 基本持平，很容易得出"终于追上苹果"的结论。但真实编译任务里，M4 Pro 仍然领先 30% 以上。综合 benchmark 和单项专项测试的差距，正是跑分党最容易踩进去的坑。

本地 LLM 的第一个坑：Ollama 默认走错芯片

现在进入本文最有价值的部分。

SER10 有三颗可以做 AI 推理的芯片：12 核 CPU、Radeon 890M iGPU、55 TOPS 的 XDNA 2 NPU。AMD 把三者加在一起标注为 86 TOPS，当作核心卖点。

花钱买了三颗AI芯片，结果只有CPU在动：SER10 vs SER9 vs M4 Pro实测

视频作者装好 Ollama，跑 Qwen 2.5 7B，打开 Task Manager 一看：CPU 跑满，GPU 利用率为零，NPU 根本不显示。 三芯片在机，只有 CPU 在干活，推理速度 14.2 tokens/s。

不是 bug，这是 Ollama 在 Windows 上的默认行为。修复只需要一步：

在 Windows 环境变量里添加 OLLAMA_VULKAN=1，然后重启 Ollama。

设置之后，GPU 利用率立刻跳到 100%。同一批模型的速度对比：

Llama 3.2 3B：27 t/s → 37.5 t/s（+39%）
Qwen 2.5 1.5B：47.5 t/s → 68.3 t/s（+44%）

一个环境变量，推理速度提升将近一半。 这个设置在 Beelink 官方材料里几乎没有提，大多数买来直接用的人都在用慢速模式。

三芯片全上阵：GPU 和 NPU 各有其位

启用 GPU 只是第一步。视频里还测了第三颗芯片，NPU，用的是 Lemonade Server（一个支持 NPU 混合推理的本地服务端工具）。

NPU 的分工和 GPU 不同。LLM 推理分两个阶段：prefill（预填充，处理输入 prompt） 和 decode（逐 token 生成输出）。GPU 擅长 decode，NPU 擅长 prefill。

视频作者用一个 4400 token 的长 prompt 测了三种模式下的 prefill 速度（Qwen 7B）：

CPU：255 t/s
Vulkan iGPU：240 t/s
NPU 混合模式（Lemonade Server）：631 t/s

NPU 混合模式的 prefill 速度是 iGPU 的 2.5 倍。

这条数据的实际含义是：跑流式聊天（短输入、长输出），用 GPU decode 就够了；跑 RAG、Agent、代码补全，这些场景有大量长上下文输入，NPU 混合模式能让等待时间压缩到三分之一不到。两种用法不是替代关系，是分工关系。

Lemonade Server 目前支持的模型和格式有限，接入已有工作流需要额外配置。视频作者把它定性为"值得关注但还需要更多验证的路径"，这个判断比较务实。它本身支持通过标准 API 接口连接编码助手，理论上可以接入 Continue、Aider 一类的工具，但具体稳定性视频里没有深入验证。

从工程角度看，NPU 混合推理的价值不在于让单次对话更流畅，而在于让大批量长上下文任务变得可行。RAG 管道每次检索都要 prefill 一大段背景文本，如果 prefill 是瓶颈，整个管道的吞吐量就会卡死。631 t/s 的 prefill 速度意味着一个 4000 token 的上下文可以在不到 7 秒内处理完，这已经接近实用门槛。

另外需要强调：NPU 混合推理只在 SER10 上才有意义。 SER9 虽然也有 iGPU，但 NPU 配置不同，无法复现 631 t/s 这个结果。这是两台机器在 AI 推理路径上真正产生分叉的地方。

吃大模型：统一内存让显存规格失去意义

这段适合有"这台机器能跑多大模型"疑问的人看。

视频里演示了一件看起来不可能的事：Radeon 890M 的显存规格是 4GB，但视频作者往上加载了 Qwen 2.5 14B Q4 量化版（磁盘占用 8.37GB），49 层全部在 GPU 上，没有层被卸回 CPU。

原理不复杂，AMD 和苹果 M 系芯片一样，采用统一内存架构（UMA）。iGPU 可以透明使用系统内存作为显存延伸。加载 14B 模型后，GPU 实际占用了 20.98GB 内存（3.62GB 专用显存 + 17.36GB 共享系统内存），Windows 在后台悄悄完成了这个分配。

推理速度：prompt processing 约 50 t/s，generation 约 8.8 t/s。decode 阶段 8.8 t/s 对于实时对话来说偏慢，但用于批处理摘要、文档分析、离线 RAG 索引这类任务是够用的。模型越大，decode 速度越受带宽限制，这是 UMA 架构在大模型上共同面临的天花板，苹果 M 系芯片同样如此。

视频作者估计，64GB 机器还有约 25GB 的统一内存余量，22B 甚至 30B 的 Q4 量化模型都有可能装进去。 这对用本地 LLM 做长上下文任务的用户来说是个重要参考。

规格表上写"4GB 显存"，实际可用的是你机器总内存的一大半。 买 AMD mini PC 看本地 AI 能力时，该看的数字是系统内存，不是显存。

至顶AI实验室洞见

说完了实测数据，那类似于SER10这样的搭载 AMD Ryzen AI 9 HX470的AMD机器值得买吗？

该买 SER10 的情况：

如果你的工作流重度依赖 RAG 或长上下文 Agent，NPU 的 prefill 加速是真实收益，不是纸面参数。

你需要大内存且预期将来还要扩，SER9 的内存焊死，SER10 可以自己换条。

你的开发机需要 10GbE 网口接高速 NAS 或内网服务，SER9 只有 2.5GbE。

已有 SER9、主力用途是 iGPU 跑 LLM 的用户，暂时不用动。 两台机器的 GPU 完全一样，把 OLLAMA_VULKAN=1 设好，推理性能没有差别。下一次值得认真考虑升级的节点是代号 Medusa 的下一代，预计 2027 年，已获 AMD 官方路线图确认。

所以遇到类似选机场景时，就可以注意一下这些点：

NPU 和 GPU 的分工不是"谁更强"，而是"谁负责哪个阶段"prefill，长上下文用 NPU，decode 流式输出用 GPU，两者不可互换。

统一内存架构让"显存只有 4GB"这个数字失去意义，真正的上限是系统总内存，不是规格表上的显存数字。

先锁定真实工作负载，再看跑分，SER10 的 CPU 升级在 V8 工具链上显著，在编译上几乎为零，同一台机器对不同用户给出完全不同的答案。

iGPU 同款意味着软件层优化可以横向迁移，SER9 和 SER10 的 Vulkan 推理路径完全相同，今天为 SER9 摸索出的配置，直接适用于 SER10，反之亦然。

END

本文来自至顶AI实验室，一个专注于对AI计算机、工作站及各类AI相关硬件设备，开展基于真实使用场景评测的研究机构。

来源：至顶AI实验室

0赞

好文章，需要你的鼓励

花钱买了三颗AI芯片，结果只有CPU在动：SER10 vs SER9 vs M4 Pro实测 原创

来源：至顶AI实验室

2026

07/02

15:46

分享

点赞

仿人机器人视觉与运动技术的精细调校

抵御AI驱动的数据融合攻击：芯片安全防护的关键挑战

GLM-5.2海外爆火，我们翻了1500条评论，看看用户在讨论什么

电动自行车的功过之辩：被忽视的那一面

Neo：印度科技大亨自掏3000万美元，打造微软Office的AI替代品

AI数据中心如何获得电网接入资格？公用事业公司的规划逻辑解析

Brookfield与Bloom能源将融资规模扩至250亿美元，押注AI数据中心独立供电

当CIO的技术提案遭到否决，该如何应对？

这款谷歌实验室 AI 应用如何成为我每日必用的工具

起亚EV5推出Storm特别版并新增全轮驱动选项

Meta效仿SpaceX，将过剩AI算力变现

Gemini Spark智能体登陆Mac，新增多项功能升级

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

花钱买了三颗AI芯片，结果只有CPU在动：SER10 vs SER9 vs M4 Pro实测原创