
作者 | Don
来源 | 至顶AI实验室
零刻(Beelink) 最新的 SER10,搭载 AMD Ryzen AI 9 HX470(代号 Gorgon Point),内置 CPU、iGPU、NPU 三颗加速芯片,AMD 宣称合计 86 TOPS AI 算力。但Youtube博主Alex Ziskind实测发现,装好系统、装好 Ollama、开跑,推理全压在 CPU 上,iGPU 和 NPU 都在睡觉。
这不是 SER10 独有的问题。它暴露的是整个 AMD Windows 本地 AI 生态的一个系统性坑,三芯片在机,默认只用一个,还是最慢的那个。
下面拆解这次实测的关键发现:CPU 性能代差在哪、三芯片各自的推理定位、以及最重要的,SER9 用户到底有没有必要升级。
视频把三台机器放在同一个考场:Beelink SER10(Ryzen AI 9 HX470,64GB DDR5),去年的 SER9(Ryzen AI 9 HX370,Strix Point),以及 M4 Pro Mac Mini(48GB 统一内存)。

选这三台不是随意凑的,背后是一个真实的购机决策困境:SER10 比 SER9 贵,SER9 比 M4 Pro 便宜,M4 Pro 有苹果的生态和推理优化。预算有限时选哪个?
价格梯度大致是:SER9 约 500-600 美元,SER10 按配置 700-900 美元,M4 Pro Mac Mini 要到 2,099 美元(48GB/1TB/10GbE 配置)。同样预算下,SER10 的 64GB DDR5 在内存总量上反超了 M4 Pro 的 48GB,而且 SER10 的内存是用户可自行升级的,这一点 SER9 做不到。
有一个细节在规格表上几乎不会被注意到:SER9 和 SER10 搭载的是同一颗 iGPU,Radeon 890M。两代机器的图形芯片没有任何区别。这个事实后面会直接影响对 AI 性能升级的判断。
另外值得一提的是机器本身的扩展性。SER10 带 USB4、HDMI 2.1、DisplayPort 1.4,支持三屏 4K@240Hz 输出;网口从 SER9 的 2.5GbE 升级到了 10GbE。如果你把这台机器当服务器用,挂 NAS、跑本地 API、同时支撑多个客户端,网口的升级是实实在在的。一台 SER9 配上高速交换机反而成了瓶颈,这个场景是 SER10 独有的优势,跑分测不出来。
CPU 性能是多数开发者关心的第一件事。实测结果是,代差极度不均匀,完全取决于你做什么工作。

V8 工具链基准(Web Tooling Benchmark)是本次最亮眼的结果。 SER9 的 TypeScript 得分是 20,SER10 是 34.14,提升了 65%,几乎追平了两台 Mac Mini(M4 base 和 M4 Pro 均为 35.99)。去年 SER9 在这个测试上落后 Mac 75%,今年这个差距基本消失了。Geekbench 多核也印证了类似的趋势:SER10 跑出 15,216,M4 Pro 是 15,321,差距不到 1%。
但 Python 多核算法测试,SER9 跑出 28.64 秒,SER10 跑出 28.9 秒,差了不到 0.3 秒,代差为零。
.NET 编译更难看。视频作者设计了一个合成基准(10 万个命名空间和类,递归嵌套),SER9 91 秒,SER10 90.9 秒,差了 0.1 秒。然后跑真实项目 Umbraco(成熟的开源 .NET CMS),结果更意外:SER9 149 秒,SER10 161 秒,新机反而比旧机慢了 12 秒,和两年前的 SER8 持平。
这里有一个实操细节值得专门提出来:首次运行 Umbraco 编译时开着 Windows Defender,SER10 跑出了 217 秒。关掉实时保护之后才降到 161 秒。把代码目录排除在 Defender 扫描之外,是 Windows 开发机上必须做的配置,不是可选项。
我对这组数据的判断是:Gorgon Point 的 IPC 提升主要体现在单线程密集计算(V8 工具链)上,对多进程、重 I/O 的编译工作没有明显帮助。前端 TypeScript 工具链用户会感受到明显升级,后端编译用户几乎感受不到。
这里还有一条反面教材值得记住:如果你只看 Geekbench 的多核跑分,SER10 和 M4 Pro 基本持平,很容易得出"终于追上苹果"的结论。但真实编译任务里,M4 Pro 仍然领先 30% 以上。综合 benchmark 和单项专项测试的差距,正是跑分党最容易踩进去的坑。
本地 LLM 的第一个坑:Ollama 默认走错芯片
现在进入本文最有价值的部分。
SER10 有三颗可以做 AI 推理的芯片:12 核 CPU、Radeon 890M iGPU、55 TOPS 的 XDNA 2 NPU。AMD 把三者加在一起标注为 86 TOPS,当作核心卖点。

视频作者装好 Ollama,跑 Qwen 2.5 7B,打开 Task Manager 一看:CPU 跑满,GPU 利用率为零,NPU 根本不显示。 三芯片在机,只有 CPU 在干活,推理速度 14.2 tokens/s。
不是 bug,这是 Ollama 在 Windows 上的默认行为。修复只需要一步:
在 Windows 环境变量里添加 OLLAMA_VULKAN=1,然后重启 Ollama。
设置之后,GPU 利用率立刻跳到 100%。同一批模型的速度对比:
一个环境变量,推理速度提升将近一半。 这个设置在 Beelink 官方材料里几乎没有提,大多数买来直接用的人都在用慢速模式。
启用 GPU 只是第一步。视频里还测了第三颗芯片,NPU,用的是 Lemonade Server(一个支持 NPU 混合推理的本地服务端工具)。
NPU 的分工和 GPU 不同。LLM 推理分两个阶段:prefill(预填充,处理输入 prompt) 和 decode(逐 token 生成输出)。GPU 擅长 decode,NPU 擅长 prefill。
视频作者用一个 4400 token 的长 prompt 测了三种模式下的 prefill 速度(Qwen 7B):
NPU 混合模式的 prefill 速度是 iGPU 的 2.5 倍。
这条数据的实际含义是:跑流式聊天(短输入、长输出),用 GPU decode 就够了;跑 RAG、Agent、代码补全,这些场景有大量长上下文输入,NPU 混合模式能让等待时间压缩到三分之一不到。两种用法不是替代关系,是分工关系。

Lemonade Server 目前支持的模型和格式有限,接入已有工作流需要额外配置。视频作者把它定性为"值得关注但还需要更多验证的路径",这个判断比较务实。它本身支持通过标准 API 接口连接编码助手,理论上可以接入 Continue、Aider 一类的工具,但具体稳定性视频里没有深入验证。
从工程角度看,NPU 混合推理的价值不在于让单次对话更流畅,而在于让大批量长上下文任务变得可行。RAG 管道每次检索都要 prefill 一大段背景文本,如果 prefill 是瓶颈,整个管道的吞吐量就会卡死。631 t/s 的 prefill 速度意味着一个 4000 token 的上下文可以在不到 7 秒内处理完,这已经接近实用门槛。
另外需要强调:NPU 混合推理只在 SER10 上才有意义。 SER9 虽然也有 iGPU,但 NPU 配置不同,无法复现 631 t/s 这个结果。这是两台机器在 AI 推理路径上真正产生分叉的地方。
这段适合有"这台机器能跑多大模型"疑问的人看。
视频里演示了一件看起来不可能的事:Radeon 890M 的显存规格是 4GB,但视频作者往上加载了 Qwen 2.5 14B Q4 量化版(磁盘占用 8.37GB),49 层全部在 GPU 上,没有层被卸回 CPU。
原理不复杂,AMD 和苹果 M 系芯片一样,采用统一内存架构(UMA)。iGPU 可以透明使用系统内存作为显存延伸。加载 14B 模型后,GPU 实际占用了 20.98GB 内存(3.62GB 专用显存 + 17.36GB 共享系统内存),Windows 在后台悄悄完成了这个分配。
推理速度:prompt processing 约 50 t/s,generation 约 8.8 t/s。decode 阶段 8.8 t/s 对于实时对话来说偏慢,但用于批处理摘要、文档分析、离线 RAG 索引这类任务是够用的。模型越大,decode 速度越受带宽限制,这是 UMA 架构在大模型上共同面临的天花板,苹果 M 系芯片同样如此。
视频作者估计,64GB 机器还有约 25GB 的统一内存余量,22B 甚至 30B 的 Q4 量化模型都有可能装进去。 这对用本地 LLM 做长上下文任务的用户来说是个重要参考。
规格表上写"4GB 显存",实际可用的是你机器总内存的一大半。 买 AMD mini PC 看本地 AI 能力时,该看的数字是系统内存,不是显存。
至顶AI实验室洞见
说完了实测数据,那类似于SER10这样的搭载 AMD Ryzen AI 9 HX470的AMD机器值得买吗?
该买 SER10 的情况:
如果你的工作流重度依赖 RAG 或长上下文 Agent,NPU 的 prefill 加速是真实收益,不是纸面参数。
你需要大内存且预期将来还要扩,SER9 的内存焊死,SER10 可以自己换条。
你的开发机需要 10GbE 网口接高速 NAS 或内网服务,SER9 只有 2.5GbE。
已有 SER9、主力用途是 iGPU 跑 LLM 的用户,暂时不用动。 两台机器的 GPU 完全一样,把 OLLAMA_VULKAN=1 设好,推理性能没有差别。下一次值得认真考虑升级的节点是代号 Medusa 的下一代,预计 2027 年,已获 AMD 官方路线图确认。
所以遇到类似选机场景时,就可以注意一下这些点:
好文章,需要你的鼓励
跑分只是基准,情绪才是真相。我们整理了 1500 条海外开发者对 GLM-5.2 的评价,发现这个号称能“平替顶级闭源模型”的开源巨兽,最大的争议点竟然是“硬件成本”。当部署一个模型需要“一套房”时,你还愿意本地化吗?
南京大学与阿里巴巴提出MIMFlow,将掩码图像建模与标准化流端到端融合,让生成模型专注语义建模,以更少参数和更少令牌在ImageNet上取得FID 2.50的优异表现。
电动自行车频繁出现在负面新闻中——危险骑行、电池火灾、立法管制。这些问题确实存在,需要通过教育、执法和安全标准加以解决。但更大的图景常被忽视:数百万人因此骑车通勤、重拾运动、减少开车,带来健康、减排和出行独立性等多重效益。研究也表明,电动自行车骑行具有显著心肺锻炼价值。正如汽车不能只以醉驾定义,电动自行车也不应仅凭最坏案例被评判。
清华大学提出VG-GUI-Bench评测视频引导操作能力,并设计TASKER关键帧搜索算法,在视频问答和GUI智能体任务上均实现性能与效率的双重提升。