据说算力高达1000 TOPS,华硕Ascent GX10深度评测——模型推理 原创

AI硬件的竞争才刚刚开始,华硕Ascent GX10这样将专业级算力带入桌面级设备的尝试,或许正在改写个人AI开发的游戏规则。

 

在AI大模型遍地开花的2025年,算力焦虑已经成为开发者的共同话题。动辄十几万的专业工作站让个人开发者望而却步,而云端GPU又面临着成本高昂、数据隐私等问题。


就在这个节点上,华硕推出了一款颇具野心的产品——Ascent GX10,官方宣称它支持200B模型推理和70B模型训练。一台桌面级设备真的能扛起这样的重任吗?带着这个疑问,我们决定来一场硬核评测。

 

评测机构:至顶AI实验室

测评时间:2025年11月12日

评测产品:华硕Ascent GX10

主要参数:基于NVIDIA Blackwell GB10、统一内显存:128G、操作系统:DGX OS

评测主题:模型推理

值得一提的是,华硕Ascent GX10的桌面环境相当友好。系统预装了一份详尽的AI开发软件清单,从VS Code到Ollama,从Comfy UI到LLaMA Factory,常用的AI开发工具一应俱全。更贴心的是,每个软件都附带了详细的部署流程和预估部署时间,无论是语言模型推理、多模态模型处理,还是模型训练、数据科学任务,都有对应的软件适配方案。

评测方法:不服就比

为了真实验证GX10的推理能力,我们从AI实验室搬来了一台专业工作站作为对照组。这台工作站搭载Nvidia RTX 5000 Ada显卡(32GB显存)、128GB内存,市场售价约10万元。无论从价格还是体型来看,GX10似乎都处于劣势,但实战表现又会如何呢?

我们设计了两轮测试,选择了不同规模的模型来考验两台机器的推理性能。

Round 1:Qwen 3 32B模型测试

第一回合选用千问三的32B模型。在单并发场景下,GX10的输出速度约为9 tokens/秒,基本接近人类的正常阅读速度;而RTX 5000 Ada达到了22 tokens/秒,速度是GX10的两倍多。

接着我们用自研工具模拟了多人同时使用的并发场景。在4并发压力下,GX10的平均输出速度为7.5 tokens/秒,RTX 5000 Ada为9.9 tokens/秒。第一轮测试,GX10惜败。

Round 2:GPT-o-s 120B模型测试

第二回合我们加大难度,测试GPT-o-s 120B模型。这个模型需要约65GB显存,正好可以检验两台机器在大模型场景下的表现。

结果相当戏剧化。在GX10上,模型加载仅耗时8秒;而在RTX 5000 Ada上,由于显存只有32GB,模型不得不一半加载到GPU、另一半加载到内存,加载时间长达9分钟——相当于你看完这整个视频,模型还没启动起来。

更令人惊讶的是推理速度。GX10的输出速度达到了惊人的35 tokens/秒,而RTX 5000 Ada仅有13 tokens/秒。第二轮,GX10完胜——模型加载速度快了30倍以上,推理速度快了近3倍。

意外发现:反常识的性能表现

测试过程中我们发现了一个有趣的现象:通常情况下,同一台机器上模型越大输出越慢,但在GX10上,120B的GPT-oss竟然比32B的Qwen 3快了4倍。

我们推测这可能与GPT-oss的训练方式有关。该模型采用了将MoE权重量化为FP4格式后进行后训练的技术路线,而GB10显卡基于的Blackwell架构对FP4格式具有原生硬件加速能力。这种架构级的优化,让特定模型在GX10上获得了超预期的性能表现。

评测结论:小钢炮的逆袭

从这次对比评测可以看出,华硕Ascent GX10不仅能够流畅运行100B以上的大模型,在特定场景下的性能甚至可以媲美、甚至超越搭载高端专业显卡的大型工作站。对于需要在本地部署大模型的个人开发者和小团队来说,GX10提供了一个性价比颇高的选择。

AI硬件的竞争才刚刚开始,华硕Ascent GX10这样将专业级算力带入桌面级设备的尝试,或许正在改写个人AI开发的游戏规则。

来源:至顶AI实验室

0赞

好文章,需要你的鼓励

2025

12/15

15:45

分享

点赞