阶跃星辰重磅开源了Step-Audio 2 Mini,这个消息一出就在开发者圈子里炸开了锅。作为一个技术测评博主,我当然要第一时间上手体验一番。经过几天的折腾,从下载、部署到压力测试,这个号称"最强开源语音模型"到底表现如何?能不能用愤怒、温柔、兴奋等不同语气说绕口令?本地部署的实时性又怎么样?今天就给大家带来这份详细的评测报告。
评测机构:至顶AI实验室
测评时间:2025年09月01日
评测产品:Step-Audio 2 mini
主要参数:Step-Audio 2 Mini是阶跃星辰推出的开源语音交互模型,支持中文、英文输出,甚至还能说一点日语。模型大小:10GB+、显存占用:约20GB、测试环境:NVIDIA RTX 5200显卡(32GB显存)
评测主题:部署评测
值得一提的是,除了本地部署,用户也可以直接在官方网页上体验该模型。我们本次测试选择通过GitLab项目进行本地部署,以便更深入地了解其性能表现。
为了全面评估Step-Audio 2 Mini的实际能力,我们设计了以下几个测试场景:
首先测试了模型的多语言能力。当我们用日语询问"今天的天气真不错"时,模型能够准确理解并用日语回应。不过,生成3秒的音频内容却用了6秒时间,这也暴露出本地部署很难做到真正实时对话的问题。
在日常对话场景中,我们提到了"哈瓦那"这个地点。模型不仅准确识别了地理位置,还能自然地延伸话题,提到古巴的风情和建筑,甚至还会主动询问"你是去旅游还是出差呀"。这种上下文理解和对话延续能力相当出色。
这是本次评测的核心环节。我们让模型用不同的语气说经典绕口令"吃葡萄不吐葡萄皮,不吃葡萄倒吐葡萄皮"。测试结果显示,Step-Audio 2 Mini能够识别并模拟多种语气,包括愤怒、温柔、兴奋等情感色彩,这在开源语音模型中算是相当难得的能力。
经过全方位测试,Step-Audio 2 Mini展现出了以下特点:
优势方面:
局限性方面:
综合来看,Step-Audio 2 Mini在语音交互的语义理解和情感表达上确实表现不俗,称得上是目前开源领域的顶尖水平。但它更像是一个"技术展示品"而非"生产力工具"。
我们的建议是:
如果你只是想体验AI语音对话的魅力,那么网页版或APP已经足够。但如果你是技术极客,想要深度定制和研究,那么本地部署这个模型还是很有价值的——毕竟,能让AI用三种语气说绕口令,这本身就很酷不是吗?
好文章,需要你的鼓励
SecurityScorecard威胁情报团队发现超过135,000个OpenClaw AI助手平台实例暴露在互联网上,存在严重安全风险。这个开源AI代理平台此前已被发现存在多个高危漏洞,技能商店充斥恶意软件,容易泄露API密钥、信用卡号等敏感数据。平台默认绑定所有网络接口而非本地主机,加剧了安全问题。专家警告,妥协一个OpenClaw实例意味着攻击者可访问该代理能够接触的所有资源,建议用户谨慎部署并限制访问权限。
这项研究提出了LIFT框架,通过大规模SAC预训练、物理信息世界模型和安全微调策略,让人形机器人在半小时内学会稳定行走,并能快速适应新环境。在真实环境中只需几分钟数据就能显著改善性能,为实用化人形机器人开辟了新路径。
一则声称OpenAI超级碗广告"泄露"的消息在网络传播,视频中显示演员亚历山大·斯卡斯加德使用疑似OpenAI首款硬件设备。该设备被描绘为配有环绕式耳机的闪亮球体。OpenAI总裁格雷格·布罗克曼在X平台澄清这是"假新闻",发言人也证实完全虚假。调查显示,发布者账户为新建账户,且有人提前策划通过多渠道传播此虚假信息。
三星研究院开发的NANOQUANT技术实现了AI模型压缩的重大突破,首次让700亿参数的大型语言模型能在8GB显卡上流畅运行。该技术通过创新的二进制分解方法,将模型压缩25.8倍至5.35GB,同时保持良好性能表现。压缩过程仅需13小时和少量校准数据,大幅降低了大型AI模型的使用门槛,为AI技术普及化开辟了新路径。