阶跃星辰重磅开源了Step-Audio 2 Mini,这个消息一出就在开发者圈子里炸开了锅。作为一个技术测评博主,我当然要第一时间上手体验一番。经过几天的折腾,从下载、部署到压力测试,这个号称"最强开源语音模型"到底表现如何?能不能用愤怒、温柔、兴奋等不同语气说绕口令?本地部署的实时性又怎么样?今天就给大家带来这份详细的评测报告。
评测机构:至顶AI实验室
测评时间:2025年09月01日
评测产品:Step-Audio 2 mini
主要参数:Step-Audio 2 Mini是阶跃星辰推出的开源语音交互模型,支持中文、英文输出,甚至还能说一点日语。模型大小:10GB+、显存占用:约20GB、测试环境:NVIDIA RTX 5200显卡(32GB显存)
评测主题:部署评测
值得一提的是,除了本地部署,用户也可以直接在官方网页上体验该模型。我们本次测试选择通过GitLab项目进行本地部署,以便更深入地了解其性能表现。
为了全面评估Step-Audio 2 Mini的实际能力,我们设计了以下几个测试场景:
首先测试了模型的多语言能力。当我们用日语询问"今天的天气真不错"时,模型能够准确理解并用日语回应。不过,生成3秒的音频内容却用了6秒时间,这也暴露出本地部署很难做到真正实时对话的问题。
在日常对话场景中,我们提到了"哈瓦那"这个地点。模型不仅准确识别了地理位置,还能自然地延伸话题,提到古巴的风情和建筑,甚至还会主动询问"你是去旅游还是出差呀"。这种上下文理解和对话延续能力相当出色。
这是本次评测的核心环节。我们让模型用不同的语气说经典绕口令"吃葡萄不吐葡萄皮,不吃葡萄倒吐葡萄皮"。测试结果显示,Step-Audio 2 Mini能够识别并模拟多种语气,包括愤怒、温柔、兴奋等情感色彩,这在开源语音模型中算是相当难得的能力。
经过全方位测试,Step-Audio 2 Mini展现出了以下特点:
优势方面:
局限性方面:
综合来看,Step-Audio 2 Mini在语音交互的语义理解和情感表达上确实表现不俗,称得上是目前开源领域的顶尖水平。但它更像是一个"技术展示品"而非"生产力工具"。
我们的建议是:
如果你只是想体验AI语音对话的魅力,那么网页版或APP已经足够。但如果你是技术极客,想要深度定制和研究,那么本地部署这个模型还是很有价值的——毕竟,能让AI用三种语气说绕口令,这本身就很酷不是吗?
好文章,需要你的鼓励
斯坦福大学、苏黎世联邦理工学院和Idiap研究所的研究团队开发出LAMER框架,首次让AI智能体学会了在陌生环境中巧妙平衡探索与利用。该框架通过跨回合训练和自我反思机制,让智能体能从失败中学习并改进策略。在四个测试环境中,LAMER分别取得了11%、14%和19%的性能提升,并在面对更困难或全新任务时展现出卓越的适应能力,为开发能自主学习的通用AI智能体奠定了重要基础。
以色列理工学院联合MIT、英伟达等机构研究团队开发出RadarGen技术,能够仅通过摄像头画面生成逼真的汽车雷达数据。该技术采用扩散模型架构,将稀疏雷达点云转换为鸟瞰视图表示,结合深度估计、语义分割和光流信息指导生成过程,还支持场景编辑功能。实验表明生成数据可被现有检测器有效使用,为自动驾驶训练数据获取提供了新方案。