4月7日,一个没有公司署名、没有官方声明、连GitHub仓库都指向"即将上线"的视频生成模型,悄悄出现在了全球最权威的AI视频竞技场Artificial Analysis的排行榜上。
七天之后,它登上了榜首。
它的名字叫HappyHorse-1.0。在Artificial Analysis的盲测体系中,文生视频方向Elo分1333、图生视频方向Elo分1392,两个榜单双料第一,将字节跳动的Seedance 2.0、快手的Kling 3.0、谷歌的Veo 3.1远远甩在身后。这是迄今为止图生视频方向的历史最高分。
让这件事更耐人寻味的是:在夺得榜首之前,没有人知道它是谁做的。
这个排行榜,为什么骗不了人
大多数AI基准测试都有同一个漏洞:发布数字的,正是做出模型的人。
Artificial Analysis不一样。它的Video Arena采用的是盲测加Elo积分制——用户提交一个提示词,系统同时用两个匿名模型生成视频,用户在不知道来源的情况下选出更好的那个,票数按Elo算法(与国际象棋等级分相同的数学逻辑)累计成最终排名。60分的Elo差距,意味着一个模型在两两对决中大约有58%到59%的胜率。而HappyHorse-1.0在文生视频方向领先第二名整整60分。
这个分数是数万个人类真实偏好投票的结果,没有实验室的自我汇报,没有精心挑选的演示样本。Artificial Analysis在宣布这个模型进入竞技场时,用了一个词:"pseudonymous"(匿名投稿)。换句话说,连平台自己都不知道背后是谁。
那段时间,榜单上的排名每天都在变。HappyHorse-1.0短暂从榜单消失了一次,然后又回来了。事后复盘,那很可能不是技术故障,而是一次刻意的停顿——在确认公开声明之前,先暂时撤下。
在最好的时机,踢开了最脆弱的门
4月10日,阿里巴巴旗下淘天集团的Future Life Lab正式承认:HappyHorse-1.0是他们做的,隶属ATH AI创新部门,技术负责人张迪,此前是快手副总裁、Kling AI的技术主导者。
这个时机,几乎算是精准踩点。
就在HappyHorse出现前后,AI视频生成赛道两个最强的西方选手接连出了问题。OpenAI在2026年初关闭了Sora的独立应用和平台,给出的理由是算力成本过高、战略重心转向AGI和企业工具;而字节跳动的Seedance 2.0虽然凭借自带剪辑分镜的视频效果引爆了AI漫剧行业(甚至有制作公司把上班时间改到凌晨三点,只为抢占低峰期的算力),却在全球推广中撞上了好莱坞主要制片厂和流媒体平台的版权投诉,被迫暂停国际扩张。
两强同时空出位置,留下了一个等待被填补的真空。用一位观察者的话说:"HappyHorse不是打赢了对手,是对手在同一时间倒下了,而它刚好站在那里。"
当然,"刚好站在那里"本身就需要过硬的东西。Elo分不会说谎。
一个架构决定,让音频不再是"后期"
视频生成领域长期存在一个隐性的分裂:生成视频是一件事,配上声音是另一件事,二者由不同的模型或工具完成,然后拼接在一起。这套流程的代价是明显的——嘴型对不上,环境音突兀,配乐像是粘贴进去的。
HappyHorse-1.0的架构选择打破了这个分裂。
它采用的是单流统一Transformer结构,40层自注意力网络,文字、图像、视频帧、音频四种模态的token从始至终在同一个序列里处理,没有专门的跨模态注意力模块。官方的说法是"三明治架构":首尾各4层模态专属层,中间32层全模态共享层。音频和视频在生成过程中始终是同一次前向传播(forward pass)的产物,不是事后合成的。
结果是什么?口型精确对上了语音,脚步声踩在地面接触的那一帧,背景噪音随着场景切换自然过渡。它目前支持7种语言的音视频同步生成,包括英语、普通话、粤语、日语、韩语、德语和法语。在"有音频"类别的排行上,HappyHorse-1.0位列第二,仅次于谷歌Veo 3.1。
这个排名有意思的地方在于:在传统上最难做好的维度,一个"神秘新来者"的表现接近了调动了谷歌全部多模态研究积累的Veo系列。
开源的承诺,和一个"即将上线"的空链接
故事到这里有一个裂缝,值得直接说清楚。
HappyHorse-1.0官网上写着:基础模型、蒸馏模型、超分辨率模块、推理代码,全部开源,Apache 2.0授权,允许商用。这在技术圈引发了大量转发和期待。
截至4月14日,HuggingFace的模型页已经存在,README文档在当天仍在持续更新——但文件列表里只有两个文件:.gitattributes 和 README.md。没有模型权重,没有推理代码,没有任何可以实际运行的东西。比起此前各家官网指向的"coming soon"空链接,这是一个进步,但距离"真正可用的开源"还差最关键的一步。
"名义上开源"和"真正可用的开源"之间,有一道需要被跨过的门。
对开发者来说,开源意味着能下载权重、运行推理代码、基于它做微调。目前这些都还不存在。阿里巴巴承诺了API接入的计划,但时间表不明确。
这不是要否定这个模型的技术成就。Elo排名是真实的人类偏好数据,跑不掉。但如果把HappyHorse-1.0纳入实际产品决策,现在需要的不是Elo分,而是一个可以调用的接口或可以运行的权重文件。两者都还不在。
快手出走的人,在阿里做出了什么
前快手副总裁、Kling AI技术主导者张迪,是这个项目公开身份中可见度最高的名字。
Kling系列是快手在视频生成赛道的代表作,2024年以流畅的人物动作生成在业内建立了口碑。张迪之后加入阿里巴巴淘天集团,主导了Future Life Lab。HappyHorse-1.0的推理速度优化思路——用DMD-2蒸馏将去噪步骤压缩到8步,配合自研的MagiCompiler推理编译器——在Kling系列的工程迭代中能看到类似的脉络。
这条人员流动线索,某种程度上解释了为什么一个"神秘模型"能在上线一周内就达到历史最高Elo分:做模型的人,不是第一次做模型了。
不过阿里的"认领"声明里有一句话耐人寻味:项目"仍在开发中"。这通常意味着眼前的版本不是终态——它更像是一次技术摸底,用真实榜单验证架构方向是否正确,然后决定下一步怎么走。
当Sora退出,战场变成了中国公司的主场
更大的背景是:AI视频生成这条赛道,正在快速变成一场中国公司之间的竞争。
OpenAI关闭Sora之后,其他主要选手还剩Runway Gen-4和Luma Dream Machine。但这两家的Elo分与头部中国模型的差距在过去三个月内持续扩大。字节的Seedance 2.0虽然遭遇版权风波,但技术底子依然扎实。阿里的HappyHorse横空出世,把Wan 2.7系列的既有积累与新架构整合,直接冲到榜首。还有快手Kling 3.0、PixVerse V6持续迭代。
这不是一两个爆款模型的偶然,而是整个中国视频生成研究群体在过去两年密集积累之后的集中浮现。
一个值得关注的价格信号:中国AI视频工具目前的商用定价,普遍在每秒生成内容约4美分左右,而西方同类服务的价格高出数倍。如果HappyHorse-1.0的API如期开放,开发者将面临一个真实的选择:在画质和速度接近甚至超越的前提下,是否愿意把视频生成底层依托在一个中国公司提供的接口上?
这个问题,答案不会只有一种。
Q&A
Q1:HappyHorse-1.0的Elo排名是否可信,会不会是刷榜?
Artificial Analysis Video Arena的机制本身针对刷榜做了设计——用户看不到是哪个模型生成的,投票基于真实偏好,Elo算法会根据对手强度加权。另一个佐证是,HappyHorse在"有音频"类别中排名第二,如果是刷榜优化,通常会针对全部类别同时拉高,而非在某些维度有明显落差。短期内凭借某类生成风格的优化偶尔占优是可能的,但持续领先60+ Elo分需要大量比赛场次的稳定胜出,这不是短期操纵能做到的。
Q2:HappyHorse-1.0最核心的技术突破是什么?
最值得关注的是单流统一Transformer对音视频的联合建模。传统模型把视频和音频分开生成再合并,导致同步误差。HappyHorse把所有模态放进同一个token序列,在一次推理过程中同时输出视频帧和同步音频,这从根本上消除了"拼接"带来的对不上问题。配合DMD-2蒸馏(8步去噪)和MagiCompiler加速,在H100上生成1080p视频约38秒,比同级别模型快30%。
Q3:现在能用HappyHorse-1.0做项目吗?
目前只能通过官方在线平台试用,没有公开的API接口,也没有可下载的模型权重。HuggingFace页面已上线,文档持续在更新,但模型权重和推理代码尚未发布。对需要接入实际产品或工作流的开发者和制作团队来说,HappyHorse-1.0现在的价值更多在于"了解技术方向",而非立刻可以落地部署的工具。
好文章,需要你的鼓励
穆拉蒂时隔18个月首次接受重大媒体采访,介绍其创立的Thinking Machines Lab正在开发的"交互模型"。该模型能以200毫秒间隔处理音频、文本和视频流,捕捉人类交流中的中断、修正和停顿。她还谈及OpenAI"政变周"经历,强调行业决策权过于集中的担忧,并回应了公司近期研究人员离职问题,表示这是初创实验室的正常波动。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
本期《Quick Charge》播客涵盖多个热点话题:特斯拉疑似试图删除FSD欺诈相关证据以规避巨额赔付;卡特彼勒持续推进建筑领域电气化布局;住宅太阳能30%税收抵免即将到期。此外,嘉宾Tom Pacheco就高压系统与电池技术培训展开探讨,强调电动车技术人才培养的紧迫性。节目同时提醒有意安装太阳能的用户尽快行动,可通过EnergySage平台比较多家安装商报价。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。