动态场景重建一直是计算机视觉和图形学中的一个重要研究方向,它让我们能够从多视角视频中重建真实世界的动态3D场景。
一个人在跳舞,一辆车在飞驰,甚至是一片树叶在风中摇曳,都能被精准地捕捉下来,并且能在任何时间点,从任何角度去观看。
这就是“动态场景重建”的终极目标。
很久以来,传统的动态场景重建方式就像是在拼图,先把整个场景拆解成无数个静态的"标准件",然后通过算法把这些标准件扭曲、拉伸到不同的视觉角度。
静态场景下,这种方法无可厚非,但当场景中存在快速复杂的动作时,比如短跑等体育运动,这种"拼图式"的重建要么画面模糊,要么会出现变形,这表明,现有的重建技术难以准确捕捉和重现这些复杂动态。
为了解决这一难题,浙江大学与吉利汽车研究院提出了一个叫做FreeTimeGS的新方法,通过一种全新的思路给予高斯基元"自由",让它们能够在任意时间和位置出现,从而更好地重建具有复杂动作的动态场景。
知名KOL,Midjourney布道者Nick St. Pierre在看到FreeTimeGS展现的作品后,直接惊呼:这就是Midjourney在不远的未来应该实现的效果!
研究背景:产学结合的前沿探索
FreeTimeGS由浙江大学国家重点实验室—3DV实验室,联合吉利汽车研究院推出,论文于2025年6月发表在预印本平台arXiv上。
浙江大学的3DV实验室在三维视觉和场景重建领域有着深厚的研究积累,而吉利汽车研究院作为产业界的合作伙伴,为研究提供了实际应用场景的支持,这种学术界与产业界的合作使得研究既有理论创新,又具备实际应用价值。
研究得到了国家自然科学基金、浙江省自然科学基金以及浙江大学信息技术中心和CAD&CG国家重点实验室的支持。
从时间线来看,这项工作正好处在一个关键节点上,近两年,基于高斯基元的场景表示方法开始兴起,特别是3D Gaussian Splatting技术的出现,为实时渲染带来了革命性的变化。但现有的动态场景重建方法大多还是沿用传统的"标准空间+变形场"的思路,在处理复杂运动时力不从心,FreeTimeGS可以说是在恰当的时机提出了一个新的解决思路。
核心成果:从"木偶剧"到"群演表演"的质的飞跃
FreeTimeGS的核心创新在于它彻底改变了表示动态场景的方式。
要理解FreeTimeGS的创新之处,我们需要先了解传统方法是怎么工作的,假设我们要重建一个人挥手的动作,传统方法会先建立一个"标准的手"的模型,然后用复杂的数学函数来描述这只手在不同时刻应该如何变形。这就像是给一个橡皮泥人偶写剧本,告诉它每一秒钟应该扭曲成什么样子,这种方法的问题在于,当动作幅度很大或者速度很快时,这种"扭曲变形"就很难描述准确。
FreeTimeGS采用了完全不同的思路,它让构成场景的每个高斯基元都有自己的"身份证"——不仅记录着它在空间中的位置、大小、颜色等信息,还记录着它的"出生时间"、"活跃期"和"运动轨迹"。
当一个人挥手时,手部区域的高斯基元就可以按照自己的时间表出现,跟随手的运动轨迹移动,完成任务后自然消失。这就像是从"木偶剧"变成了"群演表演",每个演员都有自己的角色和动作,整体效果自然就更加逼真。
每个高斯基元都有八个关键参数:位置、时间、持续时间、速度、尺度、方向、透明度和颜色信息,其中最关键的创新是"时间"和"速度"这两个参数。时间参数决定了这个基元什么时候开始发挥作用,而速度参数则决定了它如何在空间中移动。研究团队用一个简单而巧妙的线性函数来描述基元的运动:新位置等于初始位置加上速度乘以时间差。这个公式看起来简单,但却能有效描述大多数现实世界中的运动模式。
为了控制基元的"生命周期",研究团队还设计了一个"时间透明度函数",这个函数就像是基元的"生命曲线",描述了基元在不同时刻的活跃程度。在基元的"黄金时期",它会发挥最大作用;而在"年幼"和"年老"时期,作用就会逐渐减弱。这种设计让整个重建过程更加自然,避免了突兀的出现和消失。
实验结果非常理想,在Neural3DV数据集上,FreeTimeGS的PSNR指标达到了33.19dB,比之前最好的方法提高了1.4dB。在他们自己收集的SelfCap数据集上,这个提升更加明显——PSNR达到了27.41dB,比第二名高出了1.43dB。这个数据集包含了舞蹈、宠物玩耍、修自行车等各种复杂运动场景,更能体现方法在实际应用中的价值。
速度方面的表现同样出色,在RTX 4090显卡上,FreeTimeGS可以达到467帧每秒的渲染速度,远超传统方法。这意味着它不仅质量更好,而且可以实现真正的实时应用。想象一下,在虚拟现实游戏中,你可以实时观看一个复杂的动作场景,而且从任何角度看都毫无瑕疵,这就是这项技术的实际价值。
特别值得一提的是,在动态区域的重建质量上,FreeTimeGS的优势更加明显,在SelfCap数据集的动态区域评估中,它的PSNR达到了29.38dB,比第二名高出了2.6dB。这说明这个方法确实更擅长处理复杂的运动场景,而这正是动态场景重建最核心的挑战。
方法评析:从"全球导航"到"局部导航"的技术突破
从技术角度来看,FreeTimeGS的核心优势在于它改变了问题的表述方式,传统方法试图通过复杂的变形场来"强迫"静态模型适应动态场景,而FreeTimeGS则让模型本身就具备了动态特性。
传统的变形场方法需要建立从标准空间到观察空间的长距离映射关系,这在数学上是一个高度非线性的优化问题,容易陷入局部最优解,而FreeTimeGS只需要处理短距离的运动,每个基元的运动轨迹相对简单,用线性函数就能很好地描述,这就像是从"全球导航"简化为"局部导航",难度大大降低。
同时研究团队发现,在优化过程中,某些高斯基元的透明度会趋近于1,这会阻碍梯度的反向传播,导致其他基元无法得到有效训练,为了解决这个问题,他们设计了一个"4D正则化损失",在训练初期对高透明度的基元进行惩罚,这个策略很聪明,就像是在团队合作中防止某个人"独断专行",确保所有成员都能发挥作用。
FreeTimeGS的另一个创新是"周期性重定位"策略,在训练过程中,系统会定期将那些透明度较低的基元重新分配到需要更多基元的区域。这种动态调整机制确保了计算资源的有效利用,就像是一个智能的"人力资源管理系统",让每个基元都能在最需要的地方发挥作用。
在初始化方面,研究团队也下了不少功夫,他们使用ROMA算法在多视图图像中寻找2D匹配点,然后通过三角测量得到3D点,用这些点来初始化基元的位置和时间。通过分析相邻帧之间的点对应关系,他们还能估算出基元的初始速度。这种基于真实数据的初始化方法比随机初始化要稳定得多。
不过,这个方法也有一些局限性,首先是参数数量的增加,每个基元现在需要存储更多的信息,包括时间、速度等新参数,这会增加存储开销。虽然研究团队通过各种优化策略将存储成本控制在合理范围内,但相比传统方法存储成本仍会有一定增长。
其次是对运动复杂度的假设,虽然线性运动函数能处理大多数情况,但对于某些高度非线性的运动模式,可能仍然存在局限。比如物体的旋转运动,用线性函数描述就不够准确了。
还有就是训练时间的问题,虽然最终的渲染速度很快,但训练过程仍然需要大约1小时(在RTX 4090上),这比一些传统方法要长一些。不过考虑到最终获得的质量提升,这个代价是可以接受的。
结论:开启自由建模的新时代
FreeTimeGS不是简单的技术改进,而是从根本上重新思考了动态场景重建这个问题应该如何解决,通过赋予高斯基元时间和运动的自由度,FreeTimeGS展现出了处理复杂动态场景的强大能力。
从应用前景来看,这项技术的潜力是巨大的。
在影视制作领域,它可以大大降低复杂动作场景的制作成本,让小制作团队也能制作出好莱坞级别的特效;在VR与AR应用中,它能提供更加逼真的沉浸式体验;在自动驾驶领域,它可以帮助生成更真实的训练数据,提高系统的安全性;在体育项目分析中,它可以从多个角度重现比赛中的关键时刻,为教练和运动员提供宝贵的分析数据。
更重要的是,这个工作开启了一个新的研究方向,当高斯基元获得了时间维度的自由度后,我们可以想象更多的可能性。
比如,是否可以让基元具备更复杂的运动模式?是否可以引入基元之间的相互作用?是否可以让基元自适应地调整自己的生命周期?这些问题都值得进一步探索。
从技术发展的角度来看,FreeTimeGS体现了一个重要趋势:从"约束建模"向"自由建模"的转变,传统方法总是试图通过各种约束来简化问题,而新方法则更愿意给模型更多的自由度,通过更好的优化策略来处理增加的复杂性,这种思路转变不仅在动态场景重建中有价值,在整个计算机视觉和图形学领域都可能产生深远影响。
当然,这项技术还有一些需要完善的地方,研究团队在论文中也坦诚地指出了两个主要局限:一是仍需要针对每个场景进行训练,无法做到"一次训练,处处使用";二是目前只支持新视角合成,不支持光照变化。这些问题的解决可能需要引入更多的先验知识和通用性设计。
至顶AI实验室洞见
我们认为FreeTimeGS代表了动态场景重建领域的一次重要范式转变,之前,我们总是试图建立场景的规范,然后通过模拟变形或其他手段来适应不同时刻的观察结果, FreeTimeGS则告诉我们,有时候,放弃这种规范表示,允许更自由的表达方式,反而能取得更好的效果。
FreeTimeGS最吸引我们的地方在于其“去中心化”的运动建模思想,在很多复杂系统中,将全局的复杂性分解到局部单元的自主行为中,往往能带来意想不到的简洁和高效,正是抓住了这一点,FreeTimeGS不再强求一个统一的、复杂的变形场去驾驭所有高斯基元,而是让每个基元都成为一个独立的、能够响应局部变化的智能体。这种设计哲学,不仅简化了模型的优化难度,也使其在面对高度非刚性、大范围运动时展现出强大的鲁棒性。
FreeTimeGS在带来巨大灵活性的同时,也可能在某些极端情况下对数据质量和初始化策略提出更高的要求,例如,在处理那些运动轨迹高度不确定、或者场景中存在大量遮挡和解遮挡的复杂交互时,如何确保高斯基元的稳定性和一致性,仍然是一个值得深入探讨的问题。
此外,虽然论文展示了出色的实时渲染性能,但其训练效率和模型规模的控制,在面向更大规模、更长时间跨度的动态场景时,或许还需要进一步的优化和探索。
总的来说,FreeTimeGS是一项兼具理论深度和实际应用价值的优秀研究,尤其是其放弃原有“规范”,另辟蹊径的思维方式,对整个3D建模领域都具有启发意义。
其实很多科学突破都来自于对传统思维的挑战,就像爱因斯坦放弃了绝对时间,才有了相对论。
论文地址:
https://arxiv.org/pdf/2506.05348
END
本文来自至顶AI实验室,一个专注于探索生成式AI前沿技术及其应用的实验室。致力于推动生成式AI在各个领域的创新与突破,挖掘其潜在的应用场景,为企业和个人提供切实可行的解决方案。
好文章,需要你的鼓励
思科发布全新硬件、网络及安全方案,包括 AI Canvas 和统一 Nexus Dashboard,通过整合计算、网络与安全能力,全面提升 AI 基础设施效能。
这项由复旦、港科大等多校联合完成的研究首次系统性地解决了大型AI模型在识别场景文字时产生"语义幻觉"的问题。研究团队发现AI模型常将视觉上模糊的文字"脑补"成有意义但错误的词汇,并开发了包含ZoomText定位策略和接地层修正机制的训练无关解决方案,在多个基准测试中实现显著性能提升,为提高AI视觉系统可靠性提供了重要突破。
OpenAI 推出 o3-pro,它采用分步推理技术提升在物理、数学和编程等领域的表现,支持网页搜索、文件分析、视觉推理及 Python 应用。该模型相比旧版本响应稍慢,但在多项评测中全面超越竞争对手。
IBM研究院发布AssetOpsBench,全球首个工业资产AI代理评估平台。该研究建立了多代理协作框架,涵盖IoT数据采集、时序分析、故障诊断等专业模块,通过141个真实场景和六维评估标准测试AI在复杂工业运维中的表现。测试显示当前AI技术仍有改进空间,为工业4.0时代的智能运维发展提供重要基准。