新芒xAI 10月17日消息 当地时间2025年10月16日,斯坦福大学计算机科学教授李飞飞宣布,其联合创办的World Labs公司推出全新生成式世界模型RTFM(Real-Time Frame Model)。
这一模型标志着AI在空间智能领域的重大突破,能够在用户互动时实时生成视频帧,支持持久性和3D一致性渲染,且仅需单张NVIDIA H100 GPU即可实现互动帧率运行。李飞飞在X平台上兴奋地分享了这一成果,并提供博客和限时在线演示,用户可通过输入图像探索真实或想象中的3D世界。
RTFM的核心创新在于其高效架构:它采用自回归扩散transformer模型,在大规模视频数据集上端到端训练,直接从一或多张2D图像生成新视点下的2D图像,而无需构建显式的3D表示。这种“学习渲染器”方法巧妙捕捉几何、反射、阴影等复杂元素,实现无界持久性——例如,用户打开一扇门,后续探索中该门将保持开启状态。同时,模型支持视差效果和连续场景预测,确保生成的帧与用户移动同步,宛如一个活生生的虚拟世界。
这一成果对AI渲染和空间智能领域的影响深远。RTFM的单GPU实时能力大幅降低了计算门槛,有望加速机器人模拟、增强现实(AR)和数字孪生等应用的发展,例如从少量照片快速重建真实空间,用于零售虚拟导览或自动驾驶预可视化。
World Labs强调,生成式世界模型虽计算密集,但将是未来渲染范式的关键方向。 作为计算机视觉领域的先驱,李飞飞长期致力于推动AI从2D图像向3D世界理解的跃进。RTFM的发布延续了她在斯坦福HAI(人类中心AI研究所)及World Labs的努力,后者专注于构建大型世界模型以感知、生成和互动3D环境。此前,World Labs已探索类似技术,此次RTFM的开源预览和演示进一步激发了行业对实时生成式AI的热情。