【新芒xAI】李飞飞团队发布世界模型最新成果

新芒xAI 10月17日消息当地时间2025年10月16日，斯坦福大学计算机科学教授李飞飞宣布，其联合创办的World Labs公司推出全新生成式世界模型RTFM（Real-Time Frame Model）。

这一模型标志着AI在空间智能领域的重大突破，能够在用户互动时实时生成视频帧，支持持久性和3D一致性渲染，且仅需单张NVIDIA H100 GPU即可实现互动帧率运行。李飞飞在X平台上兴奋地分享了这一成果，并提供博客和限时在线演示，用户可通过输入图像探索真实或想象中的3D世界。

RTFM的核心创新在于其高效架构：它采用自回归扩散transformer模型，在大规模视频数据集上端到端训练，直接从一或多张2D图像生成新视点下的2D图像，而无需构建显式的3D表示。这种“学习渲染器”方法巧妙捕捉几何、反射、阴影等复杂元素，实现无界持久性——例如，用户打开一扇门，后续探索中该门将保持开启状态。同时，模型支持视差效果和连续场景预测，确保生成的帧与用户移动同步，宛如一个活生生的虚拟世界。

这一成果对AI渲染和空间智能领域的影响深远。RTFM的单GPU实时能力大幅降低了计算门槛，有望加速机器人模拟、增强现实（AR）和数字孪生等应用的发展，例如从少量照片快速重建真实空间，用于零售虚拟导览或自动驾驶预可视化。

World Labs强调，生成式世界模型虽计算密集，但将是未来渲染范式的关键方向。作为计算机视觉领域的先驱，李飞飞长期致力于推动AI从2D图像向3D世界理解的跃进。RTFM的发布延续了她在斯坦福HAI（人类中心AI研究所）及World Labs的努力，后者专注于构建大型世界模型以感知、生成和互动3D环境。此前，World Labs已探索类似技术，此次RTFM的开源预览和演示进一步激发了行业对实时生成式AI的热情。

打赏

【新芒xAI】李飞飞团队发布世界模型最新成果

作者: 新芒Group

微信扫一扫关注我们