8月12日消息,11日起,昆仑万维Skywork AI技术发布周启动。8月11日至8月15日,每天发布一款新模型,连续五天。今日,昆仑万维开源两款世界模型:「Matrix-Game 2.0」与「Matrix-3D」。
DeepMind在一周前为社区带来了交互式世界模型的重大更新Genie 3,实现了交互式实时长序列生成,让世界模型备受关注,然而Genie 3并没有开源,让大家只能猜测这样的世界模型该如何实现。
8月12日昆仑万维为大家带来了自研世界模型Matrix系列中Matrix-Game交互世界模型的升级版本——「Matrix-Game 2.0」,同样实现了通用场景下的交互式实时长序列生成的世界模型。并且为促进交互式世界模型领域的发展,「Matrix-Game 2.0」全面开源,是业内首个在通用场景上实现实时长序列交互式生成的世界模型开源方案。
据介绍,「Matrix-Game 2.0」在实时生成和长序列能力上实现了质的飞跃。相较于上一版本,2.0版本更加侧重低延迟、高帧率的长序列交互性能,能够以25 FPS的速度,在多种复杂场景中稳定生成连续视频内容,且生成时长可扩展至分钟级,大幅提升了连贯性与实用性。
在推理速度显著提升的同时,模型依然保持了对物理规律与场景语义的精准理解,支持用户通过简单指令,自由探索、操控并实时构建结构清晰、细节丰富、规则合理的虚拟环境。
「Matrix-Game 2.0」三大优势:
1. 高帧率实时交互长序列生成:支持前后左右移动和视角转动,用户可通过指令操控角色在场景中自由行动,系统以 25 FPS 实时生成连续画面,单次交互可生成分钟级别长交互视频,动作自然流畅,响应精准。
2. 多场景泛化能力:模型具备出色的跨域适应性,不仅适用于特定任务场景,还支持多种风格与环境的模拟,包括城市、野外等空间类型,以及真实、油画等视觉风格。
3. 增强的物理一致性:对物理规则的理解进一步提升,角色在面对台阶、障碍物等复杂地形时,能够展现出符合物理逻辑的运动行为,提升沉浸感与可控性。
另一款开源的世界模型则是「Matrix-3D」,用于3D世界的生成与探索。它从单图像出发,生成高质量、轨迹一致的全景视频,并直接还原可漫游的三维空间,对标李飞飞WorldLabs的生成效果,可实现更大范围的探索空间。

Matrix-3D通过引入全景表示、条件视频生成与3D重建模块,突破了现有方法在视角范围、几何一致性和视觉质量上的限制。Matrix-3D同时支持文本、图像作为输入,生成的3D场景支持自由探索。Matrix-3D的全景视频生成结果在全景视频生成评测集上也取得了最好的生成质量。

来源: 网易科技报道