世界模型是智能体(如机器人或自动驾驶系统)用于感知、理解、预测和规划外部环境的一种内部表征结构。它模拟人类大脑的认知过程,将外部环境的信息转化为可在内部操作的模型,使智能体能够根据当前状态推测未来变化并指导行动。广义的世界模型不仅包括空间表征,还应具有对时间维度的动态变化与未来状态的预测能力。因此,世界模型的两个核心功能:静态空间依赖关系的表征与动态行为的预测。本报告从知觉物体认知的角度探讨自主智能体的世界模型构建。知觉物体作为人类感知世界的基本单位,其识别和理解对于构建准确的世界模型至关重要。例如,人类能够快速识别物体并理解它们在特定情境中的关联与功能,这种能力同样是智能体实现有效感知和决策的基础。报告进一步探讨了世界模型和视觉概念学习的紧密联系。概念是人类通过感知过程标记和理解视觉对象本征属性的认知工具,而智能体通过学习这些视觉概念,能够将其用于场景理解和行为规划。视觉概念学习不仅帮助智能体识别静态场景中的物体,还使其能够推断物体之间的关系,实现对场景的高层次理解。此外,报告还讨论了智能体如何将视觉语言表征与空间信息结合,以应对复杂场景中的物体识别和关系推理,这种能力使智能体不仅能够理解静态空间中的物体及其关联,还能融合多模态信息预测物体的未来动态行为,以及物体间潜在交互的推理。高质量的视觉概念学习有助于增强世界模型的鲁棒性和准确性,从而改进行为预测和决策过程,使自主系统更好地适应复杂、不确定的环境,如实现完全自动驾驶等高级目标。
郑南宁,工学博士,IEEE Life Fellow,西安交通大学人工智能与机器人研究所教授、人机混合增强智能全国重点实验室主任,1999年当选中国工程院院士。现任中国自动化学会理事长,国际模式识别协会(IAPR)理事会成员,科技部新一代人工智能战略咨询委员会专家组副组长,曾任国家高技术研究发展计划(即“863计划”)信息领域首席科学家。长期从事计算机视觉与模式识别、人工智能系统及其先进计算架构、自动驾驶等研究。