正文

世界模型研究新方向：从预测到规划，HWM如何解决长时程控制难题

编辑：星球日报发布时间：1小时前

导语：世界模型从表征学习走向任务规划

近年来，世界模型的研究焦点逐渐从表征学习和未来预测转向更具挑战性的任务规划能力。以Meta发布的V-JEPA 2（Video Joint Embedding Predictive Architecture 2）为例，这一视频世界模型通过超过100万小时的互联网视频进行预训练，并结合少量机器人交互数据，展示了其在理解、预测和零样本机器人规划上的潜力。

然而，仅仅具备预测能力并不足以应对复杂的长时程任务。面对多阶段控制问题，系统通常会遇到两个主要压力：一是预测误差在长时间推演中持续积累，导致路径偏离目标；二是动作搜索空间随规划视距增长而迅速扩大，增加了计算成本。HWM通过引入分层规划结构，在已有带动作条件的世界模型基础上，解决了这些问题。

长时程控制为何仍是世界模型的瓶颈

长时程控制的难点在机器人任务中尤为突出。例如，机械臂完成“抓取杯子并放入抽屉”的任务，需要一系列连续步骤：靠近物体、调整姿态、完成抓取、移动到目标位置等。链条越长，预测误差累积和动作搜索空间扩大的问题就越明显。

系统缺乏的不仅是局部预测能力，更是将远目标分解为阶段路径的能力。许多中间步骤看似偏离目标，实则是完成任务的必要环节。例如，抓取前抬高手臂或开抽屉前调整角度，这些细节对整体任务至关重要。

HWM如何重构规划过程

HWM的核心创新在于将原本单一的规划过程拆分为两层：高层负责较长时间尺度上的阶段方向，低层则专注于较短时间尺度上的局部执行。这种双时间节奏的规划方式显著降低了复杂度。

单层方法处理长任务时，需在底层动作空间中直接搜索整条动作链，任务越长，搜索成本越高，预测误差也越容易扩散。而HWM通过高层处理路线选择、低层处理局部动作，将长任务拆分为多个短任务，从而有效缓解了这些问题。

此外，高层动作并非简单记录状态差值，而是通过编码器将低层动作压缩为更高层的动作表示。这种方式保留了中间步骤的路径信息，避免了仅关注位移差而导致的信息丢失。

实验结果：从0%到70%，HWM的实际表现

在论文设置的真实世界抓取并放置任务中，系统仅获得最终目标条件，未提供人工拆解的中间目标。结果显示，HWM的成功率达到70%，而单层世界模型的成功率仅为0%。原本几乎无法完成的长任务，在引入分层规划后变得可行。

论文还测试了推动物体操作和迷宫导航等仿真任务。结果表明，分层规划不仅提高了成功率，还显著降低了规划阶段的计算成本。在某些环境中，计算成本最多可减少至原来的四分之一，同时保持更高或相当的成功率。

从V-JEPA到HWM再到WAV：世界模型的发展脉络

V-JEPA 2代表了世界表征这条研究路线。它通过大规模观察获得世界表征，并将其迁移到机器人规划中。HWM则更进一步，专注于如何将远目标组织为中间步骤并逐段推进。而WAV（World Action Verifier）则将焦点放在验证能力上，帮助模型发现并修正预测失真。

V-JEPA偏向世界表征，HWM偏向任务规划，WAV偏向结果验证。三者虽关注点不同，但共同推动了世界模型从内部预测向可执行系统的转变。

从内部预测走向可执行系统

过去的世界模型研究更多关注提升未来状态预测的连续性或内部表征的稳定性。然而，当前的研究重点已转向如何将预测转化为可执行的动作，并在结果反馈中不断修正。这种变化也对AI agent产生了深远影响。

许多agent系统能够完成短链路任务，但在面对长链路、多阶段任务时性能显著下滑。这与机器人控制中的难点类似，都是由于高层路径组织能力不足导致的。HWM提供的分层思路——高层负责路径与阶段目标，低层负责局部动作与反馈处理——为解决这一问题提供了重要参考。

未来，随着预测、执行和修正逐步整合为一条完整的运行路径，世界模型将在更多实际场景中展现出其价值。