选择语言
< 返回主菜单

赵行团队提出TrackOcc

2025-10-31

图片

Innovation Highlights

         赵行团队提出了TrackOcc,一种先进的方法,能以流式、端到端方式处理图像输入,并提供 4D 全景查询,以解决提出的任务。利用定位感知损失,TrackOcc很轻松就能提高 4D 全景占用跟踪的准确性。实验结果表明,该方法在 Waymo 数据集上实现了最先进的性能。


Achievements Summary

基于相机的4D全景占用跟踪

在动态环境中,全面而精准的理解对于机器人和自动驾驶汽车的感知系统至关重要。一个强大的感知系统需要以空间连续和时间一致的方式估计当前场景的几何形状、语义信息和身份,从而能够与复杂变化的三维环境进行互动。

为了实现这一目标,过去的研究将此挑战归结为多个子任务,例如 3D 目标跟踪和语义占用预测。3D 目标跟踪任务,探讨如何在帧之间跟踪对象,通常采用边界框方式,这导致忽略了更细致的几何细节和一般物体。而基于占用的任务,则提供了更全面且一致的 3D 场景表示,包含详细的几何形状和语义信息。然而,目前大多数占用预测的工作仅限于空间语义感知,缺乏对全景时间感知的深入研究。在其他环境表示中,LiDAR 点云、全景分割和目标跟踪已趋向于空间-时间形式,例如视频全景分割和 4D LiDAR 分割,旨在探索动态场景中空间-时间统一理解的边界。


图片

图. 场景理解任务比较


值得注意的是,视频全景分割(VPS)主要集中在短小且易于标注的视频片段上,并采用离线处理,这限制了其在感知系统中连续解释传感器数据和在 4D 场景中定位对象的应用。此外,现有的 4D LiDAR 全景分割方法均以 (3+1)D 方式进行,即对聚合的 3D 体进行分割,然后进行后处理以链接这些体。考虑到这些局限性,团队首次探索基于相机的 4D 全景占用跟踪任务,联合解决占用全景分割和目标跟踪的问题。与 LiDAR 高成本和有限语义丰富性不同,基于相机的 4D 全景占用跟踪提供了一种更具成本效益和易于部署的解决方案,增强了城市场景的时空理解。

进一步而言,先前的 4D LiDAR 全景分割方法都在 3D 方式下进行,导致不可避免的后处理来链接这些体。针对这些限制,团队提出了TrackOcc,这是一个基于端到端学习的跟踪器方法,旨在实现基于相机的 4D 全景占用跟踪。TrackOcc 采用图像输入以流式和端到端的方式处理,消除了大量后处理的需求。具体而言,将 4D 全景查询引入 TrackOcc,使其能够在统一框架中预测具有时间一致性的占用标签。为了确保 4D 全景查询能够捕捉到空间上准确的 3D 特征,我们提出了定位感知损失,以指导 TrackOcc 关注目标区域,从而显著提升模型的整体性能。

图片

图. TrackOcc网络架构图


为了进行公平评估,团队提出了 OccSTQ 指标,并建立了一系列改编自其他领域的基线。实验表明, TrackOcc 在 Waymo 数据集上实现了最先进的性能。

图片

图. 团队的方法和 4D-LCA 的定性结果


基于相机的4D全景占用跟踪为全面、一致的动态场景理解提供了全新的思路。本论文一作为清华大学研究助理陈卓光、李克难。通讯作者为上海期智研究院PI、清华大学助理教授赵行。共同作者为清华大学研究助理杨秀毓、江涛和清华大学访问学者李一鸣。


论文信息:

TrackOcc: Camera-based 4D Panoptic Occupancy Tracking, Zhuoguang Chen∗, Kenan∗, Xiuyu Yang, Tao Jiang, Yiming Li, Hang Zhao†, https://arxiv.org/abs/2503.08471, ICRA 2025.