在具身任务中,机器人需要在探索的同时完全理解3D场景,因此迫切需要一个在线、实时、细粒度且高度泛化的3D感知模型。由于高质量的3D数据有限,直接在3D中训练这样的模型几乎不可行。同时,视觉基础模型(VFM)以其优越的性能革新了2D计算机视觉领域,这使得利用VFM来辅助具身3D感知成为一个有前景的方向。然而,大多数现有的VFM辅助3D感知方法要么是离线的,要么过于缓慢,无法应用于实际的具身任务中。在本文中,我们旨在利用Segment Anything Model(SAM)进行在线环境中的实时3D实例分割。这是一个具有挑战性的问题,因为在输入的流媒体RGB-D视频中无法获得未来的帧,并且一个实例可能会在多个帧中被观察到,因此需要进行帧间的物体匹配。为了解决这些挑战,我们首先提出了一个几何感知查询提升模块,以通过3D感知查询来表示SAM生成的2D掩码,然后通过双层查询解码器进行迭代优化。