他们介绍了一种用于学习光流的基于变压器的神经网络结构——光流变换器,简称为FlowFormer。FlowFormer标记化从图像对构建的4D成本卷,将成本标记编码到新潜在空间中具有交替组变换器(AGT)层的成本内存中,并通过具有动态位置成本查询的循环变换器解码器解码成本内存。在Sintel基准测试中,FlowFormer在清洁和最终焊道上达到1.159和2.088平均终点误差(AEPE),与最佳公布结果(1.388和2.47)相比,误差减少了16.5%和15.5%。此外,FlowFormer还具有很强的泛化性能。在未接受Sintel培训的情况下,FlowFormer在Sintel训练集的干净及格成绩达到1.01 AEPE,比最佳公布成绩(1.29)高出21.7%。