本文探讨了视觉字幕恢复(VCR)任务,旨在评估视觉语言模型(VLM)恢复图像中被遮挡文本的能力,以探究其与人类在高级认知任务上的推理能力差异。文章揭示了现有模型的局限性,并期望未来能启发更有效的VLM方法,拉近多模态模型和人类认知能力的差距。