虽然基于稀疏图像集的新视角合成( NVS )在三维计算机视觉中取得了显著进展,但它依赖于使用运动恢复结构( SfM )对相机参数的精确初始估计。例如,最近发展的高斯抛雪球在很大程度上依赖于SfM导出的点和姿态的精度。然而,在稀疏视图场景中,SfM过程非常耗时,而且往往是不可靠的,因为在稀疏视图场景中,匹配的特征很少,这导致了跨数据集的累积误差和有限的泛化能力。在这项研究中,我们介绍了一种新颖而有效的框架来增强稀疏视角图像中的鲁棒NVS。我们的框架InstantSplat将多视图立体( MVS )预测与基于点的表示相结合,在几秒钟内从稀疏视图数据中构建大规模场景的三维高斯,通过SfM解决了上述性能和效率问题。具体说,InstantSplat在所有训练视图中生成密集的表面点,并使用像素对齐来确定初始相机参数。