我们提出了一种生成街景的方法——通过动态合成的城市尺度场景生成长序列的视图。我们的生成受到语言输入(例如城市名称、天气)以及承载所需轨迹的底层地图/布局的限制。与最近的视频生成或3D视图合成模型相比,我们的方法可以扩展到更远距离的相机轨迹,跨越几个城市街区,同时保持视觉质量和一致性。为了实现这个目标,我们在最近关于视频扩散的工作的基础上,在一个自回归框架内使用,可以很容易地扩展到长序列。特别地,我们引入了一种新的时间插补方法,以防止我们的自回归方法从真实城市形象的分布中漂移。我们的街景系统是在一个可靠的数据源上训练的,该数据源来自谷歌街景,以及上下文地图数据,它允许用户在任何期望的城市布局的条件下,用可控的相机姿态生成城市视图。