语音驱动的3D面部动画已经得到了广泛的研究,但由于高度病态的性质和视听数据的匮乏,在实现真实感和生动性方面仍有差距。现有的工作通常将跨模态映射公式化为回归任务,该任务存在回归到均值的问题,导致过度平滑的面部运动。在本文中,我们提出将语音驱动的面部动画作为代码查询任务投射到学习的代码簿的有限代理空间中,这通过减少跨模态映射的不确定性,有效地提高了生成的运动的生动性。通过对真实面部运动的自重构来学习码本,从而嵌入真实的面部运动先验。在离散运动空间上,使用时间自回归模型从输入语音信号中顺序合成面部运动,这保证了嘴唇同步以及可信的面部表情。我们证明,我们的方法在质量和数量上都优于当前最先进的方法。