作者首次展示,仅从语音音频中学习强大的表征,然后对转录语音进行微调,就可以胜过最佳的半监督方法,同时在概念上更简单。 wav2vec 2.0掩盖了潜在空间中的语音输入,并解决了通过共同学习的潜在表示的量化而定义的对比任务。 作者在Librispeech的100小时子集以及TIMIT音素识别上都设置了一个新的技术状态。当将标记数据量减少到一小时时,作者的模型在100小时子集上的性能优于以前的最新水平,同时使用的标记数据量减少了100倍。仅使用十分钟的标记数据并在53k小时的未标记数据上进行预训练,在嘈杂/干净的Librispeech测试装置上仍可达到5.7 / 10.1 WER。这证明了有限数量的标记数据的语音识别的可行性。使用简单的基线模型架构,对所有Librispeech进行微调即可达到1.9 / 3.5 WER。