由于transformer模型的结构比较特殊, 所以一下理解不好很正常, 不过经过仔细思考和体会的话, 理解应该不是问题, 视频里有一点表达的不到位, attention机制其实使用这句话中所有字来表达句子中的一个字, 看注意力机制的时候请结合理解一下. 源码和讲义在github