首先,CLIP是OpenAI开发的,它的全名是Contrastive Language-Image Pre-Training, 也就是 文本-图像比对预训练模型, 其实它的名字已经预示了它的作用,是用来比对我们生成图片用的文本和图像的相似度的…