通过一张图片和音频生成全身的能说话的人物视频啊!图生视频我们看得多了,但是生成的都是没有声音的视频,后期还需要自己通过其他工具加入语音和唇形同步,字节跳动的这个OmniHuman就牛逼了,它是个多模态模型,你可以提供不同输入来生成视频,比如提供图片加音频加肢体动作信息来生成和真实视频无异的视频...