这个开源模型可以说是视听界的黑马,它通过看视频,就能让图像区域产生声音,并且能够分离音轨。例如,你在看一个乐器演奏的视频,这个系统就能把声音信号分成多个声道,每个声道对应不同的乐器类别。 喜好儿网 致力于发现人工智能的新世界, 长期更新目前热门AI教程与动态!