🖼️ 利用编码器和模型进行音乐和图像理解,用户可编辑音乐、调整乐器和速度。
🚀 模型作者为@Dorialexander,下载地址及在线体验链接已公开。
“O”:视频输出。2023年,我们看到了文字到视频合成的浪潮:WALT(谷歌)、EmuVideo(Meta)、Align Your Latents(英伟达)、Pika等等,数不胜数。然而,大多数生成的片段仍然很短。我将它们视为AI视频的“系统1”——“无意识”的局部像素运动。
曾经,专家们一度非常有信心。
当被问及把技术公开,其他友商跟进之后,会不会担心荣耀变成第二了,赵明表示:那是我们无能。”