江信江疑

Meta：Movie Gen 四种功能：视频生成、个性化视频生成、精确视频编辑和音频生成。

视频生成：给定文本提示，我们可以利用针对文本到图像和文本到视频进行优化的联合模型来创建高质量和高清的图像和视频。该 30B 参数转换器模型能够以每秒 16 帧的速率生成长达 16 秒的视频。我们发现这些模型可以推理物体运动、主物交互和相机运动，并且它们可以学习各种概念的合理运动——使它们成为同类中最先进的模型。

个性化视频：我们还扩展了上述基础模型以支持个性化视频生成。我们将人的图像作为输入，并将其与文本提示相结合，生成一个视频，其中包含参考人以及文本提示提供的丰富视觉细节。我们的模型在创建保留人类身份和动作的个性化视频方面取得了最先进的结果。

精准视频编辑：同一基础模型的编辑变体将视频和文本提示作为输入，精确执行任务以生成所需的输出。它将视频生成与高级图像编辑相结合，执行本地化编辑（例如添加、删除或替换元素）以及全局更改（例如背景或样式修改）。与需要专门技能或缺乏精度的生成工具的传统工具不同，Movie Gen 保留原始内容，仅针对相关像素。

音频生成：最后，我们训练了一个 13B 参数音频生成模型，该模型可以拍摄视频和可选的文本提示，并生成长达 45 秒的高质量和高保真音频，包括环境声音、音效（Foley）和器乐背景音乐 — 所有这些同步到视频内容。此外，我们引入了一种音频扩展技术，可以为任意长度的视频生成连贯的音频——总体上在音频质量、视频到音频对齐和文本到音频对齐方面实现了最先进的性能。

生成视频的几个产品进展和前景疑云

订阅后继续阅读