VideoPoet是一个简单的建模方法,可以将任何自回归语言模型或大型语言模型(LLM)转换为高质量的视频生成器。它巧妙地融合了图像、视频和音频等多种模态,使用统一的词汇表。

主要特点和功能:

  • 将自回归语言模型转换为顶级视频生成器
  • 支持多模态生成学习目标,包括文本到视频、图像到视频等任务
  • 具备零样本能力,在文本到音频等任务中展现出令人激动的潜力
  • 打破传统边界,为创新的多模态内容生成提供强大工具

访问链接: https://sites.research.google/videopoet/