VideoPoet: 零样本视频生成的大型语言模型

2023-12-23

VideoPoet是一个简单的建模方法，可以将任何自回归语言模型或大型语言模型（LLM）转换为高质量的视频生成器。它巧妙地融合了图像、视频和音频等多种模态，使用统一的词汇表。

主要特点和功能：

将自回归语言模型转换为顶级视频生成器
支持多模态生成学习目标，包括文本到视频、图像到视频等任务
具备零样本能力，在文本到音频等任务中展现出令人激动的潜力
打破传统边界，为创新的多模态内容生成提供强大工具

访问链接: https://sites.research.google/videopoet/