VideoPoet

VideoPoet是一个简单的建模方法，可以将任何自回归语言模型或大型语言模型（LLM）转换为高质量的视频生成器。它巧妙地融合了图像、视频和音频等多种模态，使用统一的词汇表。主要特点和功能：将自回归语言模型转换为顶级视频生成器支持多模态生成学习目标，包括文本到视频、图像到视频等任务具备零样本能力，在文本到音频等任务中展现出令人激动的潜力打破传统边界，为创新的多模态内容生成提供强大工具访问链接: https://sites.research.google/videopoet/