零样本生成10秒视频！谷歌视频生成大模型VideoPoet来了机电工程网

零样本生成10秒视频！谷歌视频生成大模型VideoPoet来了

作者：发布于：2023-12-21 19:14:55 文字：【大】【中】【小】

近日，谷歌最新推出的视频生成大模型VideoPoet引爆了科技舆论场。戴着耳机听音乐的“汪星人”、一起打扑克的熊猫、正在打哈欠的蒙娜丽莎......这些以假乱真的视频画面都出自谷歌VideoPoet之手。值得关注的是，VideoPoet 一次可生成 10 秒超长且有连贯大动作的视频，这与此前仅有小幅动作的视频生成技术相比有了很大提升，标志着视频生成大模型实现了全新的突破。

　　据谷歌官方介绍，VideoPoet 通过选择将文本作为输入，能够在各种以视频为中心的输入和输出上执行多任务处理，包括文本到视频、图像到视频、视频到音频、风格转化、绘画等。

　　与其他视频生成模型不同的是，谷歌VideoPoet 并非常见的扩散模型，而是多模态大模型，还具备零样本视频生成能力，可节省大量数据和计算资源，且输出的画面更加稳定、动作更逼真，清晰度也得到了明显提升。

　　基于这个视频生成大模型，用户只需输入一段提示信息，或者上传一张图片，就可以将之变成一段视频。它还能够根据文本提示信息对输入的视频重新进行风格化设计，比如加入烟雾、雨露、阳光等；或是通过增补画面将之拓展为一段新视频，亦或是改变物体运动轨迹生成不同的动作，比如让蒙娜丽莎移动身体、改变表情等；甚至可以直接生成音频、生成故事。

　　要实现这些功能并不容易。谷歌的方法是将多种视频生成功能无缝集成到单一的大语言模型中，而不依赖针对各个任务分别训练的专用组件。比如，通过自回归语言模型在视频、图像、音频和文本之间进行跨模态学习，并以自回归方式预测序列中下一个视频或音频语义单元；在大语言模型训练框架中引入多种多模态生成学习目标，包括文本到视频、文本到图像、图像到视频、视频帧延续、视频修复/扩展、视频风格化和视频到音频等，这些任务可以相互结合，实现额外的零样本功能。

　　对于未来的研究方向，谷歌研究人员表示，VideoPoet 框架将会实现“Any-to-Any”（任意对任意））的生成，比如扩展文本到音频、音频到视频，以及视频字幕等等。

　　实际上，视频生成大模型已经悄悄地火了。前有RunWay 的 Gen-2、Pika Lab 的 Pika 1.0，后有微软亚洲研究院的超长视频生成模型NUWA-XL、Stability AI的AI视频大模型Stable Video Diffusion以及国内市场阿里达摩院、360集团、美图等公司上线的文生视频大模型，再到如今谷歌推出的多模态视觉生成大模型VideoPoet，视频生成大模型正在快速迭代，或将成为生成式人工智能领域的下一个高地。

　　来源：中国电子报、电子信息产业网

浏览 (5) | 评论 (0) | 评分(0) | 支持(0) | 反对(0) | 发布人：

将本文加入收藏夹

新闻详情

您现在的位置：机电工程网 > 机电资讯 > 零样本生成10秒视频！谷歌视频生成大模型VideoPoet来了