网站标志
导航菜单
当前日期时间
当前时间:
购物车
购物车中有 0 件商品 去结算 我的订单
商品搜索
商品搜索:
文章正文
零样本生成10秒视频!谷歌视频生成大模型VideoPoet来了
作者:    发布于:2023-12-21 19:14:55    文字:【】【】【

近日,谷歌最新推出的视频生成大模型VideoPoet引爆了科技舆论场。戴着耳机听音乐的“汪星人”、一起打扑克的熊猫、正在打哈欠的蒙娜丽莎......这些以假乱真的视频画面都出自谷歌VideoPoet之手。值得关注的是,VideoPoet 一次可生成 10 秒超长且有连贯大动作的视频,这与此前仅有小幅动作的视频生成技术相比有了很大提升,标志着视频生成大模型实现了全新的突破。


  据谷歌官方介绍,VideoPoet 通过选择将文本作为输入,能够在各种以视频为中心的输入和输出上执行多任务处理,包括文本到视频、图像到视频、视频到音频、风格转化、绘画等。


  与其他视频生成模型不同的是,谷歌VideoPoet 并非常见的扩散模型,而是多模态大模型,还具备零样本视频生成能力,可节省大量数据和计算资源,且输出的画面更加稳定、动作更逼真,清晰度也得到了明显提升。


  基于这个视频生成大模型,用户只需输入一段提示信息,或者上传一张图片,就可以将之变成一段视频。它还能够根据文本提示信息对输入的视频重新进行风格化设计,比如加入烟雾、雨露、阳光等;或是通过增补画面将之拓展为一段新视频,亦或是改变物体运动轨迹生成不同的动作,比如让蒙娜丽莎移动身体、改变表情等;甚至可以直接生成音频、生成故事。


  要实现这些功能并不容易。谷歌的方法是将多种视频生成功能无缝集成到单一的大语言模型中,而不依赖针对各个任务分别训练的专用组件。比如,通过自回归语言模型在视频、图像、音频和文本之间进行跨模态学习,并以自回归方式预测序列中下一个视频或音频语义单元;在大语言模型训练框架中引入多种多模态生成学习目标,包括文本到视频、文本到图像、图像到视频、视频帧延续、视频修复/扩展、视频风格化和视频到音频等,这些任务可以相互结合,实现额外的零样本功能。


  对于未来的研究方向,谷歌研究人员表示,VideoPoet 框架将会实现“Any-to-Any”(任意对任意))的生成,比如扩展文本到音频、音频到视频,以及视频字幕等等。


  实际上,视频生成大模型已经悄悄地火了。前有RunWay 的 Gen-2、Pika Lab 的 Pika 1.0,后有微软亚洲研究院的超长视频生成模型NUWA-XL、Stability AI的AI视频大模型Stable Video Diffusion以及国内市场阿里达摩院、360集团、美图等公司上线的文生视频大模型,再到如今谷歌推出的多模态视觉生成大模型VideoPoet,视频生成大模型正在快速迭代,或将成为生成式人工智能领域的下一个高地。


  来源:中国电子报、电子信息产业网

浏览 (5) | 评论 (0) | 评分(0) | 支持(0) | 反对(0) | 发布人:
将本文加入收藏夹
新闻详情
脚注栏目
|
脚注信息
机电工程网(C) 2015-2020 All Rights Reserved.    联系我们