在对话框中输入一句话或添加一张照片,点击“生成视频”按钮,不到一分钟,一条6秒的短视频立马生成。“看,照片动起来了。”第一拨尝鲜国产自研视频生成产品“清影”的“00后”用户施司羽说。
今年初,文生视频大模型Sora在全球人工智能业内外引发广泛关注。近日,多个中国科技企业自主研发的视频生成产品扎堆上线,引发关注。这意味着中国人工智能大模型的“应用试验田”又多了一块。
生数科技今年4月联合清华大学发布了视频大模型Vidu,并于7月底正式上线。“此次Vidu正式上线,并全面开放了文生视频、图生视频两大功能,提供4s、8s两种时长选择,分辨率最高达1080P,将让更多人感受文生视频、图生视频的美好体验。”生数科技联合创始人兼首席执行官唐家渝说。
Vidu上线前数天,北京另一家人工智能公司智谱AI也上线了基于其自研大模型开发的视频生成产品Ying(清影)。“清影不仅支持文本生成视频、图片生成视频,还支持视频生成视频。”智谱AI首席执行官张鹏说。
今年6月,快手发布的视频生成大模型“可灵”,在文生视频、图生视频方面展现出了创造逼真运动场景、精确模拟物理特性的能力与潜力。
唐家渝和张鹏表示,当前中国视频生成产品的主流技术路线,采用的是深度学习模型与扩散模型相结合的架构,遵从“规模定律”,强依赖算法、算力、数据。
当前,全球范围内文本、图片生成视频模型赛道上已有多家科技企业参与竞逐。除OpenAI的Sora之外,还有Runway的Gen系列、微软的Nuwa、Meta的Emu、谷歌的Phenaki等。中国最早的入局者有生数科技的Vidu、智谱AI的清影、快手的可灵、商汤的日日新等。
张鹏说,目前中国的视频生成技术还处于起步阶段,并不完美;接下来还有高质量数据、算法等一系列问题有待逐一破解。然而加速人工智能技术发展的最好方式就是并行加速技术的研发与应用,而不是把技术关在实验室里闭门造车。
“从今天的技术实现角度,视频大模型的迭代将颠覆影视动画制作在内的内容产业。”唐家渝预判,未来十年,影视创作生产的门槛与影视动画制作的成本将进一步降低,更好地将想象力、创造力转化为生产力。(记者张漫子)