本工具基于多阶段文本到视频生成扩散模型, 输入描述文本,返回符合文本描述的视频。仅支持英文输入。

文本到视频生成扩散模型由文本特征提取、文本特征到视频隐空间扩散模型、视频隐空间到视频视觉空间这3个子网络组成,整体模型参数约17亿。支持英文输入。扩散模型采用Unet3D结构,通过从纯高斯噪声视频中,迭代去噪的过程,实现视频生成的功能。

本模型适用范围较广,能基于任意英文文本描述进行推理,生成视频。一些文本生成视频示例如下,上方为输入文本,下方为对应的生成视频:


Robot dancing in times square.
免费AI辅助工具—输入描述文字即可生成视频-云案通一起AI网
Clown fish swimming through
the coral reef. 免费AI辅助工具—输入描述文字即可生成视频-云案通一起AI网
Melting ice cream dripping
down the cone. 免费AI辅助工具—输入描述文字即可生成视频-云案通一起AI网

A waterfall flowing through glacier at night.
免费AI辅助工具—输入描述文字即可生成视频-云案通一起AI网
A cat eating food out of a owl,
in style of van Gogh. 免费AI辅助工具—输入描述文字即可生成视频-云案通一起AI网

Tiny plant sprout coming out of the ground.
免费AI辅助工具—输入描述文字即可生成视频-云案通一起AI网

Hyper-realistic photo of an abandoned
industrial site during a storm. 免费AI辅助工具—输入描述文字即可生成视频-云案通一起AI网

Balloon full of water exploding
in extreme slow motion. 免费AI辅助工具—输入描述文字即可生成视频-云案通一起AI网
Incredibly detailed science fiction scene
set on an alien planet,
view of a marketplace. Pixel art. 免费AI辅助工具—输入描述文字即可生成视频-云案通一起AI网

 

安装部署教程及免费在线体验

***此处内容登录后可见***

温馨提示:此处为隐藏内容,需要登录后可见