阿里达摩院上线文本生成视频大模型：仅支持英文输入，已开放试玩

婷姐 · 发表于 2023-3-22 22:07:36

马上注册，免费下载更多dz插件网资源。

您需要登录才可以下载或查看，没有账号？立即注册

×

T之家 3 月 22 日消息，近日，阿里达摩院已在 AI 模型社区“魔搭”ModelScope 上线了“文本生成视频大模型”。

根据官方介绍，目前文本生成视频大模型，由文本特征提取、文本特征到视频隐空间扩散模型、视频隐空间到视频视觉空间这 3 个子网络组成，整体模型参数约 17 亿，目前仅支持英文输入。扩散模型采用 Unet3D 结构，通过从纯高斯噪声视频中，迭代去噪的过程，实现视频生成的功能。

阿里达摩院上线文本生成视频大模型：仅支持英文输入，已开放试玩阿里,达摩,上线,文本,生成

官方介绍称，本模型适用范围较广，能基于任意英文文本描述进行推理，生成视频。一些文本生成视频示例如下：

阿里达摩院上线文本生成视频大模型：仅支持英文输入，已开放试玩阿里,达摩,上线,文本,生成

A giraffe underneath a microwave.（一只在微波炉里的长颈鹿）

阿里达摩院上线文本生成视频大模型：仅支持英文输入，已开放试玩阿里,达摩,上线,文本,生成

A goldendoodle playing in a park by a lake.（一只金贵犬在湖边的公园玩耍）

据IT之家了解，模型已经在创空间和 huggingface 上线，可以直接体验，也可以参考该页面自行搭建。模型需要硬件配置大约是 16GB 内存和 16GB GPU 显存。在 ModelScope 框架下，通过调用简单的 Pipeline 即可使用当前模型，其中，输入需为字典格式，合法键值为 'text'，内容为一小段文本。该模型暂仅支持在 GPU 上进行推理。

从试玩的结果来看，目前能生成的视频长度多在 2-4 秒，生成等候时间从 20 多秒到 1 分多钟不等。

©DZ插件网所发布的一切资源仅限用于学习和研究目的；不得将上述内容用于商业或者非法用途，否则，一切后果请用户自负。
本站内容为站长个人技术研究记录或网络，不提供用户交互功能，所有内容版权归原作者所有。您必须在下载后的24个小时之内，从您的电脑中彻底删除上述内容。如果您喜欢该程序，请支持正版软件，得到更好的正版服务。
您在本站任何的赞助购买、下载、查阅、回复等行为等均表示接受并同意签订《DZ插件网免责声明协议》。
如有侵权请邮件与我们联系处理: discuzaddons@vip.qq.com 并出示相关证明以便删除。敬请谅解！