·设为首页收藏本站📧邮箱修改🎁免费下载专区🔐设置/修改密码👽群雄群聊
返回列表 发布新帖

阿里达摩院上线文本生成视频大模型:仅支持英文输入,已开放试玩

628 0
发表于 2023-3-22 22:07:36 | 显示全部楼层 阅读模式

马上注册,免费下载更多dz插件网资源。

您需要 登录 才可以下载或查看,没有账号?立即注册

×
T之家 3 月 22 日消息,近日,阿里达摩院已在 AI 模型社区“魔搭”ModelScope 上线了“文本生成视频大模型”。



根据官方介绍,目前文本生成视频大模型,由文本特征提取、文本特征到视频隐空间扩散模型、视频隐空间到视频视觉空间这 3 个子网络组成,整体模型参数约 17 亿,目前仅支持英文输入。扩散模型采用 Unet3D 结构,通过从纯高斯噪声视频中,迭代去噪的过程,实现视频生成的功能。


阿里达摩院上线文本生成视频大模型:仅支持英文输入,已开放试玩 阿里,达摩,上线,文本,生成


官方介绍称,本模型适用范围较广,能基于任意英文文本描述进行推理,生成视频。一些文本生成视频示例如下:


阿里达摩院上线文本生成视频大模型:仅支持英文输入,已开放试玩 阿里,达摩,上线,文本,生成


A giraffe underneath a microwave.(一只在微波炉里的长颈鹿)

阿里达摩院上线文本生成视频大模型:仅支持英文输入,已开放试玩 阿里,达摩,上线,文本,生成


A goldendoodle playing in a park by a lake.(一只金贵犬在湖边的公园玩耍)


据IT之家了解,模型已经在创空间和 huggingface 上线,可以直接体验,也可以参考该页面自行搭建。模型需要硬件配置大约是 16GB 内存和 16GB GPU 显存。在 ModelScope 框架下,通过调用简单的 Pipeline 即可使用当前模型,其中,输入需为字典格式,合法键值为 'text',内容为一小段文本。该模型暂仅支持在 GPU 上进行推理。



从试玩的结果来看,目前能生成的视频长度多在 2-4 秒,生成等候时间从 20 多秒到 1 分多钟不等。


我要说一句 收起回复

回复

 懒得打字嘛,点击右侧快捷回复【查看最新发布】   【应用商城享更多资源】
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

投诉/建议联系

discuzaddons@vip.qq.com

未经授权禁止转载,复制和建立镜像,
如有违反,按照公告处理!!!
  • 联系QQ客服
  • 添加微信客服

联系DZ插件网微信客服|最近更新|Archiver|手机版|小黑屋|DZ插件网! ( 鄂ICP备20010621号-1 )|网站地图

您的IP:34.239.148.106,121.14.135.70,GMT+8, 2024-3-29 20:59 , Processed in 0.284839 second(s), 68 queries , Gzip On, Redis On.

Based on Discuz! W1.0 Licensed

© 2001-2024 Discuz! Team.

关灯 快速发帖
扫一扫添加微信客服
QQ客服返回顶部
快速回复 返回顶部 返回列表