模型:
damo-vilab/text-to-video-ms-1.7b
该模型是基于多阶段文本到视频生成扩散模型的,输入一个描述文本,返回与文本描述相匹配的视频。只支持英文输入。
我们正在招聘!(位于中国北京/杭州)
如果您正在寻找令人兴奋的挑战并有机会与AIGC和大规模预训练技术结合工作,那么我们是您的最佳选择。我们正在寻找有才华、积极进取和富有创造力的人才加入我们的团队。如果您有兴趣,请将您的简历发送给我们。
电子邮件:yingya.zyy@alibaba-inc.com
文本到视频生成扩散模型包括三个子网络:文本特征提取模型、文本特征到视频潜空间扩散模型和视频潜空间到视频视觉空间模型。整个模型参数约为17亿个。目前只支持英文输入。扩散模型采用UNet3D结构,并通过纯高斯噪声视频的迭代去噪过程来实现视频生成。
此模型仅供研究目的使用,请查看模型限制和偏差以及滥用、恶意使用和过度使用等部分。
该模型具有广泛的应用,可以根据任意英文文本描述进行推理和生成视频。
首先安装所需的库:
$ pip install diffusers transformers accelerate torch
然后,生成一个视频:
import torch from diffusers import DiffusionPipeline, DPMSolverMultistepScheduler from diffusers.utils import export_to_video pipe = DiffusionPipeline.from_pretrained("damo-vilab/text-to-video-ms-1.7b", torch_dtype=torch.float16, variant="fp16") pipe.scheduler = DPMSolverMultistepScheduler.from_config(pipe.scheduler.config) pipe.enable_model_cpu_offload() prompt = "Spiderman is surfing" video_frames = pipe(prompt, num_inference_steps=25).frames video_path = export_to_video(video_frames)
以下是一些结果:
An astronaut riding a horse. 12315321 | Darth vader surfing in waves. 12316321 |
您可以通过启用注意力和VAE分片以及使用Torch 2.0来优化内存使用。这样您就可以在少于16GB的GPU VRAM上生成长达25秒的视频。
$ pip install git+https://github.com/huggingface/diffusers transformers accelerate
import torch from diffusers import DiffusionPipeline, DPMSolverMultistepScheduler from diffusers.utils import export_to_video # load pipeline pipe = DiffusionPipeline.from_pretrained("damo-vilab/text-to-video-ms-1.7b", torch_dtype=torch.float16, variant="fp16") pipe.scheduler = DPMSolverMultistepScheduler.from_config(pipe.scheduler.config) # optimize for GPU memory pipe.enable_model_cpu_offload() pipe.enable_vae_slicing() # generate prompt = "Spiderman is surfing. Darth Vader is also surfing and following Spiderman" video_frames = pipe(prompt, num_inference_steps=25, num_frames=200).frames # convent to video video_path = export_to_video(video_frames)
上述代码将显示输出视频的保存路径,当前编码格式可以使用 VLC player 播放。
可以使用 VLC media player 查看输出的mp4文件。其他媒体播放器可能无法正常播放。
训练数据包括 LAION5B 、 ImageNet 、 Webvid 等公共数据集。在预训练后进行图像和视频过滤,如美学评分、水印评分和去重。
(本模型卡片的部分内容来自 here )
@InProceedings{VideoFusion, author = {Luo, Zhengxiong and Chen, Dayou and Zhang, Yingya and Huang, Yan and Wang, Liang and Shen, Yujun and Zhao, Deli and Zhou, Jingren and Tan, Tieniu}, title = {VideoFusion: Decomposed Diffusion Models for High-Quality Video Generation}, booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)}, month = {June}, year = {2023} }