近日,由Picsart AI Research团队联合发布的StreamingT2V模型可生成长达2分钟(1200帧)的高质量视频,超越了之前的Sora模型。这一开源模型不仅可以生成更长时长的视频,还能与SVD、animatediff等其他模型无缝兼容,为开源视频生成领域带来新的突破。
亮点总结:
免费在线试玩:【点击进入】 目测在线人太多需要排队
自己本地搭建教程:
1.安装并安装 Python 3.10 and CUDA >= 11.6 环境 【Python 3.10 】、【Cuda 下载】
2.克隆开源项目至本地:
git clone https://github.com/Picsart-AI-Research/StreamingT2V.git
3.安装必备的环境:
conda create -n st2v python=3.10
pip install -r requirements.txt
4.(可选)如果您的系统上缺少 FFmpeg,请安装 FFmpeg
conda install conda-forge::ffmpeg
5. 从HF 下载模型权重并将它放在 t2v_enhanced/checkpoints目录下
6.文本转视频
python inference.py --prompt="A cat running on the street"
如要使用其他基本模型,请添加--base_model=AnimateDiff
参数。用于python inference.py --help
更多选项
7.图片转视频
python inference.py --image=../__assets__/demo/fish.jpg --base_model=SVD
帧数 | 更快预览的推理时间 (256×256) | 最终结果的推理时间 (720×720) |
---|---|---|
24帧 | 40秒 | 165秒 |
56帧 | 75秒 | 360秒 |
80帧 | 110秒 | 525秒 |
240帧 | 340秒 | 1610 秒(约 27 分钟) |
600帧 | 860秒 | 5128 秒(约 85 分钟) |
1200帧 | 1710 秒(约 28 分钟) | 10225 秒(约 170 分钟) |
帧数 | 更快预览的推理时间 (256×256) | 最终结果的推理时间 (720×720) |
---|---|---|
24帧 | 50秒 | 180秒 |
56帧 | 85秒 | 370秒 |
80帧 | 120秒 | 535秒 |
240帧 | 350秒 | 1620 秒(约 27 分钟) |
600帧 | 870秒 | 5138 秒(~85 分钟) |
1200帧 | 1720 秒(约 28 分钟) | 10235 秒(约 170 分钟) |
帧数 | 更快预览的推理时间 (256×256) | 最终结果的推理时间 (720×720) |
---|---|---|
24帧 | 80秒 | 210秒 |
56帧 | 115秒 | 400秒 |
80帧 | 150秒 | 565秒 |
240帧 | 380秒 | 1650 秒(约 27 分钟) |
600帧 | 900秒 | 5168 秒(~86 分钟) |
1200帧 | 1750 秒(约 29 分钟) | 10265 秒(~171 分钟) |
所有测量均使用 NVIDIA A100 (80 GB) GPU 进行。当帧数超过 80 时,采用随机混合。对于随机混合,chunk_size
和 的值overlap_size
分别设置为 112 和 32。