阿里万相 wan2.1 文生视频模型本地部署指南

By | 2025年2月28日

几天前阿里开源了自研的文生视频项目万相 wan2.1,其中 T2V-1.3B 模型仅需 8.19 GB 显存即可运行,并且在性能和质量方面的表现都较为亮眼。作为视频生成领域的新秀,wan2.1 在一定程度上展现出了闭源项目的技术水平。并且由于同时支持中文或英文提示词,使用起来也更加符合国人的习惯。

虽然官方文档里已经对安装部署方法进行了介绍,但对于新手而言还是容易遇到不少坑点。本文我们以 Windows 环境为例详尽说明如何安装部署 wan2.1 。

0.硬件需求

相对而言 wan2.1 的硬件需求并不高,但仍然需要留意:

  • CPU:无硬性需求但尽量避免性能太弱
  • 内存:建议 64GB 或更高,如低于可使用虚拟内存补足
  • 硬盘:最好使用 SSD ,不低于 20GB 空间可用
  • 显卡:N卡30系起(如 3080)且显存不低于 10GB

A卡相对较为麻烦,具体可以参考:https://github.com/Dao-AILab/flash-attention

1.安装依赖环境

1.1 Python

在 Python 官网下载 Windows 平台安装包即可,不低于 3.9 版本都可以。安装完成后,打开一个命令提示符窗口(或者 powershell),运行:pip3 install virtualenv

待安装完成后,运行 pip show virtualenv 能够看到版本号即为安装成功。

1.2 Git

Git 主要用于拉取代码,在官网下载安装并使用默认推荐设置即可。安装完成后,在命令提示符窗口切换到想要保存项目的路径,依次执行:

I:
cd AI
git clone https://github.com/Wan-Video/Wan2.1.git
cd Wan2.1

以上命令的作用是进入 I: 盘的 AI 文件夹(如不存在需要提前创建),拉取万相的代码并进入到代码目录。

1.3 venv

使用 venv 创建一个新的虚拟 Python 环境,避免破坏本机环境。

python3 -m venv venv
cd venv\Scripts
activate.bat
cd ..

注意如果使用 powershell 倒数第二步需要换成 .\activate.ps1 ,并且需要提前使用管理员权限更改 set-ExecutionPolicy RemoteSigned

一切正常的话命令提示符最左侧会显示 venv ,如下图所示。

1.4 PyTorch

直接在命令行窗口内运行:pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu126

1.5 C++ 生成工具

前往 https://visualstudio.microsoft.com/zh-hans/visual-cpp-build-tools/ 下载后运行,选择桌面 C++ 开发进行安装。

1.6 CUDA Toolkit

前往 https://developer.nvidia.com/cuda-toolkit-archive 下载12.6.3版本的 CUDA Toolkit ,按照默认设置安装。此处版本与上一步中 Pytorch 相对应,切勿安装其他版本。

1.7 Ninja

Ninja 用于加速其他依赖包的编译,运行 pip install ninja 即可。

1.8 项目依赖

此时终于准备好了全部的环境软件,运行 pip install -r requirements.txt 来安装项目本身的依赖。安装 flash_attn 耗时非常久且 CPU 满载属于正常现象,也可以自行安装预编译包。

1.9 huggingface-cli

最后一个安装的项目是 huggingface-cli ,用于下载模型。

pip install "huggingface_hub[cli]"
huggingface-cli download Wan-AI/Wan2.1-T2V-1.3B --local-dir ./Wan2.1-T2V-1.3B

1.10 修改代码

使用 Python IDLE(安装 Python 时已附带)打开 Wan2.1 根目录下的 generate.py 文件,修改第387行(注意位置可能会变化),删除图中选中的部分后保存。

因 Windows 下文件名不允许包含星号,如不删除导出时会报错。

2.无提示词扩展运行

为了测试安装和运行情况,我们首先不加载提示词扩展(Prompt Extention)运行试试:

python generate.py  --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --offload_model True --t5_cpu --sample_shift 8 --sample_guide_scale 6 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."

根据硬件配置的不同,生成时间可能介于5-30分钟之间,视频文件最终会保存在 Wan2.1 文件夹下。此处官方有特别声明 1.3B 模型的训练数据有限,不建议生成 720P 分辨率。

3.带提示词扩展运行

提示词扩展的作用是使用 AI 帮我们扩写,以生成细节更丰富的画面。我们可以选择使用本地运行、调用 API 或者也可以不使用。这里以本地运行为例:

python generate.py  --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --offload_model True --t5_cpu --sample_shift 8 --sample_guide_scale 6 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage." --use_prompt_extend --prompt_extend_model Qwen/Qwen2.5-3B-Instruct

首次使用本地提示词扩展会下载额外的千问模型,除了 3B 模型外也可以选择 7B 或者 14B 。

4.二次启动环境

首次部署完成后,二次启动环境就简单得多了:

I:
cd Wan2.1\venv\Scripts
activate.bat
cd ..\..

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

滑动到最右以进行验证 *