阿里万相 wan2.1 文生视频模型本地部署指南

几天前阿里开源了自研的文生视频项目万相 wan2.1，其中 T2V-1.3B 模型仅需 8.19 GB 显存即可运行，并且在性能和质量方面的表现都较为亮眼。作为视频生成领域的新秀，wan2.1 在一定程度上展现出了闭源项目的技术水平。并且由于同时支持中文或英文提示词，使用起来也更加符合国人的习惯。

虽然官方文档里已经对安装部署方法进行了介绍，但对于新手而言还是容易遇到不少坑点。本文我们以 Windows 环境为例详尽说明如何安装部署 wan2.1 。

0.硬件需求

相对而言 wan2.1 的硬件需求并不高，但仍然需要留意：

CPU：无硬性需求但尽量避免性能太弱
内存：建议 64GB 或更高，如低于可使用虚拟内存补足
硬盘：最好使用 SSD ，不低于 20GB 空间可用
显卡：N卡30系起（如 3080）且显存不低于 10GB

A卡相对较为麻烦，具体可以参考：https://github.com/Dao-AILab/flash-attention

1.安装依赖环境

1.1 Python

在 Python 官网下载 Windows 平台安装包即可，不低于 3.9 版本都可以。安装完成后，打开一个命令提示符窗口（或者 powershell），运行：pip3 install virtualenv 。

待安装完成后，运行 pip show virtualenv 能够看到版本号即为安装成功。

1.2 Git

Git 主要用于拉取代码，在官网下载安装并使用默认推荐设置即可。安装完成后，在命令提示符窗口切换到想要保存项目的路径，依次执行：

I:
cd AI
git clone https://github.com/Wan-Video/Wan2.1.git
cd Wan2.1

以上命令的作用是进入 I: 盘的 AI 文件夹（如不存在需要提前创建），拉取万相的代码并进入到代码目录。

1.3 venv

使用 venv 创建一个新的虚拟 Python 环境，避免破坏本机环境。

python3 -m venv venv
cd venv\Scripts
activate.bat
cd ..

注意如果使用 powershell 倒数第二步需要换成 .\activate.ps1 ，并且需要提前使用管理员权限更改 set-ExecutionPolicy RemoteSigned 。

一切正常的话命令提示符最左侧会显示 venv ，如下图所示。

1.4 PyTorch

直接在命令行窗口内运行：pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu126

1.5 C++ 生成工具

前往 https://visualstudio.microsoft.com/zh-hans/visual-cpp-build-tools/ 下载后运行，选择桌面 C++ 开发进行安装。

1.6 CUDA Toolkit

前往 https://developer.nvidia.com/cuda-toolkit-archive 下载12.6.3版本的 CUDA Toolkit ，按照默认设置安装。此处版本与上一步中 Pytorch 相对应，切勿安装其他版本。

1.7 Ninja

Ninja 用于加速其他依赖包的编译，运行 pip install ninja 即可。

1.8 项目依赖

此时终于准备好了全部的环境软件，运行 pip install -r requirements.txt 来安装项目本身的依赖。安装 flash_attn 耗时非常久且 CPU 满载属于正常现象，也可以自行安装预编译包。

1.9 huggingface-cli

最后一个安装的项目是 huggingface-cli ，用于下载模型。

pip install "huggingface_hub[cli]"
huggingface-cli download Wan-AI/Wan2.1-T2V-1.3B --local-dir ./Wan2.1-T2V-1.3B

1.10 修改代码

使用 Python IDLE（安装 Python 时已附带）打开 Wan2.1 根目录下的 generate.py 文件，修改第387行（注意位置可能会变化），删除图中选中的部分后保存。

因 Windows 下文件名不允许包含星号，如不删除导出时会报错。

2.无提示词扩展运行

为了测试安装和运行情况，我们首先不加载提示词扩展（Prompt Extention）运行试试：

python generate.py  --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --offload_model True --t5_cpu --sample_shift 8 --sample_guide_scale 6 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."

根据硬件配置的不同，生成时间可能介于5-30分钟之间，视频文件最终会保存在 Wan2.1 文件夹下。此处官方有特别声明 1.3B 模型的训练数据有限，不建议生成 720P 分辨率。

3.带提示词扩展运行

提示词扩展的作用是使用 AI 帮我们扩写，以生成细节更丰富的画面。我们可以选择使用本地运行、调用 API 或者也可以不使用。这里以本地运行为例：

python generate.py  --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --offload_model True --t5_cpu --sample_shift 8 --sample_guide_scale 6 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage." --use_prompt_extend --prompt_extend_model Qwen/Qwen2.5-3B-Instruct

首次使用本地提示词扩展会下载额外的千问模型，除了 3B 模型外也可以选择 7B 或者 14B 。

4.二次启动环境

首次部署完成后，二次启动环境就简单得多了：

I:
cd Wan2.1\venv\Scripts
activate.bat
cd ..\..