自回归蒸馏#
自回归蒸馏是 LightX2V 中的一个技术探索,通过训练蒸馏模型将推理步数从原始的 40-50 步减少到 8 步,在实现推理加速的同时能够通过 KV Cache 技术生成无限长视频。
⚠️ 警告:目前自回归蒸馏的效果一般,加速效果也没有达到预期,但是可以作为一个长期的研究项目。目前 LightX2V 仅支持 T2V 的自回归模型。
🔍 技术原理#
自回归蒸馏通过 CausVid 技术实现。CausVid 针对 1.3B 的自回归模型进行步数蒸馏、CFG蒸馏。LightX2V 在其基础上,进行了一系列扩展:
更大的模型:支持 14B 模型的自回归蒸馏训练;
更完整的数据处理流程:生成 50,000 个提示词-视频对的训练数据集;
具体实现可参考 CausVid-Plus。
🛠️ 配置文件说明#
配置文件#
在 configs/causvid/ 目录下提供了配置选项:
配置文件 |
模型地址 |
|---|---|
https://huggingface.co/lightx2v/Wan2.1-T2V-14B-CausVid |
关键配置参数#
{
"enable_cfg": false, // 关闭CFG以提升速度
"num_fragments": 3, // 一次生成视频的段数,每段5s
"num_frames": 21, // 每段视频的帧数,谨慎修改!
"num_frame_per_block": 3, // 每个自回归块的帧数,谨慎修改!
"num_blocks": 7, // 每段视频的自回归块数,谨慎修改!
"frame_seq_length": 1560, // 每帧的编码长度,谨慎修改!
"denoising_step_list": [ // 去噪时间步列表
999, 934, 862, 756, 603, 410, 250, 140, 74
]
}
📜 使用方法#
模型准备#
将下载好的模型(causal_model.pt 或者 causal_model.safetensors)放到 Wan 模型根目录的 causvid_models/ 文件夹下即可
对于 T2V:
Wan2.1-T2V-14B/causvid_models/
推理脚本#
bash scripts/wan/run_wan_t2v_causvid.sh