LVSA: Giải quyết bài toán video dài mà không cần retrain model
Sparse attention không cần training, giảm compute đến 3.33x, và còn fix được cái bug video bị lặp vòng mà VBench-Long không detect ra.
Nguyễn Nhật Long
@nguyennhatlong1303
Nếu bạn đã từng thử generate video dài với các model diffusion như HunyuanVideo hay Wan 2.1, chắc bạn biết cái cảm giác đó rồi hoặc là máy báo OOM thẳng tay, hoặc là video generate ra thì cứ lặp đi lặp lại như bị stuck. Đây không phải bug của bạn config sai, đây là vấn đề cơ bản của dense self-attention khi sequence length tăng lên.
Paper LVSA (Long Video Sparse Attention) vừa drop và cách tiếp cận của nó khá thú vị không cần retrain, không cần fine-tune, cắm vào model có sẵn là chạy được.
Dense attention đang là cái cổ chai ở chỗ nào
Vấn đề cơ bản là thế này: attention cost tăng theo bậc hai so với sequence length. Video dài = nhiều frame = sequence dài = compute tăng vọt. Điều này ai cũng biết. Nhưng cái phần ít được nói đến hơn là cái gọi là "frozen video" problem khi bạn generate video dài hơn training horizon của model, output bắt đầu converge về trạng thái gần như static, tức là video cứ lặp đi lặp lại nội dung giống nhau.
Các approach hiện tại thường rơi vào một trong hai hướng: hoặc retrain/fine-tune model (tốn kém, không scale tốt), hoặc dùng các trick inference-time nhưng vẫn không giải quyết được cả hai vấn đề performance lẫn quality cùng lúc.
LVSA hoạt động như thế nào
Cái core idea của LVSA là block-sparse attention kết hợp hai thứ:
- Structured window pattern thay vì mỗi token attend vào toàn bộ sequence, nó chỉ attend vào một window local xung quanh nó. Kiểu như sliding window attention nhưng được cấu trúc hóa theo block.
- Rotating global anchors đây là phần mình thấy hay nhất. Thay vì dùng fixed global tokens (kiểu như một số token cố định được chọn làm "anchor" cho toàn sequence), LVSA dùng anchors xoay vòng. Cái này giải quyết được fixed-grid bias nguyên nhân gây ra các long-range temporal artifacts trong video.
Cái fixed-grid bias nôm na là: nếu bạn luôn chọn cùng một set token làm global anchor, model sẽ bị bias về phía những vị trí đó, dẫn đến artifacts xuất hiện theo pattern đều đặn theo thời gian. Rotating anchors phá vỡ cái pattern này.
Bên cạnh đó, LVSA được implement kết hợp với FlashInfer kernel một optimized attention kernel để tận dụng tối đa hardware.
Số liệu thực tế
Mình biết anh em thích số liệu cụ thể hơn là lý thuyết, nên đây:
Và so với các approach khác trên Wan 2.1 1.3B:
| Model | Horizon | Speedup vs Dense Attention |
|---|---|---|
| Wan 2.1 1.3B | 6x | 3.17x |
| Wan 2.1 14B | 6x | 2.98x |
| HunyuanVideo 1.5 | 1.5x | 3.33x |
| Wan 2.2 A14B (NPU) | 2.71x | |
| Wan 2.1 1.3B (NPU) | 3.24x |
Cái mình thấy ấn tượng hơn cả số speedup là điểm này: LVSA cho phép HunyuanVideo 1.5 generate ở 2x horizon mà bình thường sẽ OOM trên single GPU. Tức là không chỉ nhanh hơn, mà còn unlock được những use case trước đây không làm được về mặt hardware.
| So sánh với | Speedup của LVSA |
|---|---|
| RIFLEx | 2.41x nhanh hơn |
| UltraViCo | 3.27x nhanh hơn |
Vấn đề với benchmark hiện tại và cách họ fix nó
Đây là phần mình thấy paper này honest hơn nhiều so với mặt bằng chung. Họ chỉ ra một vấn đề khá nghiêm trọng: VBench-Long, một trong những evaluator phổ biến nhất cho long video, thực ra lại reward những video bị lặp vòng (loopy video).
Tại sao? Vì VBench-Long đánh giá temporal consistency video càng nhất quán theo thời gian thì điểm càng cao. Nhưng video bị frozen/lặp lại thì... cực kỳ consistent. Nên model tệ lại có thể score cao hơn model tốt trên metric này.
Để giải quyết, họ build VQeval một tool riêng để properly penalize loopy video failures. Theo kinh nghiệm của mình khi làm với các video generation model, cái vấn đề metric gaming này rất phổ biến và thường bị bỏ qua, nên việc họ address thẳng vào đây là một điểm cộng lớn về mặt methodology.
Training-free nghĩa là gì trong thực tế
Anh em lưu ý điểm này: "training-free" ở đây có nghĩa là bạn không cần touch vào weights của model. LVSA thay thế cơ chế attention ở inference time tức là về mặt kỹ thuật, nó là một modification vào attention computation graph, không phải vào parameters.
Điều này quan trọng vì:
- Không cần GPU cluster để retrain
- Có thể apply lên bất kỳ checkpoint nào của model được support
- Community fine-tunes (LoRA, etc.) vẫn hoạt động bình thường vì weights không thay đổi
- Dễ A/B test hơn bật/tắt LVSA mà không ảnh hưởng gì đến model
Cái "model-agnostic" trong paper cũng được verify thực tế họ test trên cả Wan 2.1 (1.3B và 14B), Wan 2.2, HunyuanVideo 1.5, và cả NPU hardware. Không chỉ claim là agnostic rồi chỉ test một model.
Sparse attention cho video diffusion đang nóng lên
Nếu bạn để ý, trong khoảng 2025-2026 này có một cluster papers đang tackle cùng một problem space: VideoMLA dùng low-rank KV cache, DySink dùng dynamic frame sinks, FIS-DiT dùng frame interleaved sparsity, Veda dùng distilled sparse attention... Cả một làn sóng approach khác nhau đang cố giải quyết bài toán long video generation efficiency.
Điều này cho thấy đây đang là một trong những bottleneck thực sự của field không phải là model architecture hay training data nữa, mà là inference efficiency khi scale lên video dài. Và hướng sparse attention đang được nhiều nhóm research bet vào.
Mình thấy cái này hay ở chỗ: LVSA không cố reinvent the wheel về mặt architecture. Nó take một model đã được train tốt, và làm cho inference của nó scalable hơn. Đây là kiểu optimization thực dụng mà production engineer sẽ thích không cần đợi retrain model mới, không cần infra phức tạp hơn, chỉ cần swap attention mechanism là xong.
Code và implementation details chưa thấy public repo chính thức lúc mình viết bài này, nhưng paper đã có trên Hugging Face. Nếu bạn đang làm gì đó liên quan đến video diffusion inference optimization, đây là một paper đáng đọc kỹ đặc biệt là phần về VQeval, vì benchmark quality cho long video vẫn còn là open problem mà ít ai chịu address thẳng.
Nguyễn Nhật Long
@nguyennhatlong1303Nguyễn Nhật Long is a Senior Frontend Engineer and Frontend Team Leader with 7 years of experience building real-time fintech platforms. Specializing in React, Next.js, TypeScript, and React Native, shipping 10+ products across Web, Mobile, Telegram Mini-Apps, and Web3.
Thấy hay? Chia sẻ cho bạn bè!