LVSA: Giải quyết bài toán video dài mà không cần retrain model

Nếu bạn đã từng thử generate video dài với các model diffusion như HunyuanVideo hay Wan 2.1, chắc bạn biết cái cảm giác đó rồi hoặc là máy báo OOM thẳng tay, hoặc là video generate ra thì cứ lặp đi lặp lại như bị stuck. Đây không phải bug của bạn config sai, đây là vấn đề cơ bản của dense self-attention khi sequence length tăng lên.

Paper LVSA (Long Video Sparse Attention) vừa drop và cách tiếp cận của nó khá thú vị không cần retrain, không cần fine-tune, cắm vào model có sẵn là chạy được.

Dense attention đang là cái cổ chai ở chỗ nào

Vấn đề cơ bản là thế này: attention cost tăng theo bậc hai so với sequence length. Video dài = nhiều frame = sequence dài = compute tăng vọt. Điều này ai cũng biết. Nhưng cái phần ít được nói đến hơn là cái gọi là "frozen video" problem khi bạn generate video dài hơn training horizon của model, output bắt đầu converge về trạng thái gần như static, tức là video cứ lặp đi lặp lại nội dung giống nhau.

Các approach hiện tại thường rơi vào một trong hai hướng: hoặc retrain/fine-tune model (tốn kém, không scale tốt), hoặc dùng các trick inference-time nhưng vẫn không giải quyết được cả hai vấn đề performance lẫn quality cùng lúc.

LVSA hoạt động như thế nào

Cái core idea của LVSA là block-sparse attention kết hợp hai thứ:

Structured window pattern thay vì mỗi token attend vào toàn bộ sequence, nó chỉ attend vào một window local xung quanh nó. Kiểu như sliding window attention nhưng được cấu trúc hóa theo block.
Rotating global anchors đây là phần mình thấy hay nhất. Thay vì dùng fixed global tokens (kiểu như một số token cố định được chọn làm "anchor" cho toàn sequence), LVSA dùng anchors xoay vòng. Cái này giải quyết được fixed-grid bias nguyên nhân gây ra các long-range temporal artifacts trong video.

Cái fixed-grid bias nôm na là: nếu bạn luôn chọn cùng một set token làm global anchor, model sẽ bị bias về phía những vị trí đó, dẫn đến artifacts xuất hiện theo pattern đều đặn theo thời gian. Rotating anchors phá vỡ cái pattern này.

Bên cạnh đó, LVSA được implement kết hợp với FlashInfer kernel một optimized attention kernel để tận dụng tối đa hardware.

Số liệu thực tế

Mình biết anh em thích số liệu cụ thể hơn là lý thuyết, nên đây:

Và so với các approach khác trên Wan 2.1 1.3B:

Model	Horizon	Speedup vs Dense Attention
Wan 2.1 1.3B	6x	3.17x
Wan 2.1 14B	6x	2.98x
HunyuanVideo 1.5	1.5x	3.33x
Wan 2.2 A14B (NPU)		2.71x
Wan 2.1 1.3B (NPU)		3.24x

Cái mình thấy ấn tượng hơn cả số speedup là điểm này: LVSA cho phép HunyuanVideo 1.5 generate ở 2x horizon mà bình thường sẽ OOM trên single GPU. Tức là không chỉ nhanh hơn, mà còn unlock được những use case trước đây không làm được về mặt hardware.

So sánh với	Speedup của LVSA
RIFLEx	2.41x nhanh hơn
UltraViCo	3.27x nhanh hơn

Vấn đề với benchmark hiện tại và cách họ fix nó

Đây là phần mình thấy paper này honest hơn nhiều so với mặt bằng chung. Họ chỉ ra một vấn đề khá nghiêm trọng: VBench-Long, một trong những evaluator phổ biến nhất cho long video, thực ra lại reward những video bị lặp vòng (loopy video).

Tại sao? Vì VBench-Long đánh giá temporal consistency video càng nhất quán theo thời gian thì điểm càng cao. Nhưng video bị frozen/lặp lại thì... cực kỳ consistent. Nên model tệ lại có thể score cao hơn model tốt trên metric này.

Để giải quyết, họ build VQeval một tool riêng để properly penalize loopy video failures. Theo kinh nghiệm của mình khi làm với các video generation model, cái vấn đề metric gaming này rất phổ biến và thường bị bỏ qua, nên việc họ address thẳng vào đây là một điểm cộng lớn về mặt methodology.

Training-free nghĩa là gì trong thực tế

Anh em lưu ý điểm này: "training-free" ở đây có nghĩa là bạn không cần touch vào weights của model. LVSA thay thế cơ chế attention ở inference time tức là về mặt kỹ thuật, nó là một modification vào attention computation graph, không phải vào parameters.

Điều này quan trọng vì:

Không cần GPU cluster để retrain
Có thể apply lên bất kỳ checkpoint nào của model được support
Community fine-tunes (LoRA, etc.) vẫn hoạt động bình thường vì weights không thay đổi
Dễ A/B test hơn bật/tắt LVSA mà không ảnh hưởng gì đến model

Cái "model-agnostic" trong paper cũng được verify thực tế họ test trên cả Wan 2.1 (1.3B và 14B), Wan 2.2, HunyuanVideo 1.5, và cả NPU hardware. Không chỉ claim là agnostic rồi chỉ test một model.

Sparse attention cho video diffusion đang nóng lên

Nếu bạn để ý, trong khoảng 2025-2026 này có một cluster papers đang tackle cùng một problem space: VideoMLA dùng low-rank KV cache, DySink dùng dynamic frame sinks, FIS-DiT dùng frame interleaved sparsity, Veda dùng distilled sparse attention... Cả một làn sóng approach khác nhau đang cố giải quyết bài toán long video generation efficiency.

Điều này cho thấy đây đang là một trong những bottleneck thực sự của field không phải là model architecture hay training data nữa, mà là inference efficiency khi scale lên video dài. Và hướng sparse attention đang được nhiều nhóm research bet vào.

Mình thấy cái này hay ở chỗ: LVSA không cố reinvent the wheel về mặt architecture. Nó take một model đã được train tốt, và làm cho inference của nó scalable hơn. Đây là kiểu optimization thực dụng mà production engineer sẽ thích không cần đợi retrain model mới, không cần infra phức tạp hơn, chỉ cần swap attention mechanism là xong.

Code và implementation details chưa thấy public repo chính thức lúc mình viết bài này, nhưng paper đã có trên Hugging Face. Nếu bạn đang làm gì đó liên quan đến video diffusion inference optimization, đây là một paper đáng đọc kỹ đặc biệt là phần về VQeval, vì benchmark quality cho long video vẫn còn là open problem mà ít ai chịu address thẳng.

LVSA: Giải quyết bài toán video dài mà không cần retrain model

Dense attention đang là cái cổ chai ở chỗ nào

LVSA hoạt động như thế nào

Số liệu thực tế

Vấn đề với benchmark hiện tại và cách họ fix nó

Training-free nghĩa là gì trong thực tế

Sparse attention cho video diffusion đang nóng lên

Bình luận

Nguyễn Nhật Long

Bài viết liên quan

κ-SwiGLU: Khi MoE Router Tự Biết Mình Đang Confident Đến Đâu

AFUN: Khi robot biết nhìn đồ vật và hiểu ngay phải làm gì

SVI-Bench: Khi AI xem bóng đá nhưng không hiểu chiến thuật

Bình luận

Bài viết liên quan

κ-SwiGLU: Khi MoE Router Tự Biết Mình Đang Confident Đến Đâu

AFUN: Khi robot biết nhìn đồ vật và hiểu ngay phải làm gì

SVI-Bench: Khi AI xem bóng đá nhưng không hiểu chiến thuật