#Optimization

3 bài viết

LVSA: Giải quyết bài toán video dài mà không cần retrain model

Sparse attention không cần training, giảm compute đến 3.33x, và còn fix được cái bug video bị lặp vòng mà VBench-Long không detect ra.

κ-SwiGLU dùng chính router logits của MoE để điều chỉnh độ sắc nét của expert gate thêm cực ít params nhưng pretraining performance cải thiện rõ rệt.

Profiling thực tế, React Compiler, code splitting, virtualization tất cả những gì bạn cần để tối ưu React app mà không cần đoán mò.