LFM2.5-8B-A1B: Model mới từ Liquid AI chỉ dùng 1B params khi chạy

Model 8 tỷ parameters nhưng chỉ "bật" 1 tỷ khi chạy nghe như phép thuật nhưng đó chính xác là thứ Liquid AI vừa ship. LFM2.5-8B-A1B đã lên Hugging Face và cộng đồng đang xôn xao.

Chuyện gì vừa xảy ra?

Liquid AI startup AI ít tiếng nhưng cực kỳ chất lượng, founded bởi các researcher từ MIT vừa release model LFM2.5-8B-A1B lên Hugging Face. Tính đến thời điểm mình viết bài, model đã có gần 38K downloads và 397 likes chỉ trong vài ngày đầu.

Cái tên 8B-A1B nói lên tất cả: model có tổng cộng 8 billion parameters, nhưng chỉ activate khoảng 1 billion trong mỗi lần inference. Đây là kiến trúc Mixture of Experts (MoE) không mới về concept, nhưng cách Liquid AI implement thì đáng để bàn.

Model được build trên transformers library, support text-generation pipeline, và có sẵn chat template theo format <|im_start|> quen thuộc. Nói cách khác, bạn có thể plug and play khá nhanh.

Tại sao điều này quan trọng?

Để hiểu tại sao mình thấy excited, hãy nhìn vào bức tranh lớn hơn.

Hiện tại, chạy LLM ở local hoặc trên server riêng vẫn là bài toán đau đầu. Model 7-8B params thường cần ít nhất 16GB VRAM để chạy thoải mái ở FP16. Nhiều dev Việt Nam mình biết đang dùng RTX 3060 (12GB) hoặc thậm chí chỉ có CPU chạy model 7B đã là cực hình rồi.

Với kiến trúc MoE, LFM2.5-8B-A1B giải quyết vấn đề này theo hướng thông minh: giữ nguyên "knowledge" của model 8B, nhưng compute cost chỉ tương đương model 1B. Bạn vẫn tải full 8B params vào memory, nhưng mỗi token chỉ đi qua một subset nhỏ các expert nên tốc độ inference nhanh hơn đáng kể so với dense model cùng size.

Theo kinh nghiệm của mình khi làm việc với các model MoE khác (như Mixtral), sự khác biệt về latency là rõ ràng. Bạn có thể expect throughput cao hơn 3-5x so với dense model 8B, trong khi chất lượng output không giảm nhiều đôi khi còn tốt hơn.

So sánh nhanh với các model cùng phân khúc

Điều mình thấy hay là tỷ lệ active/total params của LFM2.5 cực kỳ aggressive chỉ 1/8. Mixtral active khoảng 1/3.6 tổng params. Điều này có nghĩa Liquid AI đang push boundary về sparsity, và nếu chất lượng vẫn giữ được thì đây là bước tiến lớn.

Tiêu chí	LFM2.5-8B-A1B	Llama 3.1 8B	Mixtral 8x7B	Qwen2.5 7B
Total params	8B	8B	46.7B	7B
Active params	~1B	8B (dense)	~12.9B	7B (dense)
Kiến trúc	MoE	Dense	MoE	Dense
VRAM cần (FP16)	~16GB (load) nhưng compute nhẹ	~16GB	~90GB	~14GB
Inference speed	Rất nhanh	Trung bình	Nhanh	Trung bình
Library	transformers	transformers	transformers	transformers
Downloads (tuần đầu)	~38K	Hàng triệu	Hàng trăm K	Hàng triệu

Ai nên quan tâm?

Developers đang self-host LLM: Nếu bạn đang chạy Ollama, vLLM, hay bất kỳ inference server nào, model này đáng để thử. Compute cost thấp hơn = serve được nhiều concurrent requests hơn trên cùng phần cứng.

Startup Việt Nam đang build AI products: Với budget hạn chế, việc giảm inference cost mà không sacrifice quá nhiều quality là game changer. Mình đã thấy nhiều team ở Việt Nam đang dùng model 7-8B cho các task như customer support, content generation, code assistant. Model này có thể giúp giảm chi phí GPU đáng kể.

Researchers và AI engineers: Kiến trúc MoE của Liquid AI có những điểm khác biệt so với approach truyền thống. Nếu bạn đang nghiên cứu về efficient inference, đây là reference implementation đáng study.

Một vài điều cần lưu ý

Trước khi bạn rush đi download, có vài điểm mình muốn flag:

Thứ nhất, model mới release nên ecosystem support chưa rộng. Tại thời điểm viết bài, chưa có inference provider nào trên Hugging Face hỗ trợ trực tiếp. Bạn sẽ cần tự setup.

Thứ hai, MoE model tuy compute nhẹ nhưng vẫn cần load toàn bộ params vào memory. Nên VRAM/RAM requirement không giảm so với dense 8B chỉ có tốc độ xử lý là nhanh hơn. Đây là điểm nhiều người hay nhầm.

Thứ ba, mình chưa thấy benchmark results đầy đủ được publish (page Hugging Face có mention eval results nhưng data bị cắt trong source). Bạn nên tự test trên use case cụ thể của mình trước khi commit vào production.

Theo kinh nghiệm của mình, với bất kỳ model mới nào, rule of thumb là: chạy eval trên dataset riêng, đừng tin benchmark chung. Mỗi domain có đặc thù khác nhau.

Chat template và tool calling

Một điểm đáng chú ý là model này support tool calling và thinking mode ngay từ đầu. Nhìn vào chat template, bạn sẽ thấy:

Support <think>...</think> tags cho reasoning (kiểu chain-of-thought)
Support <|tool_call_start|>...<|tool_call_end|> cho function calling
Format theo chuẩn <|im_start|> / <|im_end|> tương thích với nhiều framework có sẵn

Điều này có nghĩa bạn có thể dùng model cho agentic workflows gọi API, query database, thực thi code mà không cần fine-tune thêm. Với 1B active params cho mỗi inference call, chi phí chạy agent loop sẽ rẻ hơn nhiều so với dense model.

Tiếp theo sẽ là gì?

Liquid AI đang đi theo hướng mà mình nghĩ sẽ là xu hướng chính trong 1-2 năm tới: model lớn về knowledge, nhỏ về compute. Google đã làm điều tương tự với Gemini, Mistral với Mixtral, và giờ là Liquid AI với LFM2.5.

Với gần 38K downloads trong tuần đầu, rõ ràng cộng đồng đang rất quan tâm. Mình expect sẽ sớm có:

GGUF quantized versions cho llama.cpp / Ollama
Benchmark comparisons chi tiết từ community
Integration guides cho các framework phổ biến

Nếu bạn đang build product dùng LLM và đang đau đầu về inference cost, đây là model nên có trong radar. Không nhất thiết phải switch ngay, nhưng ít nhất hãy pull về test thử. Biết đâu nó lại fit perfect với use case của bạn.

Link model: LiquidAI/LFM2.5-8B-A1B trên Hugging Face