NVIDIA LocateAnything-3B: Model 3B tìm mọi thứ trong ảnh vừa ra mắt

NVIDIA vừa thả một quả bom nhỏ mà không ai để ý

Nếu bạn đang làm về computer vision hay bất kỳ task nào liên quan đến object detection, grounding thì đây là tin bạn cần biết. NVIDIA vừa release LocateAnything-3B trên Hugging Face, một model multimodal chỉ 3 tỷ parameters nhưng có khả năng locate bất kỳ object nào trong ảnh dựa trên text description. Và nó hoàn toàn open-source.

Model này đã thu hút hơn 800 likes và 35,000+ downloads chỉ trong thời gian ngắn. Con số đó nói lên nhiều điều.

LocateAnything-3B là gì và tại sao nó đáng chú ý?

Để hiểu tại sao model này gây chú ý, mình cần đặt nó vào bối cảnh. Trước đây, nếu bạn muốn làm visual grounding tức là cho model một câu mô tả và yêu cầu nó chỉ ra vị trí object trong ảnh bạn thường phải dùng các model lớn kiểu 7B, 13B hoặc thậm chí lớn hơn. Hoặc bạn phải stack nhiều model lại với nhau: một VLM để hiểu, một detector để locate.

LocateAnything-3B giải quyết cả hai vấn đề đó trong một model duy nhất, chỉ 3B params.

Về mặt kỹ thuật, model này được build trên nền tảng Qwen2.5-3B-Instruct (base model) kết hợp với kiến trúc Eagle của NVIDIA cho phần vision. Nó thuộc pipeline image-text-to-text, hỗ trợ conversational format, và sử dụng thư viện transformers nghĩa là bạn có thể load và chạy nó khá straightforward.

Các đặc điểm chính

Điều mình thấy hay là NVIDIA không chỉ release model mà còn kèm theo paper (arxiv:2605.27365) và nhiều references liên quan. Đây không phải kiểu "drop model rồi biến" họ có nghiên cứu bài bản đằng sau.

Đặc điểm	Chi tiết
Kích thước model	3B parameters
Base model	Qwen2.5-3B-Instruct
Kiến trúc vision	NVIDIA Eagle
Pipeline	image-text-to-text
Format	Safetensors
License	Other (custom NVIDIA license)
Ngôn ngữ	English
Tasks hỗ trợ	Object detection, visual grounding, feature extraction
Library	Transformers (custom code)

So sánh nhanh với các giải pháp hiện tại

Để bạn hình dung LocateAnything-3B đứng ở đâu trong hệ sinh thái, mình so sánh nhanh với một số approach phổ biến:

Theo kinh nghiệm của mình, sweet spot cho production thường nằm ở khoảng 3B-7B params. Đủ nhỏ để chạy trên GPU consumer-grade (RTX 3090, 4090), đủ lớn để cho kết quả tốt. LocateAnything-3B rơi đúng vào vùng này.

Approach	Kích thước	Grounding?	Conversational?	Dễ deploy?
LocateAnything-3B	3B	✅ Native	✅	✅ Single model
Grounding DINO + VLM	2-7B+ (stack)	✅	❌	❌ Multi-model pipeline
Qwen2-VL-7B	7B	✅ (limited)	✅	✅ Nhưng nặng hơn
Florence-2	0.2-0.7B	✅	❌	✅ Nhẹ nhưng kém linh hoạt
GPT-4o + bounding box	N/A (API)	✅	✅	❌ Phụ thuộc API, tốn tiền

Ai sẽ được lợi từ model này?

Mình thấy có vài nhóm sẽ đặc biệt quan tâm:

Dân làm product AI

Nếu bạn đang build feature kiểu "click vào object trong ảnh" hoặc "tìm sản phẩm trong ảnh theo mô tả" đây chính xác là model bạn cần thử. Trước đây phải dùng pipeline phức tạp, giờ một model xử lý hết.

Team làm robotics và autonomous systems

Visual grounding là core capability cho robot hiểu môi trường. Model 3B đủ nhỏ để chạy edge, đủ mạnh để locate chính xác đó là combo hiếm.

Researcher và indie developer

Với license mở và format safetensors, bạn có thể fine-tune model này cho domain cụ thể. Ví dụ: grounding cho medical imaging, satellite imagery, hay industrial inspection.

Một vài lưu ý thực tế

Trước khi bạn hào hứng clone repo về chạy, có vài điều cần biết:

Thứ nhất, model sử dụng custom_code nghĩa là khi load bằng transformers, bạn cần set trust_remote_code=True. Điều này khá phổ biến với model NVIDIA nhưng bạn nên review code trước khi chạy trong production.

Thứ hai, license là "other" không phải Apache 2.0 hay MIT. Bạn cần đọc kỹ license terms của NVIDIA trước khi dùng cho commercial product. Đây là điểm mà nhiều người hay bỏ qua rồi gặp vấn đề sau.

Thứ ba, model chỉ hỗ trợ tiếng Anh. Nếu bạn cần grounding với text tiếng Việt, khả năng cao bạn sẽ phải fine-tune thêm hoặc thêm một layer translation.

Theo kinh nghiệm của mình khi làm việc với các model multimodal từ NVIDIA, chất lượng thường rất tốt nhưng documentation ban đầu có thể hơi sparse. Community sẽ bổ sung dần qua discussions trên Hugging Face.

Bức tranh lớn hơn

Đây không phải lần đầu NVIDIA push mạnh vào open-source model. Nhưng LocateAnything-3B đánh dấu một xu hướng rõ ràng: model nhỏ, task-specific, nhưng cực kỳ capable.

Nếu nhìn rộng hơn, chúng ta đang thấy cuộc đua "small but mighty" trong computer vision:

Google có PaliGemma
Microsoft có Florence
Meta có SAM 2
Và giờ NVIDIA có LocateAnything

Điều này tốt cho developer chúng ta. Nhiều lựa chọn hơn, model nhẹ hơn, dễ deploy hơn.

Bạn nên làm gì tiếp?

Nếu bạn đang làm bất kỳ project nào liên quan đến visual understanding, mình khuyên bạn nên:

Clone và thử ngay model có sẵn trên Hugging Face, chạy được với transformers library
Đọc paper arxiv:2605.27365 sẽ cho bạn hiểu architecture và benchmark chi tiết
So sánh với pipeline hiện tại nếu bạn đang dùng multi-model pipeline cho grounding, thử xem LocateAnything-3B có thay thế được không
Check license kỹ đặc biệt nếu bạn dự định dùng commercial

Cộng đồng đang rất active trên trang model discussions đang mở và đó là nơi tốt để hỏi đáp.

Mình sẽ tiếp tục theo dõi model này và có thể sẽ viết thêm bài benchmark chi tiết khi có thời gian hands-on nhiều hơn. Nhưng first impression? NVIDIA đang chơi rất đúng game với LocateAnything-3B. Nhỏ, mạnh, và đúng thứ thị trường cần.