NVIDIA LocateAnything-3B: Model 3B tìm mọi thứ trong ảnh vừa ra mắt
NVIDIA vừa drop LocateAnything-3B model chỉ 3B params nhưng detect và ground object trong ảnh cực mạnh. Đây là tin lớn cho dân làm computer vision.
Nguyễn Nhật Long
@nguyennhatlong1303
NVIDIA vừa thả một quả bom nhỏ mà không ai để ý
Nếu bạn đang làm về computer vision hay bất kỳ task nào liên quan đến object detection, grounding thì đây là tin bạn cần biết. NVIDIA vừa release LocateAnything-3B trên Hugging Face, một model multimodal chỉ 3 tỷ parameters nhưng có khả năng locate bất kỳ object nào trong ảnh dựa trên text description. Và nó hoàn toàn open-source.
Model này đã thu hút hơn 800 likes và 35,000+ downloads chỉ trong thời gian ngắn. Con số đó nói lên nhiều điều.
LocateAnything-3B là gì và tại sao nó đáng chú ý?
Để hiểu tại sao model này gây chú ý, mình cần đặt nó vào bối cảnh. Trước đây, nếu bạn muốn làm visual grounding tức là cho model một câu mô tả và yêu cầu nó chỉ ra vị trí object trong ảnh bạn thường phải dùng các model lớn kiểu 7B, 13B hoặc thậm chí lớn hơn. Hoặc bạn phải stack nhiều model lại với nhau: một VLM để hiểu, một detector để locate.
LocateAnything-3B giải quyết cả hai vấn đề đó trong một model duy nhất, chỉ 3B params.
Về mặt kỹ thuật, model này được build trên nền tảng Qwen2.5-3B-Instruct (base model) kết hợp với kiến trúc Eagle của NVIDIA cho phần vision. Nó thuộc pipeline image-text-to-text, hỗ trợ conversational format, và sử dụng thư viện transformers nghĩa là bạn có thể load và chạy nó khá straightforward.
Các đặc điểm chính
Điều mình thấy hay là NVIDIA không chỉ release model mà còn kèm theo paper (arxiv:2605.27365) và nhiều references liên quan. Đây không phải kiểu "drop model rồi biến" họ có nghiên cứu bài bản đằng sau.
| Đặc điểm | Chi tiết |
|---|---|
| **Kích thước model** | 3B parameters |
| **Base model** | Qwen2.5-3B-Instruct |
| **Kiến trúc vision** | NVIDIA Eagle |
| **Pipeline** | image-text-to-text |
| **Format** | Safetensors |
| **License** | Other (custom NVIDIA license) |
| **Ngôn ngữ** | English |
| **Tasks hỗ trợ** | Object detection, visual grounding, feature extraction |
| **Library** | Transformers (custom code) |
So sánh nhanh với các giải pháp hiện tại
Để bạn hình dung LocateAnything-3B đứng ở đâu trong hệ sinh thái, mình so sánh nhanh với một số approach phổ biến:
Theo kinh nghiệm của mình, sweet spot cho production thường nằm ở khoảng 3B-7B params. Đủ nhỏ để chạy trên GPU consumer-grade (RTX 3090, 4090), đủ lớn để cho kết quả tốt. LocateAnything-3B rơi đúng vào vùng này.
| Approach | Kích thước | Grounding? | Conversational? | Dễ deploy? |
|---|---|---|---|---|
| **LocateAnything-3B** | 3B | ✅ Native | ✅ | ✅ Single model |
| **Grounding DINO + VLM** | 2-7B+ (stack) | ✅ | ❌ | ❌ Multi-model pipeline |
| **Qwen2-VL-7B** | 7B | ✅ (limited) | ✅ | ✅ Nhưng nặng hơn |
| **Florence-2** | 0.2-0.7B | ✅ | ❌ | ✅ Nhẹ nhưng kém linh hoạt |
| **GPT-4o + bounding box** | N/A (API) | ✅ | ✅ | ❌ Phụ thuộc API, tốn tiền |
Ai sẽ được lợi từ model này?
Mình thấy có vài nhóm sẽ đặc biệt quan tâm:
Dân làm product AI
Nếu bạn đang build feature kiểu "click vào object trong ảnh" hoặc "tìm sản phẩm trong ảnh theo mô tả" đây chính xác là model bạn cần thử. Trước đây phải dùng pipeline phức tạp, giờ một model xử lý hết.
Team làm robotics và autonomous systems
Visual grounding là core capability cho robot hiểu môi trường. Model 3B đủ nhỏ để chạy edge, đủ mạnh để locate chính xác đó là combo hiếm.
Researcher và indie developer
Với license mở và format safetensors, bạn có thể fine-tune model này cho domain cụ thể. Ví dụ: grounding cho medical imaging, satellite imagery, hay industrial inspection.
Một vài lưu ý thực tế
Trước khi bạn hào hứng clone repo về chạy, có vài điều cần biết:
Thứ nhất, model sử dụng custom_code nghĩa là khi load bằng transformers, bạn cần set trust_remote_code=True. Điều này khá phổ biến với model NVIDIA nhưng bạn nên review code trước khi chạy trong production.
Thứ hai, license là "other" không phải Apache 2.0 hay MIT. Bạn cần đọc kỹ license terms của NVIDIA trước khi dùng cho commercial product. Đây là điểm mà nhiều người hay bỏ qua rồi gặp vấn đề sau.
Thứ ba, model chỉ hỗ trợ tiếng Anh. Nếu bạn cần grounding với text tiếng Việt, khả năng cao bạn sẽ phải fine-tune thêm hoặc thêm một layer translation.
Theo kinh nghiệm của mình khi làm việc với các model multimodal từ NVIDIA, chất lượng thường rất tốt nhưng documentation ban đầu có thể hơi sparse. Community sẽ bổ sung dần qua discussions trên Hugging Face.
Bức tranh lớn hơn
Đây không phải lần đầu NVIDIA push mạnh vào open-source model. Nhưng LocateAnything-3B đánh dấu một xu hướng rõ ràng: model nhỏ, task-specific, nhưng cực kỳ capable.
Nếu nhìn rộng hơn, chúng ta đang thấy cuộc đua "small but mighty" trong computer vision:
- Google có PaliGemma
- Microsoft có Florence
- Meta có SAM 2
- Và giờ NVIDIA có LocateAnything
Điều này tốt cho developer chúng ta. Nhiều lựa chọn hơn, model nhẹ hơn, dễ deploy hơn.
Bạn nên làm gì tiếp?
Nếu bạn đang làm bất kỳ project nào liên quan đến visual understanding, mình khuyên bạn nên:
- Clone và thử ngay model có sẵn trên Hugging Face, chạy được với transformers library
- Đọc paper arxiv:2605.27365 sẽ cho bạn hiểu architecture và benchmark chi tiết
- So sánh với pipeline hiện tại nếu bạn đang dùng multi-model pipeline cho grounding, thử xem LocateAnything-3B có thay thế được không
- Check license kỹ đặc biệt nếu bạn dự định dùng commercial
Cộng đồng đang rất active trên trang model discussions đang mở và đó là nơi tốt để hỏi đáp.
Mình sẽ tiếp tục theo dõi model này và có thể sẽ viết thêm bài benchmark chi tiết khi có thời gian hands-on nhiều hơn. Nhưng first impression? NVIDIA đang chơi rất đúng game với LocateAnything-3B. Nhỏ, mạnh, và đúng thứ thị trường cần.
Nguyễn Nhật Long
@nguyennhatlong1303Nguyễn Nhật Long is a Senior Frontend Engineer and Frontend Team Leader with 7 years of experience building real-time fintech platforms. Specializing in React, Next.js, TypeScript, and React Native, shipping 10+ products across Web, Mobile, Telegram Mini-Apps, and Web3.
Thấy hay? Chia sẻ cho bạn bè!