AFUN: Khi robot biết nhìn đồ vật và hiểu ngay phải làm gì

Bạn có bao giờ để ý rằng khi nhìn vào một cái cốc, não mình tự động biết ngay phần nào để cầm, phần nào để uống, và tay cần di chuyển theo quỹ đạo nào không? Cái khả năng đó trong khoa học nhận thức gọi là affordance hiểu nôm na là "vật này cho phép mình làm gì với nó". Dạy robot làm được điều tương tự đã là bài toán khó suốt nhiều năm trong robotics. Và AFUN là một bước tiến khá thú vị trong hướng đó.

Affordance bài toán mà robot vẫn đang loay hoay

Vấn đề cốt lõi với robot manipulation truyền thống là: bạn phải train riêng cho từng task, từng loại đồ vật, thậm chí từng môi trường. Muốn robot mở cửa? Train một model. Muốn nó cầm ly nước? Train model khác. Scale kiểu này cực kỳ tốn kém và không thực tế.

Affordance learning cố gắng giải quyết chuyện này bằng cách dạy model hiểu tính năng tương tác của đồ vật theo nghĩa tổng quát hơn. Nhưng phần lớn các approach trước đây chỉ giải quyết được một phần của bài toán hoặc là predict được chỗ nào để tương tác (contact point), hoặc là di chuyển thế nào sau khi chạm (post-contact motion), chứ ít khi làm được cả hai một cách joint và coherent.

Đây chính là chỗ AFUN nhảy vào.

AFUN làm gì khác so với các model trước?

Paper này (từ nhóm nghiên cứu publish trên HuggingFace đầu tháng 6/2026) đề xuất một affordance foundation model với hai output chính được predict đồng thời:

Task-conditional functional mask: Vùng nào trên vật thể cần tương tác, conditioned trên ngôn ngữ command. Ví dụ: "mở cái hộp" thì mask sẽ highlight vào nắp, còn "nhấc cái hộp" thì mask lại focus vào thân hộp.
3D post-contact motion curve: Sau khi tay robot chạm vào điểm đó, nó cần di chuyển theo quỹ đạo 3D nào. Không phải chỉ một vector đơn giản, mà là cả một curve trong không gian.

Input là một ảnh RGB-D (ảnh màu kết hợp depth map) cộng với language command. Không cần point cloud phức tạp, không cần setup đặc biệt.

Mình thấy cái này hay ở chỗ: hai output đó được predict jointly trong một forward pass duy nhất, thay vì pipeline hai bước rời rạc. Điều này giúp hai task có thể học từ nhau motion curve sẽ consistent hơn với mask, và ngược lại.

Dataset thứ thường bị underestimate

Một trong những điểm mạnh ít được chú ý của AFUN là quy mô và diversity của training data. Họ tổng hợp từ nhiều nguồn:

Việc mix cả 4 nguồn này giúp model không bị overfit vào một distribution cụ thể. Theo kinh nghiệm của mình khi làm các project computer vision, data diversity thường quan trọng hơn data volume thuần túy và đây có vẻ là một trong những dataset affordance real-world lớn nhất được dùng để train đến thời điểm này.

Nguồn dữ liệu	Đặc điểm
Robot demonstrations	Real-world, có ground truth contact và motion
Human demonstrations	Phong phú về cách thao tác tự nhiên
Simulation data	Scale lớn, dễ generate label
3D scan datasets	Geometry phong phú, nhiều loại vật thể

Benchmark results state-of-the-art trên cả 3 task

Kết quả benchmark của AFUN đạt SOTA trên ba loại task:

Đạt SOTA trên cả ba cùng lúc với một model unified là điều không trivial. Thường thì bạn sẽ thấy trade-off optimize cho task này thì task kia giảm. Việc joint training ở đây có vẻ giúp các task hỗ trợ nhau thay vì cạnh tranh.

Benchmark type	Ý nghĩa
Segmentation	Predict đúng vùng functional mask
Contact-point prediction	Xác định điểm tiếp xúc chính xác
3D motion prediction	Quỹ đạo sau tiếp xúc khớp với ground truth

Deploy thẳng lên robot thật không fine-tune thêm

Phần mình ấn tượng nhất là zero-shot transfer lên robot thật. Họ deploy AFUN trực tiếp để thực hiện các manipulation task như opening (mở hộp, mở ngăn kéo) và grasping (cầm nắm vật thể) mà không cần bất kỳ robot-specific fine-tuning nào.

Đây là điểm phân biệt rõ ràng với nhiều robot learning paper khác thường bạn sẽ thấy kết quả đẹp trong sim nhưng khi deploy thật thì cần thêm một đống adaptation. AFUN claim là dùng được trực tiếp, và đây là hướng đi đúng đắn nếu muốn approach này thực sự practical.

Anh em làm robotics sẽ hiểu cái pain này sim-to-real gap là một trong những vấn đề đau đầu nhất của ngành. Nếu model đủ generalizable để không cần fine-tune per-robot, đó là một bước tiến thực sự.

Liên hệ với làn sóng VLA models hiện tại

Nếu bạn đang theo dõi space này, sẽ thấy AFUN xuất hiện trong một cluster các paper khá thú vị cùng thời điểm:

Afford-VLA kết hợp affordance với Vision-Language-Action modeling
Qwen-VLA unified VLA model của Alibaba cho nhiều robot embodiment
BridgeACT bridge human demo sang robot action qua affordance

Trend chung là: thay vì train end-to-end từ observation sang action một cách black-box, community đang cố inject structured understanding về affordance và intention vào giữa pipeline. AFUN fit vào narrative này như một module "hiểu vật thể" có thể plug vào trước bước planning/execution.

Mình nghĩ đây là hướng đi sensible hơn về mặt kỹ thuật bởi vì affordance understanding là một dạng inductive bias có ý nghĩa vật lý rõ ràng, thay vì để model tự học từ đầu mà không có structure.

Điều mình còn muốn biết thêm

Paper chưa nói rõ một vài điểm mà theo mình là quan trọng nếu muốn đưa vào production thật sự:

Latency của inference pipeline là bao nhiêu? RGB-D processing + mask prediction + 3D curve prediction cái này có chạy được real-time không hay chỉ offline?
Failure modes khi gặp vật thể hoàn toàn mới (out-of-distribution) trông như thế nào? Model fail gracefully hay fail catastrophically?
Độ nhạy với depth quality depth sensor rẻ tiền như Intel RealSense thường có noise khá lớn, không biết model có robust không?

Những câu hỏi này sẽ quyết định AFUN có thực sự usable ngoài lab hay không. Nhưng dù sao, paper này vẫn là một contribution solid cả về technical approach lẫn dataset contribution.

Nếu bạn đang làm gì đó liên quan đến robot manipulation, computer vision cho robotics, hay thậm chí chỉ tò mò về affordance learning, thì paper này đáng đọc. Link trên HuggingFace có đầy đủ, và community đang discuss khá sôi nổi.

AFUN: Khi robot biết nhìn đồ vật và hiểu ngay phải làm gì

Affordance bài toán mà robot vẫn đang loay hoay

AFUN làm gì khác so với các model trước?

Dataset thứ thường bị underestimate

Benchmark results state-of-the-art trên cả 3 task

Deploy thẳng lên robot thật không fine-tune thêm

Liên hệ với làn sóng VLA models hiện tại

Điều mình còn muốn biết thêm

Bình luận

Nguyễn Nhật Long

Bài viết liên quan

LVSA: Giải quyết bài toán video dài mà không cần retrain model

κ-SwiGLU: Khi MoE Router Tự Biết Mình Đang Confident Đến Đâu

SVI-Bench: Khi AI xem bóng đá nhưng không hiểu chiến thuật

Bình luận

Bài viết liên quan

LVSA: Giải quyết bài toán video dài mà không cần retrain model

κ-SwiGLU: Khi MoE Router Tự Biết Mình Đang Confident Đến Đâu

SVI-Bench: Khi AI xem bóng đá nhưng không hiểu chiến thuật