MindZero: Dạy AI đọc suy nghĩ người dùng mà không cần label data

Bạn có bao giờ nghĩ đến việc build một AI assistant thực sự hiểu người dùng đang nghĩ gì không? Không phải chỉ phản hồi theo câu lệnh, mà là quan sát hành động của người dùng rồi tự suy ra mục tiêu, ý định, trạng thái tâm lý của họ để đưa ra hỗ trợ phù hợp?

Đó chính xác là bài toán mà paper MindZero từ nhóm nghiên cứu SCAI của Johns Hopkins đang giải quyết. Và cách họ làm thì khá thú vị.

Theory of Mind cái mà AI đang thiếu trầm trọng

Trong tâm lý học, Theory of Mind (ToM) là khả năng hiểu rằng người khác có suy nghĩ, niềm tin, mong muốn riêng khác với của mình. Đây là thứ trẻ em phát triển từ khoảng 4 tuổi, nhưng AI hiện tại vẫn đang vật lộn với nó.

Ví dụ thực tế: bạn đang dùng một robot assistant trong nhà bếp. Bạn mở tủ lạnh, nhìn vào, đóng lại, rồi đi sang bếp. Một AI có ToM tốt sẽ suy ra: "Người dùng đang tìm thứ gì đó trong tủ lạnh nhưng không thấy, có thể họ cần mình gợi ý nguyên liệu thay thế." Một AI không có ToM thì... chỉ đứng nhìn.

Các LLM hiện tại, kể cả GPT-4o hay Claude, khi được test trên các benchmark ToM thì performance vẫn còn khá hạn chế, đặc biệt trong các tình huống dynamic, multi-step.

Ba cái khó mà MindZero phải giải quyết

Nhóm tác giả xác định rõ ba thách thức chính:

1. Online inference với uncertainty: Khi quan sát hành động của người dùng theo thời gian thực, model cần liên tục update nhiều hypothesis về mental state của họ, không phải chỉ đưa ra một đáp án cứng nhắc.

2. Tốc độ inference: Các phương pháp model-based ToM truyền thống rất chậm họ phải chạy planner, simulate nhiều scenario, rồi mới ra kết quả. Không phù hợp cho real-time assistance.

3. Không có ground-truth annotation: Đây là cái khó nhất. Trong thực tế, bạn không thể label "lúc này người dùng đang nghĩ X" vì bạn không đọc được suy nghĩ của họ. Dataset có annotation mental state gần như không tồn tại ở quy mô đủ lớn.

Self-supervised RL cách MindZero né bài toán annotation

Đây là phần mình thấy elegant nhất của paper này.

Thay vì cố gắng label mental state (vốn là impossible), MindZero dùng một insight rất thông minh: nếu bạn suy luận đúng mental state của người dùng, thì bạn sẽ predict được hành động tiếp theo của họ chính xác hơn.

Flow training của MindZero trông như thế này:

Model quan sát sequence hành động của người dùng
Model generate ra các mental state hypotheses (ví dụ: "người dùng đang muốn nấu pasta", "người dùng đang tìm muối")
Một planner được dùng để estimate: nếu mental state là X, thì likelihood của các hành động đã quan sát là bao nhiêu?
Model được reward khi hypothesis của nó maximize likelihood đó

Không cần ai label gì cả. Reward signal hoàn toàn đến từ việc "hypothesis của mày có giải thích được hành động quan sát không?" Đây chính là self-supervised RL.

Mình thấy cái này hay ở chỗ nó giống cách con người học ToM chúng ta không được ai dạy "lúc này bạn A đang nghĩ Y" mà chúng ta tự học qua việc observe và predict hành động của người khác.

Sau training thì sao? Đây mới là phần hay

Sau khi train xong, MindZero không còn cần planner nữa. Toàn bộ khả năng model-based reasoning đã được internalize vào trong weights của MLLM. Lúc inference, model chỉ cần một single forward pass không cần gọi planner, không cần simulate, không cần chain-of-thought dài dòng.

Đây là điểm khác biệt quan trọng so với các approach khác:

Theo kinh nghiệm của mình khi làm các hệ thống AI assistant, cái bottleneck lớn nhất thường không phải là accuracy mà là latency. Một model chính xác nhưng mất 5 giây để respond thì user experience rất tệ. MindZero giải quyết được cả hai.

Phương pháp	Cần annotation	Tốc độ inference	Accuracy
LLM thuần (GPT-4o, etc.)	Không	Nhanh	Thấp
Model-based ToM	Không	Rất chậm	Trung bình-Cao
Fine-tuned với mental state labels	Cần nhiều	Nhanh	Trung bình
MindZero	Không cần	Nhanh	Cao nhất

Benchmark trên gridworld và household domains

Nhóm tác giả test trên hai domain:

Gridworld: Môi trường đơn giản hóa, agent di chuyển trong grid, AI phải suy ra goal
Household: Môi trường mô phỏng nhà ở, phức tạp hơn nhiều với nhiều object và action

Kết quả cho thấy MindZero outperform model-based methods trên cả accuracy lẫn efficiency. Điều này khá ấn tượng vì model-based methods vốn được thiết kế để accurate họ chỉ chậm. Việc MindZero vừa nhanh hơn vừa chính xác hơn cho thấy quá trình internalization trong training thực sự hoạt động tốt.

Một điểm đáng chú ý: paper cũng confirm rằng LLM thuần không đủ cho bài toán này. Dù bạn dùng model mạnh đến đâu, nếu không có một mechanism để reason về mental state một cách có cấu trúc, performance vẫn kém. Điều này quan trọng vì nhiều người hay assume rằng "model to hơn là giải quyết được mọi thứ."

Anh em lưu ý giới hạn thực tế

Paper này impressive nhưng mình cũng muốn nói thẳng một vài điểm cần cân nhắc trước khi excited quá:

Thứ nhất, các experiment vẫn đang trong môi trường simulated (gridworld, household simulation). Khoảng cách từ đây đến real-world deployment là không nhỏ noise trong observation thực tế, ambiguity trong hành động người dùng, edge cases... tất cả đều phức tạp hơn nhiều.

Thứ hai, planner được dùng trong training vẫn cần được design cho từng domain. Đây không phải zero-effort bạn vẫn cần domain knowledge để build planner đó.

Thứ ba, paper chưa nói nhiều về scalability liệu approach này có hoạt động tốt khi mental state space phức tạp hơn, hoặc khi observation sequence dài hơn?

Nhưng dù vậy, hướng đi của MindZero dùng action prediction như một proxy reward để học mental reasoning mà không cần annotation là một contribution thực sự có giá trị. Code đã được open-source tại GitHub của nhóm SCAI-JHU, nên bạn hoàn toàn có thể dig vào xem implementation chi tiết.

Với những ai đang build AI assistant, recommendation system, hay bất kỳ hệ thống nào cần model hóa intent của người dùng đây là một paper đáng đọc kỹ.

MindZero: Dạy AI đọc suy nghĩ người dùng mà không cần label data

Theory of Mind cái mà AI đang thiếu trầm trọng

Ba cái khó mà MindZero phải giải quyết

Self-supervised RL cách MindZero né bài toán annotation

Sau training thì sao? Đây mới là phần hay

Benchmark trên gridworld và household domains

Anh em lưu ý giới hạn thực tế

Bình luận

Nguyễn Nhật Long

Bài viết liên quan

GitHub Actions + Docker: Setup CI/CD Pipeline Từ A Đến Z

Docker là gì và tại sao bạn không thể bỏ qua nó nữa

TRON: Khi AI tự sinh data để tự train chính mình

Bình luận

Bài viết liên quan

GitHub Actions + Docker: Setup CI/CD Pipeline Từ A Đến Z

Docker là gì và tại sao bạn không thể bỏ qua nó nữa

TRON: Khi AI tự sinh data để tự train chính mình