TRON: Khi AI tự sinh data để tự train chính mình

Một trong những điểm đau nhất khi train model multimodal bằng reinforcement learning là data. Không phải thiếu ảnh, mà là thiếu data có cấu trúc đủ tốt để verify. Bạn cần image + question + answer, và cái answer đó phải đúng 100%, không mơ hồ, không tranh cãi vì RL reward signal phụ thuộc hoàn toàn vào đó. Sai một chút là model học lệch ngay.

Nhóm nghiên cứu từ University of Georgia vừa publish paper TRON (Targeted, Rule-verifiable Online eNvironments) và cách tiếp cận của họ khá thú vị: thay vì đi thu thập dataset tĩnh, họ build hẳn một substrate tức là một hệ thống có thể tự sinh ra training data vô hạn, theo yêu cầu, kèm reward chính xác tuyệt đối.

Vấn đề với static dataset trong Visual RL

Hiện tại hầu hết các approach train visual reasoning bằng RL đều dùng dataset cố định kiểu như bạn có 50k samples, train xong là hết, muốn thêm phải đi collect tiếp. Vấn đề là:

Bounded by collection budget: Bao nhiêu tiền, bấy nhiêu data. Không scale được.
Fixed difficulty: Dataset tĩnh không tự điều chỉnh theo trình độ model. Model giỏi rồi vẫn phải train trên bài dễ waste compute.
Overfitting tiềm ẩn: Model có thể memorize pattern của dataset thay vì học reasoning thật sự.
Verify reward khó: Nhiều câu hỏi open-ended không có cách nào verify tự động chính xác 100%.

Mình đã gặp vấn đề tương tự khi làm với các pipeline training nội bộ cứ đến lúc cần scale up là lại phải ngồi annotate thêm, cực kỳ tốn công.

Generator Verifier: Ý tưởng cốt lõi của TRON

TRON giải quyết bằng một kiến trúc đơn giản nhưng hiệu quả: mỗi environment là một Python program gồm hai phần:

Generator: Sinh ra một latent visual state (trạng thái ẩn), render thành image, rồi tạo câu hỏi tương ứng.
Verifier: Nhận answer từ model, so sánh với ground truth được tính từ latent state, trả về reward chính xác.

Vì cả image lẫn answer đều được tính toán từ cùng một latent state, nên reward luôn đúng không cần human annotator, không cần LLM judge, không có ambiguity. Đây là điểm mình thấy cực kỳ elegant: đưa tính determinism vào reward signal.

Mỗi lần training cần một sample, hệ thống gọi generator để sinh fresh instance. Muốn bao nhiêu data cũng có, muốn độ khó nào cũng điều chỉnh được vì difficulty được parameterize ngay trong generator.

520 Environments, 5 nhóm kỹ năng

TRON hiện có 520 environments, chia thành 5 ability buckets:

Cái hay là cùng một substrate này support cả hai scenario: train một model duy nhất trên tất cả 5 buckets, hoặc train specialist model riêng cho từng bucket không cần collect data thêm gì cả.

Bucket	Mô tả	Ví dụ task
Spatial	Hiểu không gian, vị trí tương đối	Object A ở bên trái hay phải Object B?
Mathematical	Tính toán từ visual input	Đọc giá trị từ biểu đồ, tính kết quả
Diagram	Hiểu sơ đồ, flowchart, graph	Tìm đường đi ngắn nhất trong graph
Pattern/Logic	Nhận diện quy luật	Tiếp theo trong dãy hình là gì?
Counting	Đếm objects	Có bao nhiêu hình tròn màu đỏ?

Curriculum learning không cần hard-code

Vì difficulty được control bởi generator parameters, TRON tự nhiên hỗ trợ curriculum learning bắt đầu với bài dễ, tăng dần độ khó khi model improve. Không cần sort dataset thủ công hay build pipeline phức tạp.

Theo kinh nghiệm của mình, curriculum learning với static dataset rất cồng kềnh bạn phải tag difficulty cho từng sample, rồi build sampler logic, rồi monitor xem model đang ở level nào. Với approach của TRON, cái này trở thành một parameter đơn giản truyền vào generator. Sạch hơn nhiều.

Kết quả thực tế trên các benchmark

Nhóm tác giả test RL post-training với TRON trên ba base model:

Qwen3-VL-4B
Qwen2.5-VL-7B
MiMo-VL-7B-SFT

Và evaluate trên 10 external multimodal reasoning benchmarks tất cả đều cho thấy improvement nhất quán. Điểm đáng chú ý là external benchmarks tức là những task model chưa từng thấy trong training, chứng tỏ model học được reasoning thật sự chứ không phải memorize.

Mình chưa reproduce lại kết quả này, nhưng nhìn vào design của substrate thì logic khá thuyết phục. Khi reward signal clean và data diversity cao, RL thường converge tốt hơn nhiều so với noisy reward từ LLM judge.

Substrate Analysis cái mà nhiều paper bỏ qua

Một điểm mình appreciate là nhóm tác giả dành hẳn một phần để analyze chất lượng của substrate trước khi dùng nó train:

Generation reliability: Generator có stable không, có crash hay sinh ra invalid samples không?
Instance and level diversity: Các instance sinh ra có đủ đa dạng không hay bị repetitive?
Cross-environment near-duplicates: Giữa 520 environments có bị overlap quá nhiều không?
Base-model pass rate by difficulty: Calibrate xem difficulty levels có meaningful không?

Anh em làm ML thường hay skip phần này cứ build xong là train luôn, rồi mới phát hiện data quality có vấn đề. Việc có một framework analysis rõ ràng như này giúp debug và cải thiện substrate dễ hơn nhiều.

Code và reproducibility

Code đã được open-source tại github.com/YangTianze009/TRON và có project page tại tron-rl.github.io. Với 520 environments viết bằng Python, về lý thuyết bạn có thể extend thêm environment mới cho domain riêng của mình đây là điểm mình thấy practical nhất.

Nếu bạn đang làm gì đó liên quan đến train multimodal model và cần visual reasoning capability, đây là một direction đáng để dig vào. Thay vì đi tìm dataset, thử nghĩ xem task của bạn có thể programmatically generate được không nếu có, approach của TRON hoàn toàn có thể adapt được.

Về mặt bigger picture, đây cũng là một ví dụ điển hình của xu hướng synthetic data generation đang ngày càng phổ biến trong AI research: thay vì phụ thuộc vào human-collected data với tất cả những overhead đi kèm, build system tự sinh data có kiểm soát. Với visual reasoning thì trước giờ khó hơn text vì cần render image, nhưng TRON cho thấy hoàn toàn làm được nếu bạn define problem space đủ rõ ràng.

TRON: Khi AI tự sinh data để tự train chính mình

Vấn đề với static dataset trong Visual RL

Generator Verifier: Ý tưởng cốt lõi của TRON

520 Environments, 5 nhóm kỹ năng

Curriculum learning không cần hard-code

Kết quả thực tế trên các benchmark

Substrate Analysis cái mà nhiều paper bỏ qua

Code và reproducibility

Bình luận

Nguyễn Nhật Long

Bài viết liên quan

GitHub Actions + Docker: Setup CI/CD Pipeline Từ A Đến Z

Docker là gì và tại sao bạn không thể bỏ qua nó nữa

MindZero: Dạy AI đọc suy nghĩ người dùng mà không cần label data

Bình luận

Bài viết liên quan

GitHub Actions + Docker: Setup CI/CD Pipeline Từ A Đến Z

Docker là gì và tại sao bạn không thể bỏ qua nó nữa

MindZero: Dạy AI đọc suy nghĩ người dùng mà không cần label data