Trending
5 phút đọc13 tháng 6, 2026

TRON: Khi AI tự sinh data để tự train chính mình

TRON giải quyết bài toán thiếu data cho visual reasoning RL bằng cách sinh vô hạn bài tập kèm đáp án có thể verify được không cần thu thập thủ công.

N

Nguyễn Nhật Long

@nguyennhatlong1303

TRON: Khi AI tự sinh data để tự train chính mình

Một trong những điểm đau nhất khi train model multimodal bằng reinforcement learning là data. Không phải thiếu ảnh, mà là thiếu data có cấu trúc đủ tốt để verify. Bạn cần image + question + answer, và cái answer đó phải đúng 100%, không mơ hồ, không tranh cãi vì RL reward signal phụ thuộc hoàn toàn vào đó. Sai một chút là model học lệch ngay.

Nhóm nghiên cứu từ University of Georgia vừa publish paper TRON (Targeted, Rule-verifiable Online eNvironments) và cách tiếp cận của họ khá thú vị: thay vì đi thu thập dataset tĩnh, họ build hẳn một substrate tức là một hệ thống có thể tự sinh ra training data vô hạn, theo yêu cầu, kèm reward chính xác tuyệt đối.

Vấn đề với static dataset trong Visual RL

Hiện tại hầu hết các approach train visual reasoning bằng RL đều dùng dataset cố định kiểu như bạn có 50k samples, train xong là hết, muốn thêm phải đi collect tiếp. Vấn đề là:

  • Bounded by collection budget: Bao nhiêu tiền, bấy nhiêu data. Không scale được.
  • Fixed difficulty: Dataset tĩnh không tự điều chỉnh theo trình độ model. Model giỏi rồi vẫn phải train trên bài dễ waste compute.
  • Overfitting tiềm ẩn: Model có thể memorize pattern của dataset thay vì học reasoning thật sự.
  • Verify reward khó: Nhiều câu hỏi open-ended không có cách nào verify tự động chính xác 100%.

Mình đã gặp vấn đề tương tự khi làm với các pipeline training nội bộ cứ đến lúc cần scale up là lại phải ngồi annotate thêm, cực kỳ tốn công.

Generator Verifier: Ý tưởng cốt lõi của TRON

TRON giải quyết bằng một kiến trúc đơn giản nhưng hiệu quả: mỗi environment là một Python program gồm hai phần:

  1. Generator: Sinh ra một latent visual state (trạng thái ẩn), render thành image, rồi tạo câu hỏi tương ứng.
  2. Verifier: Nhận answer từ model, so sánh với ground truth được tính từ latent state, trả về reward chính xác.

Vì cả image lẫn answer đều được tính toán từ cùng một latent state, nên reward luôn đúng không cần human annotator, không cần LLM judge, không có ambiguity. Đây là điểm mình thấy cực kỳ elegant: đưa tính determinism vào reward signal.

Mỗi lần training cần một sample, hệ thống gọi generator để sinh fresh instance. Muốn bao nhiêu data cũng có, muốn độ khó nào cũng điều chỉnh được vì difficulty được parameterize ngay trong generator.

520 Environments, 5 nhóm kỹ năng

TRON hiện có 520 environments, chia thành 5 ability buckets:

Cái hay là cùng một substrate này support cả hai scenario: train một model duy nhất trên tất cả 5 buckets, hoặc train specialist model riêng cho từng bucket không cần collect data thêm gì cả.

BucketMô tảVí dụ task
**Spatial**Hiểu không gian, vị trí tương đốiObject A ở bên trái hay phải Object B?
**Mathematical**Tính toán từ visual inputĐọc giá trị từ biểu đồ, tính kết quả
**Diagram**Hiểu sơ đồ, flowchart, graphTìm đường đi ngắn nhất trong graph
**Pattern/Logic**Nhận diện quy luậtTiếp theo trong dãy hình là gì?
**Counting**Đếm objectsCó bao nhiêu hình tròn màu đỏ?

Curriculum learning không cần hard-code

Vì difficulty được control bởi generator parameters, TRON tự nhiên hỗ trợ curriculum learning bắt đầu với bài dễ, tăng dần độ khó khi model improve. Không cần sort dataset thủ công hay build pipeline phức tạp.

Theo kinh nghiệm của mình, curriculum learning với static dataset rất cồng kềnh bạn phải tag difficulty cho từng sample, rồi build sampler logic, rồi monitor xem model đang ở level nào. Với approach của TRON, cái này trở thành một parameter đơn giản truyền vào generator. Sạch hơn nhiều.

Kết quả thực tế trên các benchmark

Nhóm tác giả test RL post-training với TRON trên ba base model:

  • Qwen3-VL-4B
  • Qwen2.5-VL-7B
  • MiMo-VL-7B-SFT

Và evaluate trên 10 external multimodal reasoning benchmarks tất cả đều cho thấy improvement nhất quán. Điểm đáng chú ý là external benchmarks tức là những task model chưa từng thấy trong training, chứng tỏ model học được reasoning thật sự chứ không phải memorize.

Mình chưa reproduce lại kết quả này, nhưng nhìn vào design của substrate thì logic khá thuyết phục. Khi reward signal clean và data diversity cao, RL thường converge tốt hơn nhiều so với noisy reward từ LLM judge.

Substrate Analysis cái mà nhiều paper bỏ qua

Một điểm mình appreciate là nhóm tác giả dành hẳn một phần để analyze chất lượng của substrate trước khi dùng nó train:

  • Generation reliability: Generator có stable không, có crash hay sinh ra invalid samples không?
  • Instance and level diversity: Các instance sinh ra có đủ đa dạng không hay bị repetitive?
  • Cross-environment near-duplicates: Giữa 520 environments có bị overlap quá nhiều không?
  • Base-model pass rate by difficulty: Calibrate xem difficulty levels có meaningful không?

Anh em làm ML thường hay skip phần này cứ build xong là train luôn, rồi mới phát hiện data quality có vấn đề. Việc có một framework analysis rõ ràng như này giúp debug và cải thiện substrate dễ hơn nhiều.

Code và reproducibility

Code đã được open-source tại github.com/YangTianze009/TRON và có project page tại tron-rl.github.io. Với 520 environments viết bằng Python, về lý thuyết bạn có thể extend thêm environment mới cho domain riêng của mình đây là điểm mình thấy practical nhất.

Nếu bạn đang làm gì đó liên quan đến train multimodal model và cần visual reasoning capability, đây là một direction đáng để dig vào. Thay vì đi tìm dataset, thử nghĩ xem task của bạn có thể programmatically generate được không nếu có, approach của TRON hoàn toàn có thể adapt được.

Về mặt bigger picture, đây cũng là một ví dụ điển hình của xu hướng synthetic data generation đang ngày càng phổ biến trong AI research: thay vì phụ thuộc vào human-collected data với tất cả những overhead đi kèm, build system tự sinh data có kiểm soát. Với visual reasoning thì trước giờ khó hơn text vì cần render image, nhưng TRON cho thấy hoàn toàn làm được nếu bạn define problem space đủ rõ ràng.

NN

Nguyễn Nhật Long

@nguyennhatlong1303

Nguyễn Nhật Long is a Senior Frontend Engineer and Frontend Team Leader with 7 years of experience building real-time fintech platforms. Specializing in React, Next.js, TypeScript, and React Native, shipping 10+ products across Web, Mobile, Telegram Mini-Apps, and Web3.

Thấy hay? Chia sẻ cho bạn bè!

TRON: Khi AI tự sinh data để tự train chính mình — Stacklog