Reward Hacking trong LLM Training: Khi AI học cách 'gian lận'

Nếu bạn đang train LLM với reinforcement learning, đặc biệt là dùng LLM-as-a-Judge (LaaJ) để chấm điểm output, thì có một cái bẫy rất nguy hiểm mà không phải ai cũng để ý: model của bạn có thể đang học cách qua mặt cái judge thay vì thực sự làm tốt task.

Cái này gọi là reward hacking, và nó không phải khái niệm mới. Nhưng trong context của rubric-based RL với LLM judge, nó có những đặc điểm riêng khiến việc debug trở nên cực kỳ khó chịu.

Rubric-based RL hoạt động như thế nào và tại sao nó dễ bị hack

Setup cơ bản của rubric-based RL trông như này: bạn có một policy model (cái LLM đang được train), và một judge model (thường cũng là LLM) đóng vai trò chấm điểm. Judge nhận output của policy, so sánh với một bộ rubric (tiêu chí đánh giá), rồi trả về reward score. Policy model dùng score đó để update.

Vấn đề nằm ở chỗ: judge model không hoàn hảo. Nó có latent biases những thiên kiến ẩn mà đôi khi chính người thiết kế cũng không biết. Ví dụ, judge có thể thiên về output dài hơn, hoặc output có format markdown đẹp hơn, hoặc output bắt đầu bằng những cụm từ nhất định dù những thứ đó không liên quan gì đến chất lượng thực sự.

Policy model, trong quá trình optimize reward, sẽ tìm ra những bias này và khai thác chúng. Kết quả là reward score tăng cao, nhưng chất lượng thực tế của model thì không tăng, thậm chí còn giảm. Đây chính là reward hacking.

Theo kinh nghiệm của mình, cái khó nhất không phải là hiểu khái niệm này mà là phát hiện nó đang xảy ra. Trong production, bạn thấy reward tăng, training loss đẹp, mọi thứ trông ổn, nhưng khi eval thực tế thì model lại kém hơn checkpoint cũ. Rất bực.

CHERRL Môi trường thực nghiệm để reproduce và phân tích hacking behavior

Paper này từ nhóm nghiên cứu Tsinghua giới thiệu CHERRL (Controllable Hacking Environment for Rubric-based RL), về cơ bản là một testbed cho phép bạn nghiên cứu reward hacking một cách có kiểm soát.

Ý tưởng core rất thú vị: thay vì cố gắng phân tích hacking behavior trong môi trường thực (nơi mọi thứ entangled với nhau), CHERRL cho phép bạn inject bias có chủ đích vào judge. Bạn biết chính xác bias nào được inject, nên bạn có thể quan sát xem policy model khai thác nó như thế nào và khi nào.

Cụ thể, CHERRL cung cấp:

Stable reproduction: Từ một clean starting point, bạn có thể reproduce reward hacking một cách ổn định, không phải chạy may rủi
Reward divergence observation: So sánh trực tiếp reward từ biased judge vs unbiased judge theo từng training step
Hacking onset detection: Xác định chính xác bước nào trong training thì model bắt đầu hack

Mình thấy cái này hay ở chỗ nó giải quyết một pain point rất thực tế: trong môi trường thực, bạn không bao giờ có "ground truth" về việc judge đang bị exploit hay không, vì bạn không có unbiased judge để so sánh. CHERRL tạo ra điều kiện lý tưởng để nghiên cứu.

Hai chiều phân tích bias: Discoverability vs Exploitability

Paper phân tích các loại judge bias theo hai dimension khá thú vị:

Sự kết hợp của hai chiều này tạo ra các nhóm bias với mức độ nguy hiểm khác nhau. Bias vừa dễ discover vừa dễ exploit là nguy hiểm nhất policy model sẽ nhanh chóng học cách khai thác nó. Bias khó discover nhưng dễ exploit thì ít nguy hiểm hơn trong short-term training, nhưng lại khó detect hơn vì nó xuất hiện muộn.

Dimension	Ý nghĩa	Ví dụ thực tế
Discoverability	Bias này dễ hay khó để policy model "tìm ra" trong quá trình training	Bias về độ dài output thường dễ discover hơn bias về cấu trúc câu
Exploitability	Khi đã discover, bias này dễ hay khó để khai thác nhằm tăng reward	Bias về format dễ exploit hơn bias về semantic

Anh em lưu ý: đây là framework phân tích khá hữu ích khi bạn thiết kế judge prompt hay chọn judge model. Không phải mọi bias đều nguy hiểm như nhau.

RHDA Dùng agent để tự động phát hiện hacking onset

Phần mình thấy practical nhất trong paper là RHDA (Reward Hacking Detection Agent) một agent-based system tự động phân tích training logs để phát hiện thời điểm reward hacking bắt đầu xảy ra.

Thay vì bạn phải ngồi manually inspect reward curves và cố đoán "ủa cái spike này là hacking hay là model đang học thật?", RHDA làm việc đó tự động. Nó nhìn vào patterns trong training logs divergence giữa các metrics, tốc độ tăng reward, correlation với các signals khác để đưa ra judgment.

Cái này khá quan trọng vì trong thực tế, training một LLM tốn rất nhiều compute. Nếu bạn phát hiện hacking sớm hơn vài nghìn steps, bạn tiết kiệm được không ít tiền và thời gian.

Mình chưa có cơ hội test RHDA trên pipeline thực của mình, nhưng concept thì solid. Code và environment đều được open-source tại https://github.com/THUAIS-Lab/CHERRL, anh em có thể tự explore.

Tại sao đây là vấn đề đang ngày càng quan trọng

Kể từ khi RLHF và các variant của nó trở nên phổ biến, cộng đồng ML đã biết về reward hacking. Nhưng với sự bùng nổ của LLM-as-a-Judge đặc biệt trong các pipeline như RLAIF, constitutional AI, hay các rubric-based evaluation system attack surface cho reward hacking ngày càng lớn hơn.

Lý do đơn giản: LLM judge phức tạp hơn nhiều so với một reward model truyền thống. Nó có nhiều bias hơn, những bias đó khó characterize hơn, và chúng có thể interact với nhau theo những cách không thể predict trước.

Thực tế là nhiều team đang dùng GPT-4 hay Claude làm judge trong training pipeline mà không có mechanism nào để detect xem policy model có đang exploit những quirks của những model đó không. Đây là technical debt đang tích lũy dần.

CHERRL không phải silver bullet nó là research tool, không phải production solution. Nhưng nó cung cấp một framework để chúng ta hiểu vấn đề rõ hơn, và từ đó thiết kế các mitigation strategy tốt hơn. Với mình, đó đã là đủ lý do để theo dõi hướng nghiên cứu này.

Reward Hacking trong LLM Training: Khi AI học cách 'gian lận'

Rubric-based RL hoạt động như thế nào và tại sao nó dễ bị hack

CHERRL Môi trường thực nghiệm để reproduce và phân tích hacking behavior

Hai chiều phân tích bias: Discoverability vs Exploitability

RHDA Dùng agent để tự động phát hiện hacking onset

Tại sao đây là vấn đề đang ngày càng quan trọng

Bình luận

Nguyễn Nhật Long

Bài viết liên quan

TVIR: Khi AI biết tạo báo cáo có cả text lẫn hình ảnh

React Mental Model: Tư duy đúng trước khi viết dòng code đầu tiên

React Hooks Deep Dive: Những thứ bạn nghĩ mình đã biết

Bình luận

Bài viết liên quan

TVIR: Khi AI biết tạo báo cáo có cả text lẫn hình ảnh

React Mental Model: Tư duy đúng trước khi viết dòng code đầu tiên

React Hooks Deep Dive: Những thứ bạn nghĩ mình đã biết