Model mạnh chưa chắc đã "tự tiến hóa" giỏi hơn model yếu

Bạn có nghĩ rằng cứ dùng model càng mạnh thì agent sẽ tự cải thiện càng tốt không? Một paper mới vừa drop trên Hugging Face cho thấy câu trả lời không đơn giản như vậy và kết quả khá bất ngờ.

Chuyện gì đang xảy ra?

Nhóm nghiên cứu từ A-EVO-Lab vừa công bố paper "Harness Updating Is Not Harness Benefit", tập trung vào một chủ đề đang rất hot: self-evolving LLM agents tức là những agent có khả năng tự cải thiện qua thời gian bằng cách cập nhật các công cụ bên ngoài (gọi là harness).

Điều thú vị là paper này tách bạch hai khái niệm mà trước giờ mọi người hay gộp chung lại:

Harness-updating: Khả năng viết ra những bản cập nhật hữu ích cho harness (persistent updates).
Harness-benefit: Khả năng thực sự hưởng lợi từ những bản cập nhật đó khi giải quyết task mới.

Nghe thì tưởng hai cái này đi đôi với nhau, nhưng thực tế thì không.

Harness là gì và tại sao nó quan trọng?

Trước khi đi sâu, mình giải thích nhanh cho bạn nào chưa quen. Trong context của LLM agents, harness là lớp "giao diện" bên ngoài model bao gồm system prompts, tool definitions, retrieval pipelines, hay bất kỳ artifact nào mà agent dùng để tương tác với environment.

Thay vì fine-tune lại model (tốn kém, chậm), xu hướng hiện tại là để agent tự cập nhật harness của mình. Ví dụ: sau khi giải một task coding, agent có thể ghi lại một snippet hay một pattern vào harness để lần sau gặp task tương tự thì xử lý nhanh hơn.

Theo kinh nghiệm của mình khi build các agent system, đây là hướng tiếp cận rất thực tế vì nó không đòi hỏi training lại model, mà chỉ cần cải thiện "bộ đồ nghề" xung quanh.

Hai phát hiện chính khiến mình phải suy nghĩ lại

Model mạnh ≠ Evolver giỏi

Đây là phát hiện đầu tiên và cũng là phát hiện phản trực giác nhất. Khi so sánh khả năng harness-updating giữa các model ở nhiều capability tiers khác nhau, kết quả cho thấy chúng tạo ra mức cải thiện gần như tương đương.

Cụ thể, Qwen3.5-9B một model nhỏ hơn đáng kể lại match được với Claude Opus 4.6 về khả năng viết ra các bản cập nhật harness hữu ích. Nói cách khác, bạn không cần model đắt tiền nhất để làm evolver.

Điều mình thấy hay là phát hiện này có thể thay đổi cách chúng ta thiết kế hệ thống self-evolving agents. Thay vì đổ tiền vào model mạnh nhất cho mọi thứ, có thể dùng model nhỏ hơn, rẻ hơn cho phần evolution mà vẫn đạt hiệu quả tương đương.

Harness-benefit không tuyến tính nó hình chữ U ngược

Phát hiện thứ hai còn thú vị hơn. Khi đo lường khả năng hưởng lợi từ harness updates, kết quả cho thấy một pattern non-monotonic:

Model yếu thì không đủ khả năng để kích hoạt đúng artifact trong harness hoặc follow chúng một cách chính xác. Model mạnh thì lại benefit ít hơn mid-tier có thể vì chúng đã đủ giỏi sẵn nên harness updates không thêm được nhiều giá trị, hoặc chúng có xu hướng "bỏ qua" các hướng dẫn từ harness.

Tier model	Harness-updating	Harness-benefit
Weak models	Tương đương các tier khác	Thấp không biết cách activate/follow harness
Mid-tier models	Tương đương các tier khác	Cao nhất sweet spot
Strong models	Tương đương các tier khác	Thấp hơn mid-tier có thể "tự tin" quá mức

Mid-tier models lại là nhóm hưởng lợi nhiều nhất. Chúng đủ thông minh để hiểu và follow harness artifacts, nhưng cũng đủ "cần" chúng để tạo ra sự khác biệt rõ rệt.

Bottleneck thực sự nằm ở đâu?

Paper đưa ra một kết luận khá quan trọng: bottleneck chính của self-evolving agents không phải là dùng evolver mạnh nhất, mà là làm sao để agent thực sự invoke và follow các harness updates một cách hiệu quả.

Nói đơn giản hơn: viết ra công cụ tốt thì ai cũng làm được (kể cả model nhỏ), nhưng biết dùng công cụ đó đúng lúc đúng chỗ mới là vấn đề.

Theo kinh nghiệm của mình khi làm việc với các agent pipeline, điều này rất đúng. Mình từng thấy những trường hợp agent có đầy đủ context trong system prompt nhưng vẫn không dùng, hoặc dùng sai cách. Vấn đề không phải là thiếu thông tin mà là khả năng retrieval và adherence của model với thông tin đã có.

Ảnh hưởng thực tế đến cách build agent

Nếu bạn đang build self-evolving agent systems, paper này gợi ý vài điều đáng suy nghĩ:

Về kiến trúc: Tách biệt evolver và executor. Evolver có thể là model nhỏ, rẻ. Executor (model thực sự giải task) nên ở mid-tier để maximize harness-benefit.

Về chi phí: Không cần đốt tiền cho model đắt nhất ở mọi component. Paper này cho thấy ROI không tỷ lệ thuận với model size trong context evolution.

Về research direction: Thay vì focus vào việc tạo ra harness updates tốt hơn, có lẽ nên invest nhiều hơn vào cơ chế giúp agent activate và follow harness artifacts hiệu quả hơn ví dụ như cải thiện retrieval mechanism, structured prompting, hay verification loops.

Ai nên đọc paper này?

Nếu bạn đang làm việc với LLM agents, đặc biệt là các hệ thống cần tự cải thiện qua thời gian (coding agents, research agents, automation pipelines), paper này rất đáng đọc. Code cũng đã được public trên GitHub nên bạn có thể reproduce và thử nghiệm.

Điều mình take away lớn nhất từ paper này: đừng mặc định rằng model mạnh hơn = kết quả tốt hơn trong mọi khía cạnh. Self-evolution là một bài toán multi-dimensional, và hiểu rõ từng dimension sẽ giúp chúng ta thiết kế hệ thống thông minh hơn cả về kỹ thuật lẫn chi phí.

Cộng đồng agent engineering đang move rất nhanh. Chỉ trong tháng qua đã có hàng loạt papers liên quan như Harness-Bench, CODESKILL, SkillGenBench tất cả đều xoay quanh việc làm sao để agent tự học và tự cải thiện. Mình nghĩ đây sẽ là một trong những hướng nghiên cứu định hình cách chúng ta build AI systems trong vài năm tới.