Agent thất bại không phải vì model dở mà vì system xung quanh nó

Bạn đã bao giờ build một AI agent, dùng model xịn nhất, prompt xịn nhất, mà kết quả vẫn tệ không? Mình thì có. Và hóa ra, vấn đề không phải ở model.

Một paper mới vừa xuất hiện trên Hugging Face "From Model Scaling to System Scaling: Scaling the Harness in Agentic AI" đã đặt ra một luận điểm khá thẳng thắn: Phần lớn agent failures không phải model failures, mà là harness failures. Nói cách khác, chúng ta đang đổ quá nhiều công sức vào việc scale model, trong khi cái hệ thống bao quanh nó context management, memory, tool routing, orchestration, verification lại bị đối xử như công dân hạng hai.

"Harness" là cái gì và tại sao bạn nên quan tâm?

Trước hết, cần nói rõ khái niệm. Trong bối cảnh agentic AI, harness (hay system harness) là toàn bộ phần infrastructure và logic bao quanh model, giúp nó hoạt động như một agent hoàn chỉnh. Nó bao gồm:

Điều mình thấy hay là paper này không chỉ liệt kê các thành phần, mà nó argue rằng mỗi thành phần trên cần được thiết kế và đánh giá (evaluate) một cách nghiêm túc giống như cách chúng ta benchmark model vậy.

Thành phần	Vai trò	Ví dụ thực tế
Context Management	Quản lý thông tin đầu vào, giữ cho prompt không bị tràn	Sliding window, summarization, RAG retrieval
Memory	Lưu trữ và truy xuất thông tin qua nhiều bước	Short-term buffer, long-term vector store
Tool Routing	Chọn đúng tool cho đúng task	Function calling, tool selection logic
Orchestration	Điều phối luồng thực thi giữa các bước	State machine, DAG-based workflow
Verification	Kiểm tra output trước khi trả về hoặc thực thi tiếp	Output validation, self-reflection loops

Vấn đề thực tế: Scale model không đủ

Cộng đồng AI đã quen với narrative "model lớn hơn = kết quả tốt hơn". GPT-4 tốt hơn GPT-3.5, Claude 3.5 Sonnet tốt hơn Claude 3 Haiku điều đó đúng. Nhưng khi đưa agent vào production, câu chuyện phức tạp hơn nhiều.

Theo kinh nghiệm của mình khi build các hệ thống agent cho production, đây là những lỗi phổ biến nhất mà mình gặp:

Context bị tràn: Agent xử lý task phức tạp, qua nhiều bước, context window đầy và nó "quên" mất mục tiêu ban đầu. Model không dở nó đơn giản là không được cung cấp đủ thông tin.
Tool routing sai: Agent có 15 tools nhưng chọn sai tool. Không phải vì model không hiểu task, mà vì tool description mơ hồ hoặc routing logic quá đơn giản.
Không có verification: Agent tự tin trả về kết quả sai vì không có bước nào kiểm tra lại output trước khi thực thi.
Orchestration cứng nhắc: Luồng xử lý được hardcode, không handle được edge case, agent bị stuck.

Paper này gọi đây là harness failures và chúng chiếm một phần đáng kể trong tổng số lỗi mà người ta hay đổ cho model.

Từ Model Scaling sang System Scaling

Luận điểm chính của paper là chúng ta cần chuyển tư duy từ model scaling sang system scaling. Thay vì chỉ hỏi "model nào tốt hơn?", chúng ta cần hỏi:

Context management strategy nào phù hợp với task này?
Memory architecture nào giúp agent giữ được coherence qua 50+ bước?
Tool routing có đủ thông minh để handle ambiguous requests không?
Orchestration có flexible enough để recover từ lỗi không?
Verification pipeline có catch được hallucination trước khi nó gây hại không?

Đây không phải là những câu hỏi mới. Nhưng điều đáng chú ý là paper đề xuất rằng chúng ta cần benchmark và evaluate harness một cách có hệ thống không chỉ evaluate model. Và thực tế, một paper liên quan cũng vừa ra mắt: Harness-Bench, chuyên đo lường "harness effects" across different models trong realistic agent workflows.

Ai bị ảnh hưởng?

Nếu bạn đang ở một trong những vị trí sau, paper này liên quan trực tiếp đến bạn:

Vai trò	Ảnh hưởng thế nào
Backend/Platform Engineer đang build agent infrastructure	Cần thiết kế harness components như first-class citizens, không phải afterthought
ML Engineer đang evaluate agent performance	Cần tách biệt model errors vs harness errors khi debug
Tech Lead/Architect đang quyết định agent architecture	Cần đầu tư effort vào system design, không chỉ model selection
Product Manager đang plan agent features	Cần hiểu rằng upgrade model không phải silver bullet cho mọi vấn đề

Hệ sinh thái đang hình thành

Điều thú vị là paper này không đứng một mình. Nhìn vào các paper liên quan được recommend, bạn sẽ thấy một hệ sinh thái nghiên cứu đang hình thành xung quanh khái niệm harness engineering:

"AI Harness Engineering" định nghĩa harness như một runtime substrate cho AI agents
"Code as Agent Harness" dùng code trực tiếp làm harness thay vì config-based approach
"SemaClaw" xây dựng personal AI agent thông qua harness engineering
"AgensFlow" coordination-policy substrate cho multi-agent systems

Mình nghĩ đây là dấu hiệu rõ ràng rằng cộng đồng research đang nghiêm túc với hướng này. Nó không còn là một paper lẻ nữa nó đang trở thành một sub-field.

Góc nhìn thực tế từ production

Theo kinh nghiệm của mình, paper này validate một điều mà nhiều team đã "cảm" được nhưng chưa có framework để nói rõ: đầu tư vào harness cho ROI tốt hơn đầu tư vào model upgrade trong nhiều trường hợp.

Một ví dụ cụ thể: team mình từng có một agent dùng GPT-4 nhưng performance chỉ đạt ~60% trên internal benchmark. Thay vì upgrade model (lúc đó cũng chẳng có gì để upgrade), chúng mình:

Redesign context management dùng hierarchical summarization thay vì naive truncation
Thêm verification layer agent tự check output trước khi trả về
Cải thiện tool descriptions viết lại mô tả cho từng tool rõ ràng hơn

Kết quả? Performance nhảy lên ~82%. Cùng model, cùng prompt template, chỉ khác harness.

Điều gì tiếp theo?

Mình expect sẽ thấy vài thứ xảy ra trong 6-12 tháng tới:

Harness benchmarks sẽ trở thành standard giống như chúng ta có MMLU cho model, sẽ có benchmark riêng cho harness quality
Agent frameworks (LangChain, CrewAI, AutoGen...) sẽ phải rethink architecture để treat harness components as pluggable, evaluable modules
Observability tools cho agent sẽ cần phân biệt rõ model errors vs harness errors
"Harness Engineer" có thể trở thành một role thực sự người chuyên thiết kế và optimize phần system xung quanh model

Nếu bạn đang build AI agents cho production, đây là lúc nên dừng lại, nhìn vào hệ thống của mình, và tự hỏi: bao nhiêu phần trăm lỗi của agent thực sự là lỗi model, và bao nhiêu là lỗi harness? Câu trả lời có thể sẽ thay đổi cách bạn allocate engineering effort.

Paper gốc có thể đọc tại Hugging Face Papers. Recommend đọc cùng với Harness-Bench paper để có cái nhìn đầy đủ hơn.