Agent thất bại không phải vì model dở mà vì system xung quanh nó
Paper mới từ Hugging Face chỉ ra rằng phần lớn lỗi của AI agent không nằm ở model, mà ở harness: context, memory, tool routing, orchestration.
Nguyễn Nhật Long
@nguyennhatlong1303
Bạn đã bao giờ build một AI agent, dùng model xịn nhất, prompt xịn nhất, mà kết quả vẫn tệ không? Mình thì có. Và hóa ra, vấn đề không phải ở model.
Một paper mới vừa xuất hiện trên Hugging Face "From Model Scaling to System Scaling: Scaling the Harness in Agentic AI" đã đặt ra một luận điểm khá thẳng thắn: Phần lớn agent failures không phải model failures, mà là harness failures. Nói cách khác, chúng ta đang đổ quá nhiều công sức vào việc scale model, trong khi cái hệ thống bao quanh nó context management, memory, tool routing, orchestration, verification lại bị đối xử như công dân hạng hai.
"Harness" là cái gì và tại sao bạn nên quan tâm?
Trước hết, cần nói rõ khái niệm. Trong bối cảnh agentic AI, harness (hay system harness) là toàn bộ phần infrastructure và logic bao quanh model, giúp nó hoạt động như một agent hoàn chỉnh. Nó bao gồm:
Điều mình thấy hay là paper này không chỉ liệt kê các thành phần, mà nó argue rằng mỗi thành phần trên cần được thiết kế và đánh giá (evaluate) một cách nghiêm túc giống như cách chúng ta benchmark model vậy.
| Thành phần | Vai trò | Ví dụ thực tế |
|---|---|---|
| **Context Management** | Quản lý thông tin đầu vào, giữ cho prompt không bị tràn | Sliding window, summarization, RAG retrieval |
| **Memory** | Lưu trữ và truy xuất thông tin qua nhiều bước | Short-term buffer, long-term vector store |
| **Tool Routing** | Chọn đúng tool cho đúng task | Function calling, tool selection logic |
| **Orchestration** | Điều phối luồng thực thi giữa các bước | State machine, DAG-based workflow |
| **Verification** | Kiểm tra output trước khi trả về hoặc thực thi tiếp | Output validation, self-reflection loops |
Vấn đề thực tế: Scale model không đủ
Cộng đồng AI đã quen với narrative "model lớn hơn = kết quả tốt hơn". GPT-4 tốt hơn GPT-3.5, Claude 3.5 Sonnet tốt hơn Claude 3 Haiku điều đó đúng. Nhưng khi đưa agent vào production, câu chuyện phức tạp hơn nhiều.
Theo kinh nghiệm của mình khi build các hệ thống agent cho production, đây là những lỗi phổ biến nhất mà mình gặp:
- Context bị tràn: Agent xử lý task phức tạp, qua nhiều bước, context window đầy và nó "quên" mất mục tiêu ban đầu. Model không dở nó đơn giản là không được cung cấp đủ thông tin.
- Tool routing sai: Agent có 15 tools nhưng chọn sai tool. Không phải vì model không hiểu task, mà vì tool description mơ hồ hoặc routing logic quá đơn giản.
- Không có verification: Agent tự tin trả về kết quả sai vì không có bước nào kiểm tra lại output trước khi thực thi.
- Orchestration cứng nhắc: Luồng xử lý được hardcode, không handle được edge case, agent bị stuck.
Paper này gọi đây là harness failures và chúng chiếm một phần đáng kể trong tổng số lỗi mà người ta hay đổ cho model.
Từ Model Scaling sang System Scaling
Luận điểm chính của paper là chúng ta cần chuyển tư duy từ model scaling sang system scaling. Thay vì chỉ hỏi "model nào tốt hơn?", chúng ta cần hỏi:
- Context management strategy nào phù hợp với task này?
- Memory architecture nào giúp agent giữ được coherence qua 50+ bước?
- Tool routing có đủ thông minh để handle ambiguous requests không?
- Orchestration có flexible enough để recover từ lỗi không?
- Verification pipeline có catch được hallucination trước khi nó gây hại không?
Đây không phải là những câu hỏi mới. Nhưng điều đáng chú ý là paper đề xuất rằng chúng ta cần benchmark và evaluate harness một cách có hệ thống không chỉ evaluate model. Và thực tế, một paper liên quan cũng vừa ra mắt: Harness-Bench, chuyên đo lường "harness effects" across different models trong realistic agent workflows.
Ai bị ảnh hưởng?
Nếu bạn đang ở một trong những vị trí sau, paper này liên quan trực tiếp đến bạn:
| Vai trò | Ảnh hưởng thế nào |
|---|---|
| **Backend/Platform Engineer** đang build agent infrastructure | Cần thiết kế harness components như first-class citizens, không phải afterthought |
| **ML Engineer** đang evaluate agent performance | Cần tách biệt model errors vs harness errors khi debug |
| **Tech Lead/Architect** đang quyết định agent architecture | Cần đầu tư effort vào system design, không chỉ model selection |
| **Product Manager** đang plan agent features | Cần hiểu rằng upgrade model không phải silver bullet cho mọi vấn đề |
Hệ sinh thái đang hình thành
Điều thú vị là paper này không đứng một mình. Nhìn vào các paper liên quan được recommend, bạn sẽ thấy một hệ sinh thái nghiên cứu đang hình thành xung quanh khái niệm harness engineering:
- "AI Harness Engineering" định nghĩa harness như một runtime substrate cho AI agents
- "Code as Agent Harness" dùng code trực tiếp làm harness thay vì config-based approach
- "SemaClaw" xây dựng personal AI agent thông qua harness engineering
- "AgensFlow" coordination-policy substrate cho multi-agent systems
Mình nghĩ đây là dấu hiệu rõ ràng rằng cộng đồng research đang nghiêm túc với hướng này. Nó không còn là một paper lẻ nữa nó đang trở thành một sub-field.
Góc nhìn thực tế từ production
Theo kinh nghiệm của mình, paper này validate một điều mà nhiều team đã "cảm" được nhưng chưa có framework để nói rõ: đầu tư vào harness cho ROI tốt hơn đầu tư vào model upgrade trong nhiều trường hợp.
Một ví dụ cụ thể: team mình từng có một agent dùng GPT-4 nhưng performance chỉ đạt ~60% trên internal benchmark. Thay vì upgrade model (lúc đó cũng chẳng có gì để upgrade), chúng mình:
- Redesign context management dùng hierarchical summarization thay vì naive truncation
- Thêm verification layer agent tự check output trước khi trả về
- Cải thiện tool descriptions viết lại mô tả cho từng tool rõ ràng hơn
Kết quả? Performance nhảy lên ~82%. Cùng model, cùng prompt template, chỉ khác harness.
Điều gì tiếp theo?
Mình expect sẽ thấy vài thứ xảy ra trong 6-12 tháng tới:
- Harness benchmarks sẽ trở thành standard giống như chúng ta có MMLU cho model, sẽ có benchmark riêng cho harness quality
- Agent frameworks (LangChain, CrewAI, AutoGen...) sẽ phải rethink architecture để treat harness components as pluggable, evaluable modules
- Observability tools cho agent sẽ cần phân biệt rõ model errors vs harness errors
- "Harness Engineer" có thể trở thành một role thực sự người chuyên thiết kế và optimize phần system xung quanh model
Nếu bạn đang build AI agents cho production, đây là lúc nên dừng lại, nhìn vào hệ thống của mình, và tự hỏi: bao nhiêu phần trăm lỗi của agent thực sự là lỗi model, và bao nhiêu là lỗi harness? Câu trả lời có thể sẽ thay đổi cách bạn allocate engineering effort.
Paper gốc có thể đọc tại Hugging Face Papers. Recommend đọc cùng với Harness-Bench paper để có cái nhìn đầy đủ hơn.
Nguyễn Nhật Long
@nguyennhatlong1303Nguyễn Nhật Long is a Senior Frontend Engineer and Frontend Team Leader with 7 years of experience building real-time fintech platforms. Specializing in React, Next.js, TypeScript, and React Native, shipping 10+ products across Web, Mobile, Telegram Mini-Apps, and Web3.
Thấy hay? Chia sẻ cho bạn bè!