AutoMedBench: AI y tế thất bại không phải vì thiếu kiến thức

Có một câu mở đầu trong paper AutoMedBench mà mình đọc xong phải dừng lại suy nghĩ một lúc:

"Your medical AI agent didn't fail because it lacked medical knowledge. It failed because it didn't verify its own work."

Câu này nghe có vẻ đơn giản, nhưng nó đang chỉ ra một vấn đề cực kỳ thực tế mà bất kỳ ai đã từng build agentic AI system đều sẽ gật đầu ngay.

Benchmark y tế truyền thống đang đo sai thứ

Phần lớn các benchmark AI y tế hiện tại dù là VQA, report generation, hay image segmentation đều chỉ nhìn vào kết quả cuối cùng. Model đưa ra đáp án đúng không? Accuracy bao nhiêu? F1 score thế nào?

Nhưng trong thực tế, khi bạn deploy một AI agent vào quy trình nghiên cứu y tế, nó không chỉ trả lời một câu hỏi rồi thôi. Nó phải:

Lên kế hoạch xử lý dữ liệu
Setup môi trường, cài dependencies
Validate rằng pipeline đang chạy đúng
Chạy inference trên dữ liệu thật
Submit kết quả theo đúng format

Đây là một workflow, không phải một câu hỏi trắc nghiệm. Và khi cái workflow đó fail ở bước thứ 3, bạn sẽ không biết nếu benchmark chỉ nhìn vào output cuối.

Đó chính xác là lý do AutoMedBench ra đời.

5 track, 5 stage, trung bình 33 lượt agent mỗi run

AutoMedBench được thiết kế như một long-horizon benchmark tức là mỗi task không phải chạy xong trong vài giây mà là một quá trình dài với nhiều bước qua lại. Trung bình mỗi run có tới 33 agent turns, đủ để thấy agent xử lý như thế nào khi gặp lỗi, khi output không như kỳ vọng, khi cần debug và retry.

Các task được chia thành 5 track bao gồm những bài toán y tế imaging phổ biến:

Image segmentation
Image enhancement
Visual Question Answering (VQA)
Report generation
Lesion detection

Và mỗi task được đánh giá qua 5 stage theo flow: Plan → Setup → Validate → Inference → Submit

Mỗi stage có cách chấm điểm khác nhau. S1 đến S3 (Plan, Setup, Validate) dùng LLM judge kết hợp với execution traces và saved artifacts. S4-S5 (Inference, Submit) dùng deterministic checks tức là kiểm tra xem inference có chạy đủ không, submission có đúng schema không.

Score tổng thể được tính là:

TEXT

1Overall Score = 0.5 × Agentic Score + 0.5 × Task Score

Trong đó Agentic Score phản ánh chất lượng của cả workflow (S1-S5), còn Task Score là metric y tế cụ thể cho artifact cuối cùng (ví dụ Dice score cho segmentation, BLEU/ROUGE cho report generation).

Mình thấy cái này hay ở chỗ: nó không chỉ hỏi "kết quả đúng không" mà còn hỏi "mày có biết mình đang làm gì không". Hai câu hỏi rất khác nhau.

Validate là điểm yếu chết người

Kết quả chính của paper là một phát hiện khá bất ngờ hoặc không bất ngờ lắm nếu bạn đã từng debug agentic system:

Nói cách khác: các model hiện tại giỏi làm cho code chạy được, nhưng không giỏi kiểm tra xem code chạy đúng không.

Stage	Điểm mạnh/yếu	Ghi chú
Setup (S2)	💪 Mạnh nhất	Agent giỏi làm cho pipeline chạy được
Validate (S3)	⚠️ Yếu nhất	Agent kém trong việc kiểm tra pipeline có đáng tin không
Plan (S1)	Trung bình	Hiểu task khá tốt
Inference (S4)	Trung bình	Chạy được nhưng hay thiếu sót
Submit (S5)	Yếu	Hay sai format/schema

Đây là một distinction cực kỳ quan trọng. Trong thực tế, mình đã gặp rất nhiều trường hợp pipeline "runs successfully" nhưng output hoàn toàn sai segmentation mask bị flip, normalization dùng sai range, label mapping bị lệch. Code không throw exception, nhưng kết quả vô nghĩa.

Một agent tốt phải biết nhìn vào intermediate output và hỏi: "Cái này có hợp lý không?"

Error analysis: 76% lỗi đến từ verification và submission

Phần error analysis trong paper xác nhận thêm điều này:

Chỉ có 0.9% lỗi đến từ việc agent không hiểu task. Nhưng gần 76% lỗi đến từ việc agent không tự verify output của mình và không submit đúng cách.

Loại lỗi	Tỷ lệ
Verification/recovery errors	37.7%
Deliverable/submission errors	38.1%
Task-understanding errors	0.9%

Anh em lưu ý con số này nó đang nói rằng bottleneck không phải là "AI không đủ thông minh để hiểu y học". Bottleneck là khả năng self-correction và error recovery trong một workflow dài.

Và con số cuối cùng đáng sợ nhất: chỉ cần một error code trong run là overall score giảm 48%. Một lỗi thôi. 48%.

Tại sao điều này quan trọng với anh em build AI agents

Nếu bạn đang build bất kỳ agentic system nào không nhất thiết phải là y tế thì insight từ AutoMedBench rất có giá trị thực tiễn.

Theo kinh nghiệm của mình, khi debug agent failures, phần lớn thời gian không phải mình đang cố làm cho model "thông minh hơn". Mình đang cố làm cho nó nhận ra khi nào nó đang làm sai. Đó là hai bài toán hoàn toàn khác nhau.

AutoMedBench cung cấp một framework để đánh giá điều đó một cách có hệ thống. Thay vì chỉ hỏi "agent này tốt không", nó hỏi "agent này yếu ở stage nào trong workflow". Feedback granular như vậy mới thực sự hữu ích cho việc improve.

Benchmark còn có hai tier là Lite và Standard Lite cho phép iterate nhanh hơn trong quá trình development, Standard cho evaluation đầy đủ. Cái này thực tế hơn nhiều so với việc chỉ có một benchmark size duy nhất.

Leaderboard đang live tại automedbench.github.io, và paper đầy đủ có trên arXiv. Nếu bạn đang làm trong mảng medical AI hoặc đơn giản là quan tâm đến agentic evaluation, đây là một paper đáng đọc không phải vì nó giải quyết mọi thứ, mà vì nó đặt đúng câu hỏi.

AutoMedBench: AI y tế thất bại không phải vì thiếu kiến thức

Benchmark y tế truyền thống đang đo sai thứ

5 track, 5 stage, trung bình 33 lượt agent mỗi run

Validate là điểm yếu chết người

Error analysis: 76% lỗi đến từ verification và submission

Tại sao điều này quan trọng với anh em build AI agents

Bình luận

Nguyễn Nhật Long

Bài viết liên quan

GitHub Actions + Docker: Setup CI/CD Pipeline Từ A Đến Z

Docker là gì và tại sao bạn không thể bỏ qua nó nữa

MindZero: Dạy AI đọc suy nghĩ người dùng mà không cần label data

Bình luận

Bài viết liên quan

GitHub Actions + Docker: Setup CI/CD Pipeline Từ A Đến Z

Docker là gì và tại sao bạn không thể bỏ qua nó nữa

MindZero: Dạy AI đọc suy nghĩ người dùng mà không cần label data