webMCP: Khi AI bắt đầu tự build website thay chúng ta

Mình vừa xem xong demo của webMCP và thật ra ngồi một lúc không biết nên hào hứng hay lo lắng. Cái cảm giác đó khi bạn thấy một thứ gì đó đang thay đổi cách mình làm việc theo nghĩa đen khá quen thuộc với dân tech, nhưng lần này nó có gì đó khác hơn.

MCP là gì và tại sao nó đột nhiên hot thế này?

Nếu bạn chưa theo dõi thì Model Context Protocol (MCP) là một open standard do Anthropic đề xuất, về cơ bản là một "ngôn ngữ chung" để AI model giao tiếp với các tool bên ngoài. Thay vì mỗi AI integration phải tự build adapter riêng, MCP chuẩn hóa cái interface đó lại.

Nghe thì abstract, nhưng hệ quả thực tế rất cụ thể: một AI agent có thể dùng MCP để gọi database, đọc file system, gọi API và bây giờ với webMCP, nó có thể tương tác trực tiếp với trình duyệt web.

Đó là cái bước nhảy mà mình thấy đáng nói.

webMCP thực sự làm được gì?

webMCP expose browser của bạn như một MCP server. Nghĩa là AI agent ví dụ Claude có thể:

Navigate đến URL bất kỳ
Click vào elements trên trang
Fill form, submit data
Đọc nội dung DOM
Chạy JavaScript trong context của trang
Screenshot để "nhìn" trang web

Nói nôm na: bạn đang cho AI một cái tay để điều khiển browser, thay vì chỉ cho nó một cái miệng để chat.

Trong live demo, người ta demo một flow khá ấn tượng: yêu cầu AI tạo một landing page, AI tự mở browser, navigate đến một editor tool, gõ code, preview kết quả, rồi tự điều chỉnh dựa trên feedback. Không phải AI generate code rồi bạn copy-paste AI tự thực hiện toàn bộ thao tác.

Theo kinh nghiệm của mình khi làm việc với automation testing, cái khó nhất không phải là viết script mà là handle được các edge case của UI element chưa load xong, modal popup bất ngờ, responsive layout thay đổi. Xem demo thì webMCP xử lý khá mượt, nhưng mình vẫn tò mò độ robust của nó trong real-world scenario.

So sánh với các approach hiện tại

Cái mà mình thấy webMCP có lợi thế rõ nhất so với Computer Use là tốc độ và độ chính xác. Computer Use về cơ bản là AI nhìn screenshot rồi đoán xem cần click vào đâu nó hoạt động nhưng chậm và hay bị lệch. webMCP thì làm việc trực tiếp với DOM, nên nó biết chính xác element nào cần interact, không cần đoán mò qua pixel.

Approach	Cách AI tương tác với web	Độ phức tạp setup	Khả năng handle dynamic UI
Prompt-only (ChatGPT, Claude web)	Chỉ generate text/code	Không cần setup	Không có
Browser extension (như Playwright AI)	Script-based automation	Trung bình	Trung bình
Computer Use (Anthropic)	Screenshot + mouse/keyboard	Phức tạp	Cao nhưng chậm
webMCP	Native browser API qua MCP	Thấp	Cao và nhanh hơn

Cái workflow này thay đổi gì trong thực tế?

Mình thử nghĩ xem nếu webMCP mature hơn, nó sẽ ảnh hưởng như thế nào đến công việc hàng ngày.

Với frontend dev: Cái repetitive nhất trong việc build UI là vòng lặp code → preview → tweak → preview lại. Nếu AI có thể tự chạy cái loop đó dựa trên description của bạn, thì thời gian bạn dành cho nó sẽ giảm đáng kể. Bạn describe "cái button này cần nằm cách edge 16px, hover state cần smooth hơn" AI tự điều chỉnh và show kết quả.

Với QA/testing: Đây là use case mình thấy ngay lập tức. Thay vì viết Playwright script chi tiết, bạn có thể describe test case bằng ngôn ngữ tự nhiên và AI tự execute. Anh em làm automation testing mà chưa thử approach này thì nên watch closely.

Với non-technical folks: Đây mới là cái disruptive thật sự. Một người không biết code có thể describe website họ muốn, AI tự build và iterate ngay trước mắt họ. Không cần biết HTML, CSS, JavaScript.

Nhưng mà đừng vội hype quá

Mình thấy cái này hay, nhưng cũng có một số điểm cần thực tế hơn.

Thứ nhất, security là một dấu hỏi lớn. Bạn đang cho một AI agent quyền điều khiển browser của mình cái browser có thể đang logged in vào bank, email, production dashboard. Nếu có prompt injection attack nào đó trick được AI, hậu quả có thể rất nghiêm trọng. Đây không phải lo lắng lý thuyết, đây là attack vector thực sự cần được address trước khi dùng trong môi trường production.

Thứ hai, độ reliable của AI khi làm việc với complex UI vẫn chưa rõ. Demo thường được setup để thành công real-world app có legacy code, inconsistent naming, dynamic content, A/B test variants. Mình sẽ cần thấy nó hoạt động trong môi trường messy hơn.

Thứ ba, latency. Mỗi action AI thực hiện đều cần một round-trip đến model. Với complex task có nhiều bước, tổng thời gian có thể không nhanh hơn bạn tự làm.

Mình thấy cái này hay ở chỗ nào nhất

Nhìn lại thì cái shift quan trọng nhất không phải là "AI build website thay bạn" mà là AI có thể verify kết quả của chính nó trong real-time.

Trước đây, AI generate code xong là xong nó không biết code đó có chạy đúng không, UI có render đúng không. Với webMCP, AI có thể tự chạy code, tự nhìn kết quả, tự sửa nếu sai. Cái feedback loop đó là thứ mà mình nghĩ sẽ cải thiện chất lượng output đáng kể.

Đây cũng là lý do mình nghĩ webMCP (hoặc approach tương tự) sẽ trở thành một phần của developer toolchain trong vài năm tới, dù form factor cuối cùng trông như thế nào. Không phải vì nó replace developer, mà vì nó close cái gap giữa AI nói gì và AI làm được gì.

Anh em đang dùng AI tool nào cho workflow hàng ngày? Thử webMCP chưa hay có approach nào khác đang dùng hiệu quả? Drop comment xuống dưới, mình muốn nghe thực tế từ người dùng hơn là từ demo video.