EVA01: Khi MLLM học cách "nhìn" và tạo ra thế giới 3D

Nếu bạn đang theo dõi mảng multimodal AI thời gian gần đây, chắc cũng nhận ra một pattern khá rõ: các MLLM (Multimodal Large Language Models) ngày càng được "nhồi" thêm khả năng xử lý nhiều loại dữ liệu hơn từ text, image, audio, video... nhưng 3D thì vẫn là một mảnh ghép còn thiếu. Hầu hết các hệ thống hiện tại muốn làm gì với 3D đều phải dùng pipeline riêng, model riêng, rồi ghép lại với nhau bằng đủ thứ glue code. Cồng kềnh, khó maintain, và kết quả thường không nhất quán.

EVA01 ra đời để giải quyết đúng cái đau đó.

3D vẫn là "công dân hạng hai" trong thế giới MLLM

Mình làm việc với các hệ thống AI generative một thời gian, và cái khó chịu nhất khi đụng vào 3D là sự rời rạc của toàn bộ stack. Bạn muốn model hiểu một cái mesh 3D? Một pipeline. Muốn generate ra mesh từ text prompt? Pipeline khác. Muốn edit cái mesh đó dựa theo context của scene xung quanh? Lại thêm một pipeline nữa. Và ba cái pipeline này hầu như không nói chuyện được với nhau một cách tự nhiên.

Vấn đề cốt lõi là các MLLM hiện tại được design với modality boundary rất cứng chúng biết xử lý token text, token image, nhưng 3D mesh là một dạng dữ liệu hoàn toàn khác về mặt cấu trúc. Mesh không phải grid pixels, không phải sequence of words nó là tập hợp vertices, edges, faces với topology phức tạp.

EVA01 làm gì khác so với approach cũ?

Thay vì treat 3D như một modality được bolt-on từ bên ngoài, EVA01 extend modality boundary của MLLM để natively incorporate 3D mesh. Từ khóa ở đây là "natively" không phải wrapper, không phải adapter thêm vào sau.

Architecture cốt lõi của EVA01 dựa trên Mixture-of-Transformers (MoT) đây là điểm thú vị nhất theo mình. Thay vì dùng một transformer monolithic để xử lý tất cả modalities (cách này thường dẫn đến interference giữa các loại dữ liệu khác nhau), MoT route các modalities khác nhau qua các transformer experts chuyên biệt. Nhưng khác với Mixture-of-Experts truyền thống hoạt động ở level token, MoT ở đây hoạt động ở level modality mỗi modality có transformer riêng, nhưng chúng vẫn share một không gian representation chung.

Cái hay ở chỗ này là bạn vừa có được specialization (mỗi expert giỏi một loại dữ liệu), vừa giữ được khả năng cross-modal reasoning (chúng vẫn "hiểu" nhau). Đây là trade-off rất khó cân bằng và EVA01 có vẻ đã tìm ra một approach khá elegant.

Ba capability trong một framework

EVA01 thống nhất ba task mà trước giờ thường cần ba system riêng:

| Task | Approach cũ | EVA01 |
|---|---|---|
| 3D Mesh Understanding | Specialized 3D encoder riêng | Native 3D token trong unified model |
| 3D Generation | Text-to-3D pipeline độc lập | Generate trực tiếp từ cùng model |
| Context-aware Editing | Ghép 3D editor + scene understanding | Unified reasoning về mesh + context |

Phần context-aware editing là cái mình thấy ấn tượng nhất. Không chỉ edit mesh theo instruction đơn giản kiểu "make it bigger" hay "change color" mà model có thể hiểu context của scene, ví dụ "cái ghế này trông không phù hợp với phong cách của căn phòng, hãy điều chỉnh lại" và thực sự edit mesh dựa trên semantic understanding đó. Đây là loại reasoning mà các pipeline rời rạc rất khó làm được vì thông tin context thường bị mất khi chuyển giữa các stage.

Tại sao Mixture-of-Transformers lại là key?

Mình nghĩ cái quyết định architecture này là insight quan trọng nhất của paper. Hãy nghĩ xem text và image đã rất khác nhau về mặt cấu trúc, nhưng chúng ta vẫn ép chúng vào cùng một transformer và nó work được (dù không perfectly). Nhưng 3D mesh thì khác ở một level khác hẳn:

Irregular topology: Không có grid structure như image
Variable size: Số lượng vertices/faces thay đổi rất nhiều giữa các mesh
Geometric relationships: Thông tin quan trọng nằm ở spatial relationships, không phải ở từng vertex riêng lẻ

Nếu bạn cố nhét 3D vào cùng attention mechanism với text và image mà không có inductive bias phù hợp, model sẽ rất khó học được geometric structure. MoT giải quyết điều này bằng cách cho phép 3D transformer expert có attention pattern và positional encoding phù hợp với geometry, trong khi vẫn project ra shared embedding space để cross-modal interaction vẫn hoạt động.

Theo kinh nghiệm của mình khi làm việc với các multimodal system, việc có shared representation space là critical để model có thể làm những task như "generate một cái mesh 3D trông giống cái image này" bạn cần text, image, và 3D đều "nói cùng một ngôn ngữ" ở latent space.

Implications cho developer workflow

Nếu EVA01 (hoặc approach tương tự) trở nên mainstream, cái thay đổi lớn nhất với anh em dev làm AI application là:

Không cần orchestrate nhiều model nữa. Hiện tại nếu bạn build một app 3D content creation, bạn có thể đang dùng CLIP để understand image input, một text encoder khác để process prompt, một 3D generation model (như Shap-E hay Point-E), rồi một editing model khác nếu cần. Mỗi model có latency, cost, và error mode riêng. Một unified model như EVA01 simplify toàn bộ stack này.

Context preservation across tasks. Đây là cái subtle nhưng quan trọng. Khi bạn chain nhiều model, information thường bị lossy ở mỗi bước. Với unified model, context từ bước understanding có thể directly influence bước generation hoặc editing mà không bị filter qua intermediate representation.

Anh em lưu ý là paper này vẫn còn khá mới (2026), nên khả năng cao chưa có production-ready implementation ngay. Nhưng direction này rất đáng để theo dõi, đặc biệt nếu bạn đang làm trong mảng game development tools, CAD/design automation, hay AR/VR content pipeline.

Landscape xung quanh đang nóng lên

EVA01 không phải cô đơn trong không gian này. Chỉ trong vài tháng gần đây đã có khá nhiều paper tackle cùng vấn đề theo các angle khác nhau:

UniMesh (2604.17472) cũng đang unify 3D mesh understanding và generation, nhưng approach có vẻ khác
Seed3D 2.0 focus vào high-fidelity, simulation-ready 3D content target use case rõ ràng hơn cho game/simulation
SpatialFusion thì đi theo hướng endow image generation với 3D geometric awareness tức là không phải native 3D, mà là 3D-aware 2D generation
AniGen extend thêm sang animatable 3D assets thêm temporal dimension vào bài toán

Mình thấy cái thú vị là các paper này đang converge về cùng một insight: 3D không thể tiếp tục là afterthought trong multimodal AI. Câu hỏi chỉ là ai sẽ tìm ra architecture đủ elegant để scale được.

EVA01 với MoT approach có một lý luận architecture khá convincing. Giờ chỉ cần chờ xem benchmark numbers và quan trọng hơn liệu community có thể reproduce và build on top của nó không. Đó mới là test thực sự.