SurGe: Khi 3D Reconstruction cuối cùng cũng xử lý được chân ghế

Bạn đã bao giờ chạy một model depth estimation hay 3D reconstruction, nhìn kết quả thấy tổng thể ổn, nhưng zoom vào mấy cái chân ghế, cột đèn đường thì thấy chúng bị cong vẹo, rung lắc như sắp gãy chưa? Mình thì gặp hoài. Và đó chính xác là vấn đề mà paper SurGe vừa được publish trên HuggingFace đang giải quyết.

Vấn đề thực sự nằm ở đâu?

Các model feedforward 3D reconstruction hiện tại những model dự đoán point map từ một ảnh đầu vào đã đạt được kết quả rất tốt trên các benchmark phổ biến. Metric như AbsRel (Absolute Relative Error) cho thấy con số đẹp. Nhưng có một cái bẫy: AbsRel là pointwise metric, nó đo sai số tại từng điểm riêng lẻ.

Vấn đề là khi bạn nhìn vào local surface geometry hình dạng bề mặt cục bộ thì các model này tạo ra artifact khá tệ:

Bending artifacts: cấu trúc mỏng bị uốn cong bất thường
Oscillating artifacts: bề mặt bị dao động, gợn sóng
Patch artifacts: ranh giới rõ ràng giữa các patch khi dùng ViT/MLP decoder

Theo kinh nghiệm của mình khi làm việc với depth estimation trong các project AR/VR, đây là loại lỗi mà mắt người phát hiện ngay lập tức nhưng metric truyền thống lại "bỏ qua". Bạn render ra một cái phòng, tường trần sàn đẹp, nhưng cái chân bàn thì nhìn như bị ai bẻ cong không chấp nhận được.

SurGe giải quyết bằng cách nào?

SurGe đưa ra hai đóng góp chính: một kiến trúc decoder mới và một loss function được thiết kế lại.

Neighborhood Attention Decoder (NAD)

Đây là phần core của paper. Thay vì dùng convolution-based local mixing như các DPT-style head truyền thống, SurGe sử dụng Neighborhood Attention kết hợp với window-matched RoPE trong các ViT-like block.

Để hiểu tại sao điều này quan trọng, hãy so sánh các approach:

Điều mình thấy hay là cách họ đặt vấn đề: full self-attention thì tốt nhưng không khả thi ở pixel resolution, convolution thì nhanh nhưng content-independent. NAD lấy cái hay của cả hai content-dependent mixing nhưng chỉ trong local neighborhood, không cần attention toàn bộ image.

Approach	Local Mixing	Vấn đề
Conv-based (DPT)	Fixed kernel, content-independent	Không adapt theo nội dung, miss thin structures
Full self-attention	Content-dependent, global	Quá tốn compute ở pixel-resolution
Plain ViT/MLP decoder	Patch-level processing	Tạo patch artifacts rõ ràng
NAD (SurGe)	Content-dependent, local	Cân bằng giữa quality và compute

RoPE (Rotary Position Embedding) ở đây cũng được match với window size, giúp model hiểu được vị trí tương đối của các pixel trong neighborhood một cách chính xác hơn.

Scale-Invariant Gradient Matching cho Point Maps

Đóng góp thứ hai ít flashy hơn nhưng cũng quan trọng không kém. Gradient matching loss family of losses đo sự thay đổi giữa các điểm lân cận vốn đã tồn tại cho scalar depth. Nhưng SurGe reformulate nó để hoạt động trực tiếp trên 3D point maps thay vì chỉ depth.

Tại sao điều này matter? Vì point map là 3D (x, y, z), không phải 1D như depth. Khi bạn chỉ optimize gradient trên depth, bạn bỏ qua thông tin về hướng của bề mặt trong không gian 3D. Version mới giữ được pairwise scale-invariant behavior nghĩa là nó không bị ảnh hưởng bởi scale tổng thể nhưng capture được geometry cục bộ tốt hơn nhiều.

Metric mới: Point Map Normal MAE

Một điểm mình đánh giá cao ở paper này là họ không chỉ đưa ra model mới, mà còn đề xuất cách đo mới phù hợp hơn.

Họ giới thiệu Point Map Normal Mean Angular Error tính normal vector từ các predicted 3D point lân cận, rồi so sánh góc với ground truth normal. Đây là metric bổ sung cho AbsRel, và theo paper, nó match qualitative impression tốt hơn nhiều.

Điều này rất thực tế. Trong production, khi bạn cần 3D reconstruction cho downstream task như relighting, physics simulation, hay AR placement, thì normal quality quan trọng không kém gì depth accuracy. Mà trước giờ chúng ta thiếu một metric chuẩn để đo nó trên point map.

Metric	Đo cái gì	Điểm mạnh	Điểm yếu
Global AbsRel	Sai số tương đối toàn cục	Đánh giá tổng thể	Bỏ qua local geometry
Local AbsRel	Sai số tương đối cục bộ	Chi tiết hơn global	Vẫn là pointwise
Normal MAE	Góc lệch của normal vector	Capture surface geometry	Cần tính toán thêm

Kết quả benchmark

Trên zero-shot monocular geometry benchmarks, SurGe đạt:

Best average rank cho global point map AbsRel so với các SotA methods
Cải thiện rõ rệt trên local point map metrics và point map normal metrics
Kết quả quantitative match với qualitative observation cái này quan trọng vì nó validate cả metric mới lẫn model

Nói cách khác, SurGe không chỉ tốt hơn trên metric mới mà họ tự đề xuất (điều dễ bị nghi ngờ bias), mà còn competitive trên metric cũ.

Ai nên quan tâm?

Nếu bạn đang làm việc với:

Monocular depth estimation / 3D reconstruction trong production
AR/VR applications cần geometry chính xác cho object placement hoặc occlusion
Robotics / autonomous driving với các cấu trúc mỏng như cột đèn, biển báo
3D content creation từ ảnh đơn

...thì paper này đáng đọc. Đặc biệt nếu bạn đang gặp vấn đề với thin structure reconstruction đây có thể là giải pháp bạn cần.

Điều mình kỳ vọng tiếp theo là xem SurGe hoạt động thế nào khi integrate vào các pipeline lớn hơn như TriSplat hay các feed-forward 3D scene reconstruction model khác. Neighborhood Attention Decoder có vẻ đủ modular để plug vào nhiều architecture khác nhau, và loss function mới cũng có thể áp dụng độc lập.

Một điểm nữa mình muốn highlight: việc họ đề xuất metric mới có thể tạo ra ripple effect trong community. Nếu Normal MAE được adopt rộng rãi, nó sẽ thay đổi cách chúng ta so sánh và optimize model và hy vọng là push toàn bộ field về hướng surface quality tốt hơn, không chỉ pointwise accuracy.

Paper đã có trên HuggingFace, bạn có thể check trực tiếp tại đây. Model weights cũng sẽ sớm available keep an eye on it.