SurGe: Khi 3D Reconstruction cuối cùng cũng xử lý được chân ghế
Paper mới SurGe cải thiện đáng kể chất lượng bề mặt trong feedforward 3D reconstruction, đặc biệt với các cấu trúc mỏng như chân ghế hay cột đèn.
Nguyễn Nhật Long
@nguyennhatlong1303
Bạn đã bao giờ chạy một model depth estimation hay 3D reconstruction, nhìn kết quả thấy tổng thể ổn, nhưng zoom vào mấy cái chân ghế, cột đèn đường thì thấy chúng bị cong vẹo, rung lắc như sắp gãy chưa? Mình thì gặp hoài. Và đó chính xác là vấn đề mà paper SurGe vừa được publish trên HuggingFace đang giải quyết.
Vấn đề thực sự nằm ở đâu?
Các model feedforward 3D reconstruction hiện tại những model dự đoán point map từ một ảnh đầu vào đã đạt được kết quả rất tốt trên các benchmark phổ biến. Metric như AbsRel (Absolute Relative Error) cho thấy con số đẹp. Nhưng có một cái bẫy: AbsRel là pointwise metric, nó đo sai số tại từng điểm riêng lẻ.
Vấn đề là khi bạn nhìn vào local surface geometry hình dạng bề mặt cục bộ thì các model này tạo ra artifact khá tệ:
- Bending artifacts: cấu trúc mỏng bị uốn cong bất thường
- Oscillating artifacts: bề mặt bị dao động, gợn sóng
- Patch artifacts: ranh giới rõ ràng giữa các patch khi dùng ViT/MLP decoder
Theo kinh nghiệm của mình khi làm việc với depth estimation trong các project AR/VR, đây là loại lỗi mà mắt người phát hiện ngay lập tức nhưng metric truyền thống lại "bỏ qua". Bạn render ra một cái phòng, tường trần sàn đẹp, nhưng cái chân bàn thì nhìn như bị ai bẻ cong không chấp nhận được.
SurGe giải quyết bằng cách nào?
SurGe đưa ra hai đóng góp chính: một kiến trúc decoder mới và một loss function được thiết kế lại.
Neighborhood Attention Decoder (NAD)
Đây là phần core của paper. Thay vì dùng convolution-based local mixing như các DPT-style head truyền thống, SurGe sử dụng Neighborhood Attention kết hợp với window-matched RoPE trong các ViT-like block.
Để hiểu tại sao điều này quan trọng, hãy so sánh các approach:
Điều mình thấy hay là cách họ đặt vấn đề: full self-attention thì tốt nhưng không khả thi ở pixel resolution, convolution thì nhanh nhưng content-independent. NAD lấy cái hay của cả hai content-dependent mixing nhưng chỉ trong local neighborhood, không cần attention toàn bộ image.
| Approach | Local Mixing | Vấn đề |
|---|---|---|
| Conv-based (DPT) | Fixed kernel, content-independent | Không adapt theo nội dung, miss thin structures |
| Full self-attention | Content-dependent, global | Quá tốn compute ở pixel-resolution |
| Plain ViT/MLP decoder | Patch-level processing | Tạo patch artifacts rõ ràng |
| **NAD (SurGe)** | Content-dependent, local | Cân bằng giữa quality và compute |
RoPE (Rotary Position Embedding) ở đây cũng được match với window size, giúp model hiểu được vị trí tương đối của các pixel trong neighborhood một cách chính xác hơn.
Scale-Invariant Gradient Matching cho Point Maps
Đóng góp thứ hai ít flashy hơn nhưng cũng quan trọng không kém. Gradient matching loss family of losses đo sự thay đổi giữa các điểm lân cận vốn đã tồn tại cho scalar depth. Nhưng SurGe reformulate nó để hoạt động trực tiếp trên 3D point maps thay vì chỉ depth.
Tại sao điều này matter? Vì point map là 3D (x, y, z), không phải 1D như depth. Khi bạn chỉ optimize gradient trên depth, bạn bỏ qua thông tin về hướng của bề mặt trong không gian 3D. Version mới giữ được pairwise scale-invariant behavior nghĩa là nó không bị ảnh hưởng bởi scale tổng thể nhưng capture được geometry cục bộ tốt hơn nhiều.
Metric mới: Point Map Normal MAE
Một điểm mình đánh giá cao ở paper này là họ không chỉ đưa ra model mới, mà còn đề xuất cách đo mới phù hợp hơn.
Họ giới thiệu Point Map Normal Mean Angular Error tính normal vector từ các predicted 3D point lân cận, rồi so sánh góc với ground truth normal. Đây là metric bổ sung cho AbsRel, và theo paper, nó match qualitative impression tốt hơn nhiều.
Điều này rất thực tế. Trong production, khi bạn cần 3D reconstruction cho downstream task như relighting, physics simulation, hay AR placement, thì normal quality quan trọng không kém gì depth accuracy. Mà trước giờ chúng ta thiếu một metric chuẩn để đo nó trên point map.
| Metric | Đo cái gì | Điểm mạnh | Điểm yếu |
|---|---|---|---|
| Global AbsRel | Sai số tương đối toàn cục | Đánh giá tổng thể | Bỏ qua local geometry |
| Local AbsRel | Sai số tương đối cục bộ | Chi tiết hơn global | Vẫn là pointwise |
| **Normal MAE** | Góc lệch của normal vector | Capture surface geometry | Cần tính toán thêm |
Kết quả benchmark
Trên zero-shot monocular geometry benchmarks, SurGe đạt:
- Best average rank cho global point map AbsRel so với các SotA methods
- Cải thiện rõ rệt trên local point map metrics và point map normal metrics
- Kết quả quantitative match với qualitative observation cái này quan trọng vì nó validate cả metric mới lẫn model
Nói cách khác, SurGe không chỉ tốt hơn trên metric mới mà họ tự đề xuất (điều dễ bị nghi ngờ bias), mà còn competitive trên metric cũ.
Ai nên quan tâm?
Nếu bạn đang làm việc với:
- Monocular depth estimation / 3D reconstruction trong production
- AR/VR applications cần geometry chính xác cho object placement hoặc occlusion
- Robotics / autonomous driving với các cấu trúc mỏng như cột đèn, biển báo
- 3D content creation từ ảnh đơn
...thì paper này đáng đọc. Đặc biệt nếu bạn đang gặp vấn đề với thin structure reconstruction đây có thể là giải pháp bạn cần.
Điều mình kỳ vọng tiếp theo là xem SurGe hoạt động thế nào khi integrate vào các pipeline lớn hơn như TriSplat hay các feed-forward 3D scene reconstruction model khác. Neighborhood Attention Decoder có vẻ đủ modular để plug vào nhiều architecture khác nhau, và loss function mới cũng có thể áp dụng độc lập.
Một điểm nữa mình muốn highlight: việc họ đề xuất metric mới có thể tạo ra ripple effect trong community. Nếu Normal MAE được adopt rộng rãi, nó sẽ thay đổi cách chúng ta so sánh và optimize model và hy vọng là push toàn bộ field về hướng surface quality tốt hơn, không chỉ pointwise accuracy.
Paper đã có trên HuggingFace, bạn có thể check trực tiếp tại đây. Model weights cũng sẽ sớm available keep an eye on it.
Nguyễn Nhật Long
@nguyennhatlong1303Nguyễn Nhật Long is a Senior Frontend Engineer and Frontend Team Leader with 7 years of experience building real-time fintech platforms. Specializing in React, Next.js, TypeScript, and React Native, shipping 10+ products across Web, Mobile, Telegram Mini-Apps, and Web3.
Thấy hay? Chia sẻ cho bạn bè!