RayDer: Khi Novel View Synthesis học được cách scale như LLM
RayDer mở ra hướng mới cho novel view synthesis bằng cách train trực tiếp trên video thực tế, và scale theo power-law giống hệt LLM.
Nguyễn Nhật Long
@nguyennhatlong1303
RayDer: Khi Novel View Synthesis học được cách scale như LLM
Nếu bạn đang theo dõi mảng 3D vision hay novel view synthesis (NVS), chắc hẳn bạn biết cái pain point lớn nhất của các phương pháp self-supervised trong lĩnh vực này: data. Cụ thể hơn là thiếu data. Các method trước đây gần như bắt buộc phải train trên dữ liệu static scene tức là cảnh tĩnh, không có gì di chuyển. Mà loại data này thì cực kỳ khan hiếm so với lượng video thực tế ngoài đời. Bạn thử nghĩ xem, bao nhiêu video trên YouTube hay bất kỳ nguồn nào là hoàn toàn tĩnh? Gần như không có. Luôn có người đi qua, xe chạy, lá rung, mây bay.
RayDer vừa drop một paper giải quyết đúng cái bottleneck này, và cách họ làm khiến mình khá bất ngờ không phải vì một trick đơn lẻ nào đó, mà vì toàn bộ thiết kế hệ thống được nghĩ rất kỹ để hướng tới một mục tiêu: scalability. Và kết quả? Performance của nó scale theo power-law với R² > 0.99, pattern gần như y hệt những gì chúng ta thấy ở các large language model.
Vấn đề cốt lõi mà ai làm NVS đều đau đầu
Để mình giải thích rõ hơn cho anh em nào chưa deep dive vào mảng này. Novel view synthesis là bài toán: cho một hoặc vài ảnh của một cảnh, render ra ảnh từ góc nhìn mới mà camera chưa từng chụp. NeRF, 3D Gaussian Splatting, và hàng loạt method khác đã làm điều này rất tốt nhưng phần lớn đều cần supervised data, tức là bạn phải có ground truth pose, có multi-view images đã calibrate sẵn.
Các phương pháp self-supervised thì khác. Chúng cố gắng học mà không cần annotation nặng nề. Nghe thì hay, nhưng vấn đề là chúng cực kỳ nhạy cảm với dynamic content. Nếu trong video có một người đi bộ ngang qua, model sẽ bị confuse vì nó không biết đâu là background tĩnh (cần reconstruct) và đâu là foreground động (cần bỏ qua). Kết quả là các method trước đây phải lọc data rất kỹ, chỉ giữ lại những video static scene. Mà lọc xong thì còn lại bao nhiêu? Rất ít.
Đây chính là cái mà paper gọi là "fundamentally data-limited". Không phải model không đủ mạnh, mà là không có đủ data phù hợp để train.
Ba thay đổi kiến trúc tạo nên sự khác biệt
RayDer không chỉ đơn giản là "thêm data augmentation" hay "filter dynamic objects tốt hơn". Họ redesign lại kiến trúc từ gốc với ba thay đổi chính, và mỗi cái đều có lý do rất rõ ràng.
Gộp ba network thành một unified transformer
Các pipeline NVS truyền thống thường tách ra ba module riêng biệt: một cái encode scene, một cái predict geometry/depth, và một cái render pixel. Mỗi module có weight riêng, loss riêng, và khi train thì gradient flow qua ba cái này rất fragile. Bạn scale model lên thì chưa chắc performance tăng tuyến tính, vì bottleneck có thể nằm ở bất kỳ module nào.
RayDer gộp tất cả vào một transformer duy nhất. Theo kinh nghiệm của mình khi làm việc với các hệ thống multi-module, việc unify architecture như này có một lợi thế cực lớn: gradient flow smooth hơn rất nhiều, và quan trọng hơn là khi bạn scale model size (thêm layer, thêm head, tăng hidden dim), toàn bộ hệ thống đều được benefit. Không còn chuyện một module bị saturate trong khi module khác vẫn underfit.
Đây cũng chính là bài học mà giới NLP đã học được khi chuyển từ pipeline (tokenize → POS tag → parse → generate) sang end-to-end transformer. Cùng một insight, áp dụng sang domain khác.
Dynamic state prediction với dropout
Đây là cái trick mình thấy hay nhất. Thay vì cố gắng loại bỏ dynamic content khỏi training data (approach cũ), RayDer học cách predict dynamic state tức là model tự học xem pixel nào thuộc về object đang di chuyển. Nhưng cái khéo là họ dùng dropout cho phần prediction này.
Tại sao dropout lại quan trọng ở đây? Vì nếu model luôn có access vào dynamic state prediction, nó có thể "cheat" dùng dynamic mask như một cái crutch thay vì thực sự học 3D structure. Dropout force model phải robust: đôi khi nó có thông tin về dynamic objects, đôi khi không. Kết quả là model học được cả hai skill vừa biết handle dynamic content, vừa không phụ thuộc hoàn toàn vào nó.
Anh em nào từng train model với auxiliary loss chắc hiểu cảm giác này. Nếu auxiliary signal quá mạnh, model sẽ overfit vào nó. Dropout là cách elegant để regularize mà không cần tune loss weight.
Autoregressive pose learning
Phần thứ ba là cách RayDer học camera pose. Thay vì predict pose của tất cả frames cùng lúc (parallel prediction), họ dùng autoregressive approach predict pose từng frame một, mỗi frame condition vào các frame trước đó.
Nghe quen không? Đúng rồi, giống hệt cách GPT generate text token by token. Và lý do cũng tương tự: pose giữa các frame liên tiếp có temporal dependency rất mạnh. Camera không teleport nó di chuyển smooth. Autoregressive prediction capture được cái prior này một cách tự nhiên, thay vì phải encode nó vào loss function hay architecture constraint.
Mình thấy cái này đặc biệt clever vì nó giải quyết một vấn đề mà nhiều method trước đây gặp phải: pose drift. Khi predict parallel, mỗi frame có thể có error nhỏ, nhưng các error này không consistent với nhau, dẫn đến reconstructed scene bị "rung". Autoregressive prediction đảm bảo các pose liên tiếp coherent với nhau.
Scaling law cái mà mọi người nên chú ý nhất
Okay, ba thay đổi kiến trúc trên đều hay, nhưng cái thực sự khiến paper này nổi bật là scaling behavior. RayDer demonstrate rằng performance scale theo power-law khi tăng:
R² > 0.99 nghĩa là gì? Nghĩa là relationship giữa resource và performance gần như perfectly predictable. Bạn biết trước nếu tăng gấp đôi data, performance sẽ improve bao nhiêu. Nếu tăng gấp đôi model size, kết quả sẽ tốt hơn bao nhiêu.
| Factor | Ý nghĩa | Scaling behavior |
|---|---|---|
| Data size | Lượng video training | Power-law, R² > 0.99 |
| Model size | Số parameters | Power-law, R² > 0.99 |
| Compute | FLOPs training | Power-law, R² > 0.99 |
Đây là điều mà giới LLM đã biết từ paper "Scaling Laws for Neural Language Models" của Kaplan et al. (2020), và nó là foundation cho việc OpenAI quyết định train GPT-3, GPT-4. Khi bạn có scaling law, bạn có thể plan resource allocation một cách rational thay vì trial-and-error.
Và đây là lần đầu tiên (theo như mình biết) một NVS method demonstrate scaling behavior clean đến mức này. Các method trước đây thường hit diminishing returns rất nhanh khi scale lên, chính vì kiến trúc multi-module và data limitation mà mình đã nói ở trên.
Tại sao train trên real-world video lại game-changing
Quay lại vấn đề data. Khi RayDer có thể train stable trên general, dynamic real-world video, nó unlock một lượng data gần như vô hạn. Mình so sánh nhanh:
Bạn thấy sự chênh lệch không? Khi method có thể consume raw video, bạn không còn bị giới hạn bởi dataset curation nữa. Và khi kết hợp với scaling law, điều này có nghĩa là: cứ throw thêm data vào, performance sẽ tiếp tục improve theo đường cong predictable.
| Data source | Loại | Quy mô available |
|---|---|---|
| Static scene datasets (CO3D, RealEstate10K) | Curated, filtered | Hàng chục nghìn scenes |
| YouTube videos | Raw, dynamic | Hàng tỷ videos |
| Dashcam footage | Semi-structured, dynamic | Hàng trăm triệu clips |
| Surveillance cameras | Continuous, dynamic | Gần như unlimited |
Đây chính xác là paradigm đã drive sự phát triển của LLM. GPT-3 không có gì magical về mặt architecture so với GPT-2 cái khác biệt là data và compute. RayDer đang mở ra khả năng tương tự cho 3D vision.
Implications cho developer và industry
Mình nghĩ paper này có vài implications quan trọng mà anh em nên để ý:
Thứ nhất, nếu bạn đang build product liên quan đến 3D reconstruction hay view synthesis (VR/AR, real estate, e-commerce 3D), trajectory phát triển bây giờ đã rõ ràng hơn: scale data + scale model = better results. Không cần chờ breakthrough architecture mới, chỉ cần đủ resource.
Thứ hai, unified transformer architecture tiếp tục chứng minh rằng nó là "universal architecture" không chỉ cho NLP hay 2D vision. Trend consolidation gộp mọi thứ vào transformer vẫn đang rất mạnh và chưa có dấu hiệu chậm lại.
Thứ ba, cái insight về dynamic state prediction với dropout có thể apply rộng hơn NVS. Bất kỳ bài toán nào mà bạn có auxiliary prediction có risk bị model exploit, dropout-style regularization là một tool đáng thử.
Và cuối cùng, mình muốn highlight một điều mà paper không nói explicit nhưng rất rõ ràng: gap giữa academic research và production-ready system đang thu hẹp. Khi một method có predictable scaling behavior, việc plan deployment trở nên dễ hơn rất nhiều. Bạn có thể estimate cost, estimate quality, và make business decisions dựa trên data thay vì gut feeling.
Nhìn rộng hơn trong landscape NVS hiện tại
RayDer không phải paper duy nhất đang push boundary trong area này. Cùng thời điểm, có vài paper liên quan đáng chú ý:
Bạn thấy một trend rõ ràng: cả field đang converge về hướng train trên uncontrolled, dynamic video và simplify/unify architecture. RayDer nổi bật vì nó demonstrate scaling law clean nhất, nhưng direction chung thì nhiều nhóm đang cùng đi.
| Paper | Approach | Điểm khác biệt |
|---|---|---|
| DVSM | Decoder-only view synthesis | Simplify architecture theo hướng decoder-only |
| TokenGS | Decouple Gaussian prediction từ pixels | Dùng learnable tokens thay vì pixel-aligned features |
| SS3D | End-to-end self-supervised 3D từ web videos | Cũng target web-scale data nhưng approach khác |
| No Pose, No Problem | Feed-forward dynamic Gaussians | Không cần pose input, handle dynamic scenes |
Theo mình đánh giá, trong 1-2 năm tới chúng ta sẽ thấy các foundation model cho 3D vision train trên massive video data, có thể generalize across scenes và tasks, tương tự như GPT cho text hay CLIP cho 2D vision. RayDer là một trong những bước đầu tiên concrete theo hướng đó.
Anh em nào muốn đọc paper gốc thì check trên HuggingFace Papers. Và nếu bạn đang trong lĩnh vực 3D vision, mình nghĩ đây là thời điểm cực kỳ exciting để theo dõi tốc độ progress đang accelerate rõ rệt, và các pieces đang dần fall into place cho một bước nhảy lớn tiếp theo.
Nguyễn Nhật Long
@nguyennhatlong1303Nguyễn Nhật Long is a Senior Frontend Engineer and Frontend Team Leader with 7 years of experience building real-time fintech platforms. Specializing in React, Next.js, TypeScript, and React Native, shipping 10+ products across Web, Mobile, Telegram Mini-Apps, and Web3.
Thấy hay? Chia sẻ cho bạn bè!