RayDer: Khi Novel View Synthesis học được cách scale như LLM

Nếu bạn đang theo dõi mảng 3D vision hay novel view synthesis (NVS), chắc hẳn bạn biết cái pain point lớn nhất của các phương pháp self-supervised trong lĩnh vực này: data. Cụ thể hơn là thiếu data. Các method trước đây gần như bắt buộc phải train trên dữ liệu static scene tức là cảnh tĩnh, không có gì di chuyển. Mà loại data này thì cực kỳ khan hiếm so với lượng video thực tế ngoài đời. Bạn thử nghĩ xem, bao nhiêu video trên YouTube hay bất kỳ nguồn nào là hoàn toàn tĩnh? Gần như không có. Luôn có người đi qua, xe chạy, lá rung, mây bay.

RayDer vừa drop một paper giải quyết đúng cái bottleneck này, và cách họ làm khiến mình khá bất ngờ không phải vì một trick đơn lẻ nào đó, mà vì toàn bộ thiết kế hệ thống được nghĩ rất kỹ để hướng tới một mục tiêu: scalability. Và kết quả? Performance của nó scale theo power-law với R² > 0.99, pattern gần như y hệt những gì chúng ta thấy ở các large language model.

Vấn đề cốt lõi mà ai làm NVS đều đau đầu

Để mình giải thích rõ hơn cho anh em nào chưa deep dive vào mảng này. Novel view synthesis là bài toán: cho một hoặc vài ảnh của một cảnh, render ra ảnh từ góc nhìn mới mà camera chưa từng chụp. NeRF, 3D Gaussian Splatting, và hàng loạt method khác đã làm điều này rất tốt nhưng phần lớn đều cần supervised data, tức là bạn phải có ground truth pose, có multi-view images đã calibrate sẵn.

Các phương pháp self-supervised thì khác. Chúng cố gắng học mà không cần annotation nặng nề. Nghe thì hay, nhưng vấn đề là chúng cực kỳ nhạy cảm với dynamic content. Nếu trong video có một người đi bộ ngang qua, model sẽ bị confuse vì nó không biết đâu là background tĩnh (cần reconstruct) và đâu là foreground động (cần bỏ qua). Kết quả là các method trước đây phải lọc data rất kỹ, chỉ giữ lại những video static scene. Mà lọc xong thì còn lại bao nhiêu? Rất ít.

Đây chính là cái mà paper gọi là "fundamentally data-limited". Không phải model không đủ mạnh, mà là không có đủ data phù hợp để train.

Ba thay đổi kiến trúc tạo nên sự khác biệt

RayDer không chỉ đơn giản là "thêm data augmentation" hay "filter dynamic objects tốt hơn". Họ redesign lại kiến trúc từ gốc với ba thay đổi chính, và mỗi cái đều có lý do rất rõ ràng.

Gộp ba network thành một unified transformer

Các pipeline NVS truyền thống thường tách ra ba module riêng biệt: một cái encode scene, một cái predict geometry/depth, và một cái render pixel. Mỗi module có weight riêng, loss riêng, và khi train thì gradient flow qua ba cái này rất fragile. Bạn scale model lên thì chưa chắc performance tăng tuyến tính, vì bottleneck có thể nằm ở bất kỳ module nào.

RayDer gộp tất cả vào một transformer duy nhất. Theo kinh nghiệm của mình khi làm việc với các hệ thống multi-module, việc unify architecture như này có một lợi thế cực lớn: gradient flow smooth hơn rất nhiều, và quan trọng hơn là khi bạn scale model size (thêm layer, thêm head, tăng hidden dim), toàn bộ hệ thống đều được benefit. Không còn chuyện một module bị saturate trong khi module khác vẫn underfit.

Đây cũng chính là bài học mà giới NLP đã học được khi chuyển từ pipeline (tokenize → POS tag → parse → generate) sang end-to-end transformer. Cùng một insight, áp dụng sang domain khác.

Dynamic state prediction với dropout

Đây là cái trick mình thấy hay nhất. Thay vì cố gắng loại bỏ dynamic content khỏi training data (approach cũ), RayDer học cách predict dynamic state tức là model tự học xem pixel nào thuộc về object đang di chuyển. Nhưng cái khéo là họ dùng dropout cho phần prediction này.

Tại sao dropout lại quan trọng ở đây? Vì nếu model luôn có access vào dynamic state prediction, nó có thể "cheat" dùng dynamic mask như một cái crutch thay vì thực sự học 3D structure. Dropout force model phải robust: đôi khi nó có thông tin về dynamic objects, đôi khi không. Kết quả là model học được cả hai skill vừa biết handle dynamic content, vừa không phụ thuộc hoàn toàn vào nó.

Anh em nào từng train model với auxiliary loss chắc hiểu cảm giác này. Nếu auxiliary signal quá mạnh, model sẽ overfit vào nó. Dropout là cách elegant để regularize mà không cần tune loss weight.

Autoregressive pose learning

Phần thứ ba là cách RayDer học camera pose. Thay vì predict pose của tất cả frames cùng lúc (parallel prediction), họ dùng autoregressive approach predict pose từng frame một, mỗi frame condition vào các frame trước đó.

Nghe quen không? Đúng rồi, giống hệt cách GPT generate text token by token. Và lý do cũng tương tự: pose giữa các frame liên tiếp có temporal dependency rất mạnh. Camera không teleport nó di chuyển smooth. Autoregressive prediction capture được cái prior này một cách tự nhiên, thay vì phải encode nó vào loss function hay architecture constraint.

Mình thấy cái này đặc biệt clever vì nó giải quyết một vấn đề mà nhiều method trước đây gặp phải: pose drift. Khi predict parallel, mỗi frame có thể có error nhỏ, nhưng các error này không consistent với nhau, dẫn đến reconstructed scene bị "rung". Autoregressive prediction đảm bảo các pose liên tiếp coherent với nhau.

Scaling law cái mà mọi người nên chú ý nhất

Okay, ba thay đổi kiến trúc trên đều hay, nhưng cái thực sự khiến paper này nổi bật là scaling behavior. RayDer demonstrate rằng performance scale theo power-law khi tăng:

R² > 0.99 nghĩa là gì? Nghĩa là relationship giữa resource và performance gần như perfectly predictable. Bạn biết trước nếu tăng gấp đôi data, performance sẽ improve bao nhiêu. Nếu tăng gấp đôi model size, kết quả sẽ tốt hơn bao nhiêu.

Factor	Ý nghĩa	Scaling behavior
Data size	Lượng video training	Power-law, R² > 0.99
Model size	Số parameters	Power-law, R² > 0.99
Compute	FLOPs training	Power-law, R² > 0.99

Đây là điều mà giới LLM đã biết từ paper "Scaling Laws for Neural Language Models" của Kaplan et al. (2020), và nó là foundation cho việc OpenAI quyết định train GPT-3, GPT-4. Khi bạn có scaling law, bạn có thể plan resource allocation một cách rational thay vì trial-and-error.

Và đây là lần đầu tiên (theo như mình biết) một NVS method demonstrate scaling behavior clean đến mức này. Các method trước đây thường hit diminishing returns rất nhanh khi scale lên, chính vì kiến trúc multi-module và data limitation mà mình đã nói ở trên.

Tại sao train trên real-world video lại game-changing

Quay lại vấn đề data. Khi RayDer có thể train stable trên general, dynamic real-world video, nó unlock một lượng data gần như vô hạn. Mình so sánh nhanh:

Bạn thấy sự chênh lệch không? Khi method có thể consume raw video, bạn không còn bị giới hạn bởi dataset curation nữa. Và khi kết hợp với scaling law, điều này có nghĩa là: cứ throw thêm data vào, performance sẽ tiếp tục improve theo đường cong predictable.

Data source	Loại	Quy mô available
Static scene datasets (CO3D, RealEstate10K)	Curated, filtered	Hàng chục nghìn scenes
YouTube videos	Raw, dynamic	Hàng tỷ videos
Dashcam footage	Semi-structured, dynamic	Hàng trăm triệu clips
Surveillance cameras	Continuous, dynamic	Gần như unlimited

Đây chính xác là paradigm đã drive sự phát triển của LLM. GPT-3 không có gì magical về mặt architecture so với GPT-2 cái khác biệt là data và compute. RayDer đang mở ra khả năng tương tự cho 3D vision.

Implications cho developer và industry

Mình nghĩ paper này có vài implications quan trọng mà anh em nên để ý:

Thứ nhất, nếu bạn đang build product liên quan đến 3D reconstruction hay view synthesis (VR/AR, real estate, e-commerce 3D), trajectory phát triển bây giờ đã rõ ràng hơn: scale data + scale model = better results. Không cần chờ breakthrough architecture mới, chỉ cần đủ resource.

Thứ hai, unified transformer architecture tiếp tục chứng minh rằng nó là "universal architecture" không chỉ cho NLP hay 2D vision. Trend consolidation gộp mọi thứ vào transformer vẫn đang rất mạnh và chưa có dấu hiệu chậm lại.

Thứ ba, cái insight về dynamic state prediction với dropout có thể apply rộng hơn NVS. Bất kỳ bài toán nào mà bạn có auxiliary prediction có risk bị model exploit, dropout-style regularization là một tool đáng thử.

Và cuối cùng, mình muốn highlight một điều mà paper không nói explicit nhưng rất rõ ràng: gap giữa academic research và production-ready system đang thu hẹp. Khi một method có predictable scaling behavior, việc plan deployment trở nên dễ hơn rất nhiều. Bạn có thể estimate cost, estimate quality, và make business decisions dựa trên data thay vì gut feeling.

Nhìn rộng hơn trong landscape NVS hiện tại

RayDer không phải paper duy nhất đang push boundary trong area này. Cùng thời điểm, có vài paper liên quan đáng chú ý:

Bạn thấy một trend rõ ràng: cả field đang converge về hướng train trên uncontrolled, dynamic video và simplify/unify architecture. RayDer nổi bật vì nó demonstrate scaling law clean nhất, nhưng direction chung thì nhiều nhóm đang cùng đi.

Paper	Approach	Điểm khác biệt
DVSM	Decoder-only view synthesis	Simplify architecture theo hướng decoder-only
TokenGS	Decouple Gaussian prediction từ pixels	Dùng learnable tokens thay vì pixel-aligned features
SS3D	End-to-end self-supervised 3D từ web videos	Cũng target web-scale data nhưng approach khác
No Pose, No Problem	Feed-forward dynamic Gaussians	Không cần pose input, handle dynamic scenes

Theo mình đánh giá, trong 1-2 năm tới chúng ta sẽ thấy các foundation model cho 3D vision train trên massive video data, có thể generalize across scenes và tasks, tương tự như GPT cho text hay CLIP cho 2D vision. RayDer là một trong những bước đầu tiên concrete theo hướng đó.

Anh em nào muốn đọc paper gốc thì check trên HuggingFace Papers. Và nếu bạn đang trong lĩnh vực 3D vision, mình nghĩ đây là thời điểm cực kỳ exciting để theo dõi tốc độ progress đang accelerate rõ rệt, và các pieces đang dần fall into place cho một bước nhảy lớn tiếp theo.

RayDer: Khi Novel View Synthesis học được cách scale như LLM

RayDer: Khi Novel View Synthesis học được cách scale như LLM

Vấn đề cốt lõi mà ai làm NVS đều đau đầu

Ba thay đổi kiến trúc tạo nên sự khác biệt

Gộp ba network thành một unified transformer

Dynamic state prediction với dropout

Autoregressive pose learning

Scaling law cái mà mọi người nên chú ý nhất

Tại sao train trên real-world video lại game-changing

Implications cho developer và industry

Nhìn rộng hơn trong landscape NVS hiện tại

Bình luận

Nguyễn Nhật Long

Bình luận