DRDD: Khi diffusion model học cách 'tách biệt' để dịch ảnh tốt hơn

Nếu bạn đã từng làm việc với các bài toán image-to-image translation kiểu như chuyển ảnh MRI sang CT, chuyển sketch thành ảnh thực, hay domain adaptation trong computer vision thì chắc bạn biết cái đau đầu lớn nhất không phải là chọn model, mà là data. Paired data (ảnh nguồn và ảnh đích tương ứng nhau) cực kỳ tốn công thu thập, đặc biệt trong y tế hay các domain đặc thù.

Paper DRDD (Decoupled Residual Denoising Diffusion Models) vừa được publish trên HuggingFace Papers đang tackle đúng vấn đề này, và cách tiếp cận của họ khá thú vị.

Diffusion model đang làm gì mà chưa tối ưu?

Để hiểu DRDD làm gì, mình cần nói qua một chút về cái property mà các tác giả phát hiện ra thứ mà theo họ là "under-explored" trong các diffusion model hiện tại.

Khi bạn inject Gaussian noise vào ảnh trong quá trình forward diffusion, model đang làm hai việc cùng lúc:

Manifold lifting đẩy data ra khỏi low-dimensional manifold, tạo không gian để model học được phân phối phức tạp hơn.
Domain harmonization noise làm mờ đi sự khác biệt về feature distribution giữa source domain và target domain. Kiểu như hai ảnh từ hai domain khác nhau, sau khi thêm đủ noise, trông giống nhau hơn nhiều về mặt thống kê.

Cái thứ hai này mới là insight chính. Mình thấy cái này hay ở chỗ nó giải thích tại sao diffusion model vốn đã tốt hơn GAN trong các bài toán cross-domain không chỉ vì capacity lớn hơn, mà vì bản thân noise injection đã làm một bước "chuẩn hóa" domain ngầm định.

Vấn đề là: trong các diffusion model thông thường, khi bạn denoise, bạn đang đồng thời remove cả noise lẫn residual (phần chênh lệch semantic giữa source và target). Hai thứ này bị coupled với nhau trong một quá trình duy nhất. Kết quả là cái harmonization effect bị phá vỡ quá sớm trước khi model kịp học được semantic mapping tốt.

DRDD tách ra như thế nào?

Giải pháp của DRDD là decouple quá trình diffusion thành hai stage độc lập và tuần tự:

Stage 1 Stochastic Noise Diffusion: Xử lý phần domain harmonization và manifold lifting. Stage này được train chỉ trên unpaired target-domain images. Đây là điểm cực kỳ quan trọng về mặt data efficiency bạn không cần paired data cho stage này, chỉ cần ảnh target domain là đủ.

Stage 2 Deterministic Residual Diffusion: Học semantic mapping hoàn toàn trong không gian "fixed-noise domain" tức là sau khi stage 1 đã làm xong phần harmonization. Stage này mới cần paired data, nhưng vì đã được stage 1 chuẩn bị tốt, nên cần ít hơn nhiều.

So sánh nhanh với các approach khác:

Theo kinh nghiệm của mình khi làm các project medical imaging, cái bottleneck lớn nhất luôn là paired data. Ví dụ để có một cặp ảnh MRI-CT của cùng một bệnh nhân ở cùng một thời điểm là cực kỳ tốn kém. Nếu stage 1 của DRDD thực sự chỉ cần unpaired target images thì đây là một improvement rất thực tế.

Approach	Paired Data Required	Domain Harmonization	Unified I2I
GAN-based (Pix2Pix, CycleGAN)	Nhiều / Unpaired	Không tường minh	Không
Standard Diffusion (DDPM)	Trung bình	Có nhưng coupled	Hạn chế
DRDD	Ít (chỉ stage 2)	Có, tường minh, decoupled	Có

"Unified" có nghĩa là gì ở đây?

Cái từ "unified" trong title khá quan trọng. Nhiều model I2I hiện tại được design cho một task cụ thể train model cho MRI-to-CT thì không dùng được cho sketch-to-photo. DRDD claim rằng architecture của họ có thể handle diverse I2I tasks mà không cần redesign lại pipeline.

Lý do họ có thể làm được điều này là vì decoupling. Khi noise diffusion stage đã normalize domain gap rồi, residual diffusion stage chỉ cần focus vào semantic mapping và semantic mapping thì có pattern chung hơn nhiều so với việc phải vừa handle domain gap vừa học semantic mapping cùng lúc.

Mình chưa có cơ hội run thử code của họ (repo ở HKU-HealthAI/DRDD), nhưng về mặt lý thuyết cái argument này khá convincing. Khi bạn simplify learning objective của mỗi stage, model tự nhiên generalize tốt hơn.

Tại sao paper này đáng để anh em theo dõi?

Mình không nói đây là paper "đỉnh của đỉnh" hay sẽ thay thế hết tất cả. Nhưng có vài điểm khiến mình thấy đáng chú ý:

Data efficiency là pain point thật. Không phải research paper nào cũng address được vấn đề mà người làm production thực sự gặp. Cái direction "train stage 1 với unpaired data" nếu work tốt thì rất có giá trị thực tiễn.

Compatible với mainstream diffusion models. Tác giả claim DRDD compatible với các diffusion backbone phổ biến hiện tại. Điều này có nghĩa là bạn không cần reinvent the wheel có thể plug vào DDPM, DDIM hay các variant khác.

Medical imaging use case rõ ràng. Nhóm tác giả từ HKU HealthAI, nên không ngạc nhiên khi một trong các target application là medical image synthesis domain mà paired data khan hiếm nhất.

Anh em lưu ý là paper này mới được submit vào cuối tháng 5/2026, nên chưa qua peer review chính thức. Kết quả empirical cần được validate thêm bởi cộng đồng. Nhưng nếu bạn đang làm project liên quan đến I2I translation với limited data, thì đây là một hướng đáng để experiment.

Code đã public, framework khá rõ ràng mình nghĩ trong vài tuần tới sẽ có thêm nhiều người reproduce và comment về kết quả thực tế. Mình sẽ thử run trên một dataset y tế mà team đang có và update lại nếu có gì interesting.

DRDD: Khi diffusion model học cách 'tách biệt' để dịch ảnh tốt hơn

Diffusion model đang làm gì mà chưa tối ưu?

DRDD tách ra như thế nào?

"Unified" có nghĩa là gì ở đây?

Tại sao paper này đáng để anh em theo dõi?

Bình luận

Nguyễn Nhật Long

Bài viết liên quan

TVIR: Khi AI biết tạo báo cáo có cả text lẫn hình ảnh

React Mental Model: Tư duy đúng trước khi viết dòng code đầu tiên

React Hooks Deep Dive: Những thứ bạn nghĩ mình đã biết

Bình luận

Bài viết liên quan

TVIR: Khi AI biết tạo báo cáo có cả text lẫn hình ảnh

React Mental Model: Tư duy đúng trước khi viết dòng code đầu tiên

React Hooks Deep Dive: Những thứ bạn nghĩ mình đã biết