Meituan vừa drop LongCat-Video-Avatar-1.5 Tạo video avatar từ audio đã đến tầm p

Mình vừa thấy Meituan (đúng rồi, công ty giao đồ ăn khổng lồ của Trung Quốc) drop một model mà khiến mình phải dừng mọi thứ lại để nghiên cứu. LongCat-Video-Avatar-1.5 một framework open-source tạo video avatar từ audio, và lần này họ nói thẳng: production-ready. Với 467 likes trên Hugging Face chỉ trong thời gian ngắn, cộng đồng đang khá hype.

Vậy nó thực sự có gì đáng chú ý, và liệu chúng ta có thể dùng được trong dự án thực tế không?

Chuyện gì đang xảy ra?

Meituan vừa release phiên bản 1.5 của LongCat-Video-Avatar một model chuyên tạo video digital human được điều khiển bằng audio. Nói đơn giản: bạn đưa vào một bức ảnh (hoặc video) của một người, kèm theo một đoạn audio, và model sẽ generate ra video người đó đang nói với lip-sync chính xác.

Điều mình thấy hay là model này không chỉ dừng ở mức "demo đẹp". Họ build nó trên nền tảng LongCat-Video foundation model và tối ưu cực kỹ cho production. License MIT tức là bạn dùng thương mại thoải mái.

Những tính năng đáng chú ý

Model hỗ trợ 3 task chính:

Cả 3 task đều hỗ trợ single-stream và multi-stream audio, nghĩa là bạn có thể tạo video với nhiều người nói cùng lúc.

Task	Input	Output
Audio-Text-to-Video (AT2V)	Audio + Text prompt	Video avatar nói theo audio
Audio-Text-Image-to-Video (ATI2V)	Audio + Text + Ảnh tham chiếu	Video từ ảnh tĩnh, nói theo audio
Video Continuation	Audio + Video gốc	Tiếp tục video có sẵn với audio mới

Whisper-Large thay thế Wav2Vec2

Đây là upgrade lớn nhất so với phiên bản trước. Họ thay audio encoder từ Wav2Vec2 sang Whisper-Large, và theo report thì lip dynamics mượt hơn đáng kể. Theo kinh nghiệm của mình khi làm việc với các model speech-related, Whisper-Large có khả năng hiểu ngữ cảnh audio tốt hơn nhiều, đặc biệt với tiếng Trung và tiếng Anh đúng 2 ngôn ngữ mà model này hỗ trợ.

8-Step Inference với DMD2

Điểm này khiến mình khá ấn tượng. Họ dùng DMD2-based step distillation để giảm số bước inference xuống chỉ còn 8 NFE (Number of Function Evaluations). Với các diffusion model thông thường, bạn cần 20-50 bước. Giảm xuống 8 bước nghĩa là chi phí serving giảm đáng kể mà chất lượng visual vẫn giữ được.

Để bạn hình dung mức cải thiện:

Metric	Typical Diffusion	LongCat 1.5 (DMD2)
Inference steps	20-50 NFE	8 NFE
Serving cost	Cao	Giảm ~60-75%
Visual quality	Baseline	Tương đương hoặc tốt hơn

Generalization ấn tượng

Model không chỉ hoạt động với người thật. Họ claim nó generalize tốt sang anime, animal characters, và cả các scene phức tạp như multi-person interaction hay người cầm đồ vật. Mình chưa test hết nhưng nếu đúng như demo thì đây là điểm mạnh lớn cho các use case e-commerce và entertainment.

Benchmark và đánh giá

Điều mình đánh giá cao là Meituan không chỉ show demo đẹp rồi thôi. Họ xây hẳn một human evaluation benchmark riêng cho audio-driven digital human generation với:

508 cặp image-audio test
6 scenarios: News Broadcasting, Knowledge Education, Daily Life, Entertainment, Singing, Commercial Promotion
2 ngôn ngữ: Tiếng Trung và Tiếng Anh
2 visual styles: Realistic và Animated

Phần evaluation có 2 track:

Theo report, model đạt kết quả cạnh tranh với các commercial model hàng đầu trong subjective evaluation. Mình thấy việc họ so sánh trực tiếp với commercial models và public kết quả là một bước đi khá tự tin.

Track	Phương pháp	Quy mô
Subjective	770 crowdsourced evaluators, thang 1-5 human-likeness	13,240 judgments
Objective	10 domain experts đánh giá 4 chiều	Physical Rationality, Harmony, Temporal Stability, Identity Consistency

Cách chạy thử

Setup không quá phức tạp nhưng cũng không phải plug-and-play. Bạn cần:

Terminal

1# Clone repo
2git clone --single-branch --branch main https://github.com/meituan-longcat/LongCat-Video
3cd LongCat-Video
4
5# Tạo environment
6conda create -n longcat-video python=3.10
7conda activate longcat-video
8
9# Install torch (chỉnh theo CUDA version của bạn)
10pip install torch==2.6.0+cu124 torchvision==0.21.0+cu124 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu124
11
12# Flash Attention 2
13pip install flash_attn==2.7.4.post1

Download model qua huggingface-cli:

Terminal

1huggingface-cli download meituan-longcat/LongCat-Video-Avatar-1.5 --local-dir ./weights/LongCat-Video-Avatar-1.5

Một tip quan trọng từ docs: Audio CFG nên để trong khoảng 3-5 để lip-sync chính xác nhất. Tăng giá trị lên nếu muốn sync chặt hơn. Và prompt càng dài, càng mô tả chi tiết thì kết quả càng tự nhiên.

Model hỗ trợ FlashAttention-2 mặc định, nhưng bạn có thể switch sang FlashAttention-3 hoặc xformers tùy setup.

Ai nên quan tâm?

Nếu bạn đang làm trong các lĩnh vực sau, model này đáng để thử nghiệm:

E-commerce: Tạo video product review tự động từ script
Education/Training: Generate video giảng viên từ slide + audio
Entertainment: Avatar cho game, animation, virtual influencer
Customer Service: Video chatbot với face thực tế
Content Creation: Scale video content mà không cần quay lại

Theo kinh nghiệm của mình, các model dạng này trước đây thường có 2 vấn đề lớn: lip-sync không chính xác và identity drift khi generate video dài. LongCat 1.5 claim giải quyết được cả hai, và benchmark của họ cũng back up điều đó.

Điều cần lưu ý

Dù hype là có thật, mình vẫn muốn flag vài điểm:

Hardware requirement: Model dựa trên diffusion + Whisper-Large, chắc chắn cần GPU mạnh. Đừng mong chạy trên laptop gaming.
Chỉ hỗ trợ Tiếng Trung và Tiếng Anh: Tiếng Việt chưa có trong danh sách. Whisper-Large có hỗ trợ tiếng Việt ở mức cơ bản, nhưng lip-sync quality cho tiếng Việt thì chưa ai confirm.
Ethical concerns: Deepfake technology luôn là con dao hai lưỡi. Dùng có trách nhiệm.

Tiếp theo là gì?

Meituan đang build một ecosystem khá hoàn chỉnh: LongCat-Video làm foundation, Avatar 1.5 cho digital human. Với license MIT và chất lượng production-grade, mình nghĩ đây sẽ là baseline mới cho các dự án avatar AI open-source.

Điều mình tò mò nhất là liệu community có fine-tune được cho tiếng Việt không. Nếu ai trong cộng đồng đang thử, ping mình nhé rất muốn biết kết quả.

Model đã available trên Hugging Face, code trên GitHub. Nếu bạn có GPU rảnh cuối tuần này, đây là thứ đáng để spin up và nghịch.