Meituan vừa drop LongCat-Video-Avatar-1.5 Tạo video avatar từ audio đã đến tầm p
Meituan open-source model tạo video digital human từ audio, hỗ trợ lip-sync chính xác, chỉ cần 8 bước inference. Đây có thể là bước ngoặt cho avatar AI.
Nguyễn Nhật Long
@nguyennhatlong1303
Mình vừa thấy Meituan (đúng rồi, công ty giao đồ ăn khổng lồ của Trung Quốc) drop một model mà khiến mình phải dừng mọi thứ lại để nghiên cứu. LongCat-Video-Avatar-1.5 một framework open-source tạo video avatar từ audio, và lần này họ nói thẳng: production-ready. Với 467 likes trên Hugging Face chỉ trong thời gian ngắn, cộng đồng đang khá hype.
Vậy nó thực sự có gì đáng chú ý, và liệu chúng ta có thể dùng được trong dự án thực tế không?
Chuyện gì đang xảy ra?
Meituan vừa release phiên bản 1.5 của LongCat-Video-Avatar một model chuyên tạo video digital human được điều khiển bằng audio. Nói đơn giản: bạn đưa vào một bức ảnh (hoặc video) của một người, kèm theo một đoạn audio, và model sẽ generate ra video người đó đang nói với lip-sync chính xác.
Điều mình thấy hay là model này không chỉ dừng ở mức "demo đẹp". Họ build nó trên nền tảng LongCat-Video foundation model và tối ưu cực kỹ cho production. License MIT tức là bạn dùng thương mại thoải mái.
Những tính năng đáng chú ý
Model hỗ trợ 3 task chính:
Cả 3 task đều hỗ trợ single-stream và multi-stream audio, nghĩa là bạn có thể tạo video với nhiều người nói cùng lúc.
| Task | Input | Output |
|---|---|---|
| Audio-Text-to-Video (AT2V) | Audio + Text prompt | Video avatar nói theo audio |
| Audio-Text-Image-to-Video (ATI2V) | Audio + Text + Ảnh tham chiếu | Video từ ảnh tĩnh, nói theo audio |
| Video Continuation | Audio + Video gốc | Tiếp tục video có sẵn với audio mới |
Whisper-Large thay thế Wav2Vec2
Đây là upgrade lớn nhất so với phiên bản trước. Họ thay audio encoder từ Wav2Vec2 sang Whisper-Large, và theo report thì lip dynamics mượt hơn đáng kể. Theo kinh nghiệm của mình khi làm việc với các model speech-related, Whisper-Large có khả năng hiểu ngữ cảnh audio tốt hơn nhiều, đặc biệt với tiếng Trung và tiếng Anh đúng 2 ngôn ngữ mà model này hỗ trợ.
8-Step Inference với DMD2
Điểm này khiến mình khá ấn tượng. Họ dùng DMD2-based step distillation để giảm số bước inference xuống chỉ còn 8 NFE (Number of Function Evaluations). Với các diffusion model thông thường, bạn cần 20-50 bước. Giảm xuống 8 bước nghĩa là chi phí serving giảm đáng kể mà chất lượng visual vẫn giữ được.
Để bạn hình dung mức cải thiện:
| Metric | Typical Diffusion | LongCat 1.5 (DMD2) |
|---|---|---|
| Inference steps | 20-50 NFE | 8 NFE |
| Serving cost | Cao | Giảm ~60-75% |
| Visual quality | Baseline | Tương đương hoặc tốt hơn |
Generalization ấn tượng
Model không chỉ hoạt động với người thật. Họ claim nó generalize tốt sang anime, animal characters, và cả các scene phức tạp như multi-person interaction hay người cầm đồ vật. Mình chưa test hết nhưng nếu đúng như demo thì đây là điểm mạnh lớn cho các use case e-commerce và entertainment.
Benchmark và đánh giá
Điều mình đánh giá cao là Meituan không chỉ show demo đẹp rồi thôi. Họ xây hẳn một human evaluation benchmark riêng cho audio-driven digital human generation với:
- 508 cặp image-audio test
- 6 scenarios: News Broadcasting, Knowledge Education, Daily Life, Entertainment, Singing, Commercial Promotion
- 2 ngôn ngữ: Tiếng Trung và Tiếng Anh
- 2 visual styles: Realistic và Animated
Phần evaluation có 2 track:
Theo report, model đạt kết quả cạnh tranh với các commercial model hàng đầu trong subjective evaluation. Mình thấy việc họ so sánh trực tiếp với commercial models và public kết quả là một bước đi khá tự tin.
| Track | Phương pháp | Quy mô |
|---|---|---|
| Subjective | 770 crowdsourced evaluators, thang 1-5 human-likeness | 13,240 judgments |
| Objective | 10 domain experts đánh giá 4 chiều | Physical Rationality, Harmony, Temporal Stability, Identity Consistency |
Cách chạy thử
Setup không quá phức tạp nhưng cũng không phải plug-and-play. Bạn cần:
1# Clone repo2git clone --single-branch --branch main https://github.com/meituan-longcat/LongCat-Video3cd LongCat-Video45# Tạo environment6conda create -n longcat-video python=3.107conda activate longcat-video89# Install torch (chỉnh theo CUDA version của bạn)10pip install torch==2.6.0+cu124 torchvision==0.21.0+cu124 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu1241112# Flash Attention 213pip install flash_attn==2.7.4.post1
Download model qua huggingface-cli:
1huggingface-cli download meituan-longcat/LongCat-Video-Avatar-1.5 --local-dir ./weights/LongCat-Video-Avatar-1.5
Một tip quan trọng từ docs: Audio CFG nên để trong khoảng 3-5 để lip-sync chính xác nhất. Tăng giá trị lên nếu muốn sync chặt hơn. Và prompt càng dài, càng mô tả chi tiết thì kết quả càng tự nhiên.
Model hỗ trợ FlashAttention-2 mặc định, nhưng bạn có thể switch sang FlashAttention-3 hoặc xformers tùy setup.
Ai nên quan tâm?
Nếu bạn đang làm trong các lĩnh vực sau, model này đáng để thử nghiệm:
- E-commerce: Tạo video product review tự động từ script
- Education/Training: Generate video giảng viên từ slide + audio
- Entertainment: Avatar cho game, animation, virtual influencer
- Customer Service: Video chatbot với face thực tế
- Content Creation: Scale video content mà không cần quay lại
Theo kinh nghiệm của mình, các model dạng này trước đây thường có 2 vấn đề lớn: lip-sync không chính xác và identity drift khi generate video dài. LongCat 1.5 claim giải quyết được cả hai, và benchmark của họ cũng back up điều đó.
Điều cần lưu ý
Dù hype là có thật, mình vẫn muốn flag vài điểm:
- Hardware requirement: Model dựa trên diffusion + Whisper-Large, chắc chắn cần GPU mạnh. Đừng mong chạy trên laptop gaming.
- Chỉ hỗ trợ Tiếng Trung và Tiếng Anh: Tiếng Việt chưa có trong danh sách. Whisper-Large có hỗ trợ tiếng Việt ở mức cơ bản, nhưng lip-sync quality cho tiếng Việt thì chưa ai confirm.
- Ethical concerns: Deepfake technology luôn là con dao hai lưỡi. Dùng có trách nhiệm.
Tiếp theo là gì?
Meituan đang build một ecosystem khá hoàn chỉnh: LongCat-Video làm foundation, Avatar 1.5 cho digital human. Với license MIT và chất lượng production-grade, mình nghĩ đây sẽ là baseline mới cho các dự án avatar AI open-source.
Điều mình tò mò nhất là liệu community có fine-tune được cho tiếng Việt không. Nếu ai trong cộng đồng đang thử, ping mình nhé rất muốn biết kết quả.
Model đã available trên Hugging Face, code trên GitHub. Nếu bạn có GPU rảnh cuối tuần này, đây là thứ đáng để spin up và nghịch.
Nguyễn Nhật Long
@nguyennhatlong1303Nguyễn Nhật Long is a Senior Frontend Engineer and Frontend Team Leader with 7 years of experience building real-time fintech platforms. Specializing in React, Next.js, TypeScript, and React Native, shipping 10+ products across Web, Mobile, Telegram Mini-Apps, and Web3.
Thấy hay? Chia sẻ cho bạn bè!