Qwen3.6-35B Uncensored: Model "bất kham" mới trên Hugging Face
HauhauCS vừa drop một phiên bản uncensored của Qwen3 với tag "Aggressive". Chuyện gì đang xảy ra và bạn cần biết gì?
Nguyễn Nhật Long
@nguyennhatlong1303
Một developer Việt Nam vừa publish một model khá "gắt" lên Hugging Face Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive. Cái tên đã nói lên tất cả: uncensored, aggressive, và dựa trên kiến trúc Mixture of Experts của Qwen3. Nếu bạn đang theo dõi xu hướng fine-tune model "không rào cản" trong cộng đồng open-source, thì đây là một case đáng để bàn.
Chuyện gì vừa xảy ra?
User HauhauCS trên Hugging Face đã release một phiên bản fine-tuned của Qwen3 cụ thể là variant 35B parameters với kiến trúc MoE (Mixture of Experts), chỉ activate khoảng 3B parameters mỗi lần inference. Điểm đặc biệt là model này được gắn tag Uncensored và Aggressive, nghĩa là nó đã được loại bỏ (hoặc giảm đáng kể) các safety guardrails mà Alibaba Cloud đã cài vào model gốc Qwen3.
Nhìn vào model card, ta thấy nó vẫn giữ nguyên chat template chuẩn của Qwen3 bao gồm support cho tool calling, vision (image/video), multi-turn conversation, và cả reasoning với <think> tags. Về mặt kỹ thuật, đây không phải là một kiến trúc mới mà là một bản fine-tune tập trung vào việc thay đổi behavior của model.
Tại sao lại Uncensored?
Để hiểu context, mình cần nói qua về xu hướng đang diễn ra trong cộng đồng open-source AI. Các model lớn từ OpenAI, Google, hay Alibaba đều được train với RLHF (Reinforcement Learning from Human Feedback) để từ chối các request mà hãng cho là "harmful". Vấn đề là ranh giới giữa "an toàn" và "quá thận trọng" rất mờ.
Theo kinh nghiệm của mình khi làm việc với các LLM trong production, có những lúc model từ chối những request hoàn toàn hợp lệ ví dụ viết fiction có conflict, phân tích security vulnerability, hoặc thậm chí giải thích cách hoạt động của một loại malware cho mục đích giáo dục. Đây chính là lý do cộng đồng tạo ra các bản uncensored.
So sánh nhanh giữa model gốc và bản uncensored:
| Đặc điểm | Qwen3-35B-A3B (gốc) | Bản Uncensored-Aggressive |
|---|---|---|
| Parameters | 35B (3B active) | 35B (3B active) |
| Kiến trúc | MoE | MoE (giữ nguyên) |
| Safety guardrails | Có, theo chuẩn Alibaba | Đã loại bỏ/giảm |
| Tool calling | Có | Có |
| Reasoning (`<think>`) | Có | Có |
| Use case chính | General purpose, production | Research, creative, unrestricted |
| Rủi ro | Thấp | Cao cần tự chịu trách nhiệm |
Kiến trúc MoE 35B-A3B nghĩa là gì?
Điều mình thấy hay là model này dùng kiến trúc Mixture of Experts tổng cộng 35 tỷ parameters nhưng mỗi lần inference chỉ activate khoảng 3 tỷ. Điều này có nghĩa:
- VRAM thấp hơn nhiều so với một dense model 35B. Bạn có thể chạy trên GPU consumer-grade như RTX 4090 (24GB VRAM) nếu quantize xuống Q4.
- Tốc độ inference nhanh vì chỉ compute qua 3B active parameters.
- Chất lượng output vẫn tận dụng được knowledge của 35B params nhờ routing mechanism.
Nói đơn giản: bạn được "não" của model 35B nhưng chỉ trả "chi phí compute" của model 3B. Đây là lý do Qwen3 MoE đang rất hot trong cộng đồng self-hosted AI.
Ai nên quan tâm?
Model này không dành cho mọi người. Mình chia ra mấy nhóm:
Nên thử nếu bạn:
- Đang research về AI safety và cần hiểu behavior của model khi không có guardrails
- Làm creative writing, worldbuilding, hoặc các task mà censored models hay từ chối
- Muốn build một assistant riêng với custom safety layer do chính bạn kiểm soát
- Đang so sánh output giữa censored vs uncensored để hiểu RLHF ảnh hưởng thế nào
Không nên dùng nếu bạn:
- Deploy trực tiếp cho end-user mà không có moderation layer
- Không hiểu rõ rủi ro pháp lý và đạo đức khi dùng uncensored model
- Đang build product cho enterprise hãy dùng model gốc với proper safety
Góc nhìn thực tế từ mình
Theo kinh nghiệm của mình, uncensored models có chỗ đứng hợp lệ trong ecosystem. Vấn đề không nằm ở bản thân model mà ở cách người dùng deploy và sử dụng nó.
Một pattern mình hay thấy trong production là: dùng uncensored model làm "engine" bên dưới, rồi wrap nó bằng custom moderation layer phía trên. Như vậy bạn vừa có flexibility của uncensored model, vừa kiểm soát được output theo đúng policy của mình thay vì phụ thuộc vào safety rules của hãng mà đôi khi quá aggressive.
Tuy nhiên, cái tag "Aggressive" trong tên model này khiến mình hơi cautious. Nó gợi ý rằng model không chỉ bỏ safety mà có thể đã được fine-tune để chủ động tạo content mạnh hơn bình thường. Đây là điểm cần test kỹ trước khi dùng.
Cách chạy thử
Nếu bạn muốn test, flow cơ bản:
- Clone model từ Hugging Face:
huggingface-cli download HauhauCS/Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive - Dùng vLLM, llama.cpp, hoặc Ollama để serve
- Với llama.cpp, bạn cần convert sang GGUF format nếu chưa có sẵn
- Recommend quantize Q4_K_M hoặc Q5_K_M để balance giữa quality và VRAM
Về hardware tối thiểu:
Lưu ý: Đây là ước tính cho MoE model, thực tế có thể khác tùy framework.
| Quantization | VRAM cần thiết (ước tính) | GPU phù hợp |
|---|---|---|
| FP16 | ~70GB | A100 80GB, 2x RTX 4090 |
| Q8 | ~35GB | A100 40GB, 2x RTX 3090 |
| Q4_K_M | ~18-20GB | RTX 4090, RTX 3090 |
| Q3_K_M | ~15GB | RTX 4080 16GB |
Điều cần theo dõi tiếp
Xu hướng uncensored models đang ngày càng phổ biến trên Hugging Face, đặc biệt với các base model mạnh như Qwen3, Llama 4, và Mistral. Hugging Face hiện tại vẫn cho phép host các model này, nhưng policy có thể thay đổi bất cứ lúc nào.
Điều mình quan tâm nhất là liệu cộng đồng Việt Nam sẽ tận dụng các model uncensored này cho những use case gì. Với chi phí inference thấp nhờ MoE architecture, việc self-host một AI assistant "không kiểm duyệt" giờ đã nằm trong tầm tay của developer cá nhân và đó vừa là cơ hội, vừa là trách nhiệm.
Nếu bạn thử model này, chia sẻ benchmark và nhận xét nhé. Cộng đồng cần nhiều feedback thực tế hơn là chỉ đọc model card.
Nguyễn Nhật Long
@nguyennhatlong1303Nguyễn Nhật Long is a Senior Frontend Engineer and Frontend Team Leader with 7 years of experience building real-time fintech platforms. Specializing in React, Next.js, TypeScript, and React Native, shipping 10+ products across Web, Mobile, Telegram Mini-Apps, and Web3.
Thấy hay? Chia sẻ cho bạn bè!