Qwen3.6-35B Uncensored: Model "bất kham" mới trên Hugging Face

Một developer Việt Nam vừa publish một model khá "gắt" lên Hugging Face Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive. Cái tên đã nói lên tất cả: uncensored, aggressive, và dựa trên kiến trúc Mixture of Experts của Qwen3. Nếu bạn đang theo dõi xu hướng fine-tune model "không rào cản" trong cộng đồng open-source, thì đây là một case đáng để bàn.

Chuyện gì vừa xảy ra?

User HauhauCS trên Hugging Face đã release một phiên bản fine-tuned của Qwen3 cụ thể là variant 35B parameters với kiến trúc MoE (Mixture of Experts), chỉ activate khoảng 3B parameters mỗi lần inference. Điểm đặc biệt là model này được gắn tag Uncensored và Aggressive, nghĩa là nó đã được loại bỏ (hoặc giảm đáng kể) các safety guardrails mà Alibaba Cloud đã cài vào model gốc Qwen3.

Nhìn vào model card, ta thấy nó vẫn giữ nguyên chat template chuẩn của Qwen3 bao gồm support cho tool calling, vision (image/video), multi-turn conversation, và cả reasoning với <think> tags. Về mặt kỹ thuật, đây không phải là một kiến trúc mới mà là một bản fine-tune tập trung vào việc thay đổi behavior của model.

Tại sao lại Uncensored?

Để hiểu context, mình cần nói qua về xu hướng đang diễn ra trong cộng đồng open-source AI. Các model lớn từ OpenAI, Google, hay Alibaba đều được train với RLHF (Reinforcement Learning from Human Feedback) để từ chối các request mà hãng cho là "harmful". Vấn đề là ranh giới giữa "an toàn" và "quá thận trọng" rất mờ.

Theo kinh nghiệm của mình khi làm việc với các LLM trong production, có những lúc model từ chối những request hoàn toàn hợp lệ ví dụ viết fiction có conflict, phân tích security vulnerability, hoặc thậm chí giải thích cách hoạt động của một loại malware cho mục đích giáo dục. Đây chính là lý do cộng đồng tạo ra các bản uncensored.

So sánh nhanh giữa model gốc và bản uncensored:

Đặc điểm	Qwen3-35B-A3B (gốc)	Bản Uncensored-Aggressive
Parameters	35B (3B active)	35B (3B active)
Kiến trúc	MoE	MoE (giữ nguyên)
Safety guardrails	Có, theo chuẩn Alibaba	Đã loại bỏ/giảm
Tool calling	Có	Có
Reasoning (`<think>`)	Có	Có
Use case chính	General purpose, production	Research, creative, unrestricted
Rủi ro	Thấp	Cao cần tự chịu trách nhiệm

Kiến trúc MoE 35B-A3B nghĩa là gì?

Điều mình thấy hay là model này dùng kiến trúc Mixture of Experts tổng cộng 35 tỷ parameters nhưng mỗi lần inference chỉ activate khoảng 3 tỷ. Điều này có nghĩa:

VRAM thấp hơn nhiều so với một dense model 35B. Bạn có thể chạy trên GPU consumer-grade như RTX 4090 (24GB VRAM) nếu quantize xuống Q4.
Tốc độ inference nhanh vì chỉ compute qua 3B active parameters.
Chất lượng output vẫn tận dụng được knowledge của 35B params nhờ routing mechanism.

Nói đơn giản: bạn được "não" của model 35B nhưng chỉ trả "chi phí compute" của model 3B. Đây là lý do Qwen3 MoE đang rất hot trong cộng đồng self-hosted AI.

Ai nên quan tâm?

Model này không dành cho mọi người. Mình chia ra mấy nhóm:

Nên thử nếu bạn:

Đang research về AI safety và cần hiểu behavior của model khi không có guardrails
Làm creative writing, worldbuilding, hoặc các task mà censored models hay từ chối
Muốn build một assistant riêng với custom safety layer do chính bạn kiểm soát
Đang so sánh output giữa censored vs uncensored để hiểu RLHF ảnh hưởng thế nào

Không nên dùng nếu bạn:

Deploy trực tiếp cho end-user mà không có moderation layer
Không hiểu rõ rủi ro pháp lý và đạo đức khi dùng uncensored model
Đang build product cho enterprise hãy dùng model gốc với proper safety

Góc nhìn thực tế từ mình

Theo kinh nghiệm của mình, uncensored models có chỗ đứng hợp lệ trong ecosystem. Vấn đề không nằm ở bản thân model mà ở cách người dùng deploy và sử dụng nó.

Một pattern mình hay thấy trong production là: dùng uncensored model làm "engine" bên dưới, rồi wrap nó bằng custom moderation layer phía trên. Như vậy bạn vừa có flexibility của uncensored model, vừa kiểm soát được output theo đúng policy của mình thay vì phụ thuộc vào safety rules của hãng mà đôi khi quá aggressive.

Tuy nhiên, cái tag "Aggressive" trong tên model này khiến mình hơi cautious. Nó gợi ý rằng model không chỉ bỏ safety mà có thể đã được fine-tune để chủ động tạo content mạnh hơn bình thường. Đây là điểm cần test kỹ trước khi dùng.

Cách chạy thử

Nếu bạn muốn test, flow cơ bản:

Clone model từ Hugging Face: huggingface-cli download HauhauCS/Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive
Dùng vLLM, llama.cpp, hoặc Ollama để serve
Với llama.cpp, bạn cần convert sang GGUF format nếu chưa có sẵn
Recommend quantize Q4_K_M hoặc Q5_K_M để balance giữa quality và VRAM

Về hardware tối thiểu:

Lưu ý: Đây là ước tính cho MoE model, thực tế có thể khác tùy framework.

Quantization	VRAM cần thiết (ước tính)	GPU phù hợp
FP16	~70GB	A100 80GB, 2x RTX 4090
Q8	~35GB	A100 40GB, 2x RTX 3090
Q4_K_M	~18-20GB	RTX 4090, RTX 3090
Q3_K_M	~15GB	RTX 4080 16GB

Điều cần theo dõi tiếp

Xu hướng uncensored models đang ngày càng phổ biến trên Hugging Face, đặc biệt với các base model mạnh như Qwen3, Llama 4, và Mistral. Hugging Face hiện tại vẫn cho phép host các model này, nhưng policy có thể thay đổi bất cứ lúc nào.

Điều mình quan tâm nhất là liệu cộng đồng Việt Nam sẽ tận dụng các model uncensored này cho những use case gì. Với chi phí inference thấp nhờ MoE architecture, việc self-host một AI assistant "không kiểm duyệt" giờ đã nằm trong tầm tay của developer cá nhân và đó vừa là cơ hội, vừa là trách nhiệm.

Nếu bạn thử model này, chia sẻ benchmark và nhận xét nhé. Cộng đồng cần nhiều feedback thực tế hơn là chỉ đọc model card.