35 tỷ tham số, bật có 3 tỷ — ai bị lừa?
Qwen3.6-35B-A3B kích hoạt 3 tỷ trong 35 tỷ tham số mỗi lần chạy. Bóc tách kiến trúc MoE và cách tận dụng thực tế cho dev Việt Nam.
Bụi Wire35 tỷ tham số mà mỗi lần suy luận chỉ kích hoạt 3 tỷ. Phần còn lại — 32 tỷ — hoàn toàn im lặng. Đó không phải bug. Đó là toàn bộ ý đồ thiết kế của Qwen3.6-35B-A3B, model mới nhất mà Alibaba Qwen team vừa thả ra dưới Apache 2.0.
Nhưng khoan — nếu 91% tham số không làm gì trong mỗi lần chạy, tại sao phải giữ chúng?
Mỗi token chỉ cần đúng kệ sách, không cần cả thư viện
Qwen3.6-35B-A3B dùng kiến trúc Mixture of Experts (MoE). Bên trong có 256 expert — mỗi expert là một sub-network chuyên biệt. Khi model nhận một token đầu vào, nó không ép tất cả 256 expert cùng xử lý. Thay vào đó, cơ chế routing chọn ra 8 expert phù hợp nhất cộng 1 shared expert, kích hoạt tổng cộng khoảng 3 tỷ tham số.
Bản chất thật sự: bạn có một thư viện 256 kệ sách, nhưng mỗi lần tra cứu, thủ thư chỉ kéo đúng 8 kệ liên quan nhất ra cho bạn. Toàn bộ kiến thức vẫn nằm đó, sẵn sàng khi cần — nhưng chi phí mỗi lần tra cứu cực kỳ tiết kiệm.
Phần ít ai đọc kỹ: cách xếp layer bên trong
Nếu MoE không mới thì cái đáng bàn nằm ở layout bên trong. Model xếp 40 layer theo pattern lặp: cứ 3 lớp Gated DeltaNet (linear attention — nhẹ hơn self-attention chuẩn rất nhiều về compute) rồi đến 1 lớp Gated Attention dùng Grouped Query Attention với 16 head cho query nhưng chỉ 2 head cho key-value.
Vì sao bạn nên quan tâm? Vì KV-cache — bộ nhớ model phải giữ lại khi xử lý context dài — chính là nút thắt khi self-host. Tỉ lệ query:key-value 16:2 cắt giảm KV-cache đáng kể. Kết hợp với linear attention ở 75% layer, model hỗ trợ context window lên đến 262,144 token mà không nuốt sạch VRAM như model dense tương đương.
Thêm một chi tiết quan trọng: đây là model multimodal (hiểu cả hình ảnh) và có khả năng agentic coding — tự lên plan, gọi tool, viết code nhiều bước.
Chạy thật trên bài toán thật
Kịch bản 1 — startup 4 người, 1 GPU. Giả sử team bạn xây chatbot hỗ trợ kỹ thuật. Cần model hiểu tiếng Việt ổn, đọc screenshot lỗi từ khách hàng, viết code fix nhanh. Lựa chọn cũ: gọi API bên ngoài (tốn tiền, data bay ra ngoài) hoặc chạy model dense 70B (cần cluster đắt đỏ). Qwen3.6-35B-A3B mở lựa chọn thứ ba: inference cost tỷ lệ với 3B active thay vì 35B total. Bạn giữ data in-house mà không cần mua thêm GPU.
Kịch bản 2 — team xử lý hóa đơn, chứng từ. Pipeline cũ thường là OCR một đằng, LLM một nẻo, code keo dán ở giữa. Một model multimodal như Qwen3.6 gộp bước "nhìn" và "hiểu" thành một, cắt giảm độ phức tạp pipeline rõ rệt. Ít moving parts hơn nghĩa là ít chỗ để bug trốn.
Cái bẫy mà 3 trên 5 người sẽ dẫm phải
Nghe "3B active" rồi tưởng chạy laptop 8GB RAM ngon lành — sai hoàn toàn. Toàn bộ 35B trọng số vẫn phải nằm trong bộ nhớ. Với FP16, ước chừng cần khoảng 70GB RAM/VRAM. Quantize xuống INT4 thì còn khoảng 18-20GB (con số ước tính, chưa tính overhead).
Đừng nhầm giữa "nhẹ khi chạy" và "nhẹ khi load." MoE tiết kiệm compute mỗi token (nhanh hơn, rẻ hơn per-request), nhưng footprint bộ nhớ vẫn nặng. Đây là sai lầm phổ biến nhất khi mới tiếp cận MoE.
Một điểm nữa dành cho ai tính fine-tune: 256 expert cần data đủ đa dạng để routing thực sự chuyên biệt. Fine-tune với dataset nhỏ, đơn điệu có thể khiến routing thiên lệch — kiểu thư viện mà kệ nào cũng toàn sách self-help, hỏi gì cũng ra cùng một câu trả lời.
Thử chiều nay — 4 bước
Nếu bạn có GPU từ 24GB VRAM trở lên (RTX 4090, A5000, hoặc tương đương):
- Kiểm tra bản quantized trên Ollama: vào ollama.com/library tìm Qwen3.6, chọn tag
q4_K_Mhoặc tương tự. Pull về và test nhanh.
- Serve bằng vLLM nếu cần throughput cao: vLLM hỗ trợ MoE và expert parallelism. Có 2 GPU thì thử tensor parallel để chia tải.
- Test agentic coding: đưa một task nhiều bước — ví dụ "đọc file CSV, tìm outlier, viết script Python clean data, xuất kết quả." Quan sát cách model tự lên plan và gọi tool.
- So sánh trên task thật của team bạn: cùng prompt, đo response time và chất lượng output. Đừng tin mình, thử đi rồi biết — benchmark công khai là một chuyện, bài toán thực tế là chuyện khác.
Đặt cạnh phần còn lại của thị trường
- So với dense model 7-8B (Llama, Mistral): Qwen3.6 nặng hơn khi load, nhưng "biết" nhiều hơn nhờ 35B tổng tham số trong khi active compute gần tương đương. Nếu đủ VRAM — nâng cấp rõ rệt.
- So với API closed-source: chi phí API tích lũy nhanh ở volume cao. Self-host MoE model có thể rẻ hơn dài hạn, đặc biệt với data nhạy cảm.
- So với Qwen thế hệ trước: phiên bản 3.6 đánh dấu bước nhảy kiến trúc với DeltaNet + MoE, không chỉ scale up đơn thuần.
Apache 2.0 license — dùng thương mại thoải mái, fork thoải mái. Đây vẫn là lợi thế lớn nhất của open-weight so với các model có license hạn chế.
Một dòng mang về
Cuộc chơi open-source đang chuyển từ "ai to nhất" sang "ai dùng tham số khôn nhất." 35 tỷ tham số xếp kệ, 3 tỷ ra trực mỗi ca — và hóa ra, thư viện không cần mở hết đèn để phục vụ tốt.
---
Bụi Wire — nghiện đọc release notes lúc 2 giờ sáng