103B nhưng chỉ kích hoạt 6B — trick hay trend?

Tuần qua có model y khoa 103B parameter mà inference chỉ dùng 6.1B. Bóc tách xem pattern efficiency này đáng giữ gì cho builder.

Bụi Wire

2026-05-19

103 tỷ parameter — con số đó có ý nghĩa gì khi mỗi lượt inference chỉ có 6.1 tỷ thực sự bật lên làm việc? Tuần vừa rồi, AntAngelMed — model ngôn ngữ y khoa open-source từ một nhóm nghiên cứu Trung Quốc — ra mắt với headline "103B parameter", nhưng kiến trúc bên dưới kể một câu chuyện khác hoàn toàn.

Cùng tuần, Supertonic v3 ship model TTS 99 triệu parameter chạy on-device hỗ trợ 31 ngôn ngữ. Vercel Labs ra Zero — ngôn ngữ lập trình thiết kế riêng cho AI agent. Aurora sửa lỗi chết neuron trong optimizer Muon. Bốn release, bốn hướng, nhưng chung một mạch ngầm mà headline không nói ra.

Bốn release, một tín hiệu dưới tầng tán

Nếu nhìn riêng lẻ, đây chỉ là tuần bình thường của feed AI. Nhưng xếp cạnh nhau, tín hiệu rõ hơn:

AntAngelMed: 103B tổng, 6.1B active. Dùng MoE (Mixture-of-Experts — kiến trúc chia model thành nhiều "chuyên gia", mỗi lượt chỉ kích hoạt vài chuyên gia phù hợp) với activation ratio (tỉ lệ kích hoạt) 1/32.
Supertonic v3: 99M parameter, chạy on-device (suy luận ngay trên thiết bị, không cần server), mở rộng từ 5 lên 31 ngôn ngữ mà kích thước model chỉ tăng nhẹ.
Zero: compiler output dạng JSON structured, CLI thống nhất — tối ưu để agent tiêu thụ, không phải cho dev đọc error message.
Aurora: sửa neuron death (chết neuron — neuron bị "tắt" vĩnh viễn trong quá trình train) mà optimizer Muon gây ra ở các layer MLP.

Mạch ngầm: ngành không còn chạy đua "to hơn" mà đang chạy đua "dùng ít hơn nhưng giữ output". Giống khu rừng trưởng thành — thay vì một cây khổng lồ chiếm hết ánh sáng, hệ sinh thái phân tầng: tầng tán, tầng giữa, tầng đáy, mỗi tầng nhận đúng lượng tài nguyên vừa đủ.

Mổ từng lớp: khi 97% parameter ngồi chơi có chủ đích

AntAngelMed kế thừa kiến trúc Ling-flash-2.0 rồi thêm một loạt tối ưu: sigmoid routing (cơ chế chọn expert không cần auxiliary loss — hàm loss phụ), QK-Norm (chuẩn hóa query-key để ổn định quá trình train), Partial-RoPE (chỉ áp rotary position embedding lên một phần attention head thay vì toàn bộ), và MTP — Multi-Token Prediction (dự đoán nhiều token cùng lúc).

Nói đơn giản thì: thay vì ép toàn bộ 103B parameter xử lý mỗi câu hỏi, routing mechanism chọn đúng nhóm expert liên quan rồi chỉ kích hoạt nhóm đó. Phần còn lại — 97% — không tốn compute. Kết quả: inference cost ngang model dense (model đặc — mọi parameter đều hoạt động mỗi lượt) cỡ 6-7B, nhưng knowledge capacity của toàn bộ 103B.

Đội ngũ claim hiệu năng matching dense model ~40B với compute chỉ bằng 6B active. Nếu con số 7× efficiency so với dense cùng kích thước đúng — bài toán deploy cho team nhỏ thay đổi hoàn toàn.

Kịch bản thực tế: Giả sử team healthtech 4 người ở Đà Nẵng đang build chatbot tư vấn sức khỏe. Trước đây, muốn model chuyên y khoa cỡ 40B dense, bạn cần ít nhất 2×A100 80GB. Với kiến trúc MoE 1/32 và activation chỉ 6.1B, phần inference nhẹ hơn đáng kể — không cần cluster khủng. Câu hỏi còn lại là chất lượng tiếng Việt y khoa, nhưng rào cản hardware đã hạ thấp rõ rệt.

Pattern nào mang về được cho roadmap

Không phải AntAngelMed mà là kiểu tư duy đằng sau nó đáng giữ:

1. Activation sparsity là đòn bẩy thật. Thay vì chọn giữa "model nhỏ chạy nhanh nhưng kém" và "model to chạy tốt nhưng đắt", MoE cho phép giữ knowledge rộng mà inference rẻ. Nếu team bạn đang benchmark model cho production, thêm cột "active params" vào bảng so sánh — tổng parameter không kể hết câu chuyện.

2. On-device đang chín muồi. Supertonic v3 với 99M parameter hỗ trợ 31 ngôn ngữ — bao gồm tiếng Việt — cho thấy model nhỏ + domain-specific thay thế được cloud API cho nhiều use case. Giả sử team bạn xây app chăm sóc sức khỏe cần đọc kết quả xét nghiệm bằng giọng nói: on-device TTS giảm latency, không phụ thuộc internet, và giữ data bệnh nhân trong máy. Với 404MB disk footprint, đủ nhỏ để bundle trong mobile app.

3. Tooling shift về agent-consumable. Zero của Vercel — dù còn thực nghiệm — phản ánh xu hướng: output của tool không còn chỉ dành cho mắt người. JSON diagnostics với stable error code thay cho unstructured text. Nếu team bạn đang xây agent pipeline, ưu tiên tool có structured output sẽ giảm prompt engineering đáng kể.

Gì chỉ là tiếng ồn mùa conference

Headline "103B parameter" bản thân nó. Với MoE, tổng parameter và chi phí inference là hai metric hoàn toàn khác nhau. Đừng so AntAngelMed 103B với GPT-4 hay Claude bằng con số parameter — so vậy là so sai đơn vị.

"Largest and most capable medical model" — self-claim chưa verify. Với builder, câu hỏi thực tế hơn: model này xử lý được tiếng Việt y khoa không? Handle được kiểu viết tắt của bác sĩ Việt Nam không? Chưa benchmark nào trả lời.

Aurora cho team đang deploy. Aurora giải quyết vấn đề training optimizer — cực kỳ relevant nếu bạn đang pretrain model mới. Nhưng nếu team bạn ở giai đoạn fine-tune hoặc inference, nó chưa ảnh hưởng workflow ngay bây giờ. Bookmark và quay lại khi cần.

Zero cho codebase hiện tại. Experimental, chưa có ecosystem, chưa community đủ lớn. Theo dõi thì nên, adopt thì chưa phải lúc.

Một metric thay đổi cách đọc release notes

Tuần sau sẽ lại có model mới với con số headline ấn tượng. Thay vì hỏi "bao nhiêu parameter tổng?", hỏi "bao nhiêu parameter thực sự chạy mỗi lượt?" — và bức tranh production sẽ rõ hơn nhiều.

Hệ sinh thái AI không còn đo bằng cây nào cao nhất. Nó đo bằng cách tài nguyên được phân phối dưới tán lá — đúng chỗ, đúng lúc, đúng liều.

---

Bụi Wire — nghiện đọc release notes lúc 2 giờ sáng