Coding agent tuần này — phần rang và phần bọt
Xiaomi tung MiMo-V2.5-Pro nghìn tỷ param, Mistral ship remote agent — mổ xem builder Việt Nam rút được gì thật.
Bụi WireHai shot trong một tuần
42 tỷ trên tổng 1.020 tỷ — đó là số tham số thực sự hoạt động mỗi lần bạn gọi MiMo-V2.5-Pro, model open-weight mới nhất của Xiaomi. Cùng tuần, Mistral ship remote agents cho Vibe cùng model Medium 3.5 dense 128 tỷ tham số. Cả hai đều được gắn mác "đối thủ Claude Opus".
Mình không phản đối cạnh tranh — càng nhiều lựa chọn, builder càng có lợi. Nhưng khi hai bản release lớn rơi vào cùng một tuần, việc đầu tiên không phải chạy benchmark, mà là tách phần rang thật khỏi phần bọt marketing.
MiMo-V2.5-Pro — nghìn tỷ param, 42 tỷ làm việc
MiMo-V2.5-Pro dùng kiến trúc MoE (Mixture of Experts — mỗi request chỉ kích hoạt một nhóm "chuyên gia" trong model, không phải toàn bộ). Tổng 1.02 nghìn tỷ tham số, nhưng mỗi lần gọi chỉ có 42 tỷ active parameters (tham số thực sự tham gia tính toán). Kiến trúc này không mới — DeepSeek-V3 đi trước — nhưng quy mô và hướng dùng thì mới.
Xiaomi demo bằng cách cho model viết trọn một compiler theo đề bài đại học Bắc Kinh. Kết quả: 4.3 giờ, 672 tool calls (lần gọi công cụ bên ngoài), đạt 233/233 test. Điều đáng chú ý hơn con số: model tự dựng scaffolding (khung xương dự án) trước, rồi lắp từng tầng — giống cách một senior dev tiếp cận bài toán lớn, không phải kiểu viết liều từ trên xuống rồi sửa sau.
Context window lên tới 1 triệu token. Xiaomi cũng tuyên bố model dùng ít hơn 40–60% token so với Claude Opus hay Gemini Pro — nếu đúng, đây là điểm ảnh hưởng trực tiếp tới hóa đơn vận hành hàng tháng.
Tuy nhiên — và đây là chỗ builder cần tỉnh — toàn bộ benchmark trên là internal test. Chưa có bên thứ ba kiểm chứng độc lập.
Kịch bản team Việt Nam: Giả sử team bạn 4–5 người đang self-host model cho code review nội bộ. MiMo-V2.5-Pro là open-weight (mở trọng số để tải về chạy, khác với open-source toàn phần vì license có thể giới hạn thương mại). Với 42 tỷ active param, bạn cần infra GPU nghiêm túc — đây không phải model chạy trên một chiếc RTX 4090. Nhưng nếu team đang thuê API bên ngoài và muốn kiểm soát data nội bộ, đây là một lựa chọn mới đáng đặt lên bàn cân chi phí.
Mistral Medium 3.5 + remote agent — pha xong, không cần đứng canh
Mistral đi hướng khác hẳn. Thay vì chạy đua kích thước model, họ ship hạ tầng: remote agents trong Vibe.
Trước đây, Vibe — coding agent chạy qua CLI — buộc bạn phải mở terminal và ngồi chờ. Giờ bạn kick off task rồi đi làm việc khác — agent chạy trên cloud, xong thì tự mở pull request trên GitHub. Một tính năng đáng để ý: session teleporting (chuyển phiên làm việc đang chạy local lên cloud mà không mất trạng thái hay lịch sử).
Model mặc định giờ là Medium 3.5, một dense model (kích hoạt toàn bộ 128 tỷ tham số mỗi request, đối lập kiểu MoE chỉ dùng một phần). Mistral report đạt 77.6% trên SWE-Bench Verified — bộ benchmark đo khả năng sửa bug thực tế lấy từ các repo open-source.
Kịch bản thực tế: Team bạn đang chạy CI/CD và hay gặp flaky test. Thay vì assign người ngồi debug, bạn tạo task cho Vibe remote agent: "investigate flaky test in module X, propose fix". Agent chạy nền trong sandbox riêng — có thể cài package, sửa file mà không ảnh hưởng môi trường chính. Bạn review khi có notification, thay vì đứng canh terminal.
Điều không ai nói to: remote agent nghĩa là bạn đang gửi codebase lên cloud của Mistral. Với team có chính sách bảo mật nghiêm ngặt hoặc code proprietary, đây là tradeoff phải cân trước khi bật tính năng.
Builder nên rút gì từ hai release này?
Đặt cạnh nhau, hai bản release phản ánh hai chiến lược khác biệt:
| | MiMo-V2.5-Pro (Xiaomi) | Mistral Medium 3.5 + Vibe Remote |
|---|---|---|
| Kiến trúc | MoE — 1.02T total / 42B active | Dense — 128B |
| Điểm mạnh | Task dài hàng giờ, token efficiency | Infra remote agent, session teleporting |
| Open-weight? | Có | Có (model), agent chạy qua Mistral cloud |
| Benchmark | Internal (chưa third-party) | SWE-Bench Verified 77.6% |
| Rủi ro chính | Cần GPU cluster để self-host | Code đi qua cloud bên thứ ba |
Tóm gọn cho builder Việt Nam:
- Nếu bạn cần task tự động chạy dài và có GPU budget: đánh dấu MiMo-V2.5-Pro vào danh sách evaluate, nhưng đợi benchmark độc lập trước khi commit resource.
- Nếu bạn cần coding agent chạy nền, song song nhiều task và chấp nhận cloud: Vibe remote đáng thử vì hạ tầng đã sẵn.
- Nếu budget hạn chế và chưa rõ hướng: giữ nguyên stack hiện tại, theo dõi cả hai trong 2–3 tháng tới khi community benchmark và production report xuất hiện.
Bọt nào nên gạt
"Claude Opus killer" — cụm này xuất hiện gần như mỗi tuần với một cái tên khác. Benchmark nội bộ không phải bằng chứng đủ. Đợi kết quả từ Aider leaderboard, SWE-Bench community-run, hoặc thực tế deploy ở vài team trước khi tin.
"1 nghìn tỷ tham số" — con số headline, nhưng với MoE, nó giống tổng nhân sự cả tập đoàn. Mỗi dự án chỉ huy động một phòng ban. 42 tỷ active param mới là con số bạn cần dùng khi tính infra cost.
"Remote agent = tự động hóa hoàn toàn" — không hề. Mistral thiết kế flow để bạn review diff và approve, không phải auto-merge. Nếu ai trong team đề xuất "cứ để agent tự chạy rồi merge", đó là lúc nên dừng lại nói chuyện nghiêm túc.
Giống pha cà phê — máy xịn hơn không đảm bảo ly nào cũng ngon. Hạt, nguồn nước, và người canh nhiệt độ chiết xuất vẫn quyết định chất lượng cuối cùng. Model mới cũng vậy: infra, data pipeline, và quy trình review của team mới là thứ biến release thành giá trị thật.
---
Bụi Wire — nghiện đọc release notes lúc 2 giờ sáng