AI đang tách tầng — và đó mới là bước ngoặt thật

Tuần này ba ông lớn cùng ship một pattern: tách AI thành nhiều tầng chuyên biệt. Nếu team bạn vẫn nhồi hết vào một model, đây là lúc nghĩ lại.

Bụi Wire

2026-04-28

Một câu hỏi mình hay bị hỏi sai

"Model nào tốt nhất?" — mình nghe câu này ít nhất ba lần mỗi tuần trong các group Telegram dev Việt Nam. Và mỗi lần, mình đều muốn hỏi ngược: "Tốt nhất cho việc gì?"

Tuần này, ba release lớn rơi cùng lúc: Google DeepMind tung Gemini Robotics-ER 1.6, Alibaba mở mã nguồn Qwen3.6-35B-A3B, Anthropic đưa Claude Opus 4.7 lên Vertex AI, và AWS ship Automated Reasoning checks trong Bedrock. Nhìn thoáng qua thì giống cuộc chạy đua "ai mạnh hơn ai." Nhưng đọc kỹ release notes, mình thấy một pattern khác hoàn toàn — cả bốn đều đang tách AI thành nhiều tầng chuyên biệt, thay vì cố nhồi mọi thứ vào một model duy nhất.

Khoan — chuyện phức tạp hơn "model mới, benchmark cao hơn"

Lấy Gemini Robotics-ER 1.6 làm ví dụ. DeepMind không xây một model vừa suy nghĩ vừa điều khiển cánh tay robot. Họ tách thành hai tầng rõ ràng: Gemini Robotics (tầng hành động — nhận hình ảnh, ra lệnh motor) và Gemini Robotics-ER (tầng suy luận — hiểu không gian, lập kế hoạch, phán đoán thành/bại). Tầng suy luận không bao giờ chạm vào khớp robot. Nó chỉ đưa tín hiệu cho tầng hành động biết nên làm gì tiếp.

Nói thẳng ra: đây là kiến trúc "kiến trúc sư vs thợ xây" — ông kiến trúc sư không cầm búa, và ông thợ xây không vẽ bản thiết kế. Mỗi người một việc, ngôi nhà mới đứng vững.

Version 1.6 bổ sung thêm instrument reading — khả năng đọc đồng hồ đo, màn hình hiển thị trên thiết bị vật lý — phát triển cùng Boston Dynamics. Spatial reasoning cũng cải thiện đáng kể: pointing (chỉ chính xác vị trí pixel trong ảnh), counting, và multi-view success detection (nhìn từ nhiều góc camera để xác nhận robot hoàn thành task chưa). Tất cả đều là capability của tầng suy luận, hoàn toàn tách biệt khỏi tầng ra lệnh vật lý.

35 tỷ parameter, bật đèn có 3 tỷ

Cùng tuần, Alibaba tung Qwen3.6-35B-A3B dưới license Apache 2.0. Con số đáng chú ý: 35 tỷ tổng parameter, nhưng mỗi lần inference chỉ kích hoạt 3 tỷ. Đây là Mixture of Experts (MoE) — 256 expert nhỏ bên trong, mỗi token chỉ đi qua 8 expert được chọn cộng 1 shared expert.

Bạn có một tòa nhà 35 tầng nhưng mỗi lúc chỉ cần bật điện 3 tầng. Chi phí vận hành giảm mạnh, mà tổng diện tích khi cần vẫn rất lớn.

Kiến trúc bên trong cũng đáng bàn: mỗi block gồm 3 lớp Gated DeltaNet (linear attention — rẻ hơn self-attention truyền thống) và 1 lớp Gated Attention với Grouped Query Attention (16 head cho Q, chỉ 2 cho KV — giảm áp lực KV-cache đáng kể). Context window lên tới 262,144 tokens. Model hỗ trợ cả vision lẫn agentic coding, benchmark competitive với dense model gấp nhiều lần active size.

Ví dụ cụ thể: giả sử team bạn 4 người ở Đà Nẵng đang self-host model cho internal code review. Trước đây chạy dense model 7B thì VRAM kịch trần. Qwen3.6-35B-A3B với 3B active parameters cho VRAM requirement tương đương model 3B, nhưng chất lượng reasoning cao hơn hẳn nhờ 35B knowledge phía sau. Đổi lại, bạn cần đủ RAM (không phải VRAM) để load toàn bộ weights — nên cần benchmark kỹ trên hardware thực tế trước khi commit.

Tầng kiểm định — thứ ai cũng quên đến khi bị audit

Amazon tuần này ship Automated Reasoning checks trong Bedrock Guardrails. Thay vì dùng LLM thứ hai "chấm bài" LLM thứ nhất (pattern LLM-as-a-judge), họ dùng formal verification — chứng minh bằng logic toán học rằng output tuân thủ rules đã định.

Kịch bản thực tế: giả sử team bạn xây chatbot tư vấn bảo hiểm cho một công ty ở TP.HCM. Cách cũ — LLM trả lời, rồi LLM khác kiểm tra "câu trả lời có đúng policy không." Hai hệ thống xác suất kiểm tra lẫn nhau, và khi sai thì không ai chịu trách nhiệm. Automated Reasoning checks thay bằng bằng chứng toán học: output có consistent với policy document không, có audit trail rõ ràng.

Cùng lúc, Claude Opus 4.7 lên Vertex AI — cải thiện rõ rệt về xử lý ambiguity, vision, và memory cho long-horizon tasks. Điểm đáng chú ý: Anthropic đẩy mạnh hướng "model gắn vào platform có governance sẵn" thay vì chỉ ship model đơn lẻ. Như mình đã chia sẻ trong các bài trước về Anthropic — họ ngày càng tập trung vào enterprise trust, không chỉ benchmark.

Thử chiều nay: tách tầng ngay trong pipeline

Bạn không cần robot hay formal verification platform để áp dụng pattern này:

Bước 1 — Vẽ sơ đồ tầng hiện tại. Mở whiteboard, liệt kê mọi thứ model đang làm: phân tích input, ra quyết định, sinh output, kiểm tra chất lượng. Ghi kèm latency và failure rate từng bước.

Bước 2 — Tách reasoning khỏi execution. Dùng model nhỏ (Qwen3.6 nếu self-host, hoặc API) để phân tích và lập kế hoạch. Rồi model/tool khác để thực thi. Chỉ cần tách ở mức prompt chain — chưa cần thay infrastructure.

Bước 3 — Thêm validation không dùng LLM. Đơn giản nhất: rule-based checks bằng Python. Output có đúng format không? Có chứa thông tin cấm không? Giá trị nằm trong range hợp lệ chưa? Đừng để LLM tự kiểm tra chính nó.

Bước 4 — Đo lại. So sánh accuracy và latency trước/sau. Đừng tin mình, thử đi rồi biết.

Cái bẫy, và một takeaway duy nhất

Cảnh báo: tách tầng không phải lúc nào cũng hay. Mình biết một team ở Sài Gòn hồi đầu năm, nhồi 4 model vào pipeline — model phân tích, model lên kế hoạch, model thực thi, model kiểm tra — kết quả là latency tăng gấp 6 lần và debug thì như tìm ống nước rò trong bức tường đã trát kín. Tầng nào gây lỗi? Không ai biết, vì output mỗi tầng đều "trông có vẻ hợp lý."

Quy tắc đơn giản: bắt đầu với 1 model, chỉ tách khi bạn chỉ ra được bottleneck cụ thể ở một capability. Tách vì có lý do, không phải tách vì thấy DeepMind tách.

Tuần này các ông lớn đồng loạt xác nhận một điều: tương lai của AI systems không phải một model làm tất cả, mà là nhiều tầng chuyên biệt phối hợp nhịp nhàng. Câu hỏi không còn là "model nào tốt nhất" nữa — mà là "tầng nào đang thiếu trong hệ thống của bạn."

---

Bụi Wire — nghiện đọc release notes lúc 2 giờ sáng