Sonnet 4.6 đá trên sân Opus — thật hay ảo?

Anthropic tuyên bố model rẻ gấp 5 lần giờ làm ngang model đắt. Mình bóc tách xem thực hư ra sao.

Bụi Wire

2026-04-10

Một con số khiến mình giật mình

$3 và $15 — chênh nhau đúng 5 lần. Đó là giá input mỗi triệu token giữa Sonnet 4.6 và Opus 4.6 của Anthropic. Bình thường thì "tiền nào của nấy" — model đắt hơn, thông minh hơn, chấm hết. Thế mà tuần này Anthropic tuyên bố thẳng: developer dùng thử Sonnet 4.6 thậm chí thích nó hơn cả Opus 4.5 — model đắt nhất họ từng ship trước đó.

Nghĩ thế này cho dễ hình dung: đội bóng nhà bạn có tiền đạo ngôi sao lương cao ngất, nhưng cầu thủ dự bị vừa vào sân đã ghi hat-trick. Câu hỏi lúc này không phải "ai giỏi hơn" — mà là "có đáng trả gấp 5 cho suất chính thức?"

Khoan — bức tranh phức tạp hơn một dòng PR

Mình đào vào chi tiết thì thấy câu chuyện có nhiều lớp.

Sonnet 4.6 cải thiện rõ rệt ở coding, instruction following, computer use, và hỗ trợ context window lên tới 1 triệu token (đang beta). Giá giữ nguyên Sonnet 4.5. Với những tác vụ mà trước đây bạn phải "với lên" Opus — phân tích codebase lớn, chạy agent nhiều bước, xử lý document dài — giờ Sonnet 4.6 kéo được.

Nhưng Opus 4.6 không đứng yên đợi bị soán ngôi. Opus mới plan cẩn thận hơn, bền bỉ hơn trong agentic task dài hơi, tự review và debug code tốt hơn. Trên các benchmark như Terminal-Bench 2.0 (agentic coding) và Humanity's Last Exam (suy luận đa lĩnh vực phức tạp), Opus 4.6 vẫn dẫn đầu. Đặc biệt trên GDPval-AA — đo hiệu suất tác vụ knowledge work có giá trị kinh tế thực trong finance, legal, và các ngành khác — Opus 4.6 vượt cả GPT-5.2 của OpenAI.

Tóm gọn trong một câu: Sonnet không thay thế Opus — nó đẩy cái "mặt sàn" chất lượng lên cao. Việc bình thường giờ không cần model đắt. Nhưng việc khó, việc dài, việc đòi suy luận nhiều bước — Opus vẫn ăn chắc hơn.

Hai kịch bản — bạn rơi vào cái nào?

Kịch bản 1: Startup 5 dev, ngân sách eo hẹp

Giả sử team bạn đang dồn toàn bộ API call vào Opus cho mọi thứ — từ code review, generate test, đến Q&A nội bộ. Hóa đơn tháng rồi nhìn mà nhói. Giờ bạn có thể:

Chuyển khoảng 80% tác vụ routine (code completion, refactor nhỏ, tóm tắt docs) sang Sonnet 4.6
Giữ Opus 4.6 cho việc "nặng đô": debug cross-service, planning agent pipeline phức tạp, phân tích codebase trên 50 file
Kết quả: chi phí API giảm đáng kể mà output gần như không tụt chất lượng

Kịch bản 2: Team product xây automation cho tác vụ văn phòng

AI đọc email, tóm tắt báo cáo, tạo slide — loại việc mà trước đây cần Opus kết quả mới đủ dùng. Giờ Sonnet 4.6 với computer use cải thiện mạnh, hoàn toàn gánh được — response nhanh hơn, rẻ hơn. Anthropic cũng cho biết hiệu suất trên các tác vụ văn phòng có giá trị kinh tế thực — thứ trước đây cần Opus-class — giờ Sonnet 4.6 xử lý được.

Plot twist: nhiều team sẽ không chọn "một trong hai" mà chạy cả hai — routing thông minh tùy độ phức tạp task. Đây chính là pattern mình thấy ngày càng phổ biến, giống đội bóng xoay tua đội hình tùy đối thủ vậy.

Cuộc đua nóng lên — và open-source cũng không đứng ngoài

Cùng thời điểm Anthropic tung cú đúp, Meta giới thiệu Muse Spark — model multimodal reasoning hỗ trợ tool-use, visual chain of thought, và multi-agent orchestration. Đáng chú ý là chế độ Contemplating: nhiều agent suy luận song song, cạnh tranh thẳng với Gemini Deep Think hay GPT Pro. Meta gọi đây là bước đầu trên "scaling ladder" hướng tới personal superintelligence — tham vọng không nhỏ.

Phía open-source, Together AI tiếp tục đẩy mạnh inference cho các model mở như Qwen, Llama — với Batch Inference API giảm chi phí, cộng thêm FlashAttention-4 tăng tốc trên phần cứng mới. Nếu bạn không muốn phụ thuộc hoàn toàn vào closed-source API, đây là hướng đáng theo dõi — đặc biệt khi self-host đang ngày càng dễ tiếp cận hơn. (Như mình đã chia sẻ trong bài về self-host trợ lý AI — một lệnh là xong, nhưng cũng không hẳn vậy.)

Mấu chốt nằm ở chỗ: cuộc đua không chỉ về "ai thông minh hơn" mà về ai phục vụ workflow thực tế tốt hơn — computer use, multi-agent, long context. Thiết kế abstraction layer đủ linh hoạt để swap model khi cần — đó mới là chiến lược dài hơi.

4 bước kiểm chứng trong một buổi chiều

Muốn biết Sonnet 4.6 có "đá" được cho use case của bạn không?

Lấy 5 prompt khó nhất mà team đang dùng Opus — những cái kết quả phải thật sự tốt mới chấp nhận được
Chạy song song cùng prompt qua Sonnet 4.6 và Opus 4.6 trên API hoặc claude.ai (Sonnet 4.6 giờ là default cho Free và Pro plan)
Blind test: 2-3 người trong team đánh giá output mà không biết model nào sinh ra — ghi lại tỷ lệ chọn
Tính cost: với volume API hiện tại, ước chênh lệch nếu chuyển task "đạt chuẩn" sang Sonnet

Nếu Sonnet đạt yêu cầu cho đa số task — bạn vừa tìm được cách giảm hóa đơn mà không mất chất lượng. Nếu không — ít nhất biết chính xác đâu cần Opus, đâu không.

Đừng đổi đầu bếp giữa giờ cao điểm

Một cảnh báo thật lòng: đừng thấy benchmark đẹp mà chuyển toàn bộ pipeline ngay trong một ngày. Mình từng thấy team đổi model xong — tuần sau phát hiện edge case trong prompt cũ bị model mới hiểu khác. Agent chạy sai 3 bước liên tiếp, output sai nhưng tự tin như đúng rồi. Cả team mất hai ngày debug mới tìm ra thủ phạm là... cách model mới parse instruction khác model cũ một chút xíu.

Giống đổi đầu bếp cho nhà hàng lúc 7 giờ tối thứ Bảy — menu y nguyên, nhưng tay nêm khác, khách quen nhận ra ngay. Chuyển từ từ, A/B test song song, rollback plan sẵn sàng. Đó mới là cách production-grade.

Một dòng mang về

Sonnet 4.6 không giết Opus — nó đẩy ngưỡng "đủ tốt" lên cao hơn bao giờ hết. Và trong production, "đủ tốt với giá hợp lý" thắng "hoàn hảo với giá trên trời" mười lần trên mười. Việc của bạn không phải chọn model hay nhất — mà là routing đúng task vào đúng model, như huấn luyện viên xoay tua đội hình tùy trận đấu vậy.

---

Bụi Wire — nghiện đọc release notes lúc 2 giờ sáng