Opus 4.7 — giỏi hơn thật, nhưng hóa đơn cũng giỏi hơn

SWE-bench nhảy lên 64.3%, nhưng tokenizer mới âm thầm tăng token tới 35%. Đọc kỹ trước khi upgrade.

Bụi Wire

2026-04-28

"Same per-token price" — câu nửa sự thật hay nhất tuần

Anthropic tuần này tung Claude Opus 4.7 kèm dòng khiến nhiều người thở phào: giá per-token giữ nguyên so với Opus 4.6. Nhưng nằm sâu hơn trong release notes là một chi tiết mà mình đọc đi đọc lại ba lần: tokenizer mới map cùng một đoạn text thành nhiều token hơn — lên tới 35%.

Nói thẳng ra: giá từng viên gạch không đổi, nhưng bức tường giờ cần nhiều gạch hơn. Và Anthropic không hỏi bạn có muốn đổi thợ xây không — họ đổi mặc định.

64.3% SWE-bench Pro — bằng chứng hay bản cung khai?

Về năng lực thuần túy, Opus 4.7 không đùa. Điểm SWE-bench Pro nhảy từ 53.4% lên 64.3%, vượt cả GPT-5.4 (57.7%). Độ phân giải ảnh tăng gấp ba lần, lên khoảng 3.75 megapixel. Những con số khiến bất kỳ engineering manager nào cũng muốn nhấn upgrade ngay.

Nhưng benchmark coding giống bản cung khai trước hội đồng xét xử — được chuẩn bị kỹ, trình bày trong điều kiện lý tưởng. Ra phiên tòa thực tế — codebase 5 năm tuổi, requirement đổi giữa sprint, CI pipeline mong manh — câu chuyện khác hẳn.

Điều đáng chú ý hơn cả điểm benchmark: Opus 4.7 hiểu instruction literal hơn hẳn đời trước. Anthropic chính thức cảnh báo — prompt viết cho Opus 4.6 có thể cho kết quả bất ngờ vì model mới không còn "đoán ý". Nó làm đúng những gì bạn viết, kể cả khi bạn viết thiếu.

Ví dụ cụ thể: Giả sử team bạn 4 người, đang chạy Opus 4.6 qua API với bộ system prompt tinh chỉnh suốt 3 tháng. Trong prompt có dòng "hãy trả lời phù hợp với context." Opus 4.6 ngầm hiểu đó là "trả lời ngắn gọn, đúng trọng tâm." Opus 4.7? Nó đọc nguyên văn "phù hợp với context" và tự suy diễn theo cách riêng — output vẫn đúng về mặt kỹ thuật, nhưng không phải thứ bạn cần.

Ba thay đổi tạo thành cơn bão chi phí

Tokenizer mới. Cùng prompt, cùng code — token count tăng tới 35%. Giá per-token giữ nguyên nhưng tổng bill tăng tương ứng.

Billing chuyển sang usage-based. Anthropic đang thay flat rate bằng tính theo lượng dùng cho khách enterprise. Theo nguồn tin, chi phí có thể gấp ba cho team sử dụng nhiều.

Image resolution gấp 3 — bật mặc định. Ảnh giờ được xử lý ở độ phân giải cao hơn hẳn, tức nhiều token hơn mỗi ảnh. Tính năng này không phải opt-in — nếu workflow của bạn có gửi ảnh qua API, chi phí tăng mà bạn chưa chắc đã nhận ra.

Kịch bản minh họa: Giả sử team bạn đang call API khoảng 50 triệu token/tháng theo flat rate. Tokenizer mới đẩy con số thực tế lên ~67 triệu token. Chuyển sang usage-based, cộng thêm image token tăng nếu workflow có xử lý ảnh — đó là cuộc họp ngoài kế hoạch với CFO đang chờ bạn cuối tháng.

Bẫy kinh điển: upgrade trước, đọc changelog sau

Mình biết kiểu này vì chính mình từng dính. Hồi Opus 4.6 mới ra, một team quen ở Sài Gòn nhảy lên ngay ngày đầu. Hệ thống RAG đang chạy ngon bỗng trả kết quả lạ — không sai, nhưng format output thay đổi khiến parser downstream vỡ. Hai ngày debug mới tìm ra: model mới interpret một dòng instruction hơi khác. Sửa prompt mất 10 phút, tìm ra lỗi mất 48 tiếng.

Với Opus 4.7, rủi ro này nhân đôi vì model đọc instruction sát hơn và tokenizer thay đổi đồng thời. Bạn có thể vừa bị output lệch, vừa bị bill cao hơn, mà nguyên nhân nằm ở hai chỗ khác nhau. Debug hai biến cùng lúc thì ai cũng biết cảm giác.

Trong khi đó, 20GB trên laptop vẽ bồ nông đẹp hơn

Cùng tuần, Simon Willison chạy benchmark "vẽ bồ nông đạp xe" — bài test nửa đùa nửa thật nổi tiếng của anh — giữa Opus 4.7 và Qwen3.6-35B-A3B (model 35 tỷ parameter từ Alibaba, chạy local dưới dạng quantized chỉ ~21GB). Kết quả? Qwen vẽ đẹp hơn. Opus thậm chí sai khung xe đạp.

Willison tự nhấn mạnh đây là benchmark mang tính giải trí. Nhưng điểm đáng suy nghĩ vẫn còn nguyên: một model chạy trên MacBook, miễn phí, cho output cạnh tranh với flagship giá premium trong một tác vụ cụ thể.

Nếu team bạn đang dùng Ollama hay LM Studio — như mình đã chia sẻ trong các bài trước — Qwen3.6-35B-A3B đã có sẵn dạng GGUF. Chi phí duy nhất là tiền điện. Với những tác vụ không cần đỉnh cao coding benchmark, đây là lựa chọn đáng cân nhắc nghiêm túc.

Thử ngay chiều nay: audit trước khi nhấn upgrade

Bước 1 — Đo baseline. Vào dashboard API, ghi lại: trung bình token/request, tổng request/ngày, tổng chi phí tháng vừa rồi. Không có baseline thì không so sánh được gì.

Bước 2 — Test token count. Lấy 5–10 prompt thực tế đang chạy production, gửi qua Opus 4.7 ở chế độ test. So sánh token count với Opus 4.6. Tăng >20%? Nhân con số đó với volume hàng tháng — đó là phần budget bạn cần xin thêm.

Bước 3 — Rà prompt. Tìm mọi chỗ viết mơ hồ: "trả lời phù hợp", "tóm tắt hợp lý", "format đẹp". Thay bằng chỉ dẫn cụ thể: bao nhiêu bullet, ngôn ngữ nào, output schema ra sao. Opus 4.7 đọc sát chữ — viết rõ thì nó làm tốt hơn hẳn, viết lơ thì nó cũng lơ theo.

Ngoài lề nhanh: OpenAI đi đường khác

Cùng thời điểm Anthropic all-in vào coding, OpenAI tung GPT-Rosalind — model đầu tiên chuyên biệt cho life sciences: sinh học phân tử, protein engineering, drug discovery. Thay vì chạy đua general benchmark, OpenAI bắt đầu tách lane theo ngành dọc.

Xu hướng này nói lên nhiều điều: thị trường model đang chuyển từ "ai mạnh nhất tổng thể" sang "ai giỏi nhất cho bài toán cụ thể." Câu hỏi đúng cho team bạn không phải "model nào số 1" mà là "mình đang giải bài gì, và trả bao nhiêu cho lời giải."

Một dòng mang về

Opus 4.7 thật sự giỏi hơn Opus 4.6 — benchmark, vision, instruction following đều tiến rõ. Nhưng "giỏi hơn" đi kèm "đắt hơn theo cách bạn không thấy ngay." Ba thay đổi âm thầm — tokenizer, billing, image default — mà nếu bạn không chịu đọc fine print, thì hóa đơn cuối tháng sẽ đọc cho bạn.

---

Bụi Wire — nghiện đọc release notes lúc 2 giờ sáng