Opus 4.7 trên Vertex AI — thăng chức hay đổi phòng?
Anthropic nâng cấp Opus, Google mở cổng Vertex AI. Câu hỏi thật: team bạn có cần "nhân sự cấp cao" này không — và nếu có, gọi qua đâu mới đúng?
Bụi Wire"Generally available" — hai từ mà mỗi lần đọc trên blog Google Cloud, mình đều tự hỏi: available cho ai? Opus 4.7 của Anthropic vừa chính thức lên Vertex AI, và khắp các channel dev Việt Nam, câu hỏi nổi lên không phải "model này tốt không" mà là "gọi qua Vertex AI hay gọi thẳng Anthropic API?"
Câu trả lời, như mọi thứ trong ngành này, là "tùy".
Cái "thăng chức" thật sự của Opus 4.7
Nếu bạn đã quen Opus 4.6 — mà Anthropic đã xuất hiện dày đặc trên blog này rồi, mình không nhắc lại cơ bản nữa — thì đây là những thay đổi đáng chú ý: Opus 4.7 xử lý tốt hơn khi gặp yêu cầu mơ hồ, follow instructions chính xác hơn, và cải thiện đáng kể khả năng vision — đọc chart, xử lý document phức tạp. Anthropic cũng nhấn mạnh "expanded memory" cho các task kéo dài nhiều bước.
Nói thẳng ra thì: đây không phải bước nhảy từ Sonnet lên Opus. Đây là bước mài — Opus 4.6 đã mạnh, 4.7 sắc hơn ở những chỗ hay bị cùn: xử lý sự mơ hồ và agent task chạy dài.
Vertex AI đóng vai gì trong chuyện này?
Vậy tại sao không gọi thẳng Anthropic API?
Nghĩ thế này: gọi trực tiếp API giống như thuê freelancer — nhanh, gọn, linh hoạt. Nhưng khi team bạn có 15 người, 3 project dùng chung model, cần audit log, cần IAM, cần billing tách theo project — lúc đó bạn cần một bộ phận ops quản lý cho. Vertex AI đóng vai trò đó: unified security controls, governance, và quan trọng nhất — nó nằm sẵn trong Google Cloud ecosystem mà nhiều team Việt Nam đang chạy.
Ví dụ cụ thể: giả sử team bạn đang vận hành một pipeline agentic — agent đọc document, extract data, rồi gọi tiếp model để validate. Trên Vertex AI, bạn kiểm soát được toàn bộ flow qua một platform duy nhất, thay vì ráp nối 3–4 service rồi tự xây monitoring.
Hai kịch bản — một "nên", một "khoan đã"
Kịch bản 1 — Nên dùng Opus 4.7 trên Vertex AI:
Giả sử team bạn 5 người, đang xây internal tool review hợp đồng pháp lý. Document dài, nhiều bảng, cần model đọc chính xác và xử lý instruction phức tạp. Opus 4.7 với vision cải thiện cộng Vertex AI để quản lý access — combo hợp lý. Bạn không muốn mỗi developer tự giữ API key Anthropic riêng, và bạn cần audit trail cho compliance.
Kịch bản 2 — Khoan đã:
Team bạn 2 người, đang prototype chatbot hỗ trợ nội bộ. Lượng request thấp, chưa cần governance phức tạp. Lúc này, gọi thẳng Anthropic API — hoặc thậm chí thử Sonnet 4 trước — sẽ nhanh hơn và rẻ hơn. Vertex AI thêm một layer abstraction, mà ở giai đoạn prototype, mỗi layer thừa đều là ma sát.
Và đừng quên lựa chọn mở: nếu task không yêu cầu model hàng top, các model mở như Llama hay Qwen chạy qua vLLM (như mình đã chia sẻ trong các bài trước) có thể đủ dùng với chi phí thấp hơn rõ rệt. Không phải lúc nào cũng cần tuyển senior — đôi khi junior làm đúng việc lại hiệu quả hơn.
Thử ngay trong một buổi chiều
Muốn test Opus 4.7 trên Vertex AI mà không commit gì lớn? Bốn bước:
- Vào Vertex AI Model Garden — tìm "Claude Opus 4.7". Model đã GA, không cần waitlist.
- Mở sample notebook mà Google cung cấp kèm — cách nhanh nhất gửi request đầu tiên mà không phải setup SDK từ đầu.
- Test với đúng use case của bạn — đừng chạy benchmark chung chung. Lấy một document thật từ project, một prompt thật, đo xem output có khác biệt đáng kể so với model bạn đang dùng không.
- So sánh pricing — vào pricing documentation của Vertex AI, đối chiếu với bảng giá Anthropic API trực tiếp. Sự khác biệt nằm ở volume discount và commitment — không phải lúc nào Vertex cũng đắt hơn, nhưng cũng không phải lúc nào rẻ hơn.
Bốn bước, một buổi chiều. Đủ để có data thay vì opinions.
Bẫy mà team hay dính
Sai lầm phổ biến nhất mình thấy: team upgrade model mà không upgrade prompt.
Opus 4.7 follow instructions chính xác hơn 4.6 — nghe là tin vui, nhưng điều này có nghĩa những prompt "viết bừa cũng chạy" trước đây giờ có thể cho output khác. Model nghe lời hơn cũng có nghĩa nó làm đúng cái bạn nói — kể cả khi bạn nói sai.
Giống hệt chuyện công sở: team tuyển được một người mới rất kỷ luật, luôn làm đúng brief. Nhưng brief từ trước đến giờ viết qua loa vì "người cũ tự hiểu rồi". Người mới làm đúng brief, output lệch, cả team đổ lỗi cho "nhân sự mới không hợp".
Mẹo: trước khi migrate, lấy 10–20 prompt quan trọng nhất, chạy song song trên cả Opus 4.6 và 4.7, diff output. Đầu tư 2 tiếng cho bước này tiết kiệm 2 tuần debug sau.
Cùng hệ sinh thái: Gemini 3.1 Flash TTS
Cùng tuần, Google ra Gemini 3.1 Flash TTS trên Vertex AI — model text-to-speech hỗ trợ 70+ ngôn ngữ với hơn 200 audio tags để điều khiển giọng đọc chi tiết đến từng đoạn. Nếu team bạn đang xây voice interface hoặc accessibility feature, đây là thứ đáng thử song song. Cùng platform, cùng billing, không thêm vendor.
Đúc kết
Opus 4.7 trên Vertex AI không phải tin "breaking" — đây là bước tiến hóa dự đoán được. Câu hỏi đáng hỏi không phải "model mới có giỏi hơn không" mà là "workflow hiện tại của team mình có tận dụng được điểm mạnh mới không". Đôi khi, thăng chức cho nhân sự giỏi nhưng bỏ họ ngồi sai phòng thì cũng bằng không.
---
Bụi Wire — nghiện đọc release notes lúc 2 giờ sáng