Compute bây giờ mua ở đâu — bản đồ quyết định

Compute bây giờ mua ở đâu — bản đồ quyết định

xAI vừa bán compute cho Anthropic, thị trường GPU đang phân mảnh. Team bạn nên mua ở đâu, thuê kiểu gì?

Tuần này xAI bán toàn bộ công suất data center Colossus 1 — khoảng 300MW — cho Anthropic. Một công ty AI vừa chuyển từ người tiêu thụ GPU sang người bán GPU. Đó không phải drama giữa Musk và OpenAI. Đó là tín hiệu cấu trúc: lớp compute đang tách thành nhiều tầng, và team nào còn mặc định "cứ AWS/GCP là xong" thì đang bỏ lỡ lựa chọn.

Bài này không tổng hợp tin — mình muốn đưa bạn một khung quyết định cụ thể để trả lời câu hỏi: compute cho workload AI của team mình nên lấy từ đâu?

Bài toán thật sự

Nhiều team Việt Nam đang ở giai đoạn chuyển từ "gọi API inference" sang "cần GPU riêng" — dù để fine-tune, chạy model nội bộ, hay scale inference cho sản phẩm. Lúc này câu hỏi không còn là "dùng model nào" mà là "compute lấy ở đâu cho hợp lý".

Thị trường vừa thêm một tầng mới: neocloud — nhóm công ty chuyên bán compute thuần, không kèm hệ sinh thái cloud trọn gói. CoreWeave, Lambda Labs, và giờ là xAI đều chơi ở tầng này. Nôm na: họ có GPU, bạn thuê GPU, không kèm 47 dịch vụ phụ mà bạn không dùng.

Vấn đề: CEO của ASML — công ty độc quyền máy in chip EUV — vừa nói tại Milken Conference rằng thị trường sẽ còn thiếu chip ít nhất 2-3 năm nữa. Nghĩa là ai có GPU trong tay, người đó có quyền đặt giá.

Ba lựa chọn trên bàn

Lựa chọn A — Hyperscaler truyền thống (AWS, GCP, Azure)

Lựa chọn B — Neocloud (CoreWeave, Lambda, Together, xAI-as-provider)

Lựa chọn C — Self-host / On-prem

Tradeoff — cái gì đánh đổi cái gì

| Tiêu chí | Hyperscaler | Neocloud | Self-host |
|----------|------------|----------|----------|
| Thời gian bắt đầu | Nhanh (phút) | Vừa (giờ-ngày) | Chậm (tuần-tháng) |
| Chi phí /GPU-hour | Cao | Trung bình | Thấp (sau break-even) |
| Lock-in | Cao | Thấp-Trung bình | Không |
| Availability mùa khan | Khó đảm bảo | Tùy provider | Đã có sẵn |
| Ops burden | Thấp | Trung bình | Cao |

Điều nhiều team đang hiểu sai: "cứ chọn provider lớn nhất là an toàn nhất." Thực tế, khi supply bị giới hạn, chính các hyperscaler cũng không đủ GPU cho tất cả khách hàng. Google Cloud vừa báo revenue 20 tỷ USD/quý nhưng vẫn thừa nhận demand vượt xa supply. Lớn không có nghĩa là sẵn.

Nghĩ như cơ cấu bánh răng trong đồng hồ: mỗi bánh răng ăn khớp với bánh kế tiếp — chip → data center → cloud → ứng dụng. Khi bánh răng đầu tiên (chip manufacturing) quay chậm, toàn bộ chuỗi phía sau đều bị trễ nhịp, bất kể provider to hay nhỏ.

Khuyến nghị: framework 3 câu hỏi

Thay vì chọn theo brand, mình đề xuất bạn trả lời 3 câu sau:

1. Workload của mình có predictable không?

2. Team mình có bao nhiêu người lo infra?

3. Mình cần GPU bao lâu?

Ví dụ cụ thể: Giả sử team bạn 5 engineer ở Sài Gòn, đang fine-tune model 7B cho sản phẩm nội bộ, chạy khoảng 200 GPU-hours/tuần liên tục. Một người kiêm DevOps. Trường hợp này: neocloud với committed pricing là lựa chọn hợp lý nhất — rẻ hơn on-demand hyperscaler, không cần team phần cứng, và bạn vẫn giữ flexibility đổi provider nếu giá thay đổi.

Ví dụ ngược: Team 2 người, dùng GPU chỉ khi train lại model mỗi 2 tuần, mỗi lần vài giờ. Đừng ký committed — trả on-demand trên hyperscaler quen thuộc, tận dụng luôn pipeline CI/CD sẵn có.

Rủi ro còn lại

Dù chọn hướng nào, có hai rủi ro cấu trúc mà bạn không loại bỏ được:

Cơ chế cam trong đồng hồ cơ vận hành ổn vì mỗi bộ phận có dung sai rõ ràng. Chiến lược compute của bạn cũng cần dung sai: luôn có plan B, luôn biết bao lâu thì migrate được nếu provider hiện tại gặp vấn đề.

Tóm lại

Thị trường compute đang phân tầng — và đó là tin tốt cho người mua, nếu bạn biết mình đang ở đâu trên bản đồ. Đừng chọn theo hype của tuần này. Chọn theo workload, team size, và time horizon của chính mình.

---

Bụi Wire — nghiện đọc release notes lúc 2 giờ sáng

Nguồn tham khảo