Compute bây giờ mua ở đâu — bản đồ quyết định
xAI vừa bán compute cho Anthropic, thị trường GPU đang phân mảnh. Team bạn nên mua ở đâu, thuê kiểu gì?
Bụi WireTuần này xAI bán toàn bộ công suất data center Colossus 1 — khoảng 300MW — cho Anthropic. Một công ty AI vừa chuyển từ người tiêu thụ GPU sang người bán GPU. Đó không phải drama giữa Musk và OpenAI. Đó là tín hiệu cấu trúc: lớp compute đang tách thành nhiều tầng, và team nào còn mặc định "cứ AWS/GCP là xong" thì đang bỏ lỡ lựa chọn.
Bài này không tổng hợp tin — mình muốn đưa bạn một khung quyết định cụ thể để trả lời câu hỏi: compute cho workload AI của team mình nên lấy từ đâu?
Bài toán thật sự
Nhiều team Việt Nam đang ở giai đoạn chuyển từ "gọi API inference" sang "cần GPU riêng" — dù để fine-tune, chạy model nội bộ, hay scale inference cho sản phẩm. Lúc này câu hỏi không còn là "dùng model nào" mà là "compute lấy ở đâu cho hợp lý".
Thị trường vừa thêm một tầng mới: neocloud — nhóm công ty chuyên bán compute thuần, không kèm hệ sinh thái cloud trọn gói. CoreWeave, Lambda Labs, và giờ là xAI đều chơi ở tầng này. Nôm na: họ có GPU, bạn thuê GPU, không kèm 47 dịch vụ phụ mà bạn không dùng.
Vấn đề: CEO của ASML — công ty độc quyền máy in chip EUV — vừa nói tại Milken Conference rằng thị trường sẽ còn thiếu chip ít nhất 2-3 năm nữa. Nghĩa là ai có GPU trong tay, người đó có quyền đặt giá.
Ba lựa chọn trên bàn
Lựa chọn A — Hyperscaler truyền thống (AWS, GCP, Azure)
- Bạn được hệ sinh thái đầy đủ: storage, networking, monitoring, IAM.
- Nhưng giá GPU instance cao, availability không đảm bảo (nhất là H100/B200), và lock-in sâu vào ecosystem riêng.
- Phù hợp nếu team đã có infra trên cloud đó và workload AI chỉ là một phần nhỏ.
Lựa chọn B — Neocloud (CoreWeave, Lambda, Together, xAI-as-provider)
- Giá thường thấp hơn hyperscaler cho cùng loại GPU.
- Provisioned throughput (đặt trước năng lực xử lý với giá gần cố định) dễ negotiate hơn.
- Nhưng bạn tự lo phần còn lại: networking, storage, orchestration.
- Phù hợp nếu team có engineer infra và workload nặng GPU liên tục.
Lựa chọn C — Self-host / On-prem
- Kiểm soát hoàn toàn, chi phí biên thấp sau khi đã mua.
- Nhưng vốn đầu tư ban đầu lớn, và GPU thế hệ mới ra liên tục khiến phần cứng mất giá nhanh.
- Phù hợp nếu workload ổn định, dự đoán được, và bạn có team vận hành phần cứng.
Tradeoff — cái gì đánh đổi cái gì
| Tiêu chí | Hyperscaler | Neocloud | Self-host |
|----------|------------|----------|----------|
| Thời gian bắt đầu | Nhanh (phút) | Vừa (giờ-ngày) | Chậm (tuần-tháng) |
| Chi phí /GPU-hour | Cao | Trung bình | Thấp (sau break-even) |
| Lock-in | Cao | Thấp-Trung bình | Không |
| Availability mùa khan | Khó đảm bảo | Tùy provider | Đã có sẵn |
| Ops burden | Thấp | Trung bình | Cao |
Điều nhiều team đang hiểu sai: "cứ chọn provider lớn nhất là an toàn nhất." Thực tế, khi supply bị giới hạn, chính các hyperscaler cũng không đủ GPU cho tất cả khách hàng. Google Cloud vừa báo revenue 20 tỷ USD/quý nhưng vẫn thừa nhận demand vượt xa supply. Lớn không có nghĩa là sẵn.
Nghĩ như cơ cấu bánh răng trong đồng hồ: mỗi bánh răng ăn khớp với bánh kế tiếp — chip → data center → cloud → ứng dụng. Khi bánh răng đầu tiên (chip manufacturing) quay chậm, toàn bộ chuỗi phía sau đều bị trễ nhịp, bất kể provider to hay nhỏ.
Khuyến nghị: framework 3 câu hỏi
Thay vì chọn theo brand, mình đề xuất bạn trả lời 3 câu sau:
1. Workload của mình có predictable không?
- Nếu lên xuống thất thường → Hyperscaler (trả theo dùng).
- Nếu chạy đều 80%+ thời gian → Neocloud hoặc self-host (reserved / committed).
2. Team mình có bao nhiêu người lo infra?
- 0-1 người → Hyperscaler, đừng cố hero.
- 2-3 người → Neocloud feasible, nhưng cần đầu tư tooling.
- 4+ người chuyên infra → Self-host đáng cân nhắc.
3. Mình cần GPU bao lâu?
- Dưới 6 tháng → Thuê (hyperscaler hoặc neocloud).
- 6-18 tháng → Committed deal với neocloud.
- Trên 18 tháng ổn định → Tính toán break-even self-host.
Ví dụ cụ thể: Giả sử team bạn 5 engineer ở Sài Gòn, đang fine-tune model 7B cho sản phẩm nội bộ, chạy khoảng 200 GPU-hours/tuần liên tục. Một người kiêm DevOps. Trường hợp này: neocloud với committed pricing là lựa chọn hợp lý nhất — rẻ hơn on-demand hyperscaler, không cần team phần cứng, và bạn vẫn giữ flexibility đổi provider nếu giá thay đổi.
Ví dụ ngược: Team 2 người, dùng GPU chỉ khi train lại model mỗi 2 tuần, mỗi lần vài giờ. Đừng ký committed — trả on-demand trên hyperscaler quen thuộc, tận dụng luôn pipeline CI/CD sẵn có.
Rủi ro còn lại
Dù chọn hướng nào, có hai rủi ro cấu trúc mà bạn không loại bỏ được:
- Supply constraint kéo dài: ASML nói rõ 2-5 năm nữa thị trường vẫn thiếu chip. Giá GPU thuê sẽ không giảm nhanh như nhiều người kỳ vọng. Đừng lập kế hoạch dựa trên giả định "sang năm rẻ hơn".
- Neocloud consolidation: Thị trường neocloud còn non. Một số provider có thể bị mua lại, pivot, hoặc đóng cửa. Nếu dùng neocloud, hãy đảm bảo workload portable — container hóa, không phụ thuộc API riêng của provider.
Cơ chế cam trong đồng hồ cơ vận hành ổn vì mỗi bộ phận có dung sai rõ ràng. Chiến lược compute của bạn cũng cần dung sai: luôn có plan B, luôn biết bao lâu thì migrate được nếu provider hiện tại gặp vấn đề.
Tóm lại
Thị trường compute đang phân tầng — và đó là tin tốt cho người mua, nếu bạn biết mình đang ở đâu trên bản đồ. Đừng chọn theo hype của tuần này. Chọn theo workload, team size, và time horizon của chính mình.
---
Bụi Wire — nghiện đọc release notes lúc 2 giờ sáng