Thuê GPU như gọi xe — Together AI vừa mở cửa
Together Instant Clusters mở GA: tự thuê NVIDIA GPU không cần gọi sales. Khi nào nên dùng, khi nào nên tránh?
Bụi WireBạn đã bao giờ chờ GPU đến mức... quên luôn mình cần nó chưa?
Mình hỏi thật: lần cuối bạn cần một cụm GPU để train hay chạy inference, bạn mất bao lâu từ lúc "cần" đến lúc "có"? Hai tuần? Một tháng? Hay lâu đến mức bạn kịp refactor lại cả kiến trúc vì chờ mãi không có máy?
Together AI vừa tuyên bố General Availability cho Instant Clusters — dịch vụ cho phép bạn tự thuê cụm NVIDIA GPU (H100, H200, thậm chí dòng Blackwell GB200) theo kiểu self-service, không cần gọi sales, không cần ký hợp đồng dài hạn.
Hiểu nôm na: nếu trước đây thuê GPU cluster giống đặt lịch khám chuyên khoa — chờ hẹn, chờ duyệt, chờ phòng trống — thì giờ nó giống gọi xe công nghệ. Mở app, chọn loại, đi.
Trước Instant Clusters: con đường nhiều ổ gà
Giả sử team bạn 4 người, đang cần fine-tune một model Llama trên dataset tiếng Việt nội bộ. Bạn ước tính cần khoảng 8 GPU H100 trong vài ngày. Quy trình truyền thống trông thế này:
- Liên hệ cloud provider → chờ phản hồi 2–5 ngày làm việc
- Đàm phán capacity, cam kết thời gian sử dụng tối thiểu
- Setup networking, storage, driver → thêm 1–2 ngày nữa
- Bắt đầu training → phát hiện thiếu resource → quay lại bước 1
Ai từng deploy GPU infrastructure biết cảm giác: mọi thứ giống xây cao tốc mà phải xin giấy phép từng đoạn — đến lúc xong thì xe đã đi đường khác rồi.
Sau Instant Clusters GA: bấm nút, có máy
Với Instant Clusters ở trạng thái GA, quy trình rút gọn:
- Vào dashboard Together AI → chọn loại GPU, số lượng node
- Cluster sẵn sàng trong vài phút
- Dùng xong → terminate → chỉ trả tiền thời gian thực dùng
Nhưng Together AI không chỉ bán GPU trần. Đợt GA này đi kèm mấy thứ đáng để ý:
- Batch Inference API: xử lý lượng lớn token với chi phí thấp hơn đáng kể so với real-time inference — phù hợp cho các job không cần phản hồi ngay (phân loại hàng trăm nghìn document, generate embedding hàng loạt)
- Fine-Tuning Platform nâng cấp: hỗ trợ model lớn hơn, context dài hơn so với trước
- FlashAttention-4: tối ưu attention mechanism trên kiến trúc Blackwell, nhanh hơn cuDNN đến 1.3×
Tóm lại, đây không đơn thuần "thêm GPU cho thuê" — mà là một lane cao tốc hoàn chỉnh để bạn chạy pipeline AI end-to-end mà không phải tự rải nhựa đường.
Hai kịch bản thực tế cho team Việt Nam
Kịch bản 1 — Fine-tune chatbot logistics tiếng Việt
Giả sử bạn đang build chatbot hỗ trợ khách hàng cho ngành vận chuyển. Bạn có ~50K conversations tiếng Việt đã label. Bạn muốn fine-tune Qwen hoặc Llama 4 Maverick trên dataset này.
Với Instant Clusters: spin up 8×H100, chạy fine-tune trong 2–3 ngày, rồi tắt. Không cam kết 3 tháng, không setup bare metal. Xong thì chuyển model sang Serverless Inference của Together luôn để serve production. Cả quy trình gọn hơn hẳn so với tự dựng cluster trên AWS.
Kịch bản 2 — Batch xử lý 2 triệu hợp đồng PDF
Team data của bạn cần chạy embedding + classification cho kho hợp đồng đã OCR (như mình từng bàn ở bài về OCR trước đó). Real-time inference cho 2 triệu document thì tiền bay như taxi giờ cao điểm. Batch Inference API ở đây cho phép bạn queue job lên, nhận kết quả sau vài giờ, chi phí giảm rõ rệt so với gọi API từng request.
Bẫy mà mình thấy nhiều team hay dính
Thuê GPU self-service giống thuê xe tải chở nhà: nhanh gọn nếu bạn biết mình chở gì, nhưng thuê rồi mà chưa đóng thùng thì tốn tiền xe đỗ không.
1. Quên tắt cluster. GPU cloud tính tiền theo giờ — bạn ngủ, nó vẫn chạy meter. Mình biết một team từng "để chạy qua đêm cho chắc", sáng dậy thấy bill bằng cả tháng lương intern.
2. Over-provision "cho chắc ăn." Cần 4 GPU thì thuê 4. Đừng thuê 16 vì "mai mốt cũng cần". Scale up dễ, nhưng tiền bay cũng dễ.
3. Không benchmark small-scale trước. Đừng thuê cả cụm rồi mới phát hiện data pipeline chết ở bước tiền xử lý. Chạy thử trên 1–2 GPU, validate xong rồi hẵng scale.
4. Bỏ qua open-source alternatives. Together AI không phải lựa chọn duy nhất. Nếu bạn đang tự quản lý stack, vLLM + bare metal từ Lambda Labs hay Vast.ai cũng là hướng đi hợp lý — trade-off là bạn phải tự lo orchestration, nhưng giá có thể rẻ hơn cho workload chạy liên tục dài ngày.
Thử ngay chiều nay — 30 phút là đủ
- Tạo tài khoản Together AI tại together.ai — free tier cho inference API, xem dashboard GPU clusters để nắm bảng giá
- Gọi thử Batch Inference API với model nhỏ (ví dụ Llama 8B) trên 1000 prompt — so sánh cost và latency vs real-time
- Xem bảng giá GPU cluster: H100 vs H200 vs Blackwell — ước tính nhanh cho use case của bạn
- So sánh: lấy báo giá tương đương từ AWS/GCP, xem Together competitive ở điểm nào
Một lưu ý quan trọng: Together AI mạnh ở hệ sinh thái open-source model — Llama, Qwen, Mistral, DeepSeek. Nếu bạn đang dùng model đóng như GPT-4 hay Claude, thì đây chưa phải sân chơi của bạn. Nhưng nếu bạn đang đi đường open-source — rất đáng để ghé.
Một lane mới trên cao tốc GPU
GPU infrastructure đang dần trở thành commodity — giống server hosting 15 năm trước. Ngày xưa muốn có server phải mua rack, thuê phòng máy lạnh, cử người trực 24/7. Giờ thì click click là có.
Together Instant Clusters là thêm một lane trên con đường đó: biến GPU cluster từ thứ "phải gọi điện xin" thành thứ "tự bấm tự chịu". Không phải magic, không phải rẻ nhất thị trường, nhưng giá trị lớn nhất là tốc độ ra quyết định — từ ý tưởng đến experiment chạy thật, rút từ vài tuần xuống vài phút.
Đừng tin mình, thử đi rồi biết — ít nhất bạn sẽ biết mình sai approach sớm hơn 3 tuần so với ngồi chờ queue.
---
Bụi Wire — nghiện đọc release notes lúc 2 giờ sáng