Cuộc chạy đua gigawatt — bạn được gì từ đó?

Anthropic ký hợp đồng compute khổng lồ, Groq mở rộng hạ tầng, OpenAI giảm giá — cuộc đua hạ tầng AI đang thay đổi ví tiền và chiến lược của team bạn.

Bụi Wire

2026-04-10

Một con số khiến bạn phải dừng lại

Anthropic vừa ký thỏa thuận với Google và Broadcom để xây dựng hạ tầng compute quy mô nhiều gigawatt — loại con số mà trước đây chỉ thấy trong ngành điện lực, không phải ngành phần mềm. Hạ tầng này dự kiến lên sóng từ 2027 và phần lớn đặt tại Mỹ.

Cùng lúc đó, Groq khai trương data center mới ở Houston và Dallas, đẩy tổng năng lực mạng lưới lên hơn 20 triệu token mỗi giây. OpenAI thì... giảm giá gói Pro từ $200 xuống $100.

Bạn có thấy gì lạ không? Đầu tư hạ tầng tăng chóng mặt, nhưng giá cho người dùng cuối lại đi xuống. Dịch sang tiếng người: cuộc chạy đua này đang có lợi cho bạn — nhưng chỉ khi bạn biết cách tận dụng.

Tại sao "nhiều gigawatt" lại liên quan đến cái API bạn gọi mỗi ngày

Hình dung thế này: bạn là nhạc sĩ cần thuê phòng thu. Trước đây cả thành phố chỉ có 2–3 studio, giá nào cũng phải chịu. Giờ đột nhiên có chục studio mới mọc lên, mỗi cái khoe dàn thiết bị xịn hơn cái trước. Chuyện gì xảy ra? Giá thuê giảm, chất lượng tăng, và bạn — người thuê — bỗng có quyền lựa chọn.

Đó chính xác là điều đang diễn ra trong thị trường AI inference. Anthropic train Claude trên cả AWS Trainium, Google TPU lẫn NVIDIA GPU — mỗi loại chip một thế mạnh, và họ match workload theo chip phù hợp nhất. Groq đi con đường riêng với chip LPU tự thiết kế, tối ưu cho tốc độ inference thuần túy. OpenAI dựa vào hệ sinh thái Azure. Mỗi "studio" một phong cách, và cuộc cạnh tranh này đang kéo giá xuống nhanh hơn bất kỳ ai dự đoán.

Ví dụ cụ thể: gói Pro của OpenAI giảm 50% — từ $200 còn $100/tháng — chủ yếu nhắm vào developer dùng nhiều Codex. Gói Plus $20 vẫn giữ nguyên nhưng được phân bổ usage đều hơn trong tuần. Anthropic thì không giảm giá trực tiếp, nhưng mở rộng capacity đồng nghĩa với ít rate limit hơn và response nhanh hơn khi demand tăng.

Hai kịch bản team bạn nên ngồi lại bàn

Kịch bản 1 — Startup 5 người đang gọi Claude API mỗi ngày

Giả sử team bạn 5 người, tháng nào cũng chi vài trăm đô cho API. Với việc Anthropic mở rộng compute, lợi ích trước mắt là ít bị nghẽn vào giờ cao điểm. Nhưng lợi ích lớn hơn nằm ở chiến lược: khi hạ tầng đa chip (TPU + GPU + Trainium), provider có thể route task nhẹ sang chip rẻ, task nặng sang chip mạnh. Xu hướng chi phí trung bình trên mỗi token? Giảm.

Việc cần làm: đừng gắn chặt vào một provider duy nhất. Set up abstraction layer — LiteLLM là một lựa chọn open-source phổ biến — để switch giữa OpenAI, Anthropic, Groq tùy theo task. Groq đang cho tốc độ inference rất nhanh với giá thấp, lý tưởng cho những task cần response real-time mà không đòi reasoning phức tạp.

Kịch bản 2 — Team enterprise lo chuyện data không được "ra biên giới"

Nếu bạn làm tài chính, y tế, hay bất kỳ ngành nào data residency là bắt buộc — hãy để ý động thái của Groq. Họ vừa trở thành exclusive inference provider cho Bell Canada, xây mạng lưới AI "có chủ quyền" chạy bằng thủy điện, bắt đầu từ cơ sở 7MW ở British Columbia. Mô hình này — inference chạy local, data không đi đâu — sẽ sớm lan sang nhiều thị trường khác.

Câu hỏi đặt ra: team bạn đã có plan B cho trường hợp quy định data residency ở Việt Nam thắt chặt chưa? Nếu chưa, ít nhất hãy bắt đầu map xem data nào đang gửi ra nước ngoài qua API.

Cái bẫy mình thấy team nào cũng suýt dính

Plot twist: thêm compute không tự động nghĩa là mọi thứ tốt hơn cho bạn.

Mình nhớ có team thấy provider nào ra announcement là nhảy sang model mới ngay, rồi pipeline vỡ tan tành vì prompt cũ không tương thích. Như mình đã chia sẻ trong bài về pipeline AI sống sót qua update model — bài học vẫn y nguyên: hạ tầng provider thay đổi không có nghĩa bạn phải chạy theo ngay lập tức.

Thêm một bẫy nữa: thấy OpenAI giảm giá, nhảy vào gói Pro $100 ngay — trong khi 80% task của team chỉ cần gói Plus $20 là đủ. OpenAI cũng nói thẳng: Plus vẫn là "best value for everyday Codex usage." Trước khi upgrade, hãy đo thật: bao nhiêu session Codex dài trong tuần? Có thật sự bị cắn rate limit không? Đừng mua áo size XXL khi mặc size M vừa khít.

Thử ngay chiều nay: audit chi phí AI của team

Bạn không cần đợi gigawatt nào lên sóng năm 2027. Chiều nay, làm 3 việc:

Liệt kê tất cả AI provider đang dùng — API nào, model nào, chi phí tháng rồi bao nhiêu. Export billing từ dashboard của từng provider.

Phân loại task theo mức độ phức tạp:

Task đơn giản (tóm tắt, phân loại, trích xuất): thử route sang Groq hoặc model nhỏ qua Ollama — nhanh và rẻ
Task cần reasoning sâu: giữ Claude Sonnet/Opus hoặc GPT-4o
Task cần tốc độ real-time: Groq hoặc các model Flash

Dựng proxy layer đơn giản — LiteLLM (open-source) cho phép gọi nhiều provider qua một API duy nhất. Một buổi chiều đủ để chạy POC, rồi từ đó route request tới provider phù hợp nhất theo task.

Kết quả kỳ vọng: bạn sẽ thấy có một lượng request đáng kể có thể chuyển sang provider rẻ hơn mà không ảnh hưởng chất lượng output. Con số cụ thể tùy workload, nhưng bạn sẽ không biết nếu không đo.

Nhìn xa hơn: cuộc chơi mới chỉ nóng lên

Doanh thu run-rate của Anthropic đã vượt $30 tỷ — tăng hơn 3 lần so với cuối 2025. Hơn 1.000 khách hàng doanh nghiệp chi trên $1 triệu/năm, con số tăng gấp đôi chỉ trong chưa đầy 2 tháng. Groq phủ sóng từ Canada đến Texas. OpenAI chơi chiêu cắt giá.

Tóm gọn lại: các ông lớn đang đốt tiền xây hạ tầng, và cuộc cạnh tranh đó — chứ không phải lòng tốt của ai — là thứ sẽ kéo giá API xuống và chất lượng lên cho bạn. Nhiệm vụ của bạn không phải chọn phe, mà là thiết kế hệ thống đủ linh hoạt để hưởng lợi từ bất kỳ phe nào đang mạnh nhất.

Mỗi gigawatt họ xây, bạn thêm một lựa chọn. Câu hỏi là: kiến trúc của bạn đã sẵn sàng để chọn chưa?

---

Bụi Wire — nghiện đọc release notes lúc 2 giờ sáng