5 loại chip AI — chọn sai là đốt tiền thật

5 loại chip AI — chọn sai là đốt tiền thật

GPU không phải lúc nào cũng là đáp án. Hiểu rõ CPU, GPU, TPU, NPU và LPU để chọn đúng chip cho đúng bài toán.

"Cứ mua GPU xịn nhất là xong" — câu nói tốn kém nhất năm nay

Mình có ông anh làm tech lead ở một startup fintech. Đầu quý, anh ấy thuyết phục sếp duyệt budget thuê cụm GPU A100 trên cloud để chạy inference cho chatbot hỗ trợ khách hàng. Hóa đơn tháng đầu về: gấp ba dự kiến. Mà latency thì vẫn chưa đạt yêu cầu real-time.

Vấn đề không phải GPU yếu — mà là GPU không phải đáp án đúng cho bài toán đó.

Chuyện này giống y hệt việc thuê giáo sư toán về dạy trẻ con tập đếm. Giỏi thì giỏi thật, nhưng overkill và tốn kém vô ích. Thế giới chip AI bây giờ có ít nhất 5 "loại giáo viên" khác nhau, mỗi loại giỏi một kiểu bài. Chọn đúng người cho đúng lớp — đó mới là kỹ năng thật sự.

Khoan — mỗi loại chip "dạy giỏi" kiểu gì?

Thay vì liệt kê spec khô khan, mình kể theo cách này: hình dung bạn đang xây một trường học AI, cần tuyển giáo viên.

CPU — Thầy giáo chủ nhiệm. Biết mọi thứ, quản hết mọi việc, từ điểm danh đến giải toán nâng cao. Nhưng vì chỉ có vài core, nên mỗi lúc chỉ xử lý được vài việc tuần tự. CPU vẫn là trung tâm điều phối mọi hệ thống AI — nó quản lý data flow, schedule task, phối hợp các accelerator khác. Đừng bao giờ coi thường "thầy chủ nhiệm" này.

GPU — Đội quân gia sư. Hàng nghìn core nhỏ, mỗi core giải cùng một dạng bài cùng lúc. Đây là lý do GPU thống trị training: khi bạn cần nhân hàng triệu ma trận song song, không gì đánh bại một đội quân đông đảo làm cùng một thao tác. NVIDIA đang dẫn đầu, nhưng AMD ROCm cũng bám sát với giá mềm hơn — một lựa chọn open-source đáng cân nhắc nếu bạn không muốn bị vendor lock-in.

TPU — Giáo viên chuyên ban. Google thiết kế TPU chỉ để dạy đúng một môn: neural network. Kiến trúc systolic array tối ưu cho phép nhân ma trận, bỏ qua mọi thứ không liên quan. Throughput cao, hiệu quả năng lượng tốt — nhưng đổi lại, TPU kén framework, chủ yếu chơi thân với JAX và TensorFlow.

NPU — Gia sư tại nhà. Được nhúng thẳng vào chip điện thoại hay laptop, NPU xử lý inference ngay trên thiết bị mà không cần gửi data lên cloud. Tiết kiệm bandwidth, giảm latency, và quan trọng nhất: giữ data ở local. Nếu bạn đang xây app AI chạy trên mobile, NPU chính là đồng minh thầm lặng.

LPU — Thần đồng đọc nhanh. Groq thiết kế LPU với triết lý: bỏ hết memory bottleneck, dồn sức cho tốc độ inference. Kết quả là tốc độ generate token nhanh hơn đáng kể so với GPU truyền thống. Tradeoff? LPU chưa phổ biến, ecosystem còn non, và chủ yếu tối ưu cho inference — không phải training.

Hai kịch bản thật để thấy "chọn sai chip" đau ví thế nào

Kịch bản 1: Team chatbot ở Sài Gòn. Giả sử team bạn 4 người, đang build chatbot nội bộ cho công ty logistics. Lượng request: vài trăm lượt/ngày. Nếu thuê GPU cloud để chạy inference, hóa đơn sẽ nuốt hết budget trước khi product lên production. Giải pháp hợp lý hơn? Dùng model nhỏ (quantized) chạy trên CPU xịn với llama.cpp — open-source, miễn phí, inference trên CPU mượt hơn bạn tưởng. Như mình đã chia sẻ trong bài về hóa đơn AI của team — đôi khi giảm chi phí không phải nâng cấp, mà là chọn đúng công cụ.

Kịch bản 2: Startup EdTech ở Hà Nội. Team cần fine-tune model riêng trên dataset tiếng Việt, rồi deploy inference cho hàng nghìn user đồng thời. Giai đoạn training: GPU là bắt buộc — không có đường tắt. Nhưng giai đoạn inference? Nếu có access TPU qua Google Cloud, throughput trên TPU có thể hiệu quả hơn cho batch inference. Hoặc nếu cần latency cực thấp, LPU của Groq đang là hướng đáng thử nghiệm.

Điểm mấu chốt: training và inference là hai bài toán khác nhau — đừng dùng cùng một loại chip cho cả hai mà không suy nghĩ.

Cái bẫy "benchmark đẹp, thực tế phũ"

Mình từng thấy một bạn dev hào hứng share benchmark LPU trên mạng xã hội: token/giây gấp mấy lần GPU. Bạn ấy convince sếp đổi hết sang LPU. Hai tuần sau, nhận ra model đang dùng không được Groq hỗ trợ, pipeline phải viết lại từ đầu, chi phí migrate ngốn hết sprint.

Giống như xem CV thì ai cũng xuất sắc, nhưng vào lớp dạy thật mới biết có hợp học trò không. Trước khi chọn chip, hãy tự hỏi:

Thử ngay chiều nay: mapping chip cho project của bạn

Bạn không cần mua chip mới để bắt đầu. Thử bài tập này trong 20 phút:

  1. Liệt kê các workload AI team đang chạy (training, inference, preprocessing, embedding…).
  2. Với mỗi workload, ghi ra: volume (bao nhiêu request/ngày), latency yêu cầu, và budget hiện tại.
  3. Map từng workload vào loại chip phù hợp nhất:

| Workload | Chip khuyến nghị | Lý do |
|----------|-----------------|-------|
| Training model lớn | GPU | Song song hóa mạnh |
| Inference batch lớn | TPU hoặc GPU | Throughput cao |
| Inference real-time, latency thấp | LPU hoặc GPU | Tốc độ generate |
| Inference on-device / edge | NPU | Local, tiết kiệm bandwidth |
| Điều phối pipeline, preprocessing | CPU | Linh hoạt, đa năng |

  1. So sánh với setup hiện tại — bạn có đang dùng GPU cho việc mà CPU làm tốt không?
  2. Tính lại chi phí nếu chuyển sang chip phù hợp hơn.

Open-source tools để thử nghiệm nhanh: llama.cpp (inference trên CPU), vLLM (inference tối ưu trên GPU — mình đã nhắc ở bài trước), hoặc ONNX Runtime (chạy được trên nhiều loại chip khác nhau).

Chip nào cũng có "mùa" của nó

Ngành AI hardware đang thay đổi nhanh đến mức cái "tốt nhất" hôm nay có thể bị soán ngôi quý sau. GPU vẫn là vua training, nhưng inference đang là cuộc chiến mở với NPU, TPU, và LPU cùng tranh phần. Thay vì chạy theo chip mới nhất, hãy hiểu rõ bài toán của mình trước — rồi chip phù hợp sẽ tự lộ diện.

Spoiler: không có silver bullet — nhưng con chip đắt nhất không phải con xịn nhất, mà là con bạn mua rồi không dùng hết.

---

Bụi Wire — nghiện đọc release notes lúc 2 giờ sáng

Nguồn tham khảo