Ollama trên Mac vừa được "độ máy" — nhanh cỡ nào?

Ollama trên Mac vừa được "độ máy" — nhanh cỡ nào?

Ollama chuyển sang MLX trên Apple Silicon, biến Mac thành cỗ máy inference local đáng gờm. Mình đã thử — và bất ngờ thật.

Hỏi thật: Mac của bạn đang chạy hết công suất chưa?

Bạn đang chạy Ollama trên MacBook, cắm Claude Code hay OpenCode vào, rồi ngồi... chờ. Token nhả ra từng giọt như vòi nước yếu áp. Unified memory 32GB, 64GB mà cảm giác như con máy đang giữ lại phân nửa sức. Quen không?

Mình cũng quen. Cho đến tuần trước.

Ollama vừa tung bản preview chuyển sang MLX — framework machine learning của chính Apple — làm engine inference trên Apple Silicon. Hiểu nôm na: trước giờ Ollama chạy trên Mac như chiếc xe tải chở hàng trên đường cao tốc nhưng bị khoá ở số 3. Giờ họ đã mở hết số.

Trước MLX — chạy được, nhưng chưa "chạy thật"

Nếu bạn đã dùng Ollama trên Mac — mình có nhắc trong bài về supply chain attack thời AI trước đây — bạn biết trải nghiệm nó ổn, nhưng không "wow". Lý do nằm ở chỗ: engine cũ chưa tận dụng hết kiến trúc unified memory, thứ mà Apple thiết kế đặc biệt cho chip M-series.

Hình dung thế này: unified memory nghĩa là CPU và GPU dùng chung bộ nhớ, không cần copy data qua lại. Nhưng nếu phần mềm không biết "nói chuyện" đúng cách với phần cứng, thì đường cao tốc 6 làn mà xe vẫn chạy làn khẩn cấp.

Kết quả? Token per second tạm được, nhưng time-to-first-token (TTFT) — cái mà bạn cảm nhận rõ nhất khi đang code — vẫn đủ chậm để bạn mất flow.

Sau MLX — hai thay đổi đáng tiền nhất

Ollama chuyển sang MLX, và mình thấy rõ hai chỗ khác biệt:

Tốc độ inference tăng mạnh. Trên chip M5 Max, Ollama chạy model Qwen3.5-35B-A3B (quantized NVFP4) cho tốc độ mà bản cũ (Q4_K_M) không theo kịp. Trên M5, M5 Pro và M5 Max, Ollama còn tận dụng GPU Neural Accelerators để đẩy nhanh cả TTFT lẫn decode speed. Bản 0.19 sắp tới hứa hẹn đạt 1.851 token/s prefill134 token/s decode với int4 quantization — số lấy thẳng từ blog Ollama, không phải mình bịa.

Cache thông minh hơn — đây mới là phần đáng giá nhất. Ollama giờ tái sử dụng cache xuyên conversation. Khi bạn dùng Claude Code hay coding agent nào đó với chung system prompt, con máy không phải "đọc lại bài" mỗi lần bạn gửi request mới. Ít tốn RAM hơn, nhiều cache hit hơn.

Nếu bạn chạy nhiều agent song song — kiểu như mình bàn trong bài "Chạy cả đội agent cùng lúc" — thì cải thiện cache này giống như nâng cấp giao lộ từ đèn đỏ sang vòng xoay: xe nào cũng vào được mà không phải dừng chờ nhau.

Hai kịch bản thật để bạn hình dung

Kịch bản 1 — Team nhỏ, một con Mac Studio dùng chung. Giả sử team bạn 4 người, ai cũng cắm coding agent vào Ollama chạy local trên Mac Studio M4 Max 128GB. Trước MLX: mỗi session agent ngốn cache riêng, RAM bay vèo, đến người thứ 3 là bắt đầu swap. Sau MLX: cache dùng chung cho các session cùng system prompt, RAM chỉ tốn một lần. Con máy vẫn thở được.

Kịch bản 2 — Freelancer solo, MacBook Pro. Bạn chạy OpenCode + Ollama trên MacBook Pro M3 Pro 36GB. Trước: model 35B quantized chạy được nhưng TTFT khoảng vài giây, đủ để bạn mất focus. Sau: TTFT giảm rõ rệt, response về nhanh đủ để bạn không kịp alt-tab sang Twitter.

Thử ngay trong 30 phút

Muốn tự kiểm chứng? Đơn giản:

  1. Update Ollama lên bản preview mới nhất — tải từ blog chính thức
  2. Pull model hỗ trợ NVFP4:
   ollama pull qwen3.5:35b-a3b
  1. Benchmark nhanh:
   time ollama run qwen3.5:35b-a3b "Viết function Python sort một list dict theo nested key"
  1. So sánh: Nếu bạn còn giữ model Q4_K_M cũ, chạy cùng prompt rồi đo thời gian — sự khác biệt sẽ tự nói.
  2. Cắm vào coding agent: Claude Code, OpenCode hoặc Codex — chạy một task refactor nhỏ, cảm nhận TTFT.

Lưu ý: M3, M4 vẫn được hưởng lợi từ MLX engine — chỉ là không có Neural Accelerator như M5. Vẫn nhanh hơn bản cũ đáng kể.

Bẫy mình suýt dính — và bạn nên tránh

Hào hứng quá, mình lao vào pull model NVFP4 lớn nhất có thể. Sai lầm kinh điển — giống mua SUV 7 chỗ rồi cố luồn vào hẻm Sài Gòn.

NVFP4 giảm kích thước model và tăng tốc inference, nhưng nó là 4-bit floating point — precision thấp hơn Q4_K_M ở một số task nhất định. Ollama chọn NVFP4 vì nó khớp với format mà các inference provider lớn đang dùng trên production, nên kết quả local gần với kết quả cloud. Nhưng nếu task của bạn đòi độ chính xác cao (toán, logic phức tạp), hãy test kỹ trước khi all-in.

Thêm nữa: đây là bản preview. Đừng vội chuyển production workflow sang — chạy song song một thời gian, ổn rồi hãy quyết.

Bức tranh lớn hơn: local inference đang trưởng thành

Điều đáng chú ý không chỉ là Ollama nhanh hơn. Nó là tín hiệu: local inference trên consumer hardware đang được đối xử nghiêm túc. Apple đầu tư MLX, NVIDIA đẩy NVFP4, Ollama tích hợp cả hai.

Kết hợp với động thái phía cloud — Pinecone vừa ra Dedicated Read Nodes cho workload vector search nặng — bức tranh đang rõ: bạn chạy inference local cho tốc độ và privacy, kết nối cloud cho retrieval và scale. Hai làn đường, một hành trình.

Còn nếu bạn không xài Mac? vLLM vẫn là lựa chọn mạnh trên Linux/GPU NVIDIA — mình đã cover trong bài trước. Thế giới open-source không thiếu đường đi.

Spoiler: không có silver bullet — nhưng lần đầu tiên, "chạy model 35B trên laptop mà vẫn mượt" không còn là chuyện viễn tưởng nữa.

---

Bụi Wire — nghiện đọc release notes lúc 2 giờ sáng

Cập nhật Ollama xong, MacBook mình chạy mượt đến mức... hết cớ đổ lỗi cho máy chậm khi code dở rồi.

Nguồn tham khảo