Ollama lên đời — từ "đồ chơi" thành trạm AI cá nhân

Ollama giờ không chỉ chạy chatbot. Tạo ảnh, duyệt web, chạy agent — tất cả trên máy bạn, và setup mất đúng một lệnh.

Bụi Wire

2026-04-10

"Cái này nghịch cho vui thôi chứ ai dùng thật?"

Mình cá là bạn — hoặc ít nhất một người trong team bạn — từng nói câu đó về Ollama. Hồi mình viết bài về self-host trợ lý AI, Ollama chủ yếu làm một việc: kéo model về máy, chạy chat. Gọn, đẹp, nhưng dừng ở đó.

Tua nhanh đến tháng 4/2026. Ollama giờ biết tạo ảnh trên macOS, có API tìm kiếm web tích hợp, tương thích với Anthropic Messages API, chạy subagent trong Claude Code, và có lệnh ollama launch setup nguyên bộ công cụ coding — Claude Code, OpenCode, Codex — không cần đụng một dòng config.

Mấu chốt ở chỗ: đây không phải một bản cập nhật lớn duy nhất. Đây là hàng loạt bản release nhỏ, mỗi cái ghép thêm một khả năng. Khi nhìn lại thì — ủa, cái "tiệm thuốc tây" hồi nào giờ thành "phòng khám đa khoa" tự lúc nào rồi.

Mổ xẻ ba thay đổi mà developer cần biết

1. ollama launch — toa thuốc một dòng

Trước đây, muốn dùng Claude Code với model local, bạn phải set biến môi trường, chỉnh config file, cầu nguyện nó nhận đúng endpoint. Giờ:

ollama launch claude-code

Một lệnh. Không biến môi trường. Không config. Ollama tự detect model, tự setup, tự chạy. Tương tự với OpenCode và Codex CLI.

Kịch bản thực tế: Giả sử team bạn 4 người, ai cũng muốn thử coding agent local để review code nội bộ. Trước kia bạn phải viết wiki hướng dẫn 3 trang, kèm screenshot, kèm cả phần troubleshooting "nếu bị lỗi X thì...". Giờ bạn gửi đúng một dòng lệnh trên Slack. Onboarding từ "nửa ngày đọc wiki" xuống "5 phút chạy lệnh".

2. Tương thích Anthropic Messages API

Ollama giờ "nói cùng ngôn ngữ" với API của Anthropic. Tác động thực tế? Bất kỳ tool nào build cho Claude API — bạn trỏ về Ollama mà không cần sửa code. Claude Code chạy với model mở trên máy bạn? Được. Tool đang gọi Anthropic endpoint mà bạn muốn chạy offline khi đi máy bay? Cũng được.

Hình dung thế này: bạn đang dùng một app gọi bác sĩ từ xa (cloud API). Giờ phòng khám gần nhà cũng nhận đúng thẻ bảo hiểm đó — bạn có thêm lựa chọn mà không cần đổi thẻ.

3. Web search API tích hợp + tạo ảnh trên macOS

Ollama cung cấp free tier cho tìm kiếm web. Model local giờ có thể "tra cứu" trước khi trả lời, thay vì chỉ dựa vào training data cũ. Thêm vào đó, image generation đã hoạt động trên macOS — nghĩa là workflow "viết prompt → tạo ảnh → iterate" chạy hoàn toàn trên máy, không gửi dữ liệu ra ngoài.

Cái bẫy mà mình suýt dính (và máy suýt bốc khói)

Plot twist: phòng khám đa khoa không có nghĩa bạn nên khám tất cả chuyên khoa cùng một ngày.

Mình từng hào hứng bật hết — image generation, web search, agent, chạy model 30B-plus — trên một chiếc MacBook Pro M2 với 16GB RAM. Kết quả? Máy nóng như nồi lẩu, quạt kêu như máy bay cất cánh, inference chậm đến mức gõ xong câu hỏi mình kịp đi pha cà phê về mà vẫn chưa thấy response.

Vấn đề nằm ở đây: Ollama dễ setup không có nghĩa mọi tính năng đều mượt trên mọi máy. Giống như phòng khám có đủ chuyên khoa, nhưng bạn chỉ nên đặt lịch theo đúng sức khỏe (phần cứng) của mình.

Liều lượng tham khảo (ví dụ minh họa):

RAM 8GB: chạy model 7–8B, text-only — đã đủ cho chat và code assist cơ bản
RAM 16GB: thêm web search, model 13–14B — thoải mái hơn cho daily coding
RAM 32GB+: ollama launch thoải mái, model lớn, thử image generation

Thử ngay chiều nay — 3 bước, không quá 20 phút

Nếu bạn đã có Ollama (nếu chưa: curl -fsSL https://ollama.com/install.sh | sh):

Bước 1 — Kiểm tra và cập nhật

ollama --version

So với bản mới nhất trên GitHub releases. Nếu cần cập nhật, chạy lại lệnh cài ở trên.

Bước 2 — Chạy ollama launch

ollama launch claude-code

Ngồi nhìn nó tự pull model, tự setup, tự mở editor. Nếu máy hạn chế RAM, thử pull model nhỏ trước:

ollama pull qwen2.5-coder:7b

Bước 3 — Test web search

Trong phiên chat, hỏi một câu cần thông tin thời sự — kiểu "bản release mới nhất của Node.js là gì?" — và xem model có tự gọi web search để trả lời hay không.

Xong rồi — giờ thử nghịch thêm image generation nếu bạn đang trên macOS.

Khi nào cần "chuyển viện" sang vLLM?

Nếu Ollama là phòng khám đa khoa cho cá nhân và team nhỏ, thì vLLM là bệnh viện tuyến trung ương — nơi bạn cần serving hàng trăm request đồng thời, tối ưu throughput đến từng token.

| | Ollama | vLLM |
|---|---|---|
| Đối tượng | Cá nhân, team nhỏ | Production, nhiều user |
| Setup | Một lệnh | Cần hiểu infra |
| Ưu tiên | Trải nghiệm dev, tích hợp tool | Throughput, hiệu năng serving |
| Khi nào chọn | Prototype, daily driver | API serving cho sản phẩm |

Cả hai đều open-source, cả hai đều đang release liên tục. Chọn cái nào phụ thuộc vào bạn đang "khám sức khỏe định kỳ" hay "xây bệnh viện".

Thêm một góc đáng chú ý: GitHub Copilot CLI giờ cũng kết hợp nhiều model family để cho "ý kiến thứ hai" — xu hướng chung rõ ràng là không ai muốn phụ thuộc vào một model hay một provider duy nhất nữa. Ollama đang nằm đúng vào xu hướng đó.

Bức tranh lớn hơn một bản release

Câu chuyện thật sự ở đây không phải Ollama thêm bao nhiêu feature. Mà là hệ sinh thái AI local đã trưởng thành đến mức bạn chạy được gần trọn workflow — code, search, tạo ảnh, agent — mà không gửi một byte dữ liệu ra ngoài. Với lại, khi Ollama tương thích luôn cả Anthropic API, ranh giới giữa "local" và "cloud" mờ dần — bạn đổi endpoint, không đổi code.

Nếu bạn vẫn nghĩ Ollama là "cái tool chạy chatbot cho vui" — mời chạy ollama launch, pha ly cà phê, rồi quay lại xem câu đó còn đúng không. Mình đoán là không.

---

Bụi Wire — nghiện đọc release notes lúc 2 giờ sáng