Nhắn tin debug code — điên hay tiện?

Nhắn tin debug code — điên hay tiện?

Ollama vừa biến messaging app thành cổng vào AI coding agent. Chạy local, không cần API key, spawn cả subagent song song.

11 giờ đêm, bạn nằm giường, nhớ ra cái bug

Kịch bản thế này: 11 giờ đêm, bạn đang lướt Telegram trên điện thoại, bỗng lead nhắn "cái endpoint /users sáng mai demo nhé." Bạn biết nó đang lỗi. Mở laptop? Đã cất dưới gầm bàn. SSH từ điện thoại? Phím bé như hạt đậu.

Giờ thử hình dung khác: bạn nhắn tin cho một con bot ngay trong Telegram — nó đọc repo, tìm file lỗi, spawn thêm mấy "thằng phụ" để research song song, rồi gửi lại patch. Bạn review ngay trên điện thoại.

OpenClaw vừa biến chuyện này thành hiện thực, và nó chạy ngay trên máy bạn — không gửi data đi đâu cả.

Cái bếp nhà bạn vừa lên đời

Nếu bạn đã dùng Ollama (mình nhắc khá nhiều trong các bài trước rồi), bạn biết nó như cái bếp nhà: muốn nấu gì thì nấu, không phải xin phép nhà hàng nào. Nhưng lâu nay cái bếp đó chỉ phục vụ một người — bạn ngồi trước terminal, gõ lệnh, nhận output.

Giờ Ollama vừa làm ba chuyện cùng lúc khiến cái bếp này thành bếp nhà hàng full-service:

OpenClaw — gateway nối messaging app (WhatsApp, Telegram, Slack, Discord, iMessage) vào AI coding agent. Dịch sang tiếng đời thường: bạn nhắn tin bình thường, phía sau OpenClaw chuyển tin nhắn thành prompt, đẩy vào model, trả kết quả lại qua chat. Tất cả chạy local — conversation, code, data ở yên trên máy bạn.

Subagents — model giờ "chia việc" ra nhiều agent con chạy song song. Một thằng tìm file, một thằng đọc code, một thằng search web — mỗi thằng context riêng, không đạp lên nhau. Giống đội bóng rổ chạy fast break: mỗi người một lane, bóng đến ai người đó xử lý. Không cần MCP server, không cần API key riêng.

MLX trên Apple Silicon — Ollama giờ dùng framework machine learning của chính Apple, tận dụng unified memory. Kết quả? Tốc độ prefill và generate nhanh hơn đáng kể, đặc biệt trên dòng M5 với GPU Neural Accelerators. Cache cũng được nâng cấp — reuse across conversations, ít tốn RAM hơn khi dùng coding agent liên tục.

Hai đội, hai cách chơi

Kịch bản 1 — Team freelancer 3 người, dự án React Native:

Giả sử team bạn 3 người, mỗi người một múi giờ. Lead ở Sài Gòn, dev ở Đà Nẵng, designer ở Huế. Đêm khuya designer nhắn vào group Telegram: "Cái animation screen login giật quá." Lead không cần mở laptop — nhắn thẳng cho bot OpenClaw trong cùng group: "Check file LoginScreen.tsx, tìm animation performance issue." Bot spawn subagent đọc file, subagent khác search best practice, 2 phút sau trả suggestion ngay trong chat. Sáng hôm sau dev Đà Nẵng vào đọc thread, có context đầy đủ — không ai phải hỏi lại "hôm qua bàn gì."

Kịch bản 2 — Solo dev MacBook M4, dự án Python backend:

Bạn đang pair-program với Claude Code qua Ollama. Giữa chừng cần tìm hiểu một thư viện lạ — trước đây phải tab ra browser, search, đọc doc, quay lại terminal, paste context. Giờ model tự trigger web search, tổng hợp ngay trong conversation. Subagent xử lý chuyện research ở context riêng, main context của bạn không bị ngập rác. Với MLX backend, response về nhanh đủ để bạn không kịp uống ngụm cà phê.

Thử ngay chiều nay

Đã có Ollama? Setup OpenClaw không quá 15 phút:

  1. Cài OpenClaw theo hướng dẫn trên repo chính thức
  2. Khởi chạy kèm Ollama:
   openclaw --ollama

Nếu muốn config trước rồi hẵng start — chạy lệnh config riêng, gateway sẽ auto-reload khi bạn sẵn sàng.

  1. Kết nối messaging platform — Telegram hoặc Slack setup đơn giản nhất. Tạo bot token, nhập vào config.
  2. Chọn model — OpenClaw cần context dài, tối thiểu 64k tokens. Dùng luôn Ollama cloud models (miễn phí để bắt đầu), hoặc self-host Qwen, Llama nếu máy đủ sức.
  3. Test — nhắn cho bot từ điện thoại, bảo nó đọc một file trong repo. Thấy nó trả lời đúng file thì xong — phần còn lại là sáng tạo của bạn.

Ba cái hố mình suýt rơi xuống

Hố 1 — Context quá ngắn. Mình thử với model context 8k. Kết quả? Nó đọc được nửa file rồi... quên mất mình hỏi gì. Như cầu thủ chạy nửa sân thì quên luật — vô dụng. Nhớ set tối thiểu 64k.

Hố 2 — Tưởng subagent tự chạy với model nào cũng được. Thực tế, một số model trigger subagent tự nhiên (minimax-m2.5, glm-5, kimi-k2.5), còn lại bạn phải nói rõ: "use subagents" hoặc "spawn subagents to do X." Giống huấn luyện viên — không phải cầu thủ nào cũng tự biết chạy chiến thuật, đôi khi phải hét từ ngoài đường biên.

Hố 3 — Nhầm local với private. OpenClaw chạy local, nhưng nếu bạn dùng cloud model qua Ollama cloud, prompt vẫn đi qua server. Code có thông tin nhạy cảm? Self-host model trên máy, đừng dùng cloud endpoint.

Lùi lại một bước

Ollama đang chuyển từ "tool chạy model" sang "platform" — messaging gateway, subagent orchestration, hardware-optimized runtime. Đây không phải thêm feature cho vui, mà là tín hiệu: AI coding agent sắp tới sẽ sống ở khắp nơi — trong terminal, trong chat, trong IDE — và ranh giới giữa "ngồi code" với "đang sống" ngày càng mờ.

Câu hỏi không phải có nên thử không, mà là bạn muốn con agent đầu tiên nhắn tin cho mình qua app nào.

---

Bụi Wire — nghiện đọc release notes lúc 2 giờ sáng

Nguồn tham khảo