AI agent chạy trên điện thoại — trò PR hay chuyện thật?
Google vừa ship Gemma 4 — model chạy hoàn toàn on-device, xử lý text, ảnh, audio mà không cần cloud. Mình bóc xem thực hư ra sao.
Bụi Wire"Model chạy offline mà biết dùng tool" — câu này mâu thuẫn không?
Google vừa tuyên bố Gemma 4 có thể chạy hoàn toàn trên điện thoại, xử lý text, hình ảnh, và audio — rồi còn tự gọi tool như Wikipedia, bản đồ tương tác, hay tạo QR code. Không cần cloud. Không data rời khỏi thiết bị.
Mình đọc release notes lúc 2 giờ sáng và phản xạ đầu tiên là: "Khoan, agent mà không có internet thì gọi Wikipedia bằng cách nào?" Đây chính là chỗ đáng bóc tách nhất.
Thật ra "on-device" không có nghĩa là cắt mạng vẫn chạy hết
Phần "on-device" ở đây nghĩa là inference — tức model suy luận, xử lý ngôn ngữ, hiểu ảnh — tất cả chạy trên chip điện thoại. Dữ liệu bạn đưa vào không bay lên server nào cả. Nhưng khi model quyết định "tôi cần tra Wikipedia," nó vẫn cần kết nối mạng để gọi API bên ngoài.
Hình dung thế này: Gemma 4 như một nhân viên mới cực thông minh ngồi ngay tại bàn bạn. Anh ta đọc tài liệu, phân tích số liệu, ra quyết định — tất cả trong đầu, không cần gọi điện về trụ sở hỏi ý kiến. Nhưng khi cần thông tin ngoài phạm vi hiểu biết, anh ta vẫn phải mở laptop tra cứu. Điểm khác biệt là: bộ não của anh ta nằm tại chỗ, không phải thuê ngoài theo giờ.
Google ship 4 biến thể: E2B và E4B cho smartphone (lần lượt khoảng 1.3 GB và 2.5 GB sau quantize, chạy trên thiết bị 6–8 GB RAM), còn 26B và 31B cho server. Bản 26B dùng mixture-of-experts với 128 expert, nhưng mỗi thời điểm chỉ 3.8 tỷ parameter hoạt động — kiểu như phòng có 128 chuyên gia nhưng mỗi câu hỏi chỉ cần 2-3 người đứng lên trả lời.
Tất cả Apache 2.0 — thương mại thoải mái. Dòng Gemma đã vượt 400 triệu lượt download từ thế hệ đầu, hỗ trợ hơn 140 ngôn ngữ.
Kịch bản 1: Team healthtech ở Sài Gòn và bài toán privacy
Giả sử team bạn 4 người đang xây app chăm sóc sức khỏe — người dùng chụp ảnh bữa ăn, app phân tích dinh dưỡng. Vấn đề: dữ liệu sức khỏe là dữ liệu nhạy cảm. Gửi ảnh bữa ăn lên cloud để model xử lý? Quy định PDPA, GDPR sẽ biến cuộc đời bạn thành ác mộng compliance.
Gemma 4 E4B thay đổi phương trình này. Model chạy on-device, ảnh không rời điện thoại. Bạn vẫn cần backend cho database, sync, nhưng phần nhạy cảm nhất — nhận diện thức ăn, ước lượng khẩu phần — xử lý ngay trên máy. Team đỡ phải xây proxy server, encryption pipeline, hay giải trình với auditor về việc "ảnh bữa trưa của user đi đâu."
Nhưng — đây là chỗ nhiều team sẽ vấp — E4B cần thiết bị ít nhất 8 GB RAM. Ở Việt Nam, phân khúc phổ biến vẫn là 4–6 GB RAM. Nếu target audience là sinh viên dùng máy tầm trung, bạn phải fallback về E2B (cần 6 GB RAM) với chất lượng thấp hơn, hoặc chơi hybrid — on-device cho inference đơn giản, cloud cho task phức tạp.
Kịch bản 2: Tool nội bộ cho team logistics Hà Nội
Team bạn cần tool đơn giản: nhân viên kho chụp ảnh kiện hàng, model đọc label, tra mã vận đơn, hiển thị vị trí trên bản đồ. Hiện tại dùng cloud API — mỗi tháng chi phí inference cho vài nghìn ảnh cũng kha khá.
Chuyển sang Gemma 4 on-device trên tablet công nghiệp: inference miễn phí, không phụ thuộc Wi-Fi kho (ai từng triển khai ở kho hàng biết Wi-Fi kho hàng là thứ không thể tin tưởng). Model xử lý ảnh → đọc text → gọi API nội bộ tra mã đơn. Agent skill ở đây là khả năng model tự quyết định "tôi cần gọi tool nào" thay vì bạn phải hardcode luồng xử lý.
Google cho phép developer tạo và chia sẻ custom skill qua GitHub, app Google AI Edge Gallery miễn phí trên Android lẫn iOS. Nói thẳng ra thì đây là hệ sinh thái plugin cho on-device AI — và nó đã lên top 4 app productivity trên iOS App Store, ngay sau Claude, Gemini, và ChatGPT.
Cái bẫy "on-device = không tốn gì"
Mình thấy nhiều comment kiểu: "Gemma 4 free, Apache 2.0, chạy trên điện thoại — cần gì cloud nữa?"
Lầm to. On-device inference miễn phí tiền API, nhưng bạn trả bằng thứ khác:
- Pin. Chạy model liên tục trên điện thoại ngốn pin rất nhanh. App dinh dưỡng mà mỗi bữa ăn tốn 3% pin thì user uninstall trước khi bạn kịp đo retention.
- Latency khởi động. Load model lần đầu cần thời gian — người dùng quen "mở app là chạy" sẽ không kiên nhẫn đợi.
- Khoảng cách chất lượng. E2B/E4B nhanh hơn thế hệ trước gấp bốn lần theo Google, nhưng đừng kỳ vọng model 1.3 GB trên điện thoại cho output ngang model 31B trên GPU server.
Cách tiếp cận mình khuyên: on-device cho phần latency-sensitive và privacy-critical, cloud cho phần cần chất lượng cao và context dài. Hybrid, không phải either-or.
Thử ngay chiều nay
- Cài Google AI Edge Gallery trên App Store hoặc Google Play (miễn phí).
- Chọn E2B hoặc E4B tùy RAM điện thoại — 6 GB chọn E2B, 8 GB trở lên chọn E4B.
- Test multimodal: chụp ảnh một trang sách tiếng Việt, hỏi model tóm tắt. 140+ ngôn ngữ nghe hoành tráng, nhưng chất lượng từng ngôn ngữ là câu chuyện khác — bạn cần tự đánh giá.
- Test agent skill: yêu cầu model tra cứu Wikipedia hoặc tạo QR code. Đây là chỗ bạn thấy khác biệt giữa "model trả lời" và "model tự chọn tool."
- So sánh baseline: nếu đã quen Ollama, chạy Gemma 4 bản 26B trên laptop để có điểm so sánh chất lượng on-device vs. on-laptop.
Góc nhìn để kết
Gemma 4 không biến điện thoại thành server AI. Nhưng đây là lần đầu một model open-source đủ tốt để chạy agentic workflow trên thiết bị cá nhân, với giấy phép thương mại rõ ràng, không data rời máy. Với team Việt Nam đang xây product cần privacy hoặc hoạt động ở môi trường mạng bấp bênh — kho hàng, công trường, vùng sóng yếu — đây là lựa chọn đáng thử nghiệm nghiêm túc.
Như mình đã chia sẻ trong bài về KV cache, bộ nhớ luôn là nút thắt của on-device AI. Gemma 4 giải quyết một phần bằng quantization và MoE, nhưng cuộc chơi còn dài.
Plot twist: app AI hot nhất App Store tuần này không phải ChatGPT, không phải Claude — mà là app chạy model Google hoàn toàn trên máy. Cuộc chiến AI đang dịch chuyển từ cloud xuống túi quần bạn rồi đấy.
---
Bụi Wire — nghiện đọc release notes lúc 2 giờ sáng
Nguồn tham khảo
- Google's Gemma 4 puts free agentic AI on your phone and no data ever leaves the device
- Zero Data Retention on AI Gateway - Vercel
- Tired of Reviewing Traces? Meet Automatic Issue Detection for Your Agent | MLflow
- Meta Superintelligence Lab Releases Muse Spark: A Multimodal Reasoning Model With Thought Compression and Parallel Agents - MarkTechPost
- Researchers from MIT, NVIDIA, and Zhejiang University Propose TriAttention: A KV Cache Compression Method That Matches Full Attention at 2.5× Higher Throughput - MarkTechPost