Ba model bỏ túi — bạn cần món nào?

Tuần này có 3 model tí hon ra lò cùng lúc. Nhưng nhỏ không có nghĩa là giống nhau — mình bóc tách giúp bạn chọn đúng món.

Bụi Wire

2026-04-17

450 triệu parameter — mình đọc lại ba lần vì tưởng thiếu số 0

450 triệu. Không phải 45 tỷ. Không phải 4.5 tỷ. Liquid AI vừa tung ra LFM2.5-VL-450M — một vision-language model chỉ 450 triệu parameter mà nhận diện được bounding box, hỗ trợ đa ngôn ngữ, inference dưới 250ms trên thiết bị edge. Cùng tuần, Google drop Gemma 4 với variant E2B nặng khoảng 1.3GB sau quantize, chạy thẳng trên điện thoại 6GB RAM. Và MiniMax thì mở mã nguồn M2-7 — model agent tự tiến hóa, đạt 56.22 trên SWE-pro.

Ba món mới trên thực đơn AI, ba hương vị hoàn toàn khác. Nhưng bạn — người đang đứng bếp cho team mình — nên gắp món nào?

Mình đã bàn về chuyện AI chạy trên điện thoại ở bài trước, rằng nó không chỉ là trò PR. Bài này đi sâu hơn: khi bạn đã tin on-device AI là thật, thì chọn model nào cho đúng bài toán?

Ba model, ba công thức khác nhau — đừng bỏ chung một nồi

Mình thấy nhiều bạn hay gom tất cả model nhỏ vào một rổ rồi hỏi "cái nào tốt nhất?" Để mình giải mã: ba model này phục vụ ba thực đơn khác nhau hoàn toàn.

LFM2.5-VL-450M của Liquid AI là món khai vị chuyên biệt — nhẹ, nhanh, chỉ tập trung vào visual. Bounding box prediction, nhận diện đối tượng, inference dưới 250ms. Nếu bài toán của bạn là "camera nhìn thấy gì, khoanh vùng cho tôi," đây là lựa chọn gọn gàng nhất.

Gemma 4 E2B/E4B của Google thì như bếp trưởng đa năng — text, image, audio, hơn 140 ngôn ngữ, tích hợp sẵn agent skills để tự gọi tool (Wikipedia, bản đồ, tạo QR code) mà không cần cloud. Apache 2.0 license, thương mại thoải mái. Với hơn 400 triệu lượt download của dòng Gemma, hệ sinh thái cũng đã đủ dày.

MiniMax M2-7 thì đi đường khác hẳn — đây là agent model tối ưu cho coding và terminal tasks. Nếu team bạn cần AI assistant hỗ trợ developer ngay trên máy local mà không muốn gửi code lên cloud, M2-7 đáng để thử.

Hai kịch bản thực tế — từ kho hàng đến phòng họp

Kịch bản 1: Startup logistics — kiểm kê bằng camera

Giả sử team bạn 4 người, đang xây app cho chuỗi cửa hàng tiện lợi. Nhân viên quét camera qua kệ hàng, app tự đếm và phân loại sản phẩm. Yêu cầu rõ ràng: chạy offline vì kho hay mất mạng, inference nhanh vì nhân viên không đợi được 2 giây mỗi ảnh, model phải nhỏ vì điện thoại tầm trung.

LFM2.5-VL-450M khớp bài toán này như gia vị đúng món — 450M param, dưới 250ms, chuyên xử lý visual với bounding box. Gemma 4 cũng chạy được, nhưng bạn đang dùng dao phay để gọt táo — thừa tính năng, tốn RAM hơn, mà phần visual chưa chắc sâu bằng.

Kịch bản 2: Team product cần AI assistant đa năng

Giả sử bạn là tech lead, team 6 người, cần một AI assistant chạy local để: tóm tắt meeting notes từ file ghi âm, đọc screenshot Figma mô tả lại UI, trả lời câu hỏi từ tài liệu nội bộ. Dữ liệu nhạy cảm, không được gửi lên cloud.

Gemma 4 E2B sinh ra cho bài này — multimodal text, image, audio trên cùng một model, chạy trên thiết bị 6GB RAM, không cần internet cho inference. Google đã có sẵn app AI Edge Gallery miễn phí trên cả Android và iOS.

Cái bẫy "nhỏ xong quên" — mình kể bạn nghe

Mình từng chứng kiến một team deploy model nhỏ lên tablet cho nhân viên bán hàng. Test trong phòng lab đèn LED trắng sáng choang — nhận diện ngon lành. Ship ra cửa hàng ánh đèn vàng, kệ hàng bóng loáng phản chiếu — accuracy rớt thảm hại. Cả sprint tiếp theo chỉ để đi thu thập ảnh thực tế rồi fine-tune lại.

Nói cho vuông: model nhỏ không có nghĩa là "cắm vào, bật lên, quên đi." Bạn vẫn cần:

Test trên thiết bị thật — emulator cho kết quả khác xa thực tế
Test với data từ môi trường thật — ảnh studio khác ảnh nhà kho tối om
Đo inference time khi thiết bị đang "nóng" — 250ms trên benchmark là lúc máy mát, chạy một mình; thực tế điện thoại 42 độ với 5 app nền là câu chuyện khác

Simon Willison vừa thử Gemma 4 E2B transcribe audio trên macOS bằng MLX — kết quả ổn nhưng vẫn nghe nhầm "right here" thành "front here." Nhỏ nhưng không hoàn hảo. Calibrate kỳ vọng trước khi demo với sếp.

Thử ngay chiều nay — Gemma 4 trên điện thoại

Bạn cần khoảng 15 phút:

Cài Google AI Edge Gallery trên App Store hoặc Play Store (miễn phí, app đang top 4 productivity trên iOS)
Tải model Gemma 4 E2B — khoảng 1.3GB, cần điện thoại từ 6GB RAM
Thử text tiếng Việt: hỏi "Giải thích dependency injection cho junior dev" — xem model trả lời có đủ rõ không
Thử image: chụp ảnh bàn làm việc, hỏi "liệt kê các đồ vật trong ảnh"
Thử agent skill: yêu cầu model tra Wikipedia — nó sẽ tự gọi tool tích hợp

Nếu bạn dùng macOS với Apple Silicon, thử thêm route audio: dùng mlx-vlm để chạy Gemma 4 transcribe file .wav. Một lệnh uv run, không cần setup phức tạp.

Đừng tin mình, thử đi rồi biết.

Nhỏ chưa chắc đã rẻ — nhưng chắc chắn đáng đầu tư đúng chỗ

Spoiler cuối bài: tiết kiệm compute không đồng nghĩa tiết kiệm effort. Model nhỏ đòi hỏi bạn thêm thời gian test edge case, optimize cho từng dòng thiết bị, xây fallback khi model không kham nổi. Giống nấu cơm nhà vậy — nguyên liệu rẻ hơn đặt GrabFood, nhưng bạn đi chợ, rửa bát, dọn bếp. Chi phí chỉ đổi từ tiền sang thời gian.

Lời khuyên cho team nhỏ: prototype bằng cloud API trước, xác nhận user thật sự cần gì, rồi hẵng migrate xuống edge. Ba model tuần này cho bạn thêm lựa chọn trên thực đơn — nhưng chọn đúng món vẫn quan trọng hơn có nhiều món.

---

Bụi Wire — nghiện đọc release notes lúc 2 giờ sáng