Agent đang ốm — nhưng không ai đưa đi khám

Agent đang ốm — nhưng không ai đưa đi khám

Hệ thống agent phình to mà thiếu chẩn đoán tự động, bạn chỉ biết nó hỏng khi user la làng.

Mọi team AI mà mình biết đều có một điểm chung: giỏi xây agent, nhưng mù tịt khi agent ốm.

Tuần trước, một anh tech lead tâm sự: "Team tao có 14 agent production, mà không biết con nào đang hallucinate." Mình hỏi: "Vậy phát hiện lỗi bằng cách nào?" Đáp: "User report." Bệnh nhân sốt 40 độ mà bác sĩ phải đợi người nhà gọi mới biết — nghe quen không?

Xây thì nhanh, nhưng ai đo nhịp tim?

Cộng đồng AI năm nay bùng nổ agent. Customer support, code review, data pipeline, content generation — đâu đâu cũng agent. Nhưng mình thấy một pattern lặp lại: phần lớn team dồn effort vào xây, rồi "xong rồi, deploy thôi." Phần vận hành? "À, để sau."

Như mình đã chia sẻ trong bài về cron job chết lặng — monitoring truyền thống không đủ cho agent. Agent không crash kiểu server trả 500. Agent "hỏng" tinh vi hơn nhiều: vẫn trả lời, vẫn status 200, nhưng nội dung thì lệch, hallucinate, hoặc chạy vòng vòng không dừng.

Giống như bạn hỏi thăm sức khỏe ai đó, họ bảo "khỏe" — nhưng chưa đi khám bao giờ.

MLflow vừa phát bộ kit chẩn đoán miễn phí

MLflow — nền tảng AI engineering open-source — vừa ship Automatic Issue Detection cho agent traces. Hiểu nôm na: thay vì bạn mở từng trace ra đọc như bác sĩ ngồi duyệt 500 tờ xét nghiệm bằng tay, hệ thống tự quét và gắn cờ những trace có vấn đề — hallucination, latency bất thường, tool call thất bại, response không khớp context.

Cái đáng nói là MLflow hoàn toàn miễn phí, Apache 2.0. Không cần SaaS đắt đỏ để có observability agent cơ bản. Cài, bật tracing, bật issue detection — xong. Được phát bộ kit xét nghiệm tại nhà mà không tốn đồng nào, tội gì không dùng?

Thực tế ở hai team Việt Nam

Kịch bản 1 — Con agent "khỏe mà không khỏe": Giả sử team bạn 5 người, vận hành agent hỗ trợ nội bộ dùng RAG tra cứu tài liệu công ty. Chạy ngon lành... đến khi phòng HR phàn nàn: "Sao bot trả lời chính sách nghỉ phép sai?" Điều tra mới ra: index embeddings bị stale 3 tuần, từ lúc HR cập nhật chính sách mới. Agent vẫn chạy, vẫn 200 OK — chỉ là đang kê đơn thuốc bằng sách năm ngoái. Nếu có automatic issue detection, pattern "retrieval confidence bất thường" đã được flag từ sớm.

Kịch bản 2 — Agent sprawl không ai quản: Giả sử bạn là tech lead, hệ thống có 8 agent — mỗi agent một repo, mỗi sub-team một cách deploy. Agent nào active, agent nào deprecated, agent nào dùng chung tool? Không ai rõ. Đây là bài toán mà AWS Agent Registry (vừa ra preview trong AgentCore) đang giải: một nơi tập trung đăng ký, tìm kiếm, quản lý vòng đời agent — bất kể agent chạy trên AWS, cloud khác, hay on-premise. 8 agent thì quản bằng Notion được, lên 30 thì cần hệ thống thật.

Monitor quá tay — tiền bay, dashboard vắng

Giờ đến phần cảnh báo. Mình từng thấy một team setup observability quá nhiệt tình: log mọi trace, mọi token, mọi tool call, mọi intermediate step. Tháng đầu bill storage nhân đôi, dashboard Grafana thì đẹp lắm — mà không ai nhìn.

Giống kiểu bạn đi khám tổng quát, bác sĩ cho chụp MRI toàn thân, xét nghiệm 47 chỉ số, in ra 15 trang kết quả — rồi bạn nhét vào ngăn kéo. Nói thẳng ra thì: observability cho agent không phải "log nhiều = tốt." Bạn cần xác định mình đang tìm triệu chứng gì. Hallucination? Latency spike? Tool call failure rate? Chọn 3-5 signal quan trọng nhất, theo dõi chúng, phần còn lại để yên cho đến khi có lý do cụ thể.

Thử ngay chiều nay

Nếu agent bạn đang chạy production mà chưa có observability, bắt đầu từ đây:

Bước 1: Cài MLflow mới nhất — pip install mlflow --upgrade. Phiên bản mới đã tích hợp tracing cho LLM và agent.

Bước 2: Wrap agent với MLflow tracing. Nếu dùng LangChain hay LlamaIndex, MLflow có auto-instrumentation — bật một dòng config là trace toàn bộ chain.

Bước 3: Chạy 20-30 query thực tế (không phải test case giả). Mở MLflow UI, vào tab Traces, xem trace nào bị flag.

Bước 4: Với trace bị flag, đặt câu hỏi: "Bug thật hay false positive?" Điều chỉnh threshold cho phù hợp.

Chưa cần công cụ xịn, bước đầu tiên là biết agent mình đang làm gì. Dù chỉ là một file YAML ghi tên agent, owner, status, last-updated — đó đã là bước tiến lớn so với "deploy rồi quên."

Inference cũng cần check-up định kỳ

Nhân tiện, NVIDIA vừa open-source AITune (Apache 2.0) — toolkit tự động benchmark và chọn inference backend nhanh nhất cho model PyTorch. Thay vì bạn tự thử lần lượt TensorRT, rồi Torch-TensorRT, rồi TorchAO, AITune chạy hết và chọn winner. Cài qua PyPI, dùng một Python API duy nhất.

Đây là miếng ghép khác trong bức tranh "vận hành AI nghiêm túc": không chỉ agent logic cần giám sát, mà cả tầng inference cũng cần tối ưu liên tục. Khám sức khỏe mà chỉ đo huyết áp thì chưa đủ — phải kiểm cholesterol nữa.

Tổng kết

Cuộc đua năm nay không còn là "ai build agent nhanh nhất" mà là "ai biết agent mình đang khỏe hay bệnh." MLflow cho bạn chẩn đoán tự động, NVIDIA AITune tối ưu inference, AWS Agent Registry quản lý fleet — tất cả ra mắt trong vài tuần gần đây. Hệ sinh thái đang phát tín hiệu rõ ràng: giai đoạn prototype đã qua, giờ là lúc vận hành cho thật.

Spoiler: không có silver bullet — nhưng bộ kit xét nghiệm miễn phí đang nằm đó, tội gì không rút máu thử.

---

Bụi Wire — nghiện đọc release notes lúc 2 giờ sáng

Nguồn tham khảo