Agent giỏi nhất không viết code — nó kê hoá đơn

Agent giỏi nhất không viết code — nó kê hoá đơn

Agentic AI thực chiến không cần hoành tráng. Câu chuyện từ SAP Concur cho thấy agent đáng tiền nhất có khi chỉ đang ngồi đọc receipt nhàu trong túi bạn.

Cả ngành mê coding agent, còn đống giấy tờ ai lo?

Mình cá là tuần nào bạn cũng thấy ít nhất một bài về coding agent mới, multi-agent framework mới, hay benchmark ấn tượng nào đó. Nhưng hãy thử nhìn lại: cái task ngốn thời gian nhất trong công ty bạn có phải viết code không?

Nhiều khả năng là không. Nó là kê khai chi phí. Duyệt hoá đơn. Nhập liệu từ receipt. Đối soát report cuối tháng. Những việc nhàm đến mức không ai muốn nhận, nhưng sai một dòng là kế toán gọi điện hỏi thăm sức khoẻ.

SAP Concur vừa làm một chuyện đáng chú ý: thay vì cải tiến OCR lần thứ n, họ gắn thêm khả năng suy luận cho hệ thống đọc hoá đơn. Kết quả? Agent không chỉ đọc chữ trên receipt — nó hiểu receipt đó đang nói gì, kể cả khi nửa dòng bị nhoè.

Khi "đọc được" vẫn chưa đủ — bài toán nằm ở suy luận

Hình dung thế này: bạn đi công tác Đà Nẵng, ăn tối ở một quán hải sản ven biển. Receipt in nhiệt, chữ mờ, không có tên thành phố, ngày chỉ còn "04/…". Hệ thống OCR truyền thống sẽ bó tay — thiếu trường thì trả về lỗi, bạn phải tự gõ tay.

Agent mới của SAP Concur xử lý khác. Nó nhìn vào những gì trên receipt — mã vùng điện thoại quán, loại tiền tệ, ngữ cảnh chuyến đi — rồi suy luận ra thành phố và ngày. Giống bác sĩ khi bệnh nhân kể triệu chứng lộn xộn: không cần đủ hết xét nghiệm, bác sĩ giỏi vẫn chẩn đoán đúng bằng cách ghép các manh mối lại với nhau.

Nói thẳng ra thì đây chính là bước nhảy từ "automation cứng" sang "agentic AI" — hệ thống không chỉ chạy theo rule, mà biết đưa ra quyết định khi dữ liệu không hoàn hảo.

Khoan — agent càng giỏi đoán, càng dễ đoán sai

Plot twist: suy luận giỏi và suy luận bậy chỉ cách nhau một sợi tóc.

Giả sử bạn làm ở một startup có team 8 người đi công tác thường xuyên. Bạn hào hứng triển khai agent xử lý expense report. Tuần đầu mọi thứ ngon lành. Tuần thứ hai, agent nhận một receipt tiếng Thái nhưng tự suy luận đó là tiếng Việt — vì chuyến đi trước của cùng nhân viên là ở Việt Nam. Kết quả: số tiền bị convert sai loại tiền tệ, kế toán phát hiện lúc đối soát cuối tháng.

Simon Willison — một trong những người theo dõi sát nhất sự phát triển của agentic AI — có nói một ý rất đáng ngẫm: code thì dễ kiểm tra đúng sai (chạy được hoặc không), nhưng khi agent xử lý tài liệu hay phân loại dữ liệu, việc biết nó có làm đúng hay không khó hơn nhiều. Đây là lý do agent cần có "rào chắn" rõ ràng — biết lúc nào nên dừng và hỏi người dùng thay vì tự đoán.

Nếu ví agent như cầu thủ trên sân, thì kỹ năng quan trọng nhất không phải sút mạnh — mà là biết lúc nào nên chuyền bóng. Agent hay nhất là agent biết lúc nào mình không chắc.

Thực tế ở team Việt Nam: hai câu chuyện, hai bài học

Câu chuyện 1: Một agency digital marketing ở TP.HCM, team khoảng 15 người. Mỗi tháng có hàng trăm khoản chi nhỏ: chạy ads, mua stock photo, thuê freelancer. Trước đây, admin dành gần hai ngày cuối tháng chỉ để nhập receipt vào spreadsheet. Sau khi team triển khai một pipeline đơn giản — chụp receipt → gọi vision model qua API → agent điền vào template — thời gian giảm xuống rõ rệt. Nhưng cái hay nhất? Agent tự flag những khoản bất thường (ví dụ: hoá đơn freelancer đắt gấp đôi tháng trước) để admin review, thay vì phê duyệt mù.

Câu chuyện 2: Một team engineering nhỏ build internal tool. Họ thử tính năng /fleet mới của GitHub Copilot CLI — chạy nhiều agent song song. Thay vì để một agent ôm hết, họ tách task: một agent refactor backend, một agent viết test, một agent update docs. Bài học ở đây giống chiến thuật bóng rổ: đừng bắt center chạy fast break — mỗi vị trí có sở trường riêng, orchestrate đúng thì nhanh hơn gấp bội.

Thử ngay chiều nay: 5 bước prototype agent xử lý giấy tờ

Bạn không cần SAP Concur hay enterprise platform gì cả. Đây là cách bắt đầu:

Bước 1: Chọn một loại giấy tờ lặp đi lặp lại trong workflow — receipt, invoice, hay form nội bộ.

Bước 2: Chụp 10 mẫu thật (càng xấu càng tốt — mờ, nghiêng, thiếu thông tin). Đây là test set của bạn.

Bước 3: Dùng một vision-capable model (GPT-4o, Gemini, hoặc self-host với LLaVA qua Ollama) để extract thông tin. Prompt đơn giản:

Trích xuất: ngày, tổng tiền, nhà cung cấp, loại chi phí.
Nếu thiếu trường nào, ghi "KHÔNG RÕ — cần người xác nhận" thay vì đoán.

Bước 4: So sánh output với dữ liệu thật. Đếm xem agent đúng bao nhiêu, sai bao nhiêu, và — quan trọng nhất — bao nhiêu lần nó tự nhận là không chắc.

Bước 5: Nếu kết quả khả quan, wrap thành script với LangChain hoặc Python thuần. Luôn giữ bước human review cho trường hợp agent flag "KHÔNG RÕ".

Open-source cũng chơi được sân này

Nếu dữ liệu nhạy cảm — hoá đơn, thông tin tài chính — self-host là lựa chọn hợp lý. Ollama cộng vision model như LLaVA hoặc Qwen-VL chạy được trên máy GPU tầm trung. Hiểu nôm na: bạn đang mở phòng khám riêng thay vì gửi bệnh nhân ra bệnh viện lớn — có thể chậm hơn chút nhưng dữ liệu không ra khỏi nhà.

Như mình đã chia sẻ trong bài về pipeline RAG, kiểm soát dữ liệu đầu vào luôn là yếu tố quyết định chất lượng output. Agent xử lý giấy tờ cũng vậy — rác vào thì rác ra, dù model có xịn đến đâu.

Một câu nếu bạn chỉ nhớ được một thứ

Agent đang thay đổi cách doanh nghiệp vận hành — nhưng cái thay đổi đáng tiền nhất không đến từ agent viết code hay chat với khách hàng. Nó đến từ agent âm thầm xử lý đống receipt nhàu nhĩ mà trước giờ không ai thèm đụng. Và cái agent đó chỉ thật sự đáng tin khi nó biết nói: "Cái này tôi không chắc — bạn kiểm tra giúp nhé."

---

Bụi Wire — nghiện đọc release notes lúc 2 giờ sáng

Nguồn tham khảo