Agent AI không thiếu não — thiếu xương sống

Ai cũng hào hứng xây agent, nhưng ít ai hỏi: agent chạy trên hạ tầng nào? Ba tầng infrastructure mới đang định hình lại cuộc chơi.

Bụi Wire

2026-04-10

Một tuyên bố có thể khiến bạn khó chịu

Năm 2026 rồi mà vẫn có team dành 80% thời gian chọn model, rồi deploy agent lên một con server chạy Express đơn giản, gọi API trực tiếp, không retry, không observability, không có gì hết. Agent thông minh đến mấy mà hạ tầng mỏng như giấy thì cũng như bác sĩ giỏi nhất bệnh viện... nhưng bệnh viện không có phòng mổ.

Mình muốn nói thẳng: vấn đề lớn nhất của agent AI lúc này không phải là model thiếu thông minh. Mà là cái tầng bên dưới — nơi agent thực sự sống, chạy, và thất bại — đang bị bỏ quên.

Khoan — chuyện phức tạp hơn một chữ "infrastructure"

Khi nói "hạ tầng cho agent," nhiều người nghĩ ngay đến GPU và cloud. Nhưng thực tế, có ít nhất ba tầng mà team nào build agent nghiêm túc cũng phải đối mặt:

Tầng 1 — Runtime & SDK: Agent cần một "khung xương" để vận hành. Không phải cứ gọi API xong trả text là xong. Agent cần stream response, gọi tool, xử lý multi-step reasoning, rồi render kết quả cho user. Vercel vừa ship Chat SDK mới — cho phép bạn wiring một con agent hoàn chỉnh vào Next.js app, với tool calling, structured output, và streaming built-in. Điểm đáng chú ý: SDK này không lock bạn vào một model provider nào — bạn swap giữa OpenAI, Anthropic, hay model tự host đều được.

Tầng 2 — Training & Fine-tuning: Prompt engineering có trần. Khi agent cần self-correct giữa chừng, cần multi-step tool use phức tạp, bạn phải fine-tune hoặc dùng RL (reinforcement learning). Fireworks vừa mở preview platform cho việc này — từ SFT đến RL, full-parameter training cho model từ 8B đến 1T parameters. Case thú vị: Vercel dùng RL infrastructure của Fireworks để train model "Auto Fix" cho v0, đạt tỷ lệ generation không lỗi lên 93%, cải thiện latency đáng kể so với model closed-source trước đó.

Tầng 3 — Data layer & Security: Agent cần truy cập dữ liệu, nhưng security team sẽ block nếu data bay ra ngoài VPC. Pinecone vừa ra BYOC (Bring Your Own Cloud) — chạy vector database ngay trong AWS/GCP/Azure account của bạn, zero vendor access. Dịch ra thực tế: vector của bạn không rời khỏi VPC, Pinecone không cần SSH hay VPN vào cluster của bạn.

Hai kịch bản mà team Việt Nam sẽ gặp sớm thôi

Kịch bản 1: Startup SaaS giả sử 5 người, muốn thêm AI chat vào product

Team bạn đang chạy Next.js trên Vercel. Khách hàng muốn có con chatbot hỗ trợ trong app. Trước đây bạn phải tự build WebSocket server, xử lý streaming, parse tool calls bằng tay — dễ mất cả tuần chỉ cho phần plumbing. Giờ với Chat SDK, bạn khai báo tools, chọn model provider, SDK lo phần khung xương. Một buổi chiều có prototype chạy được.

Nhưng — nếu chatbot cần trả lời dựa trên dữ liệu nội bộ (docs, ticket history), bạn cần vector search. Khách enterprise sẽ hỏi: "Data của tôi lưu ở đâu?" Lúc đó mô hình BYOC giải quyết gọn: data nằm trong cloud account của khách, bạn chỉ operate phần control plane.

Kịch bản 2: Team platform giả sử 15 người, đang vận hành hệ thống production

Mỗi lần có incident, team mất nửa ngày troubleshoot. Pen-test thì mỗi quý một lần vì tốn kém, còn lại để trống. AWS vừa GA hai "frontier agents" — Security Agent làm penetration testing tự động 24/7, DevOps Agent hỗ trợ xử lý incident nhanh hơn rõ rệt so với quy trình manual. Theo AWS, khách hàng preview báo cáo thời gian pen-test giảm từ hàng tuần xuống hàng giờ, incident resolution nhanh hơn 3–5 lần.

Điều đáng suy nghĩ: những agent này không phải chatbot — chúng chạy autonomous hàng giờ, tự ra quyết định, tự execute. Đây là bước nhảy từ "AI hỗ trợ" sang "AI vận hành."

Cái bẫy mà team nào cũng suýt dính

Hình dung thế này: bạn hào hứng demo agent cho sếp, sếp gật gù, bạn push thẳng lên production. Tuần đầu chạy ngon. Tuần thứ hai, model provider thay đổi response format — agent parse sai, trả rác cho user. Không ai biết vì không có monitoring. Sếp gọi điện lúc 11 giờ đêm.

Đây là lý do "agentic infrastructure" không chỉ là chỗ chạy code. Nó phải bao gồm observability (trace từng step agent đi qua), fallback (swap model khi provider sập), và guardrails (agent không được gọi tool nguy hiểm mà thiếu human approval).

Như mình đã chia sẻ trong bài về pipeline AI sống sót qua update model — lớp abstraction giữa app và model provider là thứ quyết định bạn ngủ ngon hay thức trắng đêm.

Thử ngay chiều nay

Nếu bạn đang dùng Next.js và muốn sờ tay vào agent infrastructure:

Khởi tạo project với AI SDK: npx create-next-app rồi cài ai package từ Vercel. Docs chính thức có starter template chạy được ngay.
Khai báo một tool đơn giản — ví dụ tool tra cứu nội bộ hoặc tìm kiếm docs. Chạy thử với streamText để thấy agent gọi tool real-time.
Swap model provider: Thử chuyển từ OpenAI sang Anthropic chỉ bằng đổi provider config. Nếu output thay đổi quá nhiều → đó là dấu hiệu bạn cần evaluation layer.
Bật tracing: Dù chỉ là prototype, hãy log lại mỗi lần agent gọi tool và kết quả trả về. Thói quen nhỏ, cứu lớn.

Nếu team bạn thiên về open-source và muốn kiểm soát toàn bộ stack, LangChain và LlamaIndex vẫn là hai framework phổ biến cho agent orchestration — model-agnostic hoàn toàn và self-host được, nhưng phần UI/streaming phải tự xây nhiều hơn.

Nhìn lại toàn cảnh

Cuộc đua agent AI đang chuyển từ "ai có model giỏi nhất" sang "ai có hạ tầng hoàn chỉnh nhất." Vercel đặt cược vào developer experience với SDK + Edge runtime. Fireworks nhắm vào training pipeline end-to-end. AWS chơi lớn với autonomous agents chạy production. Pinecone giải bài toán security cho data layer.

Không vendor nào cho bạn full stack. Việc của bạn là hiểu từng tầng, chọn đúng tool cho từng lớp, và — quan trọng nhất — đừng để con agent thông minh của mình chạy trên một bộ xương sống bằng giấy.

Spoiler: không có silver bullet — nhưng có silver spine thì agent chạy khỏe hơn hẳn.

---

Bụi Wire — nghiện đọc release notes lúc 2 giờ sáng