Agent solo đã hết thời — giờ phải chơi dàn nhạc

Multi-agent orchestration đang thay đổi cách AI làm việc — nhưng chỉ huy một dàn nhạc AI khó hơn bạn nghĩ.

Bụi Wire

2026-04-10

Một agent giỏi vẫn là... một người

"Cho một LLM đủ context, nó sẽ giải quyết mọi thứ" — mình đã tin điều này suốt cả năm ngoái. Rồi tháng trước, mình thử dùng một agent duy nhất để viết technical spec, tạo diagram, review code, và soạn email tóm tắt cho PM. Kết quả? Nó viết spec khá ổn, diagram thì sai tên service, code review thì bỏ qua edge case, còn email thì đọc như robot dịch từ tiếng Anh.

Thật ra điều này chẳng có gì lạ. Bạn có bao giờ thấy một nhạc công vừa chơi violin, vừa đánh trống, vừa thổi kèn trong cùng một bản giao hưởng chưa? Không — vì một dàn nhạc hoạt động được là nhờ mỗi người chơi một nhạc cụ, theo cùng một bản nhạc, dưới sự chỉ huy của một conductor.

Tuần này, hai dự án từ hai phía khác nhau cùng chứng minh điều đó: PaperOrchestra từ Google Cloud AI Research biến ghi chú lab lộn xộn thành paper LaTeX hoàn chỉnh, và Symphony từ team OpenAI Frontier vận hành codebase hơn 1 triệu dòng code mà không có dòng nào do con người viết hay review. Cả hai đều không dùng một agent "siêu nhân" — mà dùng một dàn nhạc.

Khoan đã, chuyện phức tạp hơn "chia việc ra"

Nếu multi-agent chỉ đơn giản là "tách task rồi giao cho nhiều agent", thì chẳng ai cần nghiên cứu gì cả. Cái khó nằm ở chỗ khác.

PaperOrchestra có một loạt agent chuyên biệt: agent lo phần literature review phải tìm và xác minh citation qua API thật (không bịa reference như nhiều LLM hay làm), agent khác chuyên tạo figure từ raw data, agent khác nữa lo cấu trúc narrative sao cho mạch lạc. Trước đó, các hệ thống như AI Scientist-v2 cũng viết được paper — nhưng chỉ từ pipeline thí nghiệm của chính nó. Bạn không thể đưa data của mình vào và bảo "viết cho tôi." PaperOrchestra giải quyết đúng pain point này: nhận input phi cấu trúc từ con người thật.

Symphony của OpenAI Frontier thì đi theo hướng khác. Thay vì prompt agent "viết code cho tốt", team của Ryan Lopopolo hỏi ngược: "Agent fail vì thiếu gì — thiếu context, thiếu capability, hay thiếu structure?" Rồi họ xây một hệ thống mà mỗi Codex agent được prompt chi tiết như một bản PRD, với đầy đủ bối cảnh và ràng buộc. Kết quả: cả codebase được build và ship mà không ai review code trước khi merge.

Nói cho vuông: cả hai dự án đều chứng minh rằng multi-agent không phải về "nhiều agent hơn", mà về orchestration tốt hơn — giống như dàn nhạc hay không phải vì có nhiều nhạc công, mà vì bản phối hay và conductor giỏi.

Hai kịch bản cho team Việt Nam

Kịch bản 1: Team ML 3-4 người đang gấp deadline paper

Giả sử team bạn vừa chạy xong experiments cho một bài về recommendation system. Data đầy đủ, kết quả promising, nhưng deadline conference còn 3 tuần mà chưa ai đụng vào manuscript. Thay vì một người ôm hết (và burn out), bạn có thể thiết kế workflow multi-agent tương tự PaperOrchestra:

Agent 1: nhận experiment logs → tạo bảng kết quả và figure
Agent 2: nhận keyword → search paper trên Semantic Scholar API → viết Related Work
Agent 3: nhận outline + output từ Agent 1 & 2 → viết draft đầu tiên
Agent 4 (reviewer): đọc draft → check logic, format, citation

Mỗi agent dùng cùng một LLM (GPT-4o hoặc Claude), nhưng system prompt và tool access khác nhau hoàn toàn. Agent search paper KHÔNG cần khả năng tạo figure. Agent tạo figure KHÔNG cần biết cite paper.

Kịch bản 2: Startup 5 dev đang build product với AI coding assistant

Hình dung thế này: mỗi người dùng AI coding assistant riêng lẻ, mỗi PR có style khác nhau, convention lung tung, test coverage hên xui. Thay vì dùng AI như "autocomplete nâng cao", bạn có thể học từ Symphony: viết spec cực kỳ chi tiết cho từng module, setup linting và test tự động chặt, rồi để agent generate code trong khuôn khổ đó.

Điểm mấu chốt: khi agent fail, đừng prompt lại — hãy sửa harness (bộ khung hướng dẫn). Đó là tư duy "harness engineering" mà Ryan Lopopolo đang truyền bá.

Bẫy mà team nào cũng dễ dính

Mình có anh bạn (xin giấu tên vì anh ấy đọc blog này) hào hứng quá, dựng hẳn hệ thống 7 agent cho một task mà... 2 agent là đủ. Agent A gọi Agent B, Agent B gọi Agent C, Agent C gọi lại Agent A. Vòng lặp vô tận, token cháy như pháo đêm giao thừa, output thì mỗi lần một khác.

Bài học đắt giá: thừa nhạc công mà thiếu bản nhạc thì chỉ có tiếng ồn. Trước khi thêm agent, hãy tự hỏi:

Task này có thật sự cần agent riêng, hay chỉ cần thêm một tool call?
Các agent có dependency rõ ràng không, hay đang gọi nhau vòng tròn?
Output của agent A có format chuẩn để agent B parse được không?

Symphony giải quyết vấn đề này bằng spec rõ ràng cho từng agent — không ai được phép "freestyle." PaperOrchestra thì dùng pipeline tuyến tính: agent nào chạy trước, agent nào chạy sau, output format cố định.

Thử ngay chiều nay

Bạn không cần Google Cloud hay OpenAI Codex để bắt đầu. Với AutoGen — framework multi-agent open-source của Microsoft — bạn có thể dựng một pipeline đơn giản:

Cài đặt: pip install autogen-agentchat
Định nghĩa 2-3 agent với role khác nhau — ví dụ: Researcher (search web), Writer (viết draft), Reviewer (critique draft)
Setup group chat với thứ tự phát biểu cố định: Researcher → Writer → Reviewer → Writer (revision)
Chạy thử với một topic nhỏ, đọc log xem agent nào đang làm gì, token tiêu bao nhiêu

Mục tiêu không phải ra output hoàn hảo ngay — mà là cảm nhận sự khác biệt giữa một agent ôm đồm và một nhóm agent phối hợp. Từ đó bạn mới biết khi nào multi-agent thật sự cần thiết, khi nào chỉ thêm phức tạp vô ích.

Conductor quan trọng hơn nhạc công

Sau tất cả, điều mình rút ra là: thời đại "prompt hay hơn là đủ" đang dần qua. PaperOrchestra và Symphony đều cho thấy tương lai nằm ở thiết kế hệ thống — spec rõ, pipeline chặt, feedback loop có kiểm soát. Agent không cần thông minh hơn, chúng cần được chỉ huy tốt hơn.

Như mình đã chia sẻ trong bài về agent không trọng tài, agent mà không có guardrails thì chỉ gây loạn. Giờ thêm một tầng nữa: multi-agent mà không có conductor thì loạn nhân đôi — nhưng có conductor giỏi thì kết quả vượt xa những gì một agent đơn lẻ có thể mơ tới.

Đừng tin mình, thử đi rồi biết.

---
Bụi Wire — nghiện đọc release notes lúc 2 giờ sáng