AI giỏi nói, dở nghĩ — ba lỗi không model nào thoát

ARC-AGI-3 phơi bày ba lỗi reasoning hệ thống mà GPT-5.5 lẫn Opus 4.7 đều mắc — bài học thật sự nằm ở chỗ builder ít ngờ nhất.

Con số mà leaderboard không kể

0,43%. Đó là điểm của GPT-5.5 trên ARC-AGI-3 — benchmark thế hệ mới, nơi AI phải tự khám phá môi trường tương tác theo lượt, đặt giả thuyết và hành động mà không có chỉ dẫn nào. Chi phí cho 160 lượt chạy? Khoảng 10.000 đô. Opus 4.7 của Anthropic thì còn thấp hơn: 0,18%.

Con người? Giải được cùng bộ test mà không cần ai giải thích luật chơi.

Nhưng ARC Prize Foundation không dừng ở chuyện pass hay fail. Họ ghi lại reasoning traces — nhật ký từng bước suy luận — của cả hai model xuyên suốt 160 ván. Và điều đáng đọc nhất không phải điểm số, mà là ba lỗi hệ thống mà cả GPT-5.5 lẫn Opus 4.7 đều mắc, dù kiến trúc và training data khác nhau hoàn toàn.

Nếu bạn đang build agent hay bất kỳ pipeline reasoning nhiều bước nào, ba lỗi này là thứ cần mổ trước khi đọc thêm bất cứ bảng xếp hạng nào.

Mổ ba lớp gỗ

Lỗi 1 — Nhận ra từng mảnh, ghép không thành hình

Model phát hiện đúng từng hiệu ứng cục bộ nhưng không xây nổi world model — mô hình nhân quả tổng thể cho biết các hiệu ứng đó ảnh hưởng lẫn nhau ra sao.

Ví dụ cụ thể từ benchmark: trong game cd82, Opus 4.7 nhận ra ACTION3 xoay container từ bước 4, nhận ra ACTION5 đổ sơn từ bước 6. Nhưng nó không suy được rằng phải xoay đúng hướng trước khi đổ sơn — một liên kết nhân quả mà người chơi nắm gần như lập tức.

Áp vào góc builder: model gọi đúng tool, đúng API, nhưng không nắm thứ tự phụ thuộc giữa các bước. Giống thợ mộc biết cưa, biết bào, nhưng cắt trước khi đo — mỗi thao tác đúng kỹ thuật, miếng ghép cuối vẫn lệch.

Lỗi 2 — Giả thuyết đúng bị vứt sớm

Cả hai model có lúc đặt ra giả thuyết đúng, rồi loại bỏ nó — không phải vì tìm được hướng tốt hơn, mà vì chúng thiếu cơ chế backtrack (lùi về bước trước để thử lại). Khi giả thuyết mới thất bại, model không nhớ giả thuyết cũ từng có triển vọng.

Đây là đèn đỏ cho ai đang build agent workflow: agent có thể đang vứt hướng xử lý đúng chỉ vì thử một bước không thành, rồi lao sang nhánh khác mà không ngoái lại.

Lỗi 3 — Lặp mãi một sai lầm

Khi mắc kẹt, model lặp cùng chuỗi hành động — đôi khi hàng chục lần — dù kết quả không đổi. Không có meta-reasoning (khả năng tự đánh giá chiến lược đang dùng) để nhận ra "cách này đã thử rồi, không work." Cứ cầm đục đóng hoài vào chỗ cũ, mộng không vào mà gỗ thì nứt.

Ba lỗi này xếp chồng lên nhau: model không xây được world model (Lỗi 1), nên không có cơ sở đánh giá giả thuyết (Lỗi 2), nên cứ lặp hành vi cũ (Lỗi 3). Một vòng xoáy mà thêm parameter hay thêm compute chưa chắc phá được.

Điều builder nên giữ lại

Ba lỗi trên không chỉ sống trên benchmark. Chúng là failure mode mà bất kỳ ai dùng LLM cho reasoning nhiều bước — từ code generation đến multi-step agent — đều cần phòng.

Checklist nhanh trước khi giao task reasoning phức tạp cho model:

  1. Task này cần world model hay pattern matching? Nếu cần hiểu quan hệ nhân quả giữa nhiều bước — debug chuỗi microservice, lên kế hoạch migration — đừng kỳ vọng model xử lý one-shot. Chia nhỏ, mỗi bước có kiểm tra trung gian.
  1. Agent có cơ chế backtrack không? Nếu agent chỉ đi tiến, nó sẽ mắc Lỗi 2. Thêm bước đơn giản: log lại các giả thuyết đã thử, buộc agent quay lại giả thuyết cũ sau N lần fail ở hướng mới.
  1. Có guard rail chống lặp không? Đặt giới hạn retry cùng chiến lược. Sau ngưỡng nhất định, buộc thay đổi cách tiếp cận hoặc escalate cho người.

Kịch bản 1 — Agent debug production: Giả sử team bạn 4 người, build agent tự phân tích lỗi production. Agent đọc log, đặt giả thuyết, chạy test xác minh. Không có backtrack, agent bám giả thuyết đầu tiên, chạy cùng một fix mười lần, rồi timeout. Thêm một lớp — ghi lại giả thuyết đã thử, bắt buộc chọn hướng khác sau 3 lần fail — đã cải thiện rõ rệt tỷ lệ giải quyết trong nhiều hệ thống agent hiện tại.

Kịch bản 2 — Agent review code: Agent đọc diff, tìm bug tiềm ẩn, gợi ý fix. Với Lỗi 1, agent có thể phát hiện đúng race condition ở function A, phát hiện đúng null check thiếu ở function B, nhưng không nhận ra hai lỗi liên quan nhau qua shared state. Thay vì giao cả PR cho agent, hãy cho nó phân tích từng cụm file có dependency chung, rồi tổng hợp bằng một prompt tách riêng.

Nhìn rộng hơn: Trong khi ARC-AGI-3 chỉ ra vấn đề ở phần "nghĩ", ngành đang đổ lực vào phần "luyện". NVIDIA vừa tích hợp speculative decoding — kỹ thuật dùng model nhỏ đề xuất token trước, model lớn kiểm tra sau — vào framework NeMo RL (mã nguồn mở), đẩy tốc độ rollout generation (giai đoạn tạo mẫu thử trong reinforcement learning, chiếm 65–72% thời gian training) nhanh hơn 1,8 lần ở model 8B. Meta thì ra Autodata — framework để agent tự tạo và cải thiện training data thay vì phụ thuộc hoàn toàn gán nhãn thủ công. Cả hai đều giá trị, nhưng chưa chạm được vào ba lỗi suy luận ở trên.

Điều nên bỏ qua

Con số benchmark tuyệt đối. 0,43% nghe thảm, nhưng ARC-AGI-3 được thiết kế để test năng lực model chưa có — không phải thước đo hiệu quả thực tế hôm nay. Đừng dùng nó kết luận "AI vô dụng", cũng đừng dùng benchmark dễ hơn để kết luận ngược lại.

Cuộc đua "model nào reasoning giỏi hơn". GPT-5.5 và Opus 4.7 mắc cùng ba lỗi dù ra từ hai nhà khác nhau. Vấn đề nhiều khả năng nằm ở paradigm hiện tại, không ở vendor cụ thể. Chọn model dựa trên lỗi nào nó mắc ít hơn trong use case của bạn, chứ đừng chọn theo bảng tổng sắp.

Bản chất là: gỗ bào phẳng mặt ngoài mà mộng chưa khớp thì tủ vẫn lung lay — model trả lời mượt từng câu đơn lẻ, nhưng ghép nhiều bước reasoning lại, khe hở lộ ra ngay.

---

Bụi Wire — nghiện đọc release notes lúc 2 giờ sáng

Nguồn tham khảo