Web đang diễn cho crawler — agent đứng ngoài cánh gà

78% website có robots.txt nhưng hầu như không site nào sẵn sàng cho AI agent. Cloudflare vừa công bố Agent Readiness score — bóc tách xem builder cần quan tâm gì thật.

Con số khai màn

78%. Đó là tỷ lệ website trong top 200.000 domain phổ biến nhất có file robots.txt — theo dữ liệu Cloudflare vừa công bố cùng công cụ mới: isitagentready.com. Nghe thì tưởng web đã sẵn sàng cho mọi thứ. Nhưng khi Cloudflare đào sâu hơn, sự thật lộ ra: phần lớn file đó viết cho Googlebot, cho Bingbot — những "khán giả" từ thập kỷ trước. Còn AI agent — lớp client mới đang gõ cửa mỗi ngày? Chỉ khoảng 4% site có content signals, tức tín hiệu cho agent biết nội dung nào được phép đọc, ở định dạng nào.

Cloudflare gọi chỉ số tổng hợp này là Agent Readiness score (điểm sẵn sàng cho agent). Họ quét 200.000 domain, lọc bỏ redirect và ad-server, rồi chấm từng site theo bốn trục. Kết quả tổng thể: web chưa sẵn sàng. Và đây không phải chuyện riêng của Cloudflare — đây là vấn đề của bất kỳ builder nào đang xây hệ thống agent cần tương tác với thế giới bên ngoài.

Bốn lớp mà phần lớn site đang thiếu

Cloudflare chia "agent-ready" thành bốn nhóm tiêu chuẩn. Bóc từng lớp:

1. Identity — agent là ai?
Hầu hết site không có cách nào để agent tự xưng danh và xác thực. robots.txt chỉ nói "ai được vào, ai không" theo user-agent string — cơ chế thiết kế cho crawler, không phải cho agent cần gọi API hay thực hiện thao tác phức tạp. Hiểu nôm na: sân khấu treo bảng "cấm quay phim" nhưng không có quầy soát vé — ai cũng lọt, hoặc không ai vào nổi.

2. Content signals — agent được đọc gì?
Chỉ 4% site khai báo rõ nội dung nào agent có quyền truy cập. Không có tín hiệu này, agent phải đoán — và đoán trong production nghĩa là hallucination (bịa thông tin nhưng trông rất tự tin) hoặc trả về kết quả rác.

3. Format — agent nhận dạng gì?
Phần lớn website trả về HTML đầy đủ — tốt cho browser, nhưng thừa thãi cho agent. Agent cần nội dung có cấu trúc: markdown, JSON, hoặc ít nhất HTML sạch. Khi site không hỗ trợ, agent phải tự parse (phân tích cú pháp) — tốn token, tốn tiền, dễ sai.

4. Monetization — ai trả tiền?
Lớp sơ khai nhất. Nếu agent truy cập nội dung có giá trị — tin tức trả phí, dữ liệu chuyên ngành, API premium — cần cơ chế thanh toán rõ ràng. Gần như chưa site nào có.

Chuyện ở team Việt Nam

Kịch bản 1: Giả sử team bạn 4 người, đang xây agent hỗ trợ sales tự động tra cứu thông tin sản phẩm từ website đối tác. Demo chạy ngon lành — vì site đối tác có docs rõ ràng, API public. Nhưng khi mở rộng sang 20 nguồn khác nhau, một nửa trả về HTML lộn xộn, một phần tư chặn bot hoàn toàn, số còn lại không hỗ trợ xác thực. Agent bắt đầu trả lời sai, trả lời thiếu, hoặc đơn giản là im lặng. Lỗi không nằm ở model. Lỗi nằm ở cái hậu trường mà web chưa dọn xong.

Kịch bản 2: Team khác build một RAG pipeline (hệ thống tra cứu tài liệu giúp agent trả lời chính xác hơn) cho nội bộ. Docs nội bộ thì kiểm soát được, nhưng khi cần agent đọc thêm nguồn ngoài — blog kỹ thuật, documentation của third-party — thì vấn đề lộ ra: không site nào nói rõ "đây là nội dung agent được dùng, định dạng thế này". Team phải viết scraper (bộ thu thập dữ liệu) riêng cho từng nguồn. Chi phí bảo trì tăng gấp ba so với dự tính ban đầu.

Điều đáng giữ lại

Mindset "agent là client mới" — không phải browser, không phải crawler, mà là thực thể cần xác thực, cần format riêng, và có thể cần trả tiền. Nếu bạn vận hành bất kỳ web property nào — docs, API, landing page — tool isitagentready.com miễn phí, chạy thử mất 2 phút.

Bốn lớp tiêu chuẩn (identity, content signals, format, monetization) là khung tham chiếu đáng dùng. Không phải vì Cloudflare nói thì phải nghe, mà vì nó buộc bạn tự hỏi: "Site của mình đang thiếu lớp nào?"

Dữ liệu Cloudflare Radar giờ có mục "Adoption of AI agent standards" — theo dõi mức áp dụng từng tiêu chuẩn theo nhóm domain. Cần thuyết phục leadership rằng web phải chuẩn bị cho agent? Đây là nguồn số liệu thực tế, không phải slide AI hype.

Điều nên lọc bớt

Đừng vội coi đây là tiêu chuẩn ngành. Cloudflare đang đề xuất framework của họ — và họ có lợi ích kinh doanh rõ ràng khi framework này được áp dụng rộng (họ bán WAF, bot management, dịch vụ bảo vệ web). Framework không sai, nhưng đọc với tinh thần tỉnh táo.

Đừng cố tick hết checklist. Nếu site bạn là docs kỹ thuật nội bộ, lớp monetization chưa cần. Nếu là API public, identity và format mới là ưu tiên. Cái bẫy phổ biến: nhìn bốn mục rồi ôm hết — trong khi chỉ 1–2 mục đúng chỗ đã cải thiện đáng kể trải nghiệm agent.

Về phía open-source: llms.txt — một đề xuất chuẩn mở để website khai báo nội dung dành cho LLM — đang được nhiều dự án áp dụng song song, không gắn với vendor nào. Muốn bắt đầu nhỏ? Thêm một file llms.txt vào root domain là bước đầu hợp lý, nhẹ hơn nhiều so với overhaul toàn bộ site.

Một việc cụ thể

Chạy site của bạn qua isitagentready.com. Đọc kết quả. Rồi tự hỏi: trong bốn lớp đó, lớp nào đang ảnh hưởng trực tiếp đến agent mà team mình xây? Bắt đầu từ đó.

Còn nếu bạn ở phía builder — người xây agent, không phải người vận hành web — thì bài học ngược lại cũng quan trọng không kém: đừng giả định web bên ngoài đã sẵn sàng phục vụ agent của bạn. Phần lớn chưa. Thiết kế orchestration (luồng điều phối giữa các bước trong hệ thống agent) với fallback rõ ràng, cơ chế kiểm tra chất lượng nguồn trước khi dùng — đó mới là phần tách production khỏi demo.

Đèn sân khấu lúc nào cũng sáng. Nhưng nếu hậu trường chưa xong, vở diễn vỡ ngay đêm công chiếu.

---

Bụi Wire — nghiện đọc release notes lúc 2 giờ sáng

Nguồn tham khảo