AI "PhD-level" — lớp trầm tích dưới headline

Khi Fields Medalist nói AI đạt "PhD-level", phần đáng học không nằm ở headline mà ở những gì headline bỏ qua.

Bụi Wire

2026-05-15

"Phần đóng góp toán học của tôi: bằng không." Timothy Gowers — Fields Medalist, giáo sư tại Collège de France — viết trên blog cá nhân sau khi ChatGPT 5.5 Pro giải một bài toán mở về lý thuyết số. Thời gian model suy nghĩ: 17 phút. Thời gian ra paper hoàn chỉnh: dưới hai giờ.

Câu đó đang viral khắp tech Twitter. Nhưng nếu bạn chỉ đọc headline rồi kết luận "AI sắp thay researcher," bạn đang đứng trên bề mặt một lớp địa chất dày hơn nhiều.

Bối cảnh: bài toán nào, ai đặt, model làm gì?

Gowers lấy các bài toán mở từ paper của nhà lý thuyết số Mel Nathanson — nghiên cứu kích thước tập hợp các tổng số nguyên và cách xây dựng tập hợp có tính chất cho trước một cách hiệu quả.

Nathanson đã chứng minh một exponential bound (cận mũ — giới hạn tăng theo hàm mũ) cho bài toán này, rồi hỏi: liệu có cải thiện được không?

ChatGPT 5.5 Pro suy nghĩ 17 phút, trả về một construction đạt quadratic bound (cận bậc hai) — tối ưu nhất có thể. Ý tưởng cốt lõi: model thay thế một thành phần trong chứng minh gốc bằng biến thể hiệu quả hơn, vốn quen thuộc trong combinatorics (tổ hợp) nhưng chưa ai nghĩ áp dụng vào bài toán cụ thể này.

Isaac Rajagopal, nghiên cứu sinh tham gia dự án, gọi ý tưởng đó là "completely original" — thứ mà một nhà toán học sẽ tự hào nếu nghĩ ra sau nhiều tuần cân nhắc.

Quyết định: cái gì thật sự được chứng minh — và cái gì không?

Đây là chỗ mình thấy nhiều người đang đọc sai.

Bài toán có biên rõ ràng. Gowers không yêu cầu model "khám phá hướng nghiên cứu mới." Ông đưa vào bài toán cụ thể, với cận đã biết, và hỏi: cải thiện được không? Đây là dạng bài toán mà reasoning model (mô hình suy luận) mạnh nhất — không gian tìm kiếm lớn nhưng tiêu chí đúng/sai rõ ràng.

Người chọn bài toán là Fields Medalist. Phần khó nhất trong nghiên cứu không phải giải bài, mà là biết nên giải bài nào. Gowers viết "I didn't even do anything clever with the prompts" — nhưng việc chọn đúng paper, đúng bài toán, đúng dạng mà model có thể xử lý, bản thân đã là một quyết định chuyên gia.

Output chưa phải kết luận. Gowers và Rajagopal vẫn phải verify từng bước. "PhD-level output" không đồng nghĩa với "PhD-level judgment." Model không tự biết nó đúng — người biết nó đúng vẫn là nhà toán học.

Hiểu nôm na: AI tạo ra câu trả lời chất lượng cao khi bạn đặt đúng câu hỏi và có khả năng kiểm chứng kết quả. Thiếu một trong hai, output trông ấn tượng nhưng bạn không biết nó đúng hay bịa.

Hệ quả: khi "ấn tượng" bị nhầm thành "sẵn sàng"

Mình thấy pattern này lặp lại ở các team Việt Nam đang dùng AI cho công việc thật.

Ví dụ 1: Giả sử team data 4 người ở một công ty fintech Sài Gòn. Lead đọc headline, hào hứng đưa reasoning model vào pipeline phân tích rủi ro tín dụng. Model trả về kết quả trông professional — nhưng không ai trong team có đủ chuyên môn thống kê để verify edge case. Hai tuần sau phát hiện model hallucinate (bịa dữ liệu nhưng trình bày rất tự tin) ở một nhánh hiếm gặp, gây sai lệch scoring cho vài trăm hồ sơ.

Ví dụ 2: Một team 3 người ở agency nội dung dùng AI research đối thủ. Họ làm đúng: đưa vào nguồn cụ thể, đặt câu hỏi có biên rõ, cross-check kết quả bằng tay. Năng suất tăng rõ rệt — không phải vì AI "thông minh hơn" mà vì team biết cách đặt đúng loại bài toán.

Đường đứt gãy giữa hai team không nằm ở model nào họ dùng, mà ở ai kiểm soát đầu vào và ai verify đầu ra.

Bài học: ba câu hỏi trước khi all-in

Mỗi khi gặp headline kiểu "AI đạt level X", mình chạy qua ba câu:

Bài toán thuộc dạng nào? Có cấu trúc rõ, tiêu chí đúng/sai tường minh → reasoning model rất mạnh. Mở, mơ hồ, phụ thuộc ngữ cảnh → cần cẩn thận.

Ai đặt bài toán? Nếu người đặt là chuyên gia biết chọn đúng dạng bài → kết quả đáng tin hơn nhiều so với người không chuyên ném câu hỏi vào model rồi hy vọng.

Ai verify? Nếu team bạn không có khả năng kiểm chứng output ở domain đó, thì output hay đến mấy cũng là rủi ro, không phải lợi thế.

Ba câu hỏi này không phụ thuộc tên model hay phiên bản. Chúng phụ thuộc vào năng lực team bạn.

Áp dụng: đào đúng lớp, đừng đứng trên mặt

Nếu bạn đang lead một team và muốn tận dụng khả năng reasoning của AI:

Bắt đầu từ bài toán có cấu trúc. Review code, phân tích data có schema rõ, tối ưu query, debug lỗi có log cụ thể. Đây là vỉa quặng mà model khai thác tốt nhất.

Đừng bỏ bước verify. Gowers — một trong những nhà toán học giỏi nhất hành tinh — vẫn kiểm chứng từng bước output. Team bạn không có lý do nào để skip.

Phân biệt capability và reliability. SAP vừa chi hơn 1 tỷ USD mua Prior Labs — startup chuyên tabular foundation model (mô hình nền tảng cho dữ liệu dạng bảng) — nhưng đồng thời chặn mọi AI agent chưa được phê duyệt. Ngay cả công ty đặt cược lớn vào AI vẫn đặt guardrail trước khi mở cổng.

Case của Gowers đáng chú ý. Nhưng bài học cho team bạn không phải "AI giỏi quá" — mà là AI giỏi nhất khi người dùng nó cũng đủ giỏi để đặt đúng câu hỏi và kiểm đúng câu trả lời.

---

Bụi Wire — nghiện đọc release notes lúc 2 giờ sáng