Cùng là ChatGPT — sao con nói giỏi hơn con nghe?
Voice mode nghe oai nhưng chạy model cũ hơn cả năm. Khoảng cách giữa các "cửa vào" AI đang lớn hơn bạn tưởng.
Bụi Wire"AI nói chuyện được thì chắc thông minh nhất rồi"
Một đồng nghiệp mình tuần trước khoe: "Tao nói chuyện với ChatGPT voice mỗi sáng, nó tư vấn chiến lược content hay lắm." Mình hỏi thử: "Ê, thử hỏi nó knowledge cutoff khi nào đi." Kết quả? Tháng 4 năm 2024. Hai năm trước, bạn ơi.
Chuyện này nghe vô lý nhưng có thật: cái AI mà bạn nói chuyện được — cái nghe có vẻ "thông minh nhất" vì nó phản hồi bằng giọng người — lại đang chạy trên model cũ hơn đáng kể so với cái AI mà bạn gõ text hay dùng để code. Simon Willison vừa chỉ ra điều này, và Andrej Karpathy — cựu VP AI của Tesla — cũng xác nhận: khoảng cách giữa các "cửa vào" AI đang ngày càng lớn đến mức người dùng khác nhau đang sống trong hai thực tại hoàn toàn khác.
Khoan — một sân bóng, nhiều giải đấu
Hình dung thế này: bạn có một câu lạc bộ bóng đá tên "ChatGPT FC". Đội hình chính đá Champions League — đó là Codex, model mới nhất, có thể ngồi refactor cả codebase trong một tiếng đồng hồ. Nhưng cái đội mà fan thấy trên TV mỗi ngày — Voice Mode — lại là đội trẻ mùa trước, chưa được nâng cấp. Cùng logo trên áo, nhưng đẳng cấp khác nhau một trời.
Vấn đề ở đây không phải OpenAI lười. Lý do thật sự nằm ở hai chữ: reward function. Những domain như coding có tiêu chí đánh giá rõ ràng — unit test pass hay không, code chạy hay lỗi. Kiểu phản hồi "đúng/sai" rạch ròi này cực kỳ phù hợp cho reinforcement learning. Còn hội thoại tự nhiên? Khó hơn nhiều — ai đánh giá một câu trả lời voice "hay" hay "dở"? Tiêu chí mơ hồ thì model cải thiện chậm hơn, đơn giản vậy thôi.
Thêm nữa, tiền đổ vào đâu thì chất lượng ở đó. Coding AI mang về hợp đồng B2B lớn, nên phần lớn đội ngũ tập trung cải thiện mảng đó. Voice mode? Có vẻ như đang ở trạng thái "mồ côi" — vẫn hoạt động, nhưng không phải ưu tiên.
Hai kịch bản thật — bạn đang ở cái nào?
Kịch bản 1: Team marketing dùng voice mode để brainstorm
Giả sử team marketing 4 người của bạn dùng ChatGPT voice mỗi buổi sáng để brainstorm ý tưởng content. Ai cũng thấy tiện — nói miệng nhanh hơn gõ, có cảm giác như đang trao đổi với đồng nghiệp. Nhưng thực tế, model phía sau đang dùng kiến thức cũ hơn gần hai năm. Nó không biết gì về những thay đổi lớn trong ngành từ giữa 2024 đến giờ. Bạn đang brainstorm với một "cố vấn" bị đóng băng ở quá khứ mà không hay.
Kịch bản 2: Dev dùng Codex để refactor
Trong khi đó, một dev trong cùng công ty dùng Codex — model cao cấp nhất — để restructure lại module authentication. Codex ngồi xử lý hơn một tiếng, dò qua từng file, đề xuất thay đổi có hệ thống. Kết quả? Công việc mà trước đây mất cả sprint giờ xong trong một buổi chiều. Cùng thương hiệu "ChatGPT", nhưng hai trải nghiệm này cách nhau như... đội tuyển quốc gia với đội phong trào phường.
Cái bẫy: đánh giá AI qua cửa sai
Đây mới là chỗ nguy hiểm thật sự. Nếu sếp bạn chỉ dùng voice mode rồi kết luận "AI chưa đủ giỏi để đầu tư thêm" — đó là đánh giá cả giải đấu qua một trận giao hữu. Ngược lại, nếu dev team hào hứng quá với Codex rồi nghĩ voice assistant cũng xịn tương tự — sẽ deploy vào customer support rồi nhận complaint tới tấp.
Nói thẳng ra thì: mỗi interface của AI là một sản phẩm khác nhau, dù chúng mang cùng một tên. Knowledge cutoff khác, khả năng reasoning khác, và cái giá bạn trả (hoặc không trả) cũng khác.
Thử ngay chiều nay: audit "cửa vào AI" của team
Bạn không cần một buổi workshop hoành tráng. Chỉ cần 30 phút và ba bước:
Bước 1: Liệt kê tất cả cách team bạn đang tương tác với AI — voice mode, web chat, API, Codex, plugin IDE, v.v.
Bước 2: Với mỗi cách, hỏi thử: "Knowledge cutoff của bạn là khi nào?" và thử một câu hỏi về sự kiện gần đây (ví dụ một model release tháng trước). Ghi lại kết quả.
Bước 3: Đối chiếu: task nào đang dùng đúng "cửa", task nào đang dùng model yếu hơn mà không biết? Ví dụ, nếu team đang dùng voice mode để tra cứu thông tin kỹ thuật mới — chuyển sang text mode hoặc API với model mới hơn sẽ cho kết quả chính xác hơn hẳn.
Nếu bạn muốn kiểm soát chặt hơn, xem xét open-source: chạy model qua Ollama trên máy local, bạn biết chính xác mình đang dùng model nào, version nào, cutoff khi nào. Không có chuyện "tưởng xịn hóa ra cũ" — như mình đã chia sẻ trong các bài về Ollama trước đây, tự host cho bạn sự minh bạch mà hosted service đôi khi giấu đi.
Takeaway duy nhất
Khoảng cách năng lực giữa các interface AI không phải bug — đó là feature của thị trường. Tiền và dữ liệu huấn luyện đổ vào đâu, chất lượng ở đó. Việc của bạn không phải chờ tất cả các cửa đều xịn như nhau, mà là biết cửa nào dẫn tới phòng nào — rồi chọn đúng cửa cho đúng việc.
Đừng tin mình, thử đi rồi biết — hỏi voice mode một câu về GPT-4.5 xem nó trả lời được không.
---
Bụi Wire — nghiện đọc release notes lúc 2 giờ sáng