Realtime API ra GA — ba model voice, mấy phần dùng thật?

OpenAI tung ba model voice mới cùng lúc API thoát beta. Bóc tách xem đâu là thế thủ vững cho production ở Việt Nam, đâu chỉ là trình diễn trên Playground.

Bụi Wire

2026-05-12

Ba đòn liên hoàn từ OpenAI

Ba model voice mới, ra cùng ngày, cùng lúc Realtime API chính thức thoát beta lên GA (Generally Available — không còn "dùng thử", có SLA rõ ràng). Đây là tín hiệu OpenAI muốn builder nghiêm túc bắt đầu đặt cược production lên đó.

Ba model cụ thể:

GPT-Realtime-2 — voice agent có reasoning ngang GPT-5, context window (vùng ngữ cảnh model giữ được) mở từ 32K lên 128K token.
GPT-Realtime-Translate — dịch đồng thời, hỗ trợ hơn 70 ngôn ngữ đầu vào nhưng chỉ 13 ngôn ngữ đầu ra.
GPT-Realtime-Whisper — streaming transcription (chuyển giọng nói thành text liên tục, không cần đợi hết đoạn).

Nhìn headline thì ấn tượng. Nhưng builder ở Việt Nam cần hỏi khác: phần nào giải quyết pain point thật, phần nào chỉ là trình diễn đẹp trên Playground?

Dưới lớp vỏ: hai thứ thật sự mới

Reasoning effort có thể chỉnh. GPT-Realtime-2 cho phép set 5 mức reasoning từ minimal đến max. Đây không phải feature để chơi — nó giải bài toán cốt lõi của voice agent: câu hỏi đơn giản ("mấy giờ cửa hàng đóng?") không cần model nghĩ sâu, nhưng câu hỏi phức tạp ("so hai gói cước này?") thì cần reasoning cao hơn.

Giống trong dojo — không phải lúc nào cũng tung hết lực. Thế thủ đúng lúc, ra đòn vừa đủ, tiết kiệm năng lượng cho lượt sau quan trọng hơn.

Trong production, bạn có thể route: intent classifier ở trước quyết định mức reasoning cho từng request. Kết quả: latency thấp cho 80% câu hỏi đơn giản, reasoning sâu cho 20% câu hỏi cần thiết, và bill cuối tháng không nổ.

Preamble phrases — câu đệm chờ. Model có thể nói "để mình kiểm tra nhé" hoặc "một chút nhé" trong khi đang xử lý. Nghe nhỏ nhưng đây là thứ phân biệt voice agent dùng được với voice agent khiến user cúp máy. Khoảng im lặng 3 giây trong cuộc gọi = user nghĩ hệ thống chết. Preamble phrases xử lý đúng điểm này.

Model cũng hỗ trợ gọi nhiều tool cùng lúc và narrate quá trình — thay vì im lặng chết, user nghe được "mình đang kiểm tra đơn hàng của bạn..." trong khi API gọi backend.

Phần builder nên giữ

Kịch bản 1 — Team đang build tổng đài tự động:

Giả sử bạn đang xây voice bot cho một công ty bảo hiểm. Trước đây, model cũ hoặc chậm (suy nghĩ quá lâu cho câu FAQ) hoặc nông (trả lời sai khi khách hỏi so sánh gói). Với reasoning effort adjustable, bạn thiết kế routing layer: FAQ → minimal, so sánh sản phẩm → high, claim phức tạp → max. Chi phí tối ưu, trải nghiệm khách hàng nhất quán.

Context window 128K cũng giải quyết pain point cũ: session tư vấn 30-45 phút trước đây hay bị model "quên" phần đầu cuộc trò chuyện. Giờ đủ runway cho conversation dài.

Kịch bản 2 — Team 5 người build live caption cho app hội nghị:

Trước đây phải buffer 10-15 giây audio rồi gửi batch lên Whisper. Trải nghiệm caption bị delay rõ. GPT-Realtime-Whisper stream liên tục qua WebSocket (kết nối hai chiều giữ mở), caption hiện gần như tức thì. Upgrade path rõ ràng từ Whisper batch hiện tại — cùng ecosystem, đỡ phải đổi pipeline từ đầu.

Phần nên để yên

Translation chưa sẵn sàng cho thị trường Việt Nam. 13 ngôn ngữ đầu ra — tiếng Việt không có trong danh sách output. Nếu use case của bạn cần dịch sang tiếng Việt, chưa có gì để build. Đừng lên kế hoạch sprint cho thứ chưa tồn tại.

"GA" không có nghĩa "mature". API mới thoát beta — tức là có SLA, nhưng chưa có đủ battle-test từ cộng đồng lớn. Nếu bạn đang chạy hệ thống mission-critical (ví dụ: tổng đài ngân hàng), hãy chạy shadow mode song song trước khi cắt traffic hoàn toàn sang.

Open-source không đứng yên. TokenSpeed — inference engine mới từ LightSeek Foundation, MIT license — đang nhắm vào agentic workload với mục tiêu throughput cao. Nếu team bạn cần self-host vì privacy hoặc cost, đây là lựa chọn đáng watch list, dù còn ở preview. DeepSeek V4 cũng vừa ra với reasoning modes có thể chỉnh (Non-think / Think High / Think Max) — cùng triết lý "không phải lúc nào cũng cần nghĩ hết công suất".

Bẫy cần tránh

Bẫy phổ biến nhất: build xong mới đo latency thực tế. Demo trên Playground với fiber ở US là một chuyện. User ở Hà Nội gọi qua 4G, WebSocket bay nửa vòng trái đất — latency hoàn toàn khác.

Trước khi commit sprint:

Đo round-trip latency từ Việt Nam đến endpoint OpenAI gần nhất
Test latency ở từng mức reasoning effort với prompt thực tế
Tính cost per-minute ở mức reasoning bạn thật sự cần

Nếu latency vượt 800ms, user sẽ cảm thấy đang nói chuyện với robot — bất kể model thông minh đến đâu. Lúc đó preamble phrases cũng không cứu được.

| Use case | Model phù hợp | Hành động |
|---|---|---|
| Voice agent cần reasoning | GPT-Realtime-2 | Test ngay nếu latency OK |
| Live transcription | GPT-Realtime-Whisper | Upgrade path rõ từ Whisper batch |
| Dịch sang tiếng Việt | GPT-Realtime-Translate | Đợi — chưa hỗ trợ |
| Self-host vì privacy/cost | TokenSpeed + model mở | Theo dõi, còn preview |

Như lên đai trong võ — không ai nhảy từ trắng lên đen sau một buổi tập. Chọn một model, đo kỹ với kịch bản thật, rồi mới mở rộng.

---

Bụi Wire — nghiện đọc release notes lúc 2 giờ sáng