Model "biết tuốt" sắp hết thời?

OpenAI ra GPT-Rosalind chuyên ngành dược, Adobe gom 30+ model chuyên biệt — dấu hiệu rõ ràng: AI đang chuyển từ "biết tuốt" sang "biết nghề".

Bụi Wire

2026-04-24

Tuần này OpenAI ra một model mà... không ai ngoài dân biotech quan tâm. Đó mới là điều đáng bàn.

GPT-Rosalind — đặt theo tên nhà hóa học Rosalind Franklin — là model đầu tiên trong series Life Sciences của OpenAI, fine-tune riêng cho biochemistry, genomics, và drug discovery. Cùng tuần đó, Adobe nhét hơn 30 model AI từ Google, Runway, OpenAI, Kling vào một nền tảng duy nhất là Firefly. Physical Intelligence thì khoe model pi-0.7 cho robotics có thể tự ghép kỹ năng để xử lý task chưa từng được dạy.

Ba tin tưởng không liên quan, nhưng chung một tín hiệu: thời đại model "biết tuốt" đang nhường sân cho model "biết nghề".

Khoan — chuyện không đơn giản vậy

Mình biết bạn đang nghĩ: "Ơ, GPT-4o vẫn trả lời được câu hỏi y khoa mà?" Đúng, nó trả lời được. Nhưng "trả lời được" và "trả lời đúng đủ để một nhà nghiên cứu dược phẩm tin tưởng đưa vào workflow" là hai chuyện khác nhau hoàn toàn.

Nói thẳng ra thì GPT-Rosalind không phải model xây từ số không — nó là kết quả fine-tune chuyên sâu, tập trung vào các tác vụ như tổng hợp bằng chứng từ hàng trăm paper, gợi ý thiết kế thí nghiệm, dự đoán hành vi của chuỗi RNA. Những việc mà trước đây cần nhiều tool khác nhau, nhiều chuyên gia, và rất nhiều thời gian.

Câu chuyện tương tự đang diễn ra khắp nơi. Adobe không cố xây một model sinh ảnh/video "vạn năng" — họ gom 30+ model chuyên biệt vào một workspace, để người dùng chọn model phù hợp nhất cho từng task. Physical Intelligence thì đi hướng khác: xây model robotics có khả năng tổng quát hóa, nhưng chỉ trong một domain duy nhất — chuyển động vật lý. Luma thì dùng AI agents chuyên biệt cho từng khâu sản xuất phim — từ dựng bối cảnh đến chỉnh ánh sáng.

Mỗi nhà mỗi cách, nhưng không ai còn tin vào một model duy nhất làm tất cả.

Chuyện này liên quan gì đến team bạn?

Nếu bạn đang xây sản phẩm AI ở Việt Nam, đây không phải tin từ hành tinh khác. Pattern "model chuyên biệt" đã chạm đến những bài toán rất gần:

Ví dụ cụ thể: team fintech 8 người ở TP.HCM. Họ dùng GPT-4o để phân tích hợp đồng tín dụng. Kết quả "khá ổn" — nhưng cứ vài chục hợp đồng lại có vài cái bị miss điều khoản phạt trả trước. Khi chuyển sang pipeline chuyên biệt — LlamaParse để trích xuất cấu trúc tài liệu, kết hợp model nhỏ fine-tune trên dữ liệu hợp đồng tiếng Việt — tỷ lệ sai giảm rõ rệt. Không phải vì model giỏi hơn, mà vì nó được xây cho đúng việc.

Kịch bản thứ hai: giả sử team bạn 5 người đang xây chatbot hỗ trợ bác sĩ tra cứu tương tác thuốc. Một model general-purpose sẽ trả lời được câu hỏi đơn giản, nhưng với multi-step reasoning — "bệnh nhân đang dùng thuốc A, có tiền sử B, cần kê thêm C, liệu có tương tác không?" — bạn cần model hiểu sâu domain. GPT-Rosalind chưa phải lời giải cho tiếng Việt, nhưng nó vạch ra hướng đi: fine-tune theo domain, đừng cố nhồi mọi thứ vào một prompt.

Cái bẫy của sự hào hứng

Có một sai lầm phổ biến mình hay thấy: chạy theo model chuyên biệt nhưng quên mất nền móng dữ liệu.

Như mình đã chia sẻ trong bài "Agent không biết đọc" — bạn có model xịn đến mấy mà dữ liệu đầu vào lộn xộn thì kết quả vẫn sai. GPT-Rosalind giỏi phân tích protein? Vẫn cần paper được parse sạch trước đã. Adobe Firefly cho train custom model? Vẫn cần 10-30 ảnh chất lượng, đúng style, không phải ảnh chụp vội bằng điện thoại lúc 11 giờ đêm.

Nghĩ như xây nhà đi: model chuyên biệt là thợ giỏi, nhưng nếu cái móng — tức dữ liệu — không chắc thì tường vẫn nứt. Đừng đổ tiền thuê thợ xịn rồi đổ bê tông trên nền đất bùn.

Bẫy thứ hai: chuyên biệt hóa quá sớm. Nếu bạn mới bắt đầu, chưa có đủ dữ liệu domain, chưa hiểu rõ workflow đủ để biết chỗ nào model general-purpose đang sai — thì cứ bắt đầu với GPT-4o hay Claude rồi đo. Chuyên biệt hóa là tầng hai, không phải tầng trệt.

Thử ngay chiều nay

Bạn không cần đợi GPT-Rosalind mở rộng access. Bắt đầu với những gì đã có:

Bước 1: Chọn một task cụ thể trong workflow mà model general-purpose đang làm "tàm tạm" — phân loại ticket hỗ trợ, trích xuất thông tin hóa đơn, tóm tắt báo cáo nội bộ.

Bước 2: Thu thập 50-100 mẫu input + output mong muốn. Không cần dataset khổng lồ — đủ để đánh giá là được.

Bước 3: Fine-tune một model nhỏ — Llama 3 8B qua Ollama nếu muốn chạy local, hoặc dùng OpenAI fine-tuning API nếu muốn nhanh. So sánh kết quả với prompt engineering trên model lớn.

Bước 4: Đo bằng số thật từ workflow thật — accuracy trên tập test, thời gian xử lý, chi phí per request. Benchmark trên giấy ai cũng đẹp, nhưng production mới là lúc thấy sự khác biệt.

Nếu task liên quan đến tài liệu phức tạp (PDF scan, hợp đồng, bảng biểu), thêm bước parse dữ liệu bằng LlamaParse hoặc tool tương đương trước khi đưa vào model. Dữ liệu sạch vào, kết quả sạch ra — đơn giản nhưng nhiều team bỏ qua.

Sân chơi đang mở cho model mở

Cái hay của xu hướng chuyên biệt hóa là open-source được hưởng lợi lớn. Meta Llama, Mistral, và hàng loạt model trên Hugging Face đều cho phép fine-tune theo domain mà không cần ngân sách triệu đô. Bạn không cần GPT-Rosalind để xây model chuyên khoa cho bài toán của mình — bạn cần hiểu rõ bài toán, có dữ liệu sạch, và chọn đúng model nền.

Adobe đi đường gom nhiều model vào chung một mái nhà. OpenAI đi đường đào sâu từng ngành. Nhưng với team nhỏ, con đường thực tế nhất vẫn là: lấy model mở, fine-tune cho đúng việc, và đảm bảo từng khâu trong pipeline không bị hở.

Thời đại "một model trị vì tất cả" đang dần qua. Và nói cho cùng, ngoài đời cũng chẳng ai thuê một ông thợ duy nhất vừa đổ móng vừa đi dây điện vừa lát gạch — trừ khi bạn muốn nhà xong mà không dám ở.

---

Bụi Wire — nghiện đọc release notes lúc 2 giờ sáng