Một ảnh ra 45 phút video — AI đã chọn chuyên ngành

LPM 1.0 biến một tấm ảnh thành video lip-sync real-time. Cùng tuần, ba model chuyên biệt khác ra mắt. AI không còn thi đại trà.

Bốn model AI ra mắt trong cùng một tuần. Cái tạo video lip-sync 45 phút từ đúng một tấm ảnh. Cái gom hơn 30 model vào một studio sáng tạo. Cái chuyên xử lý tài liệu enterprise. Cái thiết kế để phân tích gen và tìm thuốc mới. Và không cái nào cạnh tranh với cái nào.

Mình nhớ hồi đầu năm ngoái, mỗi lần có model mới ra là cộng đồng lại xếp hàng so benchmark: "MMLU bao nhiêu? HumanEval bao nhiêu?" Giờ thì những con số đó ngày càng ít ý nghĩa — vì các model đang chọn "chuyên ngành" thay vì cố đứng đầu mọi môn thi.

LPM 1.0 — một tấm ảnh, một giọng nói, một nhân vật sống

Cái tên đáng chú ý nhất tuần này là LPM 1.0. Đây là model chuyên tạo video real-time từ một bức ảnh tĩnh: bạn đưa vào một tấm hình chân dung, kết nối với nguồn audio — giọng nói, bài hát, hoặc trực tiếp từ voice AI như ChatGPT — và nó render ra video có lip-sync, biểu cảm khuôn mặt, thậm chí cả phản ứng khi "nghe": gật đầu, liếc mắt, chuyển cảm xúc.

Nói thẳng ra: nó không chỉ là "ảnh biết nói." Model này phân biệt được ba trạng thái — đang nói, đang nghe, đang hát — và phản ứng khác nhau cho từng trạng thái. Khi nhân vật "nghe," nó tạo micro-expression phản hồi theo audio đầu vào. Khi "nói," lip-sync được drive bởi audio response. Và nó hoạt động với nhiều phong cách hình ảnh: ảnh thật, anime, nhân vật 3D game — không cần train thêm.

Phần ấn tượng nhất? Toàn bộ quá trình chạy streaming real-time, không phải render xong rồi mới xem. Và theo báo cáo từ nhóm nghiên cứu, video có thể giữ ổn định tới 45 phút liên tục.

Khoan — không chỉ có mỗi lip-sync

Nếu chỉ nhìn LPM 1.0 thì dễ nghĩ "à, thêm một tool video AI nữa." Nhưng đặt nó cạnh ba release khác trong tuần, bức tranh lớn hơn hiện ra.

Adobe Firefly vừa gom hơn 30 model AI từ Google, Runway, OpenAI, Kling vào một studio duy nhất — cho phép generate, chỉnh sửa, so sánh kết quả giữa các model, và thêm tính năng Custom Models nơi bạn train style riêng từ 10-30 ảnh mẫu. LlamaParse — mà mình từng nhắc khi nói về LlamaIndex — vừa cập nhật lớn sau một năm, đẩy mạnh mảng document automation cho enterprise. Còn OpenAI thì ra mắt GPT-Rosalind, model đầu tiên trong dòng Life Sciences, chuyên phân tích sinh học, thiết kế protein, hỗ trợ nghiên cứu thuốc.

Plot twist: không model nào trong bốn cái này cố "đánh" lẫn nhau. Mỗi cái chọn một lĩnh vực và đào sâu vào đó. AI đang tốt nghiệp giai đoạn biết-tất-giỏi-không-gì, và bắt đầu chọn khoa.

Hai kịch bản rất thực cho team Việt Nam

Kịch bản 1 — Agency content nhỏ ở Sài Gòn. Giả sử team bạn 4 người, chuyên làm video giới thiệu sản phẩm cho các brand. Hiện tại, mỗi video cần talent, quay, dựng — tốn ít nhất 2-3 ngày. Với một tool kiểu LPM 1.0, bạn có thể prototype nhanh: chụp một tấm ảnh nhân vật (hoặc dùng ảnh AI-generated), gắn voice-over, và có bản demo video lip-sync trong vài phút để trình khách hàng trước khi quyết định quay thật. Không thay thế production, nhưng rút ngắn vòng duyệt concept từ ngày xuống giờ.

Kịch bản 2 — Startup edtech làm AI tutor. Bạn đang build chatbot dạy tiếng Anh. Text-based thì ổn, nhưng học viên — đặc biệt trẻ em — cần nhìn thấy "người nói" để duy trì tập trung. Thay vì thuê animator vẽ avatar 2D và sync từng câu, một pipeline kiểu LPM cho phép bạn dùng một ảnh nhân vật hoạt hình, gắn real-time vào voice response của AI tutor, và có ngay "giáo viên ảo" biết nói, biết nghe, biết gật đầu khi học sinh trả lời đúng. Chi phí development giảm đáng kể so với animation truyền thống.

Thử ngay chiều nay

LPM 1.0 hiện vẫn ở giai đoạn nghiên cứu, nên khả năng cao bạn chưa dùng production được ngay. Nhưng đây là cách chuẩn bị:

  1. Đọc paper gốc và theo dõi repo — các model từ nhóm nghiên cứu thường public code trên GitHub trong vài tuần sau khi paper lên.
  2. Trong khi chờ, thử các open-source alternative cùng hướng: SadTalker (tạo video nói từ ảnh + audio), Wav2Lip (lip-sync lên video có sẵn). Cả hai đều chạy được local và có community hỗ trợ tốt.
  3. Nếu bạn làm content creation, vào thử Adobe Firefly — tính năng Custom Models đang ở public beta, train style riêng từ 10 ảnh mẫu. Hữu ích ngay cho team cần giữ nhất quán visual style xuyên suốt campaign.
  4. Map lại workflow hiện tại: ghi ra đâu đang tốn thời gian nhất — duyệt concept? render? tìm talent? — rồi đối chiếu xem tool nào giải quyết đúng bottleneck đó.

Bẫy quen thuộc: chọn tool trước, tìm bài toán sau

Mình thấy pattern này hoài. Có model mới ra — ai cũng muốn "thử cho biết." Rồi dành cả tuần setup, chạy demo xong... không biết dùng vào đâu.

Ví dụ cụ thể: giả sử bạn chạy một SaaS B2B bán phần mềm quản lý kho. Khách hàng là quản lý kho ở các nhà máy. Bạn thấy LPM 1.0 hay quá, liền build "avatar AI hỗ trợ khách hàng" — một nhân vật ảo lip-sync trả lời câu hỏi. Nghe thì oách, nhưng quản lý kho đang bận kiểm hàng, họ cần câu trả lời text nhanh 3 giây, không cần ngồi xem mặt AI nói chuyện 30 giây.

Giống như đăng ký đại học: không phải ngành nào hot nhất là ngành phù hợp nhất. Nhìn vào đề bài thực tế của team mình trước rồi hãy chọn "ngành."

Một takeaway

AI đang chuyển từ "biết tất làm tạm" sang "biết ít làm sâu." Với người dùng, điều này có nghĩa: thay vì hỏi "model nào mạnh nhất," hãy hỏi "bài toán của mình thuộc chuyên ngành nào." Chọn đúng ngành, đỡ phải học lại từ đầu — mà điều đó thì cả người lẫn AI đều ghét như nhau.

---

Bụi Wire — nghiện đọc release notes lúc 2 giờ sáng

Nguồn tham khảo