FLUX.2 — khi AI vẽ tay người không còn 6 ngón

FLUX.2 — khi AI vẽ tay người không còn 6 ngón

Ba phiên bản, ba mức giá, một lời hứa: ảnh AI cuối cùng cũng đủ xài cho công việc thật. Mình bóc tách xem lời hứa đó đáng tin không.

Giả sử bạn nhận brief lúc 2 giờ chiều

Sếp gửi tin nhắn: "Em ơi, cần 50 ảnh sản phẩm cho campaign, mỗi ảnh một bối cảnh khác nhau, nhưng phải cùng model, cùng túi xách, font chữ logo phải rõ. Mai có chưa?"

Bạn mở tool gen ảnh, gõ prompt, chờ... và nhận được một cô gái có 6 ngón tay đang cầm cái túi mà logo bị biến thành chữ tượng hình không rõ nguồn gốc. Đổi prompt, chạy lại. Lần này tay ổn, nhưng mặt người khác hoàn toàn so với ảnh trước. Campaign "nhất quán về hình ảnh" bỗng thành bộ sưu tập cosplay.

Nếu kịch bản này quen thuộc, thì FLUX.2 của Black Forest Labs vừa ra mắt có thể là thứ bạn đang tìm.

Cái khó cũ mà chưa ai giải gọn

Trước FLUX.2, dân làm ảnh AI sống chung với ba nỗi đau kinh điển:

Thứ nhất — chi tiết nhỏ luôn sai. Tay, ngón, logo, chữ trên bao bì... những thứ tưởng đơn giản lại là ác mộng. Bạn muốn ảnh sản phẩm có dòng chữ "Handmade with love" trên nhãn? Model cũ trả về "Hamdnabe wirh luve". Dịch sang tiếng người: AI vẽ đẹp ở tầm macro nhưng bê bết ở tầm micro.

Thứ hai — không giữ được identity. Muốn 50 ảnh cùng một khuôn mặt? Phải dùng thêm IP-Adapter, ControlNet, rồi loay hoay fine-tune. Workflow dài như công thức nấu phở bò từ xương ống tới rau mùi — ai đủ kiên nhẫn thì ra món ngon, còn không thì úp mì.

Thứ ba — tốc độ và giá. Chạy model nặng trên cloud mất cả phút, chi phí leo thang khi volume lớn. Team nhỏ cứ phải cân đo: chất lượng hay ngân sách, chọn một thôi.

Ba tầng bếp, một nhà hàng

FLUX.2 tách thành ba phiên bản — hình dung như một nhà hàng có ba khu bếp, mỗi khu phục vụ một "ca trực" khác nhau:

FLUX.2 [pro] — bếp chính, ra món nhanh. Tạo ảnh trong khoảng 6 giây, nhận tối đa 8 ảnh đầu vào làm reference. Giá $0.015 cộng thêm $0.015 per input/output megapixel. Phù hợp khi cần chất lượng cao, tốc độ nhanh, sẵn sàng trả tiền cho production-grade output.

FLUX.2 [flex] — bếp fine-dining, chậm hơn nhưng tỉ mỉ hơn. Khoảng 22 giây mỗi ảnh, nhận tới 10 reference images, đặc biệt mạnh ở typography và chi tiết nhỏ. $0.06 per megapixel. Lựa chọn khi bạn cần chữ trên ảnh phải sắc nét — mockup bao bì, poster có headline, menu nhà hàng.

FLUX.2 [dev] — bếp mở, ai cũng vào được. Phiên bản open-source, distilled từ [pro], chạy chỉ ~2.5 giây. Giá thấp nhất: $0.012 per megapixel trên Replicate, hoặc tự host hoàn toàn miễn phí. Đây là điểm khiến mình hào hứng nhất — cánh cửa cho team nhỏ muốn thử nghiệm mà không cháy ví.

Cả ba phiên bản đều output ảnh lên tới 4MP, render chính xác bàn tay, khuôn mặt, chất liệu vải, logo — những thứ mà thế hệ trước vẫn còn vật lộn.

Hai kịch bản thực tế, hai workflow khác nhau

Kịch bản 1 — Team e-commerce 3 người. Giả sử bạn đang vận hành shop thời trang trên Shopee, cần ảnh lookbook cho BST mới: 30 outfit, mỗi outfit 3 bối cảnh (studio, café, phố cổ). Trước đây: thuê photographer, book model, chụp 2 ngày. Bây giờ: dùng FLUX.2 [pro] với 2-3 ảnh reference (mặt model, sản phẩm, mood board), FLUX.2 giữ identity xuyên suốt nhờ khả năng reference tới 8 ảnh cùng lúc. Ước tính minh họa: chi phí chỉ vài đô cho cả batch — so với vài triệu đồng thuê ekip.

Kịch bản 2 — Startup SaaS, marketing một-người-làm-hết. Cần hero image cho landing page, banner blog, ảnh social. Dùng FLUX.2 [dev] qua Replicate API hoặc self-host trên GPU thuê giờ. Với tốc độ ~2.5 giây/ảnh, bạn iterate nhanh — thử 20 prompt trong 5 phút, chọn cái ưng, rồi dùng [flex] để polish phiên bản final với typography chính xác. Workflow hai bước: draft rẻ, finish đẹp.

Thử ngay — 20 phút là đủ

  1. Tạo tài khoản Replicate — miễn phí, có credit trial để chạy thử.
  2. Vào trang FLUX.2 [dev] trên Replicate — giao diện web cho phép nhập prompt và chạy ngay trên browser, không cần cài gì.
  3. Prompt đầu tiên: Mô tả ảnh bạn cần, kèm 1-2 reference image nếu muốn giữ identity.
  4. So sánh nhanh: Chạy cùng prompt trên [dev] rồi [pro], đặt kết quả cạnh nhau. Sự khác biệt rõ nhất sẽ nằm ở chữ và bàn tay.
  5. Muốn tự chủ hoàn toàn? FLUX.2 [dev] open-source — kéo về, chạy local, không phụ thuộc API.

Mấy cái bẫy mình muốn nhắc trước

Bẫy 1: Tưởng [dev] y hệt [pro]. [Dev] là bản distilled — nhanh hơn, rẻ hơn, nhưng output sẽ không bằng [pro] trong mọi tình huống. Nó như cà phê hòa tan so với cà phê pha máy: tiện, vẫn ngon, nhưng khác vị. Dùng [dev] để prototype, [pro] cho final — đừng lộn ngược.

Bẫy 2: Nhồi reference image vô tội vạ. FLUX.2 nhận tới 8-10 ảnh reference, nhưng nhiều input không đồng nghĩa tốt hơn. Giống nêm gia vị: 3 loại đúng tỉ lệ ngon hơn 10 loại đổ bừa. Chọn reference có mục đích rõ — một cho identity, một cho style, một cho context.

Bẫy 3: Quên tính chi phí lúc scale. $0.015 per megapixel nghe nhỏ, nhưng nhân lên hàng nghìn ảnh ở 4MP thì hóa đơn sẽ khiến bạn giật mình. Plot twist: ảnh AI không miễn phí — nó chỉ rẻ hơn nếu bạn biết kiểm soát volume. Hãy benchmark chi phí trước khi commit vào pipeline production.

Open-source — còn lựa chọn nào khác?

Ngoài FLUX.2 [dev], hệ sinh thái hiện có Stable Diffusion XL, Playground v2.5, PixArt-Σ — đều open-source, chạy được local. Tuy nhiên, điểm mạnh của FLUX.2 [dev] là nó được distill từ model production-grade, nên chất lượng baseline thường nhỉnh hơn. Như mình vẫn nói trong các bài về open-source trước: tự do và miễn phí là tuyệt, nhưng "biết chọn đúng món" mới là kỹ năng thật sự.

Một dòng mang về

FLUX.2 không phải phép màu — vẫn là AI, vẫn cần prompt tốt, vẫn cần mắt người duyệt. Nhưng lần đầu tiên, khoảng cách giữa "ảnh AI chơi cho vui" và "ảnh dùng được cho công việc thật" rút ngắn đến mức đáng để bạn bỏ 20 phút thử chiều nay. Còn nếu sếp hỏi sao hôm nay xong sớm vậy — cứ cười bí ẩn rồi pha thêm ly cà phê.

---
Bụi Wire — nghiện đọc release notes lúc 2 giờ sáng

Nguồn tham khảo