Cái tủ quần áo đang cần AI hơn bạn tưởng
Một startup biến tủ đồ thành app bằng Meta SAM — và bài học segment ảnh cho dev Việt muốn ship sản phẩm AI thật.
Bụi WireGiả sử sếp giao brief: "Tách nền ảnh quần áo do user upload"
Giả sử sáng thứ Hai, sếp bạn vào Slack: "Sprint này làm tính năng upload ảnh quần áo, tự tách nền, hiển thị đẹp như tạp chí nhé." Bạn gật đầu, nghĩ thầm: "Tách nền thôi mà, có thư viện hết rồi." Rồi user đầu tiên upload ảnh sneaker trắng trên nền tường trắng. User thứ hai gửi ảnh áo len xanh nhăn nhúm trên chăn xanh, chụp lúc 11 đêm bằng đèn vàng phòng ngủ. User thứ ba: vòng tay bạc phản chiếu cả trần nhà.
Chào mừng bạn đến với bài toán mà Alta Daily — một startup thời trang AI ra mắt năm 2025 — phải giải khi xây app số hóa tủ quần áo cho hàng triệu người dùng. Và lời giải của họ nằm ở một model open-source: Meta Segment Anything Model (SAM).
Trước SAM: tách nền là "công trình" không có bản vẽ
Tách nền ảnh sản phẩm nghe như bài tập cuối tuần, nhưng với ảnh do user tự chụp, nó giống đang xây nhà mà mỗi viên gạch giao đến khác kích cỡ, khác chất liệu, có viên còn dính bùn. Ánh sáng khác, góc chụp khác, nền khác, chất liệu vải khác — mỗi tấm ảnh là một bài toán riêng.
Team Alta Daily kể rằng họ thử nghiệm nhiều model segmentation trên 8 loại sản phẩm — kính mát, giày, túi xách, trang sức... — và đều gặp cùng một thế kẹt: model này cắt giày tốt thì xử lý trang sức tệ. Model kia tách nền áo ổn nhưng gặp móc treo áo là "nuốt" luôn cả móc vào sản phẩm. Founder Jenny Wang chia sẻ rằng fashion thuộc nhóm dữ liệu ảnh phức tạp nhất, đặc biệt vì tính không đồng nhất của ảnh user upload.
Dịch sang tiếng người: bạn không thể train một model cho "ảnh quần áo" nói chung, vì "ảnh quần áo" ngoài đời thật thì trông như cái gì cũng được.
Sau SAM: từ ảnh phòng ngủ thành trang lookbook
SAM — Segment Anything Model — là model open-source của Meta, được huấn luyện trên tập dữ liệu hình ảnh đa dạng cực lớn. Điểm khác biệt cốt lõi: SAM không yêu cầu bạn fine-tune cho từng loại đồ vật. Bạn đưa ảnh vào, chỉ định điểm hoặc vùng cần segment, và nó xử lý — dù là giày, nhẫn, hay áo khoác lông.
Alta Daily tích hợp SAM vào pipeline và kết quả: hàng triệu outfit được số hóa. Ảnh user upload bừa bộn biến thành hình sản phẩm nền trắng sạch sẽ, sắp xếp gọn gàng như trang tạp chí — đúng cái "clean aesthetic" mà founder muốn từ đầu.
Nhưng SAM không phải phép thuật. Team Alta vẫn phải xử lý edge case: đảm bảo màu sắc không lệch khi tách nền (nhất là đồ phản quang), tinh chỉnh để nhận diện đúng biên của trang sức li ti, và xử lý những chi tiết mỏng như quai dây. Nền móng tốt không có nghĩa là không cần thợ hoàn thiện.
Mang về Việt Nam — không cần làm app thời trang mới dùng được
Kịch bản 1: Team e-commerce cần chuẩn hóa ảnh sản phẩm.
Giả sử team bạn 3 người, đang xây sàn thương mại điện tử cho một brand local. Seller upload ảnh sản phẩm chụp bằng điện thoại — nền loạn, ánh sáng tệ. Thay vì thuê designer chỉnh từng ảnh, bạn dựng một pipeline: ảnh upload → SAM tách nền → xuất ảnh nền trắng chuẩn. Trang sản phẩm đồng bộ, chuyên nghiệp, không tốn thêm headcount design. Một team nhỏ ở Đà Nẵng hay TP.HCM hoàn toàn triển khai được trong một sprint.
Kịch bản 2: Startup edtech tạo flashcard tự động.
Bạn đang làm app học tiếng Anh cho trẻ em. Giáo viên upload ảnh đồ vật (quả táo, cái ghế, con mèo), app tự tách nền, đặt lên nền trắng, gắn từ vựng bên dưới — ra flashcard. SAM giúp bước tách nền chạy tự động mà không cần giáo viên biết Photoshop.
Cái bẫy "chạy demo 50 ảnh rồi ship luôn"
Mình từng thấy một team hào hứng tích hợp SAM, test trên 50 ảnh studio — mượt mà, sếp khen. Ship production, user bắt đầu upload ảnh chụp selfie có quần áo, ảnh ngược sáng, ảnh có ngón tay che góc. SAM vẫn segment ngon lành — nhưng segment luôn... ngón tay vào sản phẩm. Kết quả: ảnh áo sơ mi xuất hiện thêm một ngón tay trôi nổi, trông như poster phim kinh dị.
Bài học: SAM segment mọi thứ — kể cả thứ bạn không muốn. Bạn cần logic hậu xử lý: lọc mask theo kích thước, vị trí, hoặc dùng point/box prompt để chỉ định chính xác vùng cần lấy.
Bẫy thứ hai: tốc độ. SAM gốc khá nặng — chạy trên GPU thì nhanh, nhưng trên server CPU mỗi ảnh có thể mất vài giây. Nhân lên hàng ngàn ảnh/ngày, chi phí infra phình nhanh. MobileSAM hoặc FastSAM là các biến thể nhẹ hơn đáng cân nhắc khi tài nguyên hạn chế.
Thử ngay chiều nay — 30 phút là đủ
Bước 1: Cài SAM từ repo chính thức của Meta trên GitHub (facebookresearch/segment-anything). Tải model checkpoint — chọn vit_b nếu muốn nhẹ, vit_h nếu cần chất lượng cao nhất.
pip install segment-anything opencv-python numpy
Bước 2: Chạy segment cơ bản — chỉ cần vài dòng Python:
from segment_anything import SamPredictor, sam_model_registry
import cv2, numpy as np
sam = sam_model_registry["vit_b"](checkpoint="sam_vit_b.pth")
predictor = SamPredictor(sam)
image = cv2.imread("ao_so_mi.jpg")
predictor.set_image(image)
masks, scores, _ = predictor.predict(
point_coords=np.array([[250, 300]]), # điểm trung tâm sản phẩm
point_labels=np.array([1]),
multimask_output=True
)
Bước 3: Lấy mask có score cao nhất, apply lên ảnh gốc, xuất file PNG nền trong suốt. Xong — bạn vừa tách nền xong mà không mở Photoshop.
Bước 4 (bonus): Muốn nhanh hơn nữa? Thử rembg — thư viện Python dùng U²-Net, cài một dòng pip install rembg, chạy rembg i input.jpg output.png. Không cần GPU, phù hợp để prototype trước khi quyết định đầu tư SAM cho production.
Một dòng đúc kết
Câu chuyện Alta Daily không phải về thời trang — mà về cách một team nhỏ chọn đúng nền móng open-source để xây sản phẩm ở quy mô lớn. Nếu bạn đang làm bất kỳ thứ gì liên quan đến ảnh — e-commerce, edtech, proptech, hay nội thất — thì bước đầu tiên không phải "tìm model xịn nhất". Bước đầu tiên là chụp 50 tấm ảnh xấu nhất có thể, đưa vào model, rồi xem nó tách được cái gì. Vì production không bao giờ đẹp như demo đâu bạn ơi.
---
Bụi Wire — nghiện đọc release notes lúc 2 giờ sáng