ModelScope — kho model AI bạn chưa ghé bao giờ

Hugging Face không phải hub duy nhất. ModelScope mang đến một hệ sinh thái model khác biệt — và bạn có thể thử ngay chiều nay.

Bụi Wire

2026-04-10

Câu chuyện của một bếp trưởng chỉ biết một chợ

Hồi tháng trước, mình ngồi pair-programming với một anh tech lead ở Đà Nẵng. Anh đang build pipeline NLP cho hệ thống chatbot nội bộ, và mỗi lần cần thử model mới là mở thẳng Hugging Face — quen tay như người Sài Gòn sáng nào cũng ghé cùng một quán cà phê.

Mình hỏi: "Anh có bao giờ thử kéo model từ ModelScope chưa?"

Anh nhìn mình như mình vừa giới thiệu một quán phở ở ngõ hẻm mà anh đi qua mỗi ngày mà không hề biết: "ModelScope là cái gì?"

Đó là lúc mình nhận ra: rất nhiều dev Việt Nam đang nấu bằng nguyên liệu từ đúng một siêu thị, trong khi ngay bên cạnh có một chợ đầu mối khác — tươi, đa dạng, và miễn phí.

Trước ModelScope: một hub, một góc nhìn

Nếu bạn đã quen với Hugging Face (như blog này từng bàn ở vài bài trước), bạn biết nó tuyệt vời. Nhưng thử hình dung thế này: bạn là bếp trưởng một nhà hàng fusion, mà chỉ mua nguyên liệu từ đúng một siêu thị. Đồ ngon đấy, nhưng bạn sẽ không bao giờ biết có loại gia vị nào khác ngoài kia.

ModelScope — nền tảng mã nguồn mở từ Alibaba DAMO Academy — là "chợ đầu mối" thứ hai mà bạn nên biết. Nó host hàng nghìn model cho NLP, computer vision, audio, và multimodal, kèm dataset và pipeline chạy được ngay. Điểm hay nhất: API style rất giống Hugging Face, nên nếu bạn đã quen transformers, bạn gần như không cần học thêm gì mới.

Sau ModelScope: thêm nguồn, thêm lựa chọn

Giả sử team bạn 4 người đang xây hệ thống phân loại feedback khách hàng cho một app thương mại điện tử. Trước giờ bạn dùng một model BERT tiếng Anh rồi fine-tune. Nhưng khi cần model đa ngôn ngữ hoặc model đã pretrain trên dữ liệu tiếng Trung–Việt, Hugging Face có — mà ModelScope cũng có, đôi khi với phiên bản được optimize khác biệt.

Nói thẳng ra thì: ModelScope không thay thế Hugging Face. Nó bổ sung. Giống như bếp chuyên nghiệp nào cũng cần ít nhất hai nhà cung cấp — một cho rau củ quen thuộc, một cho gia vị đặc biệt.

Ví dụ thứ hai: một team ở Hà Nội mình biết đang làm object detection cho camera giao thông. Họ cần model nhẹ, chạy được trên edge device. Trên ModelScope, nhiều model vision từ hệ sinh thái Trung Quốc đã được optimize cho inference trên phần cứng phổ thông — thứ mà trên Hugging Face đôi khi bạn phải tự tay convert và quantize.

Thử ngay chiều nay: từ tìm model đến chạy inference

Bạn có nửa buổi chiều? Đủ rồi.

Bước 1 — Cài đặt

pip install modelscope torch torchvision

Nếu chạy trên Colab, GPU T4 miễn phí là quá đủ.

Bước 2 — Dạo một vòng Hub

from modelscope.hub.api import HubApi

api = HubApi()
results = api.list_models(query="bert", limit=5)
for model in results:
    print(model.model_id)

Bạn sẽ thấy danh sách model BERT — bao gồm cả các phiên bản tiếng Trung mà ít khi xuất hiện top kết quả bên Hugging Face.

Bước 3 — Chạy sentiment analysis

from modelscope.pipelines import pipeline

classifier = pipeline('sentiment-analysis')
result = classifier("This product is amazing!")
print(result)

Pipeline API này quen không? Gần như y hệt Hugging Face pipeline(). Đó là điểm mình thích nhất — bạn không cần nhớ thêm một bộ API mới.

Bước 4 — Thử computer vision

from modelscope.pipelines import pipeline

detector = pipeline('object-detection')
result = detector("path/to/your/image.jpg")
print(result)

Object detection chạy một dòng. Bạn có thể vẽ bounding box lên ảnh để visualize kết quả — workflow quen thuộc nếu bạn từng dùng YOLO.

Bước 5 — Fine-tune (nếu còn hứng)

ModelScope hỗ trợ fine-tuning trực tiếp. Flow tương tự Hugging Face Trainer — load dataset, config training arguments, gọi .train(). Nếu bạn đã từng fine-tune trên Hugging Face, bạn sẽ thấy familiar đến mức... hơi nhàm chán. Mà nhàm chán ở đây là khen đấy.

Ba cái bẫy mà mình từng dính

Bẫy 1: Tải model không check license. ModelScope host model từ nhiều nguồn — có model Apache 2.0 thoải mái dùng thương mại, có model chỉ cho research. Mình từng hào hứng kéo một model về, demo hoành tráng xong mới phát hiện license không cho phép production. Như đi chợ mua nguyên liệu xịn về rồi mới biết quán mình không được phép bán món đó.

Bẫy 2: Assume model nào cũng hiểu tiếng Anh. Nhiều model trên ModelScope được train chủ yếu trên corpus tiếng Trung. Nếu bạn feed tiếng Anh hoặc tiếng Việt vào mà kết quả kỳ lạ, đừng vội chê model dở — check lại ngôn ngữ training trước đã.

Bẫy 3: Không benchmark song song. Đôi khi cùng một kiến trúc, nhưng checkpoint khác nhau cho kết quả rất khác. Mình recommend: trước khi commit vào một model từ ModelScope, chạy eval song song với model tương đương trên Hugging Face. Mất thêm nửa buổi nhưng tránh được hàng tuần đau đầu sau này.

Khi nào nên — và khi nào chưa cần

Nên ghé ModelScope khi:

Bạn cần model đa ngôn ngữ, đặc biệt có component tiếng Trung hoặc châu Á
Bạn muốn so sánh nhiều phiên bản model từ các hub khác nhau trước khi chốt
Team bạn làm việc với đối tác Trung Quốc và cần compatibility về model ecosystem

Chưa cần vội khi:

Workflow hiện tại chạy ổn hoàn toàn trên Hugging Face — đừng sửa cái không hỏng
Bạn cần community support đông đảo — Hugging Face vẫn có cộng đồng lớn hơn rất nhiều

Về lựa chọn open-source khác: nếu bạn đang tự host model cho local inference, Ollama vẫn là lựa chọn gọn nhẹ hàng đầu (như blog này đã bàn nhiều lần). ModelScope thì mạnh hơn ở khâu khám phá, so sánh, và fine-tune trên cloud. Hai thứ phục vụ hai giai đoạn khác nhau trong pipeline của bạn.

Một dòng duy nhất mang về

ModelScope không phải "Hugging Face killer" — nó là cánh cửa thứ hai vào kho model AI mà bạn đang bỏ lỡ. Thêm một nguồn nguyên liệu vào bếp không bao giờ là thừa — miễn là bạn biết mình đang nấu món gì.

---

Bụi Wire — nghiện đọc release notes lúc 2 giờ sáng