Nghìn tỷ tham số trên một node — điên hay dám?

Nghìn tỷ tham số trên một node — điên hay dám?

LoRA gặp MoE, fine-tune model khổng lồ chỉ cần một node. Nhưng "làm được" và "làm đúng" là hai chuyện khác nhau.

Fine-tune nghìn tỷ tham số. Một node. Không đùa.

Fine-tune model nghìn tỷ tham số trên một node GPU duy nhất — bạn đọc câu đó lần nữa đi, mình đợi.

Xong chưa? Fireworks AI vừa công bố Training SDK cho phép làm đúng điều đó: LoRA fine-tuning cho các model MoE (Mixture-of-Experts) cỡ nghìn tỷ tham số mà không cần nguyên cụm cluster. Đây cũng là hạ tầng đứng sau Cursor Composer 2 — model coding đang dẫn đầu CursorBench, SWE-bench Multilingual, và Terminal-Bench.

Nghe hấp dẫn. Nhưng như mọi thứ trong AI: devil's in the details.

Không phải phép màu — là kiến trúc

Thử hình dung thế này: model MoE giống một dàn nhạc giao hưởng — hàng trăm nhạc công, nhưng mỗi bản nhạc chỉ cần một nhóm nhỏ biểu diễn. Không bao giờ cả dàn cùng tấu một lúc. Đó là lý do MoE có nghìn tỷ tham số tổng, nhưng mỗi token chỉ "kích hoạt" một phần nhỏ trong đó.

LoRA tận dụng đặc điểm này. Thay vì viết lại bản phối cho tất cả nhạc cụ (full-parameter training), LoRA chỉ thêm vài nét chỉ huy mới — giữ nguyên dàn nhạc, chỉ thay đổi cách điều phối. Kết quả: bộ nhớ giảm đáng kể, đủ để nhét model khổng lồ vào một node.

Còn khi bạn muốn viết lại toàn bộ bản giao hưởng? Full-parameter training vẫn cần cluster nhiều GPU, parallelism phức tạp, và ngân sách không dành cho người yếu tim.

Fireworks gói cả hai vào thứ gọi là Training Shapes — bạn chọn model, chọn kiểu training, gọi resolve_training_profile(), hệ thống tự lo GPU layout và parallelism. Nói thẳng ra thì bạn không cần biết FSDP hay tensor parallelism vận hành ra sao để bắt đầu.

Khi startup gặp enterprise trên cùng sân chơi

Team A — Startup legaltech, 5 người, Sài Gòn. Họ cần model hiểu tiếng Việt pháp lý: hợp đồng, điều khoản, nghị định. Giả sử họ lấy Qwen3 8B làm base, LoRA fine-tune trên 50k mẫu hợp đồng đã gán nhãn. Trên Fireworks, chọn shape ID, upload data, gửi job buổi chiều — sáng hôm sau có model. Deploy luôn trên cùng platform, không cần DevOps riêng.

Team B — Fintech, 15 ML engineers, đang xây agent tự xử lý khiếu nại. Họ cần reinforcement learning: model phải tự sửa lỗi giữa chừng, không chờ người review. Đây là bài toán mà Vercel đã giải khi xây "Auto Fix" cho v0 — model đạt tỷ lệ sinh code không lỗi 93%, latency giảm 40 lần so với model proprietary cũ. Team B cần full-parameter training, custom loss function, và RL loop hoàn chỉnh — managed LoRA không đủ, họ cần "bring-your-own training loop" trên cluster.

Hai team, hai nhu cầu, cùng một platform. Như mình đã chia sẻ trong bài về fine-tuning trước đây, câu hỏi giờ không phải "có nên fine-tune" mà là "fine-tune kiểu nào cho khớp bài toán".

Thử ngay chiều nay — không cần cluster

Nếu bạn thuộc nhóm Team A — muốn nếm thử fine-tuning mà chưa sẵn sàng đầu tư hạ tầng:

  1. Chọn base model phù hợp domain: Qwen3 8B cho tiếng Việt, Llama cho tiếng Anh — đừng chọn model lớn nhất, chọn model vừa nhất
  2. Chuẩn bị dataset format JSONL, mỗi dòng một cặp prompt–completion. 500 mẫu sạch, đúng domain đã đủ thấy khác biệt rõ rệt
  3. Chạy LoRA bằng Fireworks Training API (đang preview), hoặc open-source: Hugging Face TRL + PEFT, Axolotl nếu thích config-driven, LLaMA-Factory nếu muốn giao diện đồ họa
  4. Eval bằng output thật — chạy model trên 50 test case từ chính domain của bạn. Đừng tin benchmark, tin kết quả trên dữ liệu bạn quan tâm

Gợi ý: nếu chưa muốn dùng managed platform, Axolotl + một A100 trên cloud (khoảng $2–3/giờ) là combo đủ để fine-tune model 8B trong vài giờ — đủ nhanh cho một buổi chiều thí nghiệm.

Chuyện không ai nói trước khi bạn bấm "Train"

"Train xong, sao inference ra kết quả khác?" — Vấn đề numerical parity. Format số thập phân giữa training framework và inference engine khác nhau (đặc biệt với MoE) thì output lệch. Fireworks giải bằng precision kernels đồng bộ. Nếu bạn tự host: kiểm tra kỹ precision settings giữa hai đầu trước khi trách model "ngu".

"LoRA nhẹ, train nhanh — thì cứ train nhiều cho chắc." Plot twist: LoRA overfit nhanh hơn bạn tưởng. 500 mẫu chất lượng thường thắng 5.000 mẫu nhiễu. Giống dạy nhạc — luyện 3 bài đúng kỹ thuật có giá trị hơn chơi qua loa 30 bài.

"Train xong rồi deploy ở đâu?" — Nhiều team train model xong rồi... để đó. Vì deploy model MoE cần inference engine hiểu MoE routing (vLLM, TGI, hoặc Fireworks Inference). Lời khuyên: test deployment trước khi bắt đầu train. Chọn stack mà training và inference chạy chung sẽ tiết kiệm rất nhiều nước mắt.

Bức tranh lớn hơn

Fireworks không đơn độc. Groq vừa hợp tác với Meta để chạy Llama 4 trên chip LPU chuyên dụng, đạt throughput lên tới 625 tokens/giây. AWS ra mắt frontier agents cho security testing — rút ngắn pen testing từ vài tuần xuống vài giờ. Meta cập nhật Advanced AI Scaling Framework cho model tiên tiến.

Xu hướng rõ ràng: hạ tầng AI đang dịch chuyển từ "chỉ big tech chơi được" sang "team nào cũng với tới" — từ training đến inference đến deployment. Và khi rào cản hạ tầng thấp đi, thứ tạo ra khác biệt không còn là GPU — mà là dữ liệu domainbài toán đúng.

Nghìn tỷ tham số nghe oai, nhưng model tốt nhất cho team bạn có thể chỉ cần 8B tham số, 500 mẫu sạch, và một buổi chiều kiên nhẫn. Đừng để con số làm choáng — hãy để bài toán dẫn đường.

---

Bụi Wire — nghiện đọc release notes lúc 2 giờ sáng

Nguồn tham khảo