Transformer chạy vòng — nhỏ mà không yếu

Parcae loop qua cùng một nhóm layers nhiều lần, biến model nhỏ thành "model ảo" gấp đôi — và lần đầu tiên, nó stable đến mức đo được scaling laws.

Bụi Wire

2026-04-20

Thêm tầng hay thêm vòng?

Có một niềm tin gần như tôn giáo trong giới AI: muốn model tốt hơn thì thêm parameters. Từ thời Chinchilla scaling laws đến giờ, công thức mặc định là "nhiều FLOPs hơn, nhiều params hơn, nhiều data hơn." Nhưng mình muốn hỏi bạn một câu khác: nếu bạn đang deploy model trên GPU 24GB, hoặc nhắm đến thiết bị đầu cuối, bạn có đủ budget để cứ stack thêm layers mãi không?

Tuần này, nhóm nghiên cứu từ UC San Diego và Together AI giới thiệu Parcae — một kiến trúc looped transformer mà thay vì xây model cao hơn, nó cho activations chạy vòng lặp qua cùng một nhóm layers nhiều lần. Kết quả: model cùng số lượng parameters nhưng chất lượng ngang ngửa transformer gấp đôi kích thước, ở mọi scale được thử nghiệm.

Nói thẳng ra thì: thay vì xây toà nhà 40 tầng, Parcae xây 20 tầng nhưng lắp thang máy chạy lặp — mỗi người đi qua khu tầng 10 đến 20 hai lần. Cùng diện tích xây dựng, nhưng "hiệu quả sử dụng" cao hơn hẳn.

Khoan — loop transformer đâu phải chuyện mới?

Đúng. Ý tưởng weight-sharing hay looped layers đã xuất hiện từ Universal Transformers năm 2018. Gần hơn có Recurrent Depth Models (RDMs). Nhưng tất cả đều chạm vào cùng một bức tường: residual state explosion — hidden state phình to không kiểm soát sau vài vòng lặp, khiến training diverge.

Hiểu nôm na: giống bạn photocopy một tờ giấy, rồi lấy bản copy đó photocopy tiếp. Qua vài vòng, nhiễu tích luỹ đến mức không đọc được chữ gì. Đó chính xác là chuyện xảy ra khi hidden state đi qua nhiều vòng loop không có cơ chế kiểm soát.

Parcae xử lý bài toán này bằng cách nhìn layer looping qua lăng kính dynamical systems — đặt ràng buộc stability ngay trong thiết kế kiến trúc, không phải "train rồi hy vọng." Kiến trúc chia thành ba khối:

Prelude (P): embed input thành latent state
Recurrent block (R): chạy lặp T lần, mỗi lần inject lại input gốc để giữ tín hiệu không bị trôi
Coda (C): xử lý hidden state cuối cùng ra output

Cái hay nằm ở bước inject input mỗi vòng — giống thợ xây cứ mỗi tầng lại kiểm tra bản thiết kế một lần, tránh xây xong mới phát hiện lệch móng.

Đặt vào thực tế: ai được lợi?

Kịch bản 1 — Team nhỏ, GPU ít, muốn model "đủ sâu."

Giả sử team bạn 4 người đang xây chatbot nội bộ, self-host trên một con T4 (16GB VRAM). Model 1.3B params vừa đủ fit, nhưng chất lượng thì bạn cần ngang tầm 2.6B. Trước đây, lựa chọn phổ biến là quantization — như mình đã bàn trong các bài trước. Với kiến trúc looped kiểu Parcae, bạn giữ nguyên memory footprint nhưng tăng effective depth. Trade-off? Inference chậm hơn một chút vì chạy nhiều vòng, nhưng VRAM không đổi. Với những ứng dụng mà latency vài trăm millisecond không phải vấn đề sống còn, đây là một deal hấp dẫn.

Kịch bản 2 — Đội đang scale và cần dự đoán được chi phí.

Một kết quả quan trọng của paper: Parcae là looped architecture đầu tiên chứng minh được predictable scaling laws. Dịch sang tiếng người: bạn có thể ước lượng "nếu tăng compute lên X thì chất lượng tăng khoảng Y." Looped models trước đây training quá bất ổn nên không ai dám vẽ đường cong dự đoán. Với Parcae, lần đầu bạn có cơ sở để lập kế hoạch compute budget cho looped models — thay vì "train xong mới biết."

Cái bẫy của vòng lặp vô tội vạ

Đọc đến đây, có thể bạn nghĩ "vậy cứ loop thật nhiều vòng là model ngon?" Không hẳn.

Hình dung thế này: loop giống tập gym — 3 set mỗi bài thì cơ phát triển, 30 set thì chấn thương. Số vòng loop T cần calibrate cẩn thận. Ít quá thì chưa đủ depth, nhiều quá thì latency tăng mà chất lượng bão hoà.

Sai lầm thứ hai: nghĩ looped transformer thay thế được mọi thứ. Với task cần model thật lớn — reasoning phức tạp nhiều bước, code generation dài — model truyền thống nhiều params vẫn chiếm lợi thế. Looped architecture toả sáng nhất ở phân khúc memory-constrained: trên thiết bị đầu cuối, GPU nhỏ, hoặc khi bạn cần serve nhiều user cùng lúc mà VRAM có hạn.

Và một lưu ý nữa: Parcae hiện là kết quả nghiên cứu, chưa có pre-trained weights phổ biến. Đừng vội refactor cả inference pipeline vì đọc được một paper hay — mình từng thấy team làm vậy rồi, kết cục là hai tuần mất trắng.

Thử ngay chiều nay

Dù chưa có model Parcae trên Hugging Face, bạn hoàn toàn có thể bắt đầu làm quen với looped architectures:

Đọc paper gốc qua link nguồn bên dưới — tập trung Section 3 (Stability Analysis) và Section 5 (Scaling Laws), hai phần có giá trị thực tiễn nhất.

Thử concept weight-sharing trong PyTorch: lấy một transformer block, chạy forward qua nó T lần thay vì stack T blocks riêng. So sánh memory usage — bạn sẽ thấy ngay sự khác biệt.

Benchmark baseline hiện tại của bạn: nếu đang self-host bằng Ollama hay vLLM, ghi lại memory usage và throughput. Khi looped models xuất hiện, bạn có số liệu để so sánh thay vì đoán mò.

Theo dõi Together AI — họ có track record release open-source (RedPajama dataset là một ví dụ). Khả năng cao sẽ có training code hoặc model weights sau paper này.

Xu hướng chung: làm nhiều hơn với ít hơn

Parcae không đơn độc. Cùng tuần này, Microsoft ra bộ ba MAI models tối ưu cho serving stack riêng, còn DeepL tung voice-to-voice translation đòi hỏi latency cực thấp. Tất cả xoay quanh cùng một bài toán: squeeze nhiều chất lượng hơn từ cùng một lượng compute.

Bản chất thật sự: cuộc đua không còn chỉ là "model nào lớn nhất" mà đang chuyển sang "model nào hiệu quả nhất trên phần cứng thật." Parcae thêm một công cụ nữa vào bộ đồ nghề — không phải lời giải cuối cùng, nhưng là hướng đi mà team bạn nên đánh dấu theo dõi.

Nếu bạn đang bí vì GPU hết VRAM mà model cần sâu hơn, thì ý tưởng "loop thay vì stack" ít nhất cho bạn thêm một lối thoát. Đừng tin mình, thử đi rồi biết.

---

Bụi Wire — nghiện đọc release notes lúc 2 giờ sáng