Robot tự học việc mới — AI sắp "nhảy lớp"?

Khi robot bắt đầu remix kỹ năng như cách LLM remix ngôn ngữ, câu chuyện không còn chỉ về robotics nữa.

Hình dung thế này: bạn dạy đứa trẻ buộc dây giày và rót nước

Hai việc chẳng liên quan gì đến nhau. Nhưng một ngày, đứa trẻ tự mình buộc túi bánh lại bằng nút thắt — một việc chưa ai dạy. Nó ghép hai kỹ năng cũ thành một kỹ năng mới. Chuyện quá bình thường với con người, nhưng với robot thì đây là chuyện mà cả ngành đã đuổi theo hàng thập kỷ.

Tuần này, Physical Intelligence — startup robotics đang được theo dõi sát nhất ở Bay Area — công bố model mới tên π0.7. Điểm đáng chú ý không phải robot gắp đồ nhanh hơn hay chính xác hơn. Mà là nó bắt đầu biết remix — ghép các kỹ năng học từ ngữ cảnh khác nhau để giải quyết việc chưa từng thấy. Chính đội ngũ nghiên cứu cũng nói họ bất ngờ.

Và đây là lúc câu chuyện không còn chỉ về robot nữa.

Khái niệm then chốt: compositional generalization

Hiểu nôm na: thay vì phải "học vẹt" từng bài riêng lẻ, model bắt đầu biết tổng hợp và ứng biến. Giống một sinh viên từ chỗ chỉ giải được đề mẫu, bỗng biết áp dụng công thức vào bài chưa gặp bao giờ.

Trước π0.7, cách huấn luyện robot gần như là "dạy tủ" — thu thập data cho task A, train model cho task A, rồi lặp lại y hệt cho task B, C, D. Mỗi việc mới là một vòng lặp tốn kém. Sergey Levine, đồng sáng lập Physical Intelligence kiêm giáo sư UC Berkeley, mô tả bước ngoặt thế này: khi model vượt qua ngưỡng mà nó không chỉ làm đúng những gì được dạy mà bắt đầu remix theo cách mới, thì năng lực tăng nhanh hơn tuyến tính so với lượng data. Đây chính xác là hiện tượng đã xảy ra với large language models — và giờ nó đang lặp lại trong robotics.

Dịch sang tiếng người: nếu pattern này đúng, robot AI có thể đang ở điểm mà LLM đã ở vài năm trước — ngay trước khi mọi thứ tăng tốc đột ngột.

Chuyện này liên quan gì đến team bạn?

"Mình không làm robotics, kệ đi." — Nếu bạn đang nghĩ vậy, hãy dừng lại một nhịp.

Ví dụ cụ thể 1: Giả sử team bạn 4 người đang xây chatbot hỗ trợ khách hàng cho một sàn thương mại điện tử. Hiện tại, mỗi khi có loại câu hỏi mới (đổi trả, hoàn tiền qua ví điện tử, khiếu nại shipper), bạn phải viết thêm prompt template, thêm few-shot examples, có khi phải fine-tune riêng. Mỗi "task" là một module cứng nhắc.

Compositional generalization — nếu nó thực sự scale như Physical Intelligence mô tả — có nghĩa là thế hệ model tiếp theo có thể tự ghép "hiểu chính sách đổi trả" + "biết quy trình ví điện tử" để xử lý case "đổi trả và hoàn tiền qua ví" mà không cần bạn dạy riêng. Điều này thay đổi hoàn toàn cách bạn thiết kế hệ thống.

Ví dụ cụ thể 2: Team automation ở một công ty logistics đang dùng agent pipeline (như mình đã chia sẻ trong các bài về agents trước) để xử lý vận đơn. Mỗi loại vận đơn đặc biệt (hàng đông lạnh, hàng cồng kềnh, hàng quốc tế) cần flow riêng. Nếu model đạt được compositional generalization, bạn có thể train trên từng loại rồi model tự xử lý combo — ví dụ "hàng đông lạnh + quốc tế" — mà không cần data riêng cho combo đó. Khoản tiết kiệm về data collection và maintenance là rất đáng kể.

Bẫy mà mình thấy người ta sắp dính

Mỗi lần có breakthrough kiểu này, mình lại nhớ chuyện một anh bạn hồi 2023. Nghe tin GPT-4 "suy luận được", anh lao vào xây hệ thống ra quyết định tài chính hoàn toàn tự động. Kết quả? Hệ thống "suy luận" ra cách approve mọi khoản vay vì "khách nào cũng có điểm tốt nếu nhìn đủ góc". Anh mất hai tháng debug cái mà thực ra là vấn đề thiết kế, không phải vấn đề model.

Bẫy tương tự sẽ lặp lại với compositional generalization:

Thử ngay chiều nay: chuẩn bị cho thế hệ model tiếp theo

Bạn không cần chờ π0.7 thành API mới hành động. Có những thứ làm được ngay:

Bước 1 — Audit "skill inventory" của hệ thống AI hiện tại. Liệt kê mỗi task mà model/agent đang xử lý. Ghi chú task nào là "đơn lẻ" và task nào là "combo" bạn đang phải hardcode.

Bước 2 — Tách task combo thành skill đơn vị. Thay vì train/prompt cho "xử lý đơn hàng đông lạnh quốc tế" như một cục, tách thành "hiểu quy trình đông lạnh" + "hiểu quy trình quốc tế". Khi model thế hệ mới hỗ trợ compositional generalization, bạn đã sẵn sàng plug-in.

Bước 3 — Đánh giá data theo từng skill, không theo từng task. Kiểm tra: data cho mỗi skill đơn vị có sạch không, có đủ đa dạng không? Đây là đầu tư có lãi bất kể model nào.

Bước 4 — Theo dõi open-source. Các framework như LlamaIndex hay LangChain (đã nói trong các bài trước) sẽ sớm tích hợp pattern này. Hugging Face cũng thường là nơi đầu tiên có model research chuyển thành code chạy được. Đặt notification, đừng để lỡ sóng.

Nhìn rộng hơn: AI đang ở đâu trên đường cong?

Tuần này không chỉ có Physical Intelligence. Allbirds — đúng, hãng giày — vừa pivot thành công ty GPU-as-a-Service tên NewBird AI. Bytedance tung Seedance 2.0 ra hơn 100 nước nhưng né Mỹ vì vướng bản quyền. AWS thì ship tính năng deploy model theo use-case trên SageMaker JumpStart, thay vì deploy chung chung rồi tự mò.

Tất cả đều chỉ về cùng một hướng: AI đang chuyển từ "model đa năng, bạn tự xoay" sang "model biết ngữ cảnh, tự phối hợp". Compositional generalization trong robotics là một tín hiệu nữa trên đường cong đó.

Câu hỏi không phải "liệu điều này có xảy ra với lĩnh vực của mình không" — mà là "khi nó xảy ra, mình đã chuẩn bị chưa".

Nói thẳng ra thì: đứa trẻ biết buộc túi bánh không cần ai khen. Nhưng team nào chuẩn bị skill inventory sạch sẽ từ bây giờ, khi model thế hệ mới đến, sẽ là team chạy nhanh nhất — trong khi người khác còn đang ngồi gom data.

---

Bụi Wire — nghiện đọc release notes lúc 2 giờ sáng

Nguồn tham khảo