Đừng bẻ ghi theo model ồn nhất

Qwen3.7-Plus đáng chú ý, nhưng quyết định đúng không phải là chạy theo model mới. Builder nên chọn theo ray công việc, dữ liệu và rủi ro vận hành.

Bụi Wire

2026-06-03

Có một kiểu họp roadmap mình thấy khá quen ở team AI: sáng đọc tin model mới, trưa đã có người hỏi “mình migrate chưa?”, chiều thì backlog tự nhiên mọc thêm một epic tên rất kêu. Không ai sai hẳn. Model mới đúng là có thể mở ra khả năng mới. Nhưng nếu cứ thấy đầu máy sáng đèn là bẻ ghi cả hệ thống chạy theo, team sẽ sớm phát hiện mình không đang tối ưu sản phẩm, mà đang tối ưu cảm giác không bị tụt hậu.

Qwen3.7-Plus là một ví dụ hay để mổ xẻ chuyện này. Nó có vision, deep reasoning, tool invocation, verification/testing, autonomous iteration trên Bailian/Model Studio. Nghe như một model có thể vừa nhìn, vừa nghĩ, vừa gọi tool, vừa tự sửa. Nhưng câu hỏi quan trọng cho builder không phải là “nó mạnh không?”. Câu hỏi đúng hơn là: nó nên nằm ở đoạn nào trong hệ thống của mình, và khi nào thì không nên đưa vào?

Sơ đồ minh họa cho bài Đừng bẻ ghi theo model ồn nhất

Sơ đồ tóm tắt ý chính của bài viết.

Tín hiệu đáng chú ý không nằm ở chữ “mới”

Qwen3.7-Plus là multimodal model, nghĩa là model xử lý được nhiều dạng đầu vào như chữ, ảnh và video. Điểm cần nhấn mạnh: đây là visual understanding, tức đọc và hiểu hình ảnh/video, không phải model tạo ảnh hay tạo video.

Với team đang làm sản phẩm có dữ liệu hình ảnh, tín hiệu này đáng quan tâm hơn nhiều so với một dòng benchmark chung chung. Ví dụ cụ thể: nếu bạn đang build hệ thống đọc hóa đơn, phân tích ảnh lỗi sản phẩm, trích thông tin từ dashboard screenshot, hoặc kiểm tra video-frame trong quy trình QA, một model hiểu ảnh/video có thể thay đổi thiết kế pipeline.

Nhưng nếu app của bạn chủ yếu là chatbot nội bộ, workflow text-only, hoặc coding assistant không cần nhìn UI/screenshot, việc nhảy sang multimodal chỉ vì release mới là thêm một toa tàu chưa chắc kéo đúng hàng.

Ở đây có một phản đề nhỏ: model ồn ào nhất chưa chắc là model cần nhất. Qwen3.7-Plus đáng xem khi bài toán có visual workload rõ ràng. Còn nếu bạn đang cần reasoning text-only, sibling Qwen3.7-Max mới là nhánh cần so với các lựa chọn khác, vì Max được định vị cho phần text reasoning của thế hệ này.

Plus không phải Max có thêm đôi mắt

Dịch sang tiếng người: Qwen3.7-Plus không đơn giản là “model mạnh nhất cộng thêm vision”. Nó là một nhánh khác trong cùng gia đình.

Nguồn mô tả Plus có năm năng lực agentic: deep reasoning là suy luận nhiều bước; self-programming là viết và sửa code của chính nó; tool invocation là gọi API hoặc hàm bên ngoài; verification and testing là chạy kiểm tra kết quả; autonomous iteration là tự lặp qua nhiều bước để hoàn tất việc.

Đọc danh sách này, nhiều team sẽ nghĩ ngay tới agent end-to-end: giao task, model tự xử lý, xong. Nhưng production hiếm khi chiều lòng ta như demo. Một agent gọi tool sai có thể tạo ticket nhầm. Một vòng autonomous iteration không có giới hạn có thể đốt token. Một bước verification sơ sài có thể trả về kết quả trông hợp lý nhưng sai logic nghiệp vụ.

Hình dung thế này: bạn có pipeline xử lý claim bảo hiểm từ ảnh hiện trường. Plus có thể đọc ảnh, trích thông tin, gọi tool kiểm tra policy, rồi đề xuất kết luận. Nhưng team vẫn phải quyết định: tool nào được gọi, input schema ra sao, bước nào cần human review, log nào phải lưu, và lỗi nào được retry. Model là đầu máy, nhưng ray vận hành vẫn do bạn đặt.

Nhìn release mới bằng ba câu hỏi kỹ thuật

Thay vì hỏi “có nên dùng Qwen3.7-Plus không?”, mình sẽ hỏi theo ba lớp.

1. Dữ liệu vào có thật sự cần vision/video không?

Nếu dữ liệu chính là ảnh, video, bảng biểu screenshot, UI state, hoặc tài liệu scan, Plus đáng đưa vào shortlist. Vision Arena xếp Qwen3.7-Plus-Preview hạng #16 overall và Alibaba là lab #5 về vision theo nguồn, đủ để xem đây là tín hiệu thực chiến cho image-heavy workloads.

Nếu dữ liệu chính là code, log, ticket, doc nội bộ, hoặc chat, hãy so với model chuyên biệt hơn. JetBrains Mellum2 chẳng hạn được định vị là focal model, tức model nhỏ/chuyên dùng làm một phần trong pipeline lớn, tập trung vào software engineering. Nó là MoE 12B tổng tham số, kích hoạt 2.5B mỗi token, phù hợp với ý tưởng dùng model nhanh cho tác vụ code hẹp thay vì gọi frontier model cho mọi thứ.

2. Vấn đề là context dài hay bộ nhớ dài hạn?

MiniMax M3 nhấn vào context window 1M token, tức vùng ngữ cảnh rất dài trong một lượt xử lý, nhờ MSA, một dạng sparse attention giúp giảm chi phí chú ý toàn phần. Cái này hấp dẫn nếu bạn cần nạp repo lớn, hồ sơ dài, hoặc nhiều tài liệu cùng lúc.

Nhưng context dài không thay thế long-term memory, tức lớp nhớ xuyên phiên làm việc. Memory OS đi theo hướng khác: xếp nhiều lớp memory quanh Hermes Agent, từ workspace file, session search, structured facts, vector database tới wiki tự curate. Nếu bài toán là agent nhớ người dùng, dự án, quyết định trước đó qua nhiều tuần, một context window khổng lồ chưa chắc giải được đúng điểm đau.

3. Bạn cần model đa năng hay tuyến model chuyên trách?

Qwen3.7-Plus cố gắng gom vision, reasoning, tool use và iteration vào một model. Mellum2 lại gợi ý hướng multi-model pipeline: dùng model chuyên cho tác vụ nhanh, hẹp, rẻ hơn. AntAngelMed cho thấy một hướng khác nữa: domain model y tế dùng MoE, tức chỉ kích hoạt một phần chuyên gia khi inference, để cân bằng năng lực và chi phí.

Điểm đổi cách nghĩ nằm ở đây: release mới không phải là ứng viên thay thế toàn hệ thống; nó là ứng viên cho một vị trí trong sơ đồ vận hành.

Ma trận quyết định: ai nên thử, ai nên đứng ngoài

Nếu là mình, mình sẽ không bắt đầu bằng migration. Mình sẽ bắt đầu bằng một ma trận nhỏ, đủ dùng trong một buổi chiều.

| Tình huống của team | Nên làm gì | Vì sao |
|---|---|---|
| App cần đọc ảnh/video và gọi tool sau đó | Thử Qwen3.7-Plus trong sandbox | Plus khớp với multimodal + tool invocation |
| Workflow chỉ có text/code | So với Max, Mellum2, hoặc model coding hiện có | Vision có thể là chi phí thừa |
| Agent hay quên qua nhiều phiên | Xem lớp memory như Memory OS | Context dài không tự biến thành trí nhớ bền |
| Cần xử lý tài liệu cực dài trong một lượt | So MiniMax M3 hoặc model long-context | 1M-token context là lợi thế đúng bài |
| Domain có rủi ro cao như y tế/pháp lý | Ưu tiên model chuyên ngành + kiểm soát chặt | Agent tự lặp không thay thế governance |

Một thử nghiệm gọn có thể như sau:

Mục tiêu: kiểm tra Qwen3.7-Plus cho workflow đọc ảnh + gọi tool
1. Chọn 30-50 mẫu thật từ production hoặc staging.
2. Gắn schema output cố định: fields, confidence, error_type.
3. Cho model xử lý ảnh/video và gọi mock tool, chưa gọi API thật.
4. Log toàn bộ prompt, tool call, kết quả verification, số vòng lặp.
5. So với baseline hiện tại bằng lỗi nghiệp vụ, không chỉ nhìn câu trả lời đẹp.

Giả sử team bạn 5 người đang build tính năng đọc chứng từ. Trong tuần đầu, đừng đo “model có thông minh không”. Hãy đo: nó đọc sai trường nào, tool call nào bị thừa, lúc nào nó tự lặp quá lâu, và case nào cần người duyệt. Đó là dữ liệu giúp ra quyết định, không phải cảm xúc sau demo.

Những thứ nên bỏ qua ngay từ vòng đầu

Bỏ qua việc so benchmark tổng quát nếu workload của bạn rất hẹp. Một model đứng cao trên leaderboard chung chưa chắc đọc đúng form tiếng Việt bị scan mờ, chart nội bộ, hay ảnh UI có font nhỏ.

Bỏ qua ý tưởng một model làm hết nếu bạn đã có pipeline nhiều bước chạy ổn. Có thể Qwen3.7-Plus chỉ nên thay một đoạn: đọc hình và sinh structured output. Phần planning vẫn dùng agent hiện có. Phần code edit dùng model chuyên code. Phần memory dùng stack riêng. Đi chung ray không có nghĩa là mọi toa phải cùng một hãng.

Bỏ qua autonomous iteration nếu chưa có guardrail. Guardrail ở đây là giới hạn số vòng lặp, danh sách tool được phép gọi, schema validation, test bắt buộc, và audit log. Không có các thứ này, agent tự lặp giống chuyến tàu không có lịch dừng: nhìn năng động, nhưng vận hành thì hồi hộp.

Sau bài này, nên nghĩ khác điều gì?

Qwen3.7-Plus đáng chú ý vì nó đẩy multimodal agent gần hơn với workflow thật: nhìn được, suy luận được, gọi tool được, tự kiểm tra được. Nhưng quyết định của builder không phải là “theo hay không theo hype”. Quyết định đúng là đặt nó vào bản đồ hệ thống: dữ liệu nào, tool nào, rủi ro nào, baseline nào, điều kiện nào thì đổi hướng.

Nếu team bạn có bài toán ảnh/video + tool calling, hãy thử có kiểm soát. Nếu team bạn chỉ cần code assistant nhanh, memory bền, hoặc context rất dài, có thể tuyến khác mới là ga gần hơn.

Chọn model giống chọn đường ray: không phải ray sáng nhất, mà là ray đưa sản phẩm tới đúng nơi cần đến.

---
Bụi Wire — nghiện đọc release notes lúc 2 giờ sáng