Tối ưu prompt phải có hồ sơ vụ án

Đừng để prompt optimizer thành trò quay số may mắn. Đây là playbook giúp team builder quyết định khi nào dùng SkillOpt, đo gì, và dừng ở đâu.

Bụi Wire

2026-06-12

Có một kiểu họp rất quen ở team AI: ai đó chiếu demo prompt mới, câu trả lời trông mượt hơn, cả phòng gật gù, rồi một bạn backend hỏi nhẹ: mượt hơn theo tiêu chí nào? Không khí im như lúc thẩm phán vừa yêu cầu đưa chứng cứ.

Vấn đề của prompt optimization không nằm ở chuyện prompt có được viết lại hay không. Vấn đề là bạn có đủ cơ chế để biết bản viết lại đó thật sự tốt hơn bản cũ không.

Microsoft SkillOpt đáng chú ý ở chỗ nó không chỉ nói chuyện tối ưu prompt theo kiểu cảm giác. Workflow xoay quanh seed skill, rollout, reflection, aggregation, selection, update, rồi validation-based gating — tức là có vòng thử, tự soi, chọn sửa đổi, và chặn bằng tập kiểm định. Nhưng nếu bê nguyên vào production mà không có quyết định rõ, bạn rất dễ biến nó thành một cỗ máy tiêu token có vẻ chăm chỉ.

Luận điểm của mình: prompt optimizer chỉ đáng dùng khi prompt của bạn đã là tài sản vận hành, không còn là mẩu text nằm trong notebook.

Sơ đồ minh họa cho bài Tối ưu prompt phải có hồ sơ vụ án

Sơ đồ tóm tắt ý chính của bài viết.

Việc cần quyết: tối ưu prompt, hay đổi hẳn hệ thống?

Trước khi mở repo, hãy tự hỏi một câu hơi khó chịu: lỗi hiện tại đến từ prompt, hay từ dữ liệu, retrieval, model, latency, hoặc hạ tầng?

Nếu hệ thống trả lời sai vì PDF OCR méo text, tối ưu prompt chỉ giống tranh luận giỏi trên hồ sơ thiếu chứng cứ. Nếu inference endpoint mất nhiều phút cold start vì container quá nặng, prompt hay hơn cũng không cứu được trải nghiệm người dùng. Nếu input image bị nhầm layout tensor NHWC/NCHW trong pipeline vision, prompt không liên quan gì.

SkillOpt hợp lý nhất khi bạn có bài toán dạng:

cùng một task lặp lại nhiều lần;
có baseline prompt hoặc seed skill đã chạy được;
có tập validation đủ đại diện;
có metric rõ, ví dụ accuracy, pass rate, hoặc judge score đã kiểm soát;
chi phí thử nghiệm token nằm trong ngân sách.

Dịch sang tiếng người: nếu bạn chưa biết chấm bài thế nào, đừng thuê người luyện thi.

Ma trận chọn hướng: 3 con đường trước mặt

Với một team builder, thường có ba lựa chọn thực tế.

| Lựa chọn | Khi nào nên chọn | Điểm mạnh | Giá phải trả |
|---|---|---|---|
| Sửa prompt thủ công | Task nhỏ, ít case, expert hiểu domain | Nhanh, rẻ, dễ kiểm soát | Dễ thiên kiến, khó lặp lại |
| Dùng optimizer như SkillOpt | Task lặp lại, có validation, cần log quá trình tiến hóa | Có baseline, history, token tracking, gating | Tốn token, cần thiết kế eval nghiêm |
| Đổi kiến trúc | Lỗi đến từ data, retrieval, serving, parser, hạ tầng | Đánh đúng nguyên nhân | Tốn công hơn, ảnh hưởng nhiều module |

Điểm nhiều team hiểu sai là: optimizer không phải bước đầu tiên. Nó là bước sau khi bạn đã biết vụ án nằm ở prompt.

Ví dụ cụ thể: bạn đang làm SearchQA nội bộ cho kho tài liệu kỹ thuật. Nếu câu trả lời sai vì đoạn liên quan không được retrieve, hãy sửa RAG trước. Nếu đoạn đúng đã vào context nhưng model vẫn lập luận kém, lúc đó SkillOpt mới có đất diễn.

Playbook một buổi: chạy SkillOpt như kiểm định kỹ thuật

Mục tiêu không phải tạo prompt “hay nhất”. Mục tiêu là trả lời được: seed skill có đáng được thay bằng evolved skill không?

1. Khóa baseline trước khi tối ưu

Baseline là điểm xuất phát được đo trước mọi can thiệp. Trong workflow SkillOpt, bạn đánh giá seed skill trên validation split trước, rồi mới chạy optimization loop.

Checklist tối thiểu:

lưu nguyên văn seed skill;
ghi model optimizer và target model;
cố định data split;
giới hạn sample để kiểm soát chi phí;
lưu stdout/stderr của lệnh chạy.

Ví dụ khung lệnh minh họa, tên script có thể khác tùy repo bạn dùng:

python run_skillopt.py \
  --env SearchQA \
  --optimizer_model gpt-compatible-optimizer \
  --target_model gpt-compatible-target \
  --data_limit 100 \
  --epochs 3 \
  --batch_size 8 \
  --save_history true

Nếu bạn chưa có baseline, mọi cải thiện sau đó chỉ là lời khai một phía.

2. Bật instrumentation ngay từ đầu

Instrumentation là gắn đo đạc vào workflow: accuracy, token usage, edit budget, history, snapshot. Với SkillOpt, phần đáng giá không chỉ là final skill, mà là dấu vết tiến hóa.

Bạn nên log ít nhất:

accuracy theo epoch;
cumulative token usage;
số lần edit hoặc edit budget;
snapshot skill đầu và cuối;
patch được sinh ra;
reflection analysis — phần model tự phân tích vì sao sửa.

Hình dung thế này: hội đồng xét xử không chỉ nghe phán quyết cuối cùng, mà còn xem hồ sơ tranh tụng. Prompt optimizer cũng vậy. Nếu final prompt tốt hơn nhưng không ai biết nó sửa gì, vì sao sửa, và tốn bao nhiêu token, bạn chưa có artifact đủ tin để ship.

3. Dùng validation-based gating như cổng chặn

Validation-based gating nghĩa là chỉ chấp nhận bản cập nhật nếu nó vượt qua tập kiểm định. Đây là chỗ tách demo khỏi engineering.

Đừng chỉ nhìn một metric tổng. Với builder, nên thêm vài lát cắt:

câu hỏi ngắn vs dài;
case có tài liệu nhiễu;
câu hỏi cần suy luận nhiều bước;
case dễ hallucination — model bịa nhưng nghe chắc;
case có câu trả lời “không đủ thông tin”.

Nếu evolved skill tăng điểm tổng nhưng tụt mạnh ở nhóm “không đủ thông tin”, bạn có thể đang mua một prompt tự tin hơn nhưng nguy hiểm hơn.

4. So sánh bản vá, không chỉ so điểm

Một optimizer tốt có thể tạo patch nhìn hợp lý. Nhưng builder cần đọc patch như đọc diff code.

Hãy hỏi:

Nó thêm instruction kiểm chứng hay chỉ thêm văn phong dài hơn?
Nó có làm prompt phụ thuộc quá mức vào format validation không?
Nó có tăng token đầu vào đáng kể không?
Nó có đưa vào rule mâu thuẫn với system prompt không?
Nó có làm task chậm hơn vì yêu cầu reasoning quá nhiều bước không?

Ở đây, slow update và meta-skill trong SkillOpt đáng để soi. Slow update là cơ chế cập nhật thận trọng hơn, giúp tránh mỗi batch kéo skill đi quá xa. Meta-skill là lớp hướng dẫn cấp cao về cách skill nên tự cải thiện. Hai thứ này hữu ích, nhưng cũng làm workflow khó debug hơn nếu bạn không lưu artifact.

Pitfall: prompt tốt hơn trên giấy, hệ thống vẫn tệ hơn ngoài đời

Có ba bẫy mình thấy dễ dính.

Một là overfit validation. Nếu validation quá nhỏ hoặc quá giống training sample, optimizer học cách thắng bài kiểm tra, không học cách phục vụ user thật.

Hai là quên chi phí vận hành. Token usage không phải dòng phụ trong dashboard. Nó là hóa đơn, latency, và capacity planning. Một skill tăng nhẹ accuracy nhưng nhân đôi token prompt có thể không đáng cho endpoint đông traffic.

Ba là tối ưu sai tầng. Nguồn liên quan về PDF searchable nhắc một điều rất thực tế: PDF “searchable” chưa chắc đã search tốt cho máy. Nếu text layer đã sai, prompt optimizer chỉ đang biện hộ trên chứng cứ bị lỗi. Tương tự, với deployment trên thiết bị hoặc container lớn, bottleneck có thể nằm ở tensor shape, hardware profile, hoặc cold start chứ không phải prompt.

Nếu là mình, mình sẽ dùng framework này

Mình sẽ chia quyết định thành bốn ô:

Không dùng SkillOpt nếu chưa có validation đáng tin, lỗi còn mơ hồ, hoặc task thay đổi liên tục.
Chạy thử có giới hạn nếu prompt đã ổn nhưng team muốn biết có thể cải thiện có kiểm soát không.
Đưa vào pipeline định kỳ nếu task quan trọng, dữ liệu mới xuất hiện đều, và bạn có ngân sách token rõ.
Dừng lại và đổi kiến trúc nếu phân tích lỗi chỉ ra retrieval, parsing, serving, hoặc model choice mới là nguyên nhân chính.

Một buổi làm được: lấy một task hẹp, đóng băng seed skill, chạy baseline, bật history, giới hạn sample, chạy vài epoch, so final skill với baseline bằng cả metric lẫn diff. Sau đó quyết định bằng tiêu chí đã viết trước, không bằng cảm giác sau demo.

Sau bài này, điều bạn nên nghĩ khác là: prompt optimization không phải trò làm prompt thông minh hơn; nó là quy trình ra quyết định có chứng cứ về việc có nên thay prompt hay không.

Còn nếu prompt mới chỉ thắng trong một buổi demo nhưng không có log, không baseline, không validation, thì xin lỗi nha — tòa chưa tuyên án, mới chỉ nghe bên nguyên nói rất lưu loát thôi.

---
Bụi Wire — nghiện đọc release notes lúc 2 giờ sáng