AI làm bậy — công ty bạn lãnh, không phải model

Một phán quyết 812 đô thay đổi cách ngành nhìn AI governance. Bốn component Python giúp team bạn không trở thành case study tiếp theo.

812 đô Canada và cái giá thật sự

812 đô Canada — đó là số tiền bồi thường mà tòa buộc Air Canada phải trả vì chatbot của họ bịa ra chính sách giảm giá tang lễ không hề tồn tại. Hãng bay cãi rằng chatbot là "một thực thể pháp lý riêng biệt." Tòa không đồng ý.

Con số nhỏ, nhưng tiền lệ thì to. Kể từ phán quyết tháng 2/2024, thông điệp rõ ràng: mọi sai lầm AI tạo ra, công ty bạn chịu. Không phải vendor, không phải model, không phải "con chatbot nó tự nói."

Và đây chỉ là phần nổi. AI Incident Database hiện theo dõi hơn 700 sự cố được ghi nhận. Ở Úc, hệ thống Robodebt tự động tính sai nợ phúc lợi cho 433.000 người, tổng thiệt hại 1,73 tỷ đô Úc. Amazon từng vứt bỏ tool tuyển dụng AI vì nó tự học cách phạt CV có chữ "women's."

Vậy mà phần lớn team mình gặp ở Việt Nam vẫn ship AI feature mà governance plan là một file Google Doc ai đó tạo rồi quên.

Khoan — governance không phải giấy tờ

Nhiều bạn nghe "AI governance" là nghĩ đến compliance, legal review, những cuộc họp dài không hồi kết. Hiểu nôm na: governance cho AI giống đèn giao thông — không phải để cản bạn đi, mà để cả ngã tư không đâm nhau.

Với developer, governance thật ra là bốn thứ rất kỹ thuật:

  1. Model card — "lý lịch" của model: train trên data gì, giới hạn ở đâu, không nên dùng cho việc gì
  2. Bias detection pipeline — chạy tự động phát hiện thiên vị trước khi user phát hiện giùm bạn
  3. Audit trail — log lại mọi quyết định model đưa ra, ai approve, lúc nào
  4. Human-in-the-loop escalation — khi model không chắc, nó phải biết gọi người

Bốn thứ này không cần team riêng. Một backend developer rành Python dựng được prototype trong một buổi chiều.

Thử ngay: bốn bước trước khi về nhà

Bước 1 — Model card generator

Tạo script Python đọc metadata từ model và generate ra file markdown. Không cần phức tạp — một dict Python cộng Jinja2 template là đủ.

model_card = {
    "model_name": "internal-sentiment-v2",
    "intended_use": "Phan tich sentiment feedback khach hang",
    "limitations": "Chua test tren tieng Viet co code-switch",
    "training_data": "50k reviews noi bo, 2023-2024",
    "bias_notes": "Chua co data tu khach hang mien Tay"
}

Giả sử team bạn 5 người, mỗi người chạy 2–3 model khác nhau — model card giúp bất kỳ ai join sau đều hiểu context trong 5 phút thay vì hỏi vòng vòng.

Bước 2 — Bias check đơn giản

Dùng thư viện open-source như Fairlearn hoặc AI Fairness 360 (AIF360). Chạy demographic parity check trên output. Nếu model recommend sản phẩm mà tỉ lệ chênh lệch rõ rệt giữa các nhóm — bạn có vấn đề cần xử lý trước khi lên production.

Bước 3 — Audit trail logger

Mỗi lần model inference, log ra: input (hash nếu chứa PII), output, confidence score, timestamp, model version. Structured logging — JSON lines ghi vào file hoặc đẩy lên hệ thống log sẵn có.

import json, datetime

def log_decision(input_hash, output, confidence, model_version):
    entry = {
        "timestamp": datetime.datetime.utcnow().isoformat(),
        "input_hash": input_hash,
        "output": output,
        "confidence": confidence,
        "model_version": model_version,
        "approved_by": "auto" if confidence > 0.85 else "pending_review"
    }
    with open("audit_trail.jsonl", "a") as f:
        f.write(json.dumps(entry) + "\n")

Bước 4 — Escalation rule

Đặt ngưỡng confidence. Dưới ngưỡng thì không trả lời tự động, đẩy vào queue cho người review. Đơn giản vậy thôi, nhưng Air Canada mà có bước này thì đã không mất 812 đô — và quan trọng hơn, không mất mặt trước tòa.

Không có governance — hai cú va thật

Cú va 1: Startup fintech dùng AI duyệt khoản vay

Giả sử bạn đang build model scoring tín dụng. Không có bias detection, model học từ data lịch sử rằng người ở một số quận có tỉ lệ nợ xấu cao hơn, rồi bắt đầu từ chối đơn dựa trên địa chỉ. Đây chính xác là kiểu bias mà nghiên cứu năm 2019 trên tạp chí Science phát hiện trong hệ thống y tế Mỹ — thuật toán dùng chi phí y tế làm proxy cho mức độ bệnh, vô tình deprioritize bệnh nhân da đen vì họ lịch sử chi ít hơn 1.800 đô/năm dù bệnh ngang nhau. Sửa một biến proxy đã tăng tỉ lệ nhận diện đúng từ 17,5% lên 46,5%.

Có bias pipeline, bạn phát hiện sớm, fix trước khi báo chí phát hiện giùm.

Cú va 2: Team product dùng chatbot hỗ trợ khách hàng

Bot trả lời sai chính sách hoàn tiền, khách screenshot post lên group Facebook 50.000 thành viên. Không audit trail — bạn không biết câu trả lời sai generate lúc nào, từ prompt nào, model version nào. Debug như tìm đường giữa giờ tan tầm Sài Gòn mà không có Google Maps.

Có audit trail cộng escalation — khi bot không chắc về chính sách tiền bạc, nó chuyển sang agent người. Chặn trước khi thành khủng hoảng.

Ba cái bẫy team hay sập

"Để sau rồi làm governance" — giống nói "để sau rồi thắt dây an toàn." Governance dễ nhất khi build từ đầu, vì bạn đang thiết kế pipeline — thêm một bước log, một bước check không tốn bao nhiêu effort. Retrofit vào hệ thống chạy production 6 tháng? Đau đầu gấp mười.

"Model lớn chắc đã handle bias rồi" — Plot twist: model càng lớn, bias càng tinh vi. Không vendor nào guarantee model fair cho use case cụ thể của bạn. Trách nhiệm vẫn là của bạn.

"Governance chỉ cần cho ngành regulated" — Air Canada bán vé máy bay, không phải ngân hàng. Mà vẫn lãnh.

Reward function — governance len vào tận lõi training

Một góc ít ai để ý: khi fine-tune model bằng Reinforcement Fine-Tuning (RFT), reward function chính là nơi bạn encode giá trị tổ chức vào model. Thiết kế reward chỉ optimize cho accuracy mà quên fairness, bạn đang dạy model rằng "đúng" quan trọng hơn "công bằng."

Cách tiếp cận đa chiều — reward không chỉ đo output đúng/sai mà còn đo an toàn, consistency, fairness — là cách governance len vào tận quá trình training, không chỉ nằm ở lớp wrapper bên ngoài. Đây cũng là lý do các framework như EU AI Act và NIST AI Risk Management Framework đều nhấn mạnh kiểm soát từ giai đoạn design, không chỉ giai đoạn deploy.

Một câu mang về

Governance không phải giấy phép để ship chậm hơn. Nó là bảo hiểm để bạn không phải ship lại từ đầu — hoặc tệ hơn, ship đi một lời xin lỗi công khai kèm số tiền bồi thường.

---

Bụi Wire — nghiện đọc release notes lúc 2 giờ sáng

Nguồn tham khảo