Hóa đơn token đã tới bàn

AI không còn là câu hỏi “dùng được không”, mà là “dùng kiểu nào để không cháy ngân sách”. Đây là khung quyết định cho team đang xài AI thật.

Bụi Wire

2026-06-14

Bạn có từng mở dashboard chi phí cloud rồi tự nhiên thấy mình tỉnh ngủ hơn cả cà phê đậm đặc chưa? Với AI, cảm giác đó đang đến sớm hơn nhiều team nghĩ. Không phải vì model đắt hơn từng token. Ngược lại, giá theo token đã giảm ở nhiều nơi. Vấn đề là chúng ta đang gọi model nhiều hơn, để agent chạy nhiều bước hơn, nhét context dài hơn, và bật AI vào mọi workflow như thể bếp buffet không bao giờ tính tiền.

Tuần này, tín hiệu đáng chú ý không nằm ở model mới khoe điểm benchmark. Nó nằm ở chuyện các công ty bắt đầu hỏi rất thực dụng: AI đang ăn bao nhiêu tiền, ai đang gọi, gọi để làm gì, và có đáng không?

Đây là điểm mình muốn bạn đổi cách nghĩ: đừng chọn công cụ AI theo độ ồn ào; hãy chọn theo khả năng kiểm soát hóa đơn token.

Sơ đồ minh họa cho bài Hóa đơn token đã tới bàn

Sơ đồ tóm tắt ý chính của bài viết.

Token cost không chỉ là giá model

Token là đơn vị văn bản mà model xử lý, gần như nguyên liệu đầu vào và đầu ra của một lần gọi AI. Một câu ngắn có thể thành vài token; một tài liệu dài, log hệ thống, hoặc prompt nhiều tầng có thể phình ra rất nhanh.

Nhiều team đang nhìn sai chỗ. Họ hỏi: “Model A rẻ hơn model B bao nhiêu?” Câu hỏi đó đúng, nhưng chưa đủ. Chi phí thật thường đến từ bốn lớp:

Input tokens: bạn gửi gì vào model, gồm prompt, tài liệu, code, lịch sử chat.
Output tokens: model trả lời dài hay ngắn, có sinh code, kế hoạch, phân tích nhiều bước không.
Tool calling: model gọi công cụ/API thay vì chỉ trả lời bằng chữ; mỗi vòng gọi có thể kéo thêm token.
Agent loop: agent tự chạy nhiều bước liên tiếp; một task nhìn nhỏ có thể thành cả chục lần gọi model.

Hiểu nôm na: bạn không chỉ trả tiền cho “món chính”, mà còn trả cho nước dùng, topping, chén thêm, khăn lạnh, và mấy lần gọi phục vụ quay lại bàn. Một tô thì ổn. Cả công ty ăn mỗi ngày thì kế toán bắt đầu hỏi chuyện.

Vì sao tuần này đáng để team Việt Nam để ý

Một số tín hiệu từ thị trường đang cùng chỉ về một hướng: giai đoạn “cứ bật AI lên đã” đang nhường chỗ cho giai đoạn “đo rồi mới scale”. TechCrunch ghi nhận nhiều câu chuyện rất đời: Uber được nói là đã dùng hết ngân sách AI coding của năm 2026 từ tháng 4; Microsoft thu hồi license Claude Code của developer sau vài tháng; một nhân viên Priceline kể hợp đồng Cursor gia hạn thường lệ quay lại với mức giá cao hơn 4-5 lần.

Mình không kể mấy ví dụ này để hù bạn. Ý chính là: khi AI đi từ thử nghiệm sang vận hành, bill không còn là chuyện của phòng R&D nữa. Nó chạm vào procurement, finance, security, engineering manager, và cả KPI năng suất.

Cũng vì vậy, Linux Foundation công bố kế hoạch cho Tokenomics Foundation, với mục tiêu tạo ra ngôn ngữ và kỷ luật quản trị chi phí token tương tự cách FinOps quản lý chi phí cloud. FinOps là thực hành phối hợp giữa kỹ thuật, tài chính và vận hành để tối ưu tiền cloud. Với AI, bài toán tương tự nhưng khó chịu hơn: cùng một người dùng, cùng một tool, hôm nay có thể tiêu ít token, ngày mai tiêu gấp nhiều lần nếu prompt dài hơn hoặc agent chạy vòng lặp.

Đặt vào team Việt Nam, chuyện này còn nhạy hơn. Nhiều team không có ngân sách enterprise rộng tay. Một tool coding assistant, một gói chatbot nội bộ, một pipeline RAG, vài agent tự động hóa báo cáo — cộng lại có thể vượt mức “chi phí tiện ích” và trở thành một dòng ngân sách cần phê duyệt nghiêm túc.

Khung quyết định: ai nên dùng, ai nên chậm lại?

Thay vì hỏi “tool nào hot?”, mình đề xuất một khung ba cửa: Dùng rộng, dùng có kiểm soát, hoặc chưa nên dùng.

| Tình huống của team | Quyết định hợp lý | Lý do |
|---|---|---|
| Task lặp lại hằng ngày, có đầu ra đo được | Dùng rộng có quota | Dễ tính ROI, dễ phát hiện lãng phí |
| Task sáng tạo, research, viết nháp, coding phụ trợ | Dùng có kiểm soát | Giá trị có thật nhưng khó đo hơn |
| Agent tự chạy nhiều bước, gọi nhiều tool, chưa có log | Chậm lại | Rủi ro runaway cost cao |
| Workflow cần dữ liệu nhạy cảm, chưa có audit | Chưa nên mở đại trà | Không chỉ tốn tiền, còn rủi ro kiểm soát |

Auditability nghĩa là khả năng truy vết: ai gọi, gọi model nào, prompt gì, chi phí bao nhiêu, kết quả ra sao. Nếu không có lớp này, bạn giống như mở bếp cho cả nhà nêm nếm tự do nhưng cuối ngày không biết ai dùng hết nửa thùng dầu.

Ví dụ cụ thể: một team sản phẩm 8 người muốn dùng AI để viết user story, phân tích feedback khách hàng, và hỗ trợ code review. Ba việc này không nên được đối xử giống nhau.

Viết user story: có thể dùng model rẻ hơn, giới hạn output ngắn, yêu cầu template rõ.
Phân tích feedback: cần RAG hoặc search tài liệu, nhưng phải giới hạn số đoạn context đưa vào.
Code review: nên log số lần gọi, repo nào dùng nhiều, loại lỗi nào AI giúp bắt được.

Cùng là “dùng AI”, nhưng quyết định ngân sách khác nhau hoàn toàn.

Bẫy lớn: all-you-can-eat làm hỏng cảm giác chi phí

Giai đoạn đầu, nhiều công ty quen với subscription kiểu trả một mức rồi dùng thoải mái. Điều này tốt cho adoption, nhưng dễ tạo ảo giác rằng AI gần như miễn phí. Khi chuyển sang hợp đồng enterprise, quota, hoặc tính theo usage thật, cảm giác sẽ khác hẳn.

Bẫy nằm ở chỗ: người dùng thấy tiết kiệm 10 phút, nhưng hệ thống có thể vừa tiêu vài vòng gọi model mà không ai nhìn thấy. Nếu mỗi tác vụ chỉ dùng một chút thì không sao. Nhưng khi workflow được tự động hóa, “một chút” nhân với số nhân viên, số task, số lần retry, số môi trường dev/staging/prod — hóa đơn bắt đầu có mùi khét.

Có ba dấu hiệu bạn nên kiểm tra ngay:

Không biết top 10 người dùng/token consumer là ai

Nếu không biết ai dùng nhiều nhất, bạn không quản trị được.

Không tách được chi phí theo use case

Coding, support, marketing, data analysis mà gom chung một cục thì rất khó quyết định cắt ở đâu.

Không có trần chi phí theo workflow

Agent tự retry vô hạn hoặc context cứ dài dần là công thức quen thuộc để bill phình.

Context window là vùng ngữ cảnh model còn giữ được trong một lượt xử lý. Context dài giúp model có thêm thông tin, nhưng cũng làm input token tăng. Đưa cả kho tài liệu vào prompt cho chắc nghe thì yên tâm, nhưng thường là cách nấu nồi canh bằng cả bao muối.

Một buổi chiều để dựng “bảng tiền token”

Bạn không cần mua ngay một nền tảng quản trị phức tạp. Trong một buổi chiều, team có thể dựng bản tối thiểu để biết tiền đang đi đâu.

Bước 1: Liệt kê 5 use case AI đang chạy

Ví dụ:

Coding assistant
Chatbot nội bộ
Tóm tắt meeting
Phân tích ticket support
Agent tạo báo cáo tuần

Bước 2: Gắn owner cho từng use case

Không có owner thì không ai chịu trách nhiệm tối ưu. Owner không nhất thiết là manager; có thể là engineer hoặc ops lead hiểu workflow.

Bước 3: Log tối thiểu 6 trường

Bạn có thể bắt đầu bằng bảng tính hoặc log đơn giản:

timestamp | user/team | use_case | model | input_tokens | output_tokens | estimated_cost

Nếu chưa có estimated cost chính xác, cứ để trống hoặc tính gần đúng theo bảng giá vendor. Quan trọng là tạo thói quen đo.

Bước 4: Đặt ba ngưỡng cảnh báo

Theo ngày: use case nào tăng bất thường?
Theo người/team: ai vượt mức dự kiến?
Theo task: tác vụ nào tiêu token nhiều nhưng giá trị mơ hồ?

Bước 5: Chọn một hành động tối ưu nhỏ

Đừng tối ưu tất cả cùng lúc. Chọn một trong các việc sau:

Rút ngắn prompt hệ thống.
Giới hạn độ dài output.
Dùng model nhỏ hơn cho task đơn giản.
Cache kết quả cho câu hỏi lặp lại.
Chặn agent chạy quá số bước cho phép.

Cache là lưu lại kết quả đã tính để lần sau khỏi gọi lại model. Trong công việc, nó giống việc chuẩn bị sẵn nước sốt nền; không cần mỗi đơn hàng lại nấu từ đầu.

Khi nào nên trả tiền mạnh tay?

Không phải bài này khuyên bạn keo kiệt với AI. Có những chỗ nên trả tiền, miễn là bạn biết vì sao.

Bạn có thể tăng ngân sách khi:

AI giúp giảm thời gian xử lý một quy trình có volume lớn.
Chất lượng đầu ra được đo bằng tiêu chí rõ, không chỉ cảm giác “có vẻ tốt”.
Workflow có logging, quota, và người chịu trách nhiệm.
Dùng model mạnh tạo khác biệt thật so với model rẻ hơn.

Ngược lại, nên chậm lại nếu:

Team chưa biết use case nào tạo giá trị.
Agent chạy nhiều bước nhưng không có quan sát chi tiết.
Vendor đổi giá mà bạn không có phương án thay thế.
Người dùng xem AI như hộp chat miễn phí gắn vào mọi thứ.

Các tin về Robinhood mở thêm sản phẩm đầu tư venture, Cloudflare nói AI làm nhiều vị trí trở nên dư thừa, hay xAI bán năng lực compute cho Anthropic đều cho thấy một bức tranh lớn hơn: AI không chỉ là phần mềm. Nó là thị trường vốn, compute, nhân sự, và vận hành đan vào nhau. Nhưng với practitioner, câu hỏi gần nhất vẫn rất giản dị: workflow của mình có đáng với số token nó tiêu không?

Chốt lại: chọn AI như chọn món có giá trên menu

Sau bài này, nếu có một điều bạn nên nghĩ khác, đó là: AI adoption không kết thúc ở việc cấp license; nó bắt đầu ở việc gắn chi phí với use case.

Model mới có thể hấp dẫn. Tool mới có thể giúp team phấn khích. Nhưng khi hóa đơn token tới bàn, người bình tĩnh nhất không phải người dùng ít nhất, mà là người biết món nào đáng gọi thêm, món nào chỉ nên nếm thử, và món nào nhìn ngon nhưng để sau.

Bếp AI vẫn đáng mở lửa. Chỉ là lần này, nhớ nhìn đồng hồ gas trước khi hầm cả đêm.

---
Bụi Wire — nghiện đọc release notes lúc 2 giờ sáng