Tôi định mất mười lăm phút để chọn một API LLM rẻ cho một project nhỏ. Cuối cùng mất gần một ngày. Không phải vì khó tìm bảng giá, mà vì bảng giá niêm yết gần như không bao giờ là con số tôi thực trả.
Bài này là ghi chép sau khi ngồi so giá bốn nhà: DeepSeek, MiniMax, Doubao (ByteDance), và Kimi (Moonshot). Mọi con số là ảnh chụp tại đầu tháng 6/2026, và tôi sẽ nói luôn ở đây: giá AI đổi nhanh tới mức bạn phải tự verify lại trước khi tin. Cái đáng giữ lại không phải con số, mà là mấy cái bẫy khiến so sánh sai.
Cái bẫy đầu tiên: giá khuyến mãi trông như giá thật
Lúc tôi mở trang giá MiniMax, M3 hiện $0.30 cho 1 triệu token input, $1.20 cho output. Rẻ. Nhưng có dòng nhỏ: giảm 50% trong 7 ngày kể từ khi tạo tài khoản. Hết khuyến mãi, giá về $0.60 và $2.40, tức gấp đôi.
Nếu lập ngân sách dựa trên con số đang giảm, một tháng sau bạn sẽ thấy hóa đơn gấp đôi dự kiến mà không hiểu vì sao. Quy tắc tôi tự đặt: mọi giá có chữ “off”, “limited”, “7 ngày” đều phải ghi kèm giá gốc, và tính ngân sách theo giá gốc.
DeepSeek thì khác. V4-Pro của họ cũng đang ở mức rất thấp, $0.435 input và $0.87 output, nhưng đây là giảm vĩnh viễn 75% chứ không phải khuyến mãi đếm ngược. Cùng là con số đẹp, nhưng một cái bền và một cái sẽ biến mất. Trang giá không phân biệt hộ bạn.
Cái bẫy thứ hai: giá đổi theo độ dài prompt
Doubao (trên nền tảng quốc tế BytePlus, model mang tên họ seed-2-0) niêm yết seed-2-0-pro ở $0.50 input. Nhưng đó là cho prompt dưới 128 nghìn token. Vượt mốc đó, đơn giá nhảy lên gấp đôi.
MiniMax M3 cũng vậy: dưới 512 nghìn token là một giá, vượt lên là một giá khác cao hơn nhiều. Nghĩa là hai request cùng model, cùng số token output, có thể có đơn giá khác nhau chỉ vì một cái prompt dài hơn.
Với workload bình thường thì bạn ở tier rẻ. Nhưng nếu app của bạn nhồi cả tài liệu dài vào context, bạn có thể đang sống ở tier đắt mà bảng giá ngoài cùng không nói. Luôn tìm cái cột “pricing tiers” trước khi tin con số to nhất in trên đầu.
Cái bẫy thứ ba: input và output không cùng giá
Đây là chỗ dễ so sai nhất. Người ta hay nhìn mỗi giá input rồi kết luận “model này rẻ”. Nhưng output thường đắt gấp 3 tới 5 lần input, và workload thật tiêu cả hai.
Kimi K2.6 là ví dụ rõ. Input $0.95, nghe không quá đắt. Nhưng output tới $4.00 cho 1 triệu token. Một model trả lời dài sẽ ngốn tiền ở phía output, chỗ mà giá input không hé lộ.
Để so cho công bằng, tôi quy mọi model về một con số “blended” với giả định tỉ lệ dùng 3 phần input, 1 phần output:
blended = 0.75 × giá_input + 0.25 × giá_output
Tỉ lệ 3:1 chỉ là một giả định hợp lý cho chat/agent thông thường. App của bạn sinh output dài thì nên tăng trọng số output lên, và lúc đó thứ hạng sẽ đổi. Điểm mấu chốt là so trên cùng một công thức, không so giá input của nhà này với giá output của nhà kia.
Xếp theo blended (số liệu 06/2026, giá first-party, tier rẻ, chưa tính cache), từ rẻ tới đắt:
| Model | Input | Output | Blended |
|---|---|---|---|
Doubao seed-2-0-mini | $0.10 | $0.40 | $0.175 |
| DeepSeek V4-Flash | $0.14 | $0.28 | $0.175 |
| MiniMax M2.7 (và M3 lúc khuyến mãi) | $0.30 | $1.20 | $0.525 |
| DeepSeek V4-Pro | $0.435 | $0.87 | $0.544 |
Doubao seed-2-0-lite | $0.25 | $2.00 | $0.688 |
Doubao seed-2-0-pro | $0.50 | $3.00 | $1.125 |
| Kimi K2.6 | $0.95 | $4.00 | $1.71 |
Hai model rẻ nhất trong nhóm hiện hành là seed-2-0-mini và DeepSeek V4-Flash, đồng hạng. Kimi đắt nhất theo blended, nhưng nó bán điểm mạnh khác (agentic, context 256 nghìn token, cache tự động), nên đắt không có nghĩa là sai lựa chọn. Nó chỉ có nghĩa là bạn nên biết mình trả thêm cho cái gì.
Cái bẫy thứ tư: cache đổi hết phép tính
Bảng trên chưa tính cache. Mà cache có thể lật ngược cả cuộc chơi.
DeepSeek tính input trúng cache gần như miễn phí: V4-Flash chỉ $0.0028 cho 1 triệu token input khi cache hit, tức bằng một phần năm mươi giá thường. Nếu app của bạn lặp lại cùng một system prompt dài hoặc cùng một khối context (RAG, agent loop), phần input gần như không tốn gì.
Kimi cũng có cache tự động, giảm input từ $0.95 còn $0.16. Nhưng output của Kimi vẫn $4.00, mà cache không đụng tới output. Nên với Kimi, cache giúp ít hơn so với DeepSeek nếu bạn sinh nhiều chữ.
Bài học: trước khi chọn, hãy hỏi workload của mình có lặp input không. Nếu có, model nào có cache rẻ sẽ thắng xa con số blended ở trên. Nếu không, bỏ qua phần cache cho đỡ ảo tưởng.
Cái bẫy thứ năm: reseller không phải nhà sản xuất
Tôi thấy DeepSeek V4-Pro được bán lại trên nền tảng BytePlus với giá $1.74 input và $3.48 output. Gấp bốn lần giá mua thẳng từ DeepSeek. Cùng một model, cùng một cái tên, khác cổng bán.
Chiều ngược lại cũng có. Kimi K2.6 trên OpenRouter rẻ hơn giá gốc của Moonshot khoảng 28%. Reseller có thể đắt hơn hoặc rẻ hơn nhà gốc, không có quy luật cố định.
Nên khi đọc một con số, câu hỏi đầu tiên là: đây là giá của ai? Nếu định chạy lượng lớn, đối chiếu giá gốc của hãng với vài reseller rồi mới quyết. Đừng để cái tên model quen thuộc làm bạn quên kiểm tra ai đang tính tiền.
Cái bẫy thứ sáu: có giá nhưng máy không đọc được
Đây là cái làm tôi mất nhiều thời gian nhất. Tôi để một quy trình research tự động đi tìm giá Doubao quốc tế, và nó báo về “không tìm được giá đáng tin”. Suốt hai vòng. Tôi gần như kết luận ByteDance giấu giá quốc tế.
Hóa ra giá vẫn nằm công khai trên trang BytePlus, chỉ là trang render bằng JavaScript. Công cụ fetch tĩnh tải về một cái khung trống, không thấy bảng. Khi tôi mở bằng trình duyệt thật, toàn bộ giá hiện ra đầy đủ: từng model Doubao, từng độ phân giải video Seedance, từng mức Seedream cho ảnh.
Bài học hơi quê nhưng quan trọng: “không tìm thấy giá” và “giá không tồn tại” là hai chuyện khác nhau. Nhiều trang giá là app động. Nếu một công cụ báo trống, hãy thử mở bằng mắt người trước khi kết luận.
Cái bẫy thứ bảy: nạp tối thiểu không phải là phí
Khi tôi định nạp pay-as-you-go ở MiniMax, nó bắt nạp tối thiểu 25 đô. Phản xạ đầu tiên của tôi là “đắt thế, hay mua gói tháng cho rẻ”. Nhưng đó là hiểu sai.
25 đô đó không mất đi. Nó là số dư trả trước, dùng tới đâu trừ tới đó. Với TTS giọng turbo giá $60 cho 1 triệu ký tự, 25 đô đủ cho hơn bốn trăm nghìn ký tự. Để test một project nhỏ, tôi tiêu vài đô là cùng, phần còn lại vẫn nằm đó.
Cái thực sự đáng so là kiểu mua, không phải con số tối thiểu. MiniMax có tới ba hệ tính tiền song song, và tôi đã nhầm lẫn giữa chúng một lúc:
- pay-as-you-go: trả theo từng đơn vị, hợp khi lượng dùng khó đoán;
- gói subscription theo token: hợp cho coding agent chạy đều, nhưng quota hết theo tháng;
- gói subscription riêng cho âm thanh: rẻ nhất tính trên mỗi ký tự nếu bạn dùng đều và hết quota trong tháng.
Với một project TTS, gói âm thanh nhỏ nhất khoảng 5 đô một tháng cho một trăm nghìn credit lại rẻ hơn cả nạp 25 đô pay-as-you-go, miễn là bạn xài hết trong tháng. Nhưng nếu lượng dùng giật cục, pay-as-you-go an toàn hơn vì không lo quota cạn giữa chừng. Không có đáp án chung. Có đáp án theo hình dạng lượng dùng của bạn.
Vậy chọn gì
Tôi không tin vào câu trả lời “model X rẻ nhất nên dùng X”. Sau một ngày, đây là cách tôi nghĩ:
Cần rẻ cho lượng lớn, output không quá dài: DeepSeek V4-Flash hoặc Doubao seed-2-0-mini. Cả hai blended quanh $0.175, và nếu workload lặp input thì DeepSeek càng rẻ nhờ cache. Cần model mạnh hơn mà vẫn rẻ: DeepSeek V4-Pro. Cần context cực dài: DeepSeek V4 với một triệu token. Cần một hệ sinh thái đa phương tiện gọn trong một nhà (text, ảnh, video, giọng nói chung một chỗ): MiniMax đáng cân nhắc dù không phải rẻ nhất từng món.
Còn nếu bạn chỉ định nghịch thử, đừng bắt đầu bằng việc tối ưu giá. Bắt đầu bằng việc đọc cho đúng bảng giá.
Một danh sách kiểm tra nhỏ
Lần sau khi so giá một API LLM, tôi sẽ chạy qua mấy câu này trước khi tin con số:
- Đây là giá khuyến mãi hay giá thường, nếu khuyến mãi thì giá gốc bao nhiêu và hết hạn khi nào.
- Giá có đổi theo độ dài prompt không, mình đang ở tier nào.
- Output đắt hơn input bao nhiêu, blended ra sao theo tỉ lệ dùng thật của mình.
- Workload có lặp input để hưởng cache không.
- Con số này của nhà gốc hay reseller.
- Nếu công cụ báo “không có giá”, đã thử mở bằng trình duyệt thật chưa.
- Mình hợp với pay-as-you-go hay subscription, theo hình dạng lượng dùng.
Bảy câu, không câu nào là bí mật. Nhưng bỏ qua một câu là đủ để con số bạn lập kế hoạch lệch hẳn so với hóa đơn cuối tháng. Tôi học được điều đó bằng cách suýt chọn sai, nên giờ ghi lại để lần sau đỡ mất nguyên một ngày.