DeepSeek V4 Pro trong thực tế: 18 ngày, 431 phiên, $22

Tôi đã dùng DeepSeek V4 Pro làm model chính trong 18 ngày, từ 24/05 tới 10/06/2026. Không phải thử nghiệm có kiểm soát. Công việc thật, đủ thể loại: porting skill từ Bun sang Go, viết blog, debug agent workflow, refactor aas, dọn config Claude Code. Dữ liệu dưới đây lấy từ hai nguồn: opencode.db (database SQLite của opencode) và log của hệ aas multi-agent.

Kết quả ngắn gọn: 431 phiên, $22.41, và một con số tôi không ngờ tới cho tới khi nhìn vào log cache.

opencode: 431 phiên, ba variant, một câu hỏi về cache

opencode cho phép chọn variant khi dùng DeepSeek V4 Pro: high, max, và default. Tôi xài cả ba, tùy loại việc.

Số liệu tổng hợp sau 18 ngày:

Variant	Phiên	Tổng chi	Chi trung bình/phiên	Input tokens	Cache read
high	269	$10.00	$0.037	7.5M	172M
max	45	$9.11	$0.203	2.5M	67.9M
default	98	$2.31	$0.024	2.3M	17.9M

high là variant tôi dùng nhiều nhất, gần 63% phiên. max chỉ 45 phiên nhưng ngốn gần bằng high về chi phí, vì mỗi phiên trung bình tốn $0.20, gấp hơn 5 lần high.

Nhưng con số thật sự đáng dừng lại là cột cache read của high: 172 triệu tokens, trong khi input chỉ có 7.5 triệu. Tức là cứ mỗi token tôi thật sự gõ vào, có khoảng 23 token được đọc từ cache. Tính theo cache-to-new-input ratio thì xấp xỉ 23:1.

Nếu chỉ tính input tokens thật vs cache read trên tổng toàn bộ thời gian 18 ngày: 14.2M input mới, 274.5M cache read. Ratio này là 19:1.

Tại sao ratio cao tới vậy

Cache của DeepSeek hoạt động theo prefix. Mỗi khi opencode mở phiên mới trong cùng một thư mục, phần system prompt, CLAUDE.md, rules, và file context đã nạp trước đó không cần truyền lại mà được đọc từ cache. Với cách tôi làm việc, điều này có nghĩa là:

Thư mục ~/.claude là nơi tôi có 18 phiên high và 9 phiên max, tốn $4.93 và $0.99. Mỗi phiên trong đó đều kéo toàn bộ CLAUDE.md, rules, memory index, và references vào context. Phần lớn trong số đó đã được cache từ phiên trước.

Đây không phải tối ưu mà tôi chủ động làm. Đây là cách DeepSeek tính tiền: cache-hit input chỉ $0.014 / 1M token, còn input mới là $0.55 / 1M token. Chênh lệch 39 lần. Với context nặng và nhiều phiên lặp lại, con số này biến thành tiết kiệm thật.

Phân bố chi phí

Trong 431 phiên, phân bố trông như sau:

$0: 45 phiên (phiên ngắn, không token nào được tính)
$0.001-0.01: 134 phiên
$0.01-0.1: 222 phiên (nhóm lớn nhất, 52%)
$0.1-1.0: 24 phiên
$1.0+: 6 phiên

Median rơi vào khoảng $0.03. Phiên đắt nhất là $3.51, ngày tôi ngồi đánh giá toàn bộ trade-off khi port skill từ Bun sang Go với max variant và context rất dài. Sáu phiên trên $1 đều là những buổi làm việc nặng có context code dài, không phải chat bình thường.

Ngày 10/06 kỳ lạ

Nhìn vào log theo ngày, ngày 10/06 có 122 phiên high, gần như tất cả đều $0 hoặc rất nhỏ. Đây là ngày tôi chạy nhiều agent aas với opencode, mỗi lần aas spawn một worker là một phiên mới nhưng nhiều phiên đã bị hủy hoặc kết thúc sớm. Log không phải lỗi, chỉ là pattern của workflow multi-agent tạo ra nhiều “phiên” ngắn.

aas: ba identity, ba vai trò

aas (ai-agent-solution) là hệ multi-agent tôi đang xây. DeepSeek trong aas có ba worker profile khác nhau:

loop-deepseek-direct: Model lấy trực tiếp từ DEEPSEEK_BASE_URL, không qua OpenRouter. Được tạo động trong orchestrator khi availability.deepseekDirect là true. Dùng readOnlyTools và LoopAgentAdapter. Điểm mạnh là rẻ và nhanh cho task surgical, nhược điểm là không có toàn bộ tool của host.

loop-deepseek-build: Cùng loại với loop-deepseek-direct, nhưng là profile tĩnh trong workerProfiles.ts. Vai trò build loop.

opencode-deepseek: Worker dùng CLI opencode làm harness, route qua OpenRouter với model deepseek/deepseek-v4-pro. Đây là bản “nặng hơn” trong ba profile: có full tool harness, project-aware, có thể làm multi-file build. Đổi lại, spawn chậm hơn và phụ thuộc vào opencode CLI.

DeepSeek trong workflow implement-task

Điều tôi thấy thú vị nhất khi nhìn vào code workflow là cách aas đặt DeepSeek vào đâu:

Design phase: [opencode, loop-deepseek-direct], cả hai làm việc song song để lên kế hoạch cho task.
Build phase (implement): opencode-deepseek tham gia fleet cạnh tranh gồm opencode-claude, opencode-kimi, codex, gemini, và những worker khác được enable.
Skeptic review: Lại là [opencode, loop-deepseek-direct], làm gate sau khi build phase xong.

Nghĩa là loop-deepseek-direct xuất hiện ở hai đầu của mỗi task: thiết kế và kiểm tra. Đây là quyết định chủ ý, vì hai phase này cần model rẻ và đủ tốt để handle reasoning level vừa phải, không cần context tool nặng nề. Chi phí cho hai phase gate này gần như không đáng kể so với phần build.

Chat copilot

DeepSeek cũng là backend cho planning copilot trong aas, set qua AAS_CHAT_PROVIDER=deepseek và AAS_CHAT_MODEL=deepseek-v4-pro. Tôi có 10 phiên chat, chủ yếu là hỏi về backlog, pending tasks, và một lần test streaming. Tổng chi phí ước tính: $0.02.

Đây là use case DeepSeek làm tốt không cần nhiều suy nghĩ. Không phải vì model đặc biệt mạnh cho chat, mà vì chat ngắn không tốn gì cả với pricing này.

So sánh chi phí thực

DeepSeek V4 Pro direct có giá $0.55 / 1M input token và $2.19 / 1M output token. Qua OpenRouter là $0.65 / $2.50, tức đắt hơn khoảng 15%.

Tôi mua phần lớn qua direct API để tận dụng chênh lệch đó. Với opencode-deepseek trong aas thì buộc phải đi qua OpenRouter vì harness, nên đó là trade-off đã biết trước.

So với Claude Sonnet 4.5 hoặc Claude 3.5 Sonnet, DeepSeek V4 Pro rẻ hơn đáng kể ở output. Với các task tôi dùng như refactor code, reasoning về architecture, viết bài, hay review config, khoảng cách về reasoning quality không đủ lớn để lý giải chi phí cao hơn. Với task cần vision hoặc tool use phức tạp trong hệ sinh thái Anthropic thì khác, nhưng đó không phải bulk của 431 phiên kia.

Khi nào DeepSeek V4 Pro thực sự phù hợp

Sau 18 ngày, tôi có thể nói khá rõ loại task nào DeepSeek V4 Pro xử lý tốt và không tốn kém:

Tốt cho: refactor code có context lớn và nhiều file, reasoning về trade-off kiến trúc, viết hoặc review bài dài, agent gate phase (design + skeptic), debug với nhiều file log, task có lặp lại nhiều phiên trong cùng thư mục (cache ratio lớn).

Cần suy nghĩ trước: task cần vision, workflow có tool use nặng trong hệ Claude (Claude Code hooks, MCP servers Anthropic), hoặc dữ liệu nhạy cảm cần privacy posture sạch hơn.

Không nên dùng: khi workload yêu cầu compliance tầng doanh nghiệp rõ ràng hoặc data residency ngoài Trung Quốc, lúc đó dù giá rẻ hơn vẫn không phải lựa chọn phù hợp.

Nói cách khác: nếu task của bạn là code-heavy, context dài, và phiên làm việc lặp lại nhiều lần trong cùng một project, DeepSeek V4 Pro đang có một cache story rất tốt mà không cần bạn làm gì cả. Cứ làm việc bình thường, cache tự tích.

Con số $22.41 cho 18 ngày làm việc thật, bao gồm cả những phiên $3 ngồi nghiên cứu trade-off cả tiếng, là con số tôi sẽ giữ làm baseline để so sánh khi thị trường đổi.