DeepSeek V4 Flash vs Claude Haiku 4.5: rẻ hơn chưa chắc là chọn được

Tôi muốn so DeepSeek V4 Flash với Claude Haiku 4.5 vì hai model này nằm ở cùng một câu hỏi thực dụng: cần một model nhanh, đủ thông minh, chạy nhiều request, không đốt tiền như model flagship. Nhưng chúng không thật sự cùng loại.

DeepSeek V4 Flash là một model cực rẻ, context rất dài, có thinking mode, và API cố tình tương thích cả OpenAI lẫn Anthropic format. Claude Haiku 4.5 là model nhỏ mới nhất của Anthropic, đắt hơn nhiều trên mỗi token, nhưng có lợi thế về safety posture, enterprise trust, tooling Claude, và chính sách commercial rõ hơn cho dữ liệu khách hàng.

Nếu chỉ nhìn giá, DeepSeek thắng rất mạnh. Nếu chọn model cho dữ liệu nhạy cảm, workflow doanh nghiệp, hoặc nơi bạn cần vendor policy sạch hơn là giá token rẻ nhất, Haiku 4.5 vẫn có lý do tồn tại.

Bảng nhanh

Số liệu dưới đây lấy từ trang chính thức của DeepSeek và Anthropic tại thời điểm viết, tháng 06/2026.

Yếu tố	DeepSeek V4 Flash	Claude Haiku 4.5
API model	`deepseek-v4-flash`	`claude-haiku-4-5-20251001`
Input thường	$0.14 / 1M token	$1.00 / 1M token
Output	$0.28 / 1M token	$5.00 / 1M token
Cache hit input	$0.0028 / 1M token	$0.10 / 1M token
Blended 3 input : 1 output	$0.175 / 1M token	$2.00 / 1M token
Context window	1M token	200K token
Max output	384K token	64K token
Thinking	Có, default hỗ trợ thinking và non-thinking	Có extended thinking
Tool calls	Có	Có
Vision	Không thấy listed trong DeepSeek pricing page	Có text + image input
Batch discount	Không thấy listed trong pricing page	50% input và output
Commercial data training	Privacy policy cho phép dùng personal data để train/improve, có quyền opt-out	API/Claude for Work không dùng chat/coding session để train trừ khi opt-in
Data residency / enterprise posture	Privacy policy nói trực tiếp xử lý và lưu trữ tại Trung Quốc	Claude API global mặc định; cloud/marketplace options có pricing riêng

Con số quan trọng nhất: với công thức blended đơn giản 0.75 * input + 0.25 * output, Haiku 4.5 đắt hơn DeepSeek V4 Flash khoảng 11.4 lần. Riêng output, Haiku đắt hơn khoảng 17.9 lần. Với cache hit input, Haiku đắt hơn khoảng 35.7 lần.

Nói ngắn: nếu workload của bạn là token volume lớn, DeepSeek V4 Flash là một cú ép giá rất mạnh.

Giá thật trong vài request mẫu

Bảng giá token đôi khi vẫn hơi trừu tượng, nên tôi quy ra vài request gần thực tế.

Workload	DeepSeek V4 Flash	Claude Haiku 4.5	Ghi chú
100K input, 20K output	$0.0196	$0.20	Haiku khoảng 10.2 lần
1M input, 100K output	$0.168	$1.50	Haiku khoảng 8.9 lần
100K cached input, 20K output	$0.00588	$0.11	Chưa tính cache write của Haiku
700K input, 20K output	$0.1036	Không fit một request	Haiku 4.5 context 200K

Điểm dễ bỏ sót là output. Với app chat, support bot, agent report, hoặc code assistant hay trả lời dài, output mới là chỗ hóa đơn phình. DeepSeek V4 Flash output $0.28 / 1M token, còn Haiku 4.5 là $5.00 / 1M token. Nếu prompt ngắn mà answer dài, chênh lệch còn đau hơn công thức blended.

Cache cũng nghiêng mạnh về DeepSeek. DeepSeek tính cache-hit input chỉ $0.0028 / 1M token. Haiku 4.5 cache read là $0.10 / 1M token, tức vẫn rẻ hơn input thường của Haiku nhưng xa DeepSeek. Bù lại, Anthropic mô tả rõ cache write 5 phút, cache write 1 giờ, cache read, và Batch API. Nếu bạn cần accounting enterprise rõ ràng, Anthropic dễ giải thích hơn. Nếu bạn chỉ tối ưu chi phí token, DeepSeek thắng.

Context: 1M token là khác hẳn 200K

DeepSeek V4 Flash có context 1M token và max output 384K token. Haiku 4.5 có context 200K token và max output 64K token.

Đừng hiểu nhầm: 200K token vẫn rất lớn. Đủ cho nhiều tài liệu, log slice, code review vừa phải, policy QA, meeting transcript, hoặc RAG answer có context sạch. Nhưng 1M token mở ra kiểu workload khác: nhét gần nguyên repo nhỏ, rất nhiều log, nhiều tài liệu versioned, hoặc một batch research dài trong một request.

Tôi không khuyến khích cứ có 1M context là nhồi 1M. Context dài làm review khó hơn, latency cao hơn, và rác trong context vẫn là rác. Nhưng khi bài toán thật sự cần một context rất dài, DeepSeek V4 Flash có lợi thế kiến trúc sản phẩm rõ ràng: nó fit request mà Haiku 4.5 phải chia batch, tóm tắt trung gian, hoặc chuyển sang model Claude khác.

Ngược lại, nếu workflow của bạn đã là RAG tốt, retrieve đúng top chunks, rồi chỉ đưa 20K đến 80K token vào model, context 1M không còn là lợi thế quyết định. Lúc đó câu hỏi quay lại quality, latency, policy, và ecosystem.

Reasoning và coding: đừng chỉ đọc tên model

Cả hai đều không phải flagship cao nhất của hãng.

DeepSeek V4 Flash là bản tiết kiệm của V4, nhưng pricing page ghi rõ model hỗ trợ cả thinking và non-thinking mode. Nó cũng hỗ trợ JSON output, tool calls, chat prefix completion, và FIM completion trong non-thinking mode. Với coding assistant, FIM là chi tiết đáng chú ý vì nó hợp với thao tác điền code giữa file.

Haiku 4.5 là model nhỏ của Anthropic, nhưng Anthropic gọi nó là model nhanh nhất với near-frontier intelligence trong bảng latest models. Nó có extended thinking, tool use, vision, và nằm trong hệ sinh thái Claude Code, Claude API, Bedrock, Vertex AI, Microsoft Foundry.

Vấn đề là hiện không có một benchmark official duy nhất, cùng harness, cùng prompt, cùng reasoning setting, so trực tiếp DeepSeek V4 Flash với Haiku 4.5 trên mọi task. Có vài leaderboard và trang third-party, nhưng mỗi nơi chọn effort, provider, latency path và benchmark khác nhau. Tôi sẽ không biến chúng thành kết luận cứng.

Cách chọn thực tế hơn:

Code completion hoặc FIM trong editor: DeepSeek V4 Flash đáng thử trước vì rẻ, context dài, và có FIM non-thinking.
Agent coding có tool calls, nhiều vòng, cần chi phí thấp: DeepSeek đáng thử trước nếu dữ liệu không nhạy cảm.
Claude Code workflow, tool ecosystem Anthropic, hoặc team đã có guardrail trên Claude: Haiku 4.5 ít ma sát hơn.
Request cần vision: Haiku 4.5 có lợi thế rõ vì Claude docs nói current Claude models hỗ trợ text và image input.
Task rất nhạy cảm với safety/refusal/compliance: test Haiku trước, vì Anthropic có system card và policy surface chi tiết hơn.

Privacy và dữ liệu: đây là chỗ giá rẻ không trả lời được

Đây là khác biệt lớn nhất ngoài giá.

Anthropic nói rõ với commercial offerings như Anthropic API, Console, Claude for Work: họ không dùng chats hoặc coding sessions để train model, trừ khi bạn chọn tham gia chương trình/opt-in hoặc gửi feedback rõ ràng. Đây là câu rất quan trọng nếu bạn làm cho client, xử lý source code riêng, log nội bộ, tài liệu pháp lý, hoặc dữ liệu khách hàng.

DeepSeek privacy policy thì rộng hơn. Policy nói họ thu thập user input gồm prompt, uploaded files, feedback, chat history; dùng personal data để vận hành, phát triển, cải thiện dịch vụ, bao gồm train/improve technology như machine learning models; và có quyền opt-out khỏi việc dùng personal data để train model hoặc tối ưu công nghệ. Policy cũng nói DeepSeek trực tiếp thu thập, xử lý và lưu trữ personal data tại Trung Quốc.

Tôi không nói điều đó nghĩa là DeepSeek không dùng được. Nhưng nó đổi loại quyết định. Với prototype cá nhân, workload public, synthetic data, scraping public docs, hoặc batch summarization không nhạy cảm, giá DeepSeek quá tốt. Với client code, PII, tài liệu nội bộ, hoặc công ty có procurement/security review, Haiku 4.5 dễ được thông qua hơn nhiều.

Nếu vẫn muốn dùng DeepSeek cho workload nhạy cảm, ít nhất phải làm ba việc:

Đọc policy và terms hiện hành, không dựa vào lời truyền miệng.
Xác định dữ liệu nào được gửi thẳng, dữ liệu nào phải scrub hoặc route qua proxy có policy riêng.
Có opt-out/data-processing plan bằng văn bản, không chỉ tin vào config trong app.

Ecosystem và vận hành

DeepSeek có một lợi thế rất thực dụng: API docs đưa cả OpenAI format và Anthropic format. Nghĩa là nhiều tool, agent framework, gateway hoặc coding assistant có thể chuyển model bằng base URL và model name, ít phải viết integration mới. Pricing page cũng ghi concurrency limit của V4 Flash là 2500, cao hơn V4 Pro.

Haiku 4.5 có lợi thế theo hướng khác: nó nằm trong một vendor stack lớn và dễ mua qua nhiều kênh chính thống. Claude API, Claude Platform on AWS, Amazon Bedrock, Vertex AI, Microsoft Foundry. Với doanh nghiệp, chuyện invoice, procurement, region, support, deprecation notice, và audit model usage đôi khi quan trọng không kém giá token.

Anthropic cũng có lifecycle docs rõ: claude-haiku-4-5-20251001 đang active và tentative retirement không sớm hơn ngày 15/10/2026. DeepSeek thì có chi tiết cần để ý: model names cũ deepseek-chat và deepseek-reasoner sẽ deprecated vào 24/07/2026 15:59 UTC, và được map sang non-thinking/thinking mode của deepseek-v4-flash. Nếu app của bạn đang dùng alias cũ, đây là việc phải sửa sớm.

Khi nào tôi chọn DeepSeek V4 Flash

Tôi sẽ chọn DeepSeek V4 Flash trước trong các trường hợp này:

Workload volume lớn, output nhiều, ngân sách token là constraint chính.
Dữ liệu đưa vào không nhạy cảm, hoặc đã được scrub kỹ.
Cần context rất dài trong một request.
Muốn chạy nhiều agent song song, nhiều retry, nhiều draft, nhiều batch.
Code assistant cần FIM hoặc muốn thử model rẻ trong editor.
Bài toán là summarization, extraction, translation, classification, report draft, RAG answer trên dữ liệu public.

Nói hơi thẳng: nếu bạn đang build một internal tool nhỏ mà mỗi ngày tốn hàng chục triệu token, Haiku 4.5 có thể làm bạn đau ví trước khi bạn thấy khác biệt chất lượng đủ lớn.

Khi nào tôi chọn Claude Haiku 4.5

Tôi sẽ chọn Haiku 4.5 trước trong các trường hợp này:

Dữ liệu có code riêng, thông tin khách hàng, nội dung nội bộ, hoặc ràng buộc compliance.
Team đã dùng Claude Code/Claude API và muốn ít đổi workflow.
Cần vision hoặc input ảnh.
Cần vendor policy rõ về không training trên API/commercial data.
Cần mua qua AWS, Bedrock, Vertex AI, Microsoft Foundry, hoặc cần procurement path quen thuộc.
Cần model nhỏ nhưng vẫn nằm trong safety/eval ecosystem chi tiết của Anthropic.

Haiku 4.5 đắt hơn DeepSeek V4 Flash nhiều. Nhưng với một số công ty, chênh lệch token không phải chi phí lớn nhất. Chi phí lớn hơn là security exception, legal review, procurement delay, hoặc incident vì gửi nhầm dữ liệu nhạy cảm vào vendor không được approve.

Cách test công bằng

Đừng chọn bằng bảng giá một mình. Tôi sẽ test theo 6 nhóm:

Cost shape: 100 request thật, đo input/output/cache hit, không dùng estimate.
Latency: p50 và p95, không chỉ cảm giác nhanh.
Task quality: chấm trên task của mình, không dùng benchmark chung để thay thế.
Failure mode: hallucination, bỏ sót constraint, tool-call sai, output quá dài, refusal không cần thiết.
Data policy: dữ liệu nào được gửi, dữ liệu nào không được gửi.
Ops: rate limit, retry, billing, provider outage, deprecation, gateway support.

Một test nhỏ nhưng đủ thật: lấy 30 prompt đại diện cho workload, chạy cả hai model, ẩn tên model khi review, chấm từng câu theo rubric 1 đến 5, rồi tính thêm cost trên token usage thật. Nếu Haiku chỉ hơn DeepSeek 5 phần trăm quality nhưng đắt hơn 10 lần, chọn DeepSeek. Nếu Haiku giảm lỗi nghiêm trọng ở task nhạy cảm, chênh giá có thể đáng.

Kết luận

DeepSeek V4 Flash là lựa chọn mặc định nếu câu hỏi là giá trên mỗi token, context dài, và scale nhiều request. Nó rẻ đến mức thay đổi cách tính: bạn có thể thử nhiều draft hơn, chạy nhiều agent hơn, giữ cache dài hơn, và không phải sợ mỗi prompt dài là một hóa đơn.

Claude Haiku 4.5 là lựa chọn hợp lý nếu câu hỏi là vendor trust, privacy posture, enterprise integration, vision, và Claude ecosystem. Nó không thắng DeepSeek về giá. Nó thắng ở chỗ dễ giải thích với một team security hơn, nhất là khi dữ liệu không hoàn toàn public.

Nếu tôi phải chốt một câu: dùng DeepSeek V4 Flash cho workload public, nhiều token, cần rẻ và dài; dùng Claude Haiku 4.5 cho workload cần chính sách dữ liệu sạch hơn, tích hợp doanh nghiệp, hoặc đã sống trong Claude stack.