Xiaomi MiMo v2.5: tân binh China LLM đáng để thử

Tôi biết tới MiMo trong lúc đang so mấy China LLM cho một việc khá đời thường: kiếm model rẻ để đọc nhiều tài liệu, xử lý nhiều input, và nếu được thì đừng bắt tôi tách ảnh, audio, video ra thành ba pipeline riêng.

Lúc đầu tôi không kỳ vọng nhiều. Xiaomi trong đầu tôi vẫn là hãng điện thoại, đồ gia dụng, xe điện, chứ không phải cái tên tôi sẽ đặt cạnh DeepSeek, Kimi hay Qwen khi nói về LLM. Nhưng MiMo làm tôi dừng lại vì một combo hơi lạ: context 1M token, đa phương thức native, và giá cache-hit rẻ tới mức phải đọc lại.

Bài này là ghi chép review nhanh sau khi tôi đọc thông tin model, giá và benchmark đã verify. Tôi chưa chạy MiMo đủ lâu để gọi đây là kết luận cuối. Tôi sẽ nói thẳng: MiMo đáng thử, nhưng không đá văng hết phần còn lại.

MiMo là gì

MiMo là dòng model của Xiaomi. Bản tôi quan tâm nhất là mimo-v2.5-pro, flagship của dòng v2.5. Model này là MoE 1T tổng tham số, trong đó 42B active mỗi lượt suy luận. Nó có context 1M token, hỗ trợ text/ảnh/audio/video, và open-weight trên HuggingFace ở repo XiaomiMiMo/MiMo-V2.5-Pro. Thời điểm ra mắt khoảng 22/04/2026.

MoE nghe to, nhưng cách hiểu thực dụng là thế này: model có nhiều chuyên gia bên trong, mỗi request chỉ kích hoạt một phần. Vì vậy 1T không có nghĩa mỗi token đều chạy qua toàn bộ 1T tham số. Con số 42B active mới gần với phần đang được dùng khi suy luận.

mimo-v2.5-pro dùng hybrid attention, xen Sliding Window và Global Attention theo tỉ lệ 6:1, cộng thêm Multi-Token Prediction 3 lớp. Cách này cho thấy Xiaomi nhắm rõ vào bài toán agent và context dài, không chỉ chatbot.

Dòng v2.5 còn có mimo-v2.5, cũng omnimodal native, context 1M, giá khoảng một nửa bản pro. mimo-v2-flash nhẹ hơn, context 32K native, có thể mở rộng 256K, suy luận nhanh hơn 2.5-3.7x và tối ưu code. Hai model cũ mimo-v2-pro và mimo-v2-omni đã deprecated, tự động route sang v2.5 từ 01/06/2026 và sẽ gỡ hẳn 30/06/2026. Nếu bạn mới test, đừng chọn mấy model cũ đó nữa.

Điểm khiến tôi chú ý

Điểm bán hàng của MiMo không nằm ở benchmark đơn lẻ. Nó nằm ở tổ hợp khó kiếm: 1M context, omnimodal, agentic, giá thấp.

Context 1M có thể bị lạm dụng rất dễ. Nhưng với vài workflow tôi hay gặp, như đọc repo lớn, gom log, đọc nhiều file spec, hoặc xử lý transcript dài, context dài vẫn tiết kiệm công thật. Không phải lúc nào cũng cần RAG.

Omnimodal cũng đáng nói. MiMo v2.5 hỗ trợ text/ảnh/audio/video native. DeepSeek có thể rẻ tương đương ở một số bài toán text, nhưng mốc context phổ biến tôi so là 128K và không phải cùng một kiểu text/ảnh/audio/video trong một model. Nếu bạn đang làm sản phẩm có input lẫn lộn, nó quan trọng ngay.

Phần agentic làm tôi tò mò hơn. Xiaomi nói mimo-v2.5-pro chịu được hơn 1000 tool call liên tục. Tôi chưa tự stress test mức đó, nên chỉ ghi nhận như một claim đáng kiểm chứng. Nếu claim này đứng vững, MiMo sẽ hợp cho tác vụ dài hơi.

Giá mới là cú móc

Đơn vị trong bảng là USD trên 1 triệu token.

Model	Cache-hit	Input cache miss	Output
`mimo-v2.5-pro`	$0.0036	$0.435	$0.87
`mimo-v2.5`	$0.0028	$0.14	$0.28
`mimo-v2-flash`	$0.01	$0.10	$0.30

Nếu workflow reuse context tốt, token cache-hit gần như miễn phí theo cảm nhận sử dụng. Tôi không nói là miễn phí thật, vì vẫn có hóa đơn, nhưng mức giảm so với cache miss là rất sâu.

ArtificialAnalysis ước tính giá blended của mimo-v2.5-pro khoảng $0.18 trên 1 triệu token, với tỉ lệ cache/input/output 7:2:1. Con số này hợp lý để nhìn nhanh, nhưng tôi sẽ không dùng nó thay cho hóa đơn thật. Nếu app của bạn output dài hoặc cache kém, giá thực trả sẽ khác.

Domestic tính theo CNY trên 1 triệu token: v2.5-pro là ¥3 input và ¥6 output, v2.5 là ¥1 và ¥2, flash là ¥0.7 và ¥2.1. Phụ trợ overseas có ASR $0.074 mỗi giờ, Web Search $5 cho 1000 lượt, còn TTS đang free.

Ngoài pay-as-you-go, Xiaomi có Token Plan dạng túi credit cố định mỗi tháng, dùng key riêng tp-xxxxx.

Plan	Giá tháng	Credit	Ước lượng task
Lite	$6	4.1 tỷ	khoảng 200
Standard	$16	11 tỷ	khoảng 1.600
Pro	$50	38 tỷ	khoảng 5.600
Max	$100	82 tỷ	khoảng 12.800

Ưu đãi đi kèm: trả năm giảm 12%, mua lần đầu giảm 12%, giờ đêm UTC 16:00-24:00 chỉ tính 0.8x consumption. Region có 3 cụm: China, Singapore, Europe.

Với pay-as-you-go, recharge là ví trả trước cho key sk-. Điểm tôi thích là ngoài preset còn có nút Custom, nạp linh hoạt mức nhỏ được. Ở đây ít nhất bạn có thể thử bằng số tiền thấp trước. Thuế có thể cộng thêm tùy vùng, nên vẫn phải nhìn checkout cuối.

Benchmark nghe rất kêu, nhưng nên đọc chậm

Benchmark của MiMo có hai lớp: số Xiaomi tự công bố và số độc lập. Hai lớp này không nên trộn với nhau. Phần Xiaomi tự công bố khá ấn tượng: SWE-bench Pro 57.2, Claw-Eval 63.8, tau3-Bench 72.9, Video-MME 87.7, MMMU-Pro 77.9, CharXiv-RQ 81.0. Họ còn nói model dùng ít hơn 40-60% token mỗi trajectory so với Claude Opus 4.6, Gemini 3.1 Pro và GPT-5.4. Ở đa phương thức, Video-MME 87.7 gần Gemini 3 Pro 88.4.

Nhưng số độc lập thì tỉnh hơn. ArtificialAnalysis cho Intelligence Index 54, hạng 2 trong nhóm open-weight cùng cỡ. Tốc độ ra khoảng 42 token/giây, TTFT 3.27 giây, và có nhận xét chậm, dài dòng. Một bảng coding độc lập khác đặt mimo-v2.5-pro ở 67 điểm, dưới DeepSeek V4 89 và Kimi K2.6 87.

Đọc tới đây, kết luận của tôi là MiMo mạnh thật, rẻ thật, context dài thật, nhưng chưa phải lựa chọn số một nếu bạn chỉ cần coding top-tier. Cái nó bán là một gói cân bằng: đủ mạnh, rất dài, đa phương thức, có weight mở.

Tôi sẽ dùng MiMo cho việc gì

Nếu tôi cần đọc một khối context lớn, trộn nhiều loại input, và không muốn hóa đơn phình ra chỉ vì cache, MiMo nằm trong danh sách nên test. Ví dụ: review nhiều tài liệu kỹ thuật, gom transcript dài, hoặc dựng agent gọi tool nhiều lần.

Nếu tôi cần self-host, mimo-v2.5-pro open-weight cũng là điểm cộng lớn. Dĩ nhiên 1T tổng tham số và 42B active không phải chuyện nhẹ. Nhưng ít nhất nó cho một đường đi khác ngoài gọi API.

Nếu tôi chỉ cần model code mạnh nhất cho một task khó, tôi vẫn sẽ so với DeepSeek V4 và Kimi K2.6 trước. Không phải vì MiMo dở, mà vì số coding độc lập hiện tại chưa cho thấy nó vượt hai cái tên đó. Tôi cũng sẽ dè chừng nếu app cần latency thật thấp, vì nhận xét chậm và dài dòng không thể bỏ qua trong sản phẩm thật.

Verdict của tôi: MiMo v2.5 là một tân binh đáng thử, nhất là khi bạn cần context 1M, omnimodal, cache rẻ và một lựa chọn open-weight từ China LLM ecosystem. Đừng mua hype benchmark như mua vé số. Lấy một workflow thật, nạp nhỏ bằng Custom, chạy thử vài job, nhìn log latency và hóa đơn. Trước khi quyết định, verify lại giá một lần nữa, vì giá AI đổi nhanh hơn lịch viết blog của tôi.