<- All posts
-
[1/5]
Local LLM 2026: gpt-oss, Qwen 3, DeepSeek R1, Gemma 3 và Llama 4 State of open-weight LLM 2026: model nào đáng tự host, kiến trúc, license, kích thước, ngưỡng phần cứng. Snapshot rõ ràng cho dev đang lên kế hoạch self-host. · ~17 min read
-
[2/5]
Local LLM 2026, bài 2: Apple Silicon vs CUDA vs CPU benchmark Bài 2 series Local LLM 2026. So sánh inference speed Apple Silicon (M3 Max), CUDA (RTX 4090, Quadro K620), CPU-only (Xeon E5). Methodology benchmark + dữ liệu thật từ homelab. · ~14 min read
-
[3/5]
Local LLM 2026, bài 3: Ollama vs LM Studio vs vLLM vs llama.cpp Bài 3. So sánh 4 runner phổ biến 2026: Ollama (dev), LM Studio (GUI), vLLM (production throughput), llama.cpp (foundation). Khi nào dùng cái nào. · ~12 min read
-
[4/5]
Local LLM 2026, bài 4: MCP cho local agents, Ollama, Cursor, gptme cắm tool Bài 4 series Local LLM 2026. Wire MCP server vào local LLM stack: Ollama + open-webui, Cursor + Ollama backend, gptme + local. Hands-on từ homelab. · ~13 min read
-
[5/5]
Local LLM 2026, bài 5: failure modes, agent loops, tool-call format mismatch, OOM Bài 5. Khi local LLM dùng làm agent: agent loop hang, tool-call schema mismatch, OOM giữa generation, context overflow. Lessons từ homelab thực tế. · ~10 min read