Local LLM stack 2026 refresh | nghia-pham.dev

[1/5] Local LLM 2026: gpt-oss, Qwen 3, DeepSeek R1, Gemma 3 và Llama 4 State of open-weight LLM 2026: model nào đáng tự host, kiến trúc, license, kích thước, ngưỡng phần cứng. Snapshot rõ ràng cho dev đang lên kế hoạch self-host. May 21, 2026 ~16 min read
[2/5] Local LLM 2026, bài 2: Apple Silicon vs CUDA vs CPU benchmark Bài 2 series Local LLM 2026. So sánh inference speed Apple Silicon (M3 Max), CUDA (RTX 4090, Quadro K620), CPU-only (Xeon E5). Methodology benchmark + dữ liệu thật từ homelab. May 21, 2026 ~14 min read
[3/5] Local LLM 2026, bài 3: Ollama vs LM Studio vs vLLM vs llama.cpp Bài 3. So sánh 4 runner phổ biến 2026: Ollama (dev), LM Studio (GUI), vLLM (production throughput), llama.cpp (foundation). Khi nào dùng cái nào. May 21, 2026 ~12 min read
[4/5] Local LLM 2026, bài 4: MCP cho local agents, Ollama, Cursor, gptme cắm tool Bài 4 series Local LLM 2026. Wire MCP server vào local LLM stack: Ollama + open-webui, Cursor + Ollama backend, gptme + local. Hands-on từ homelab. May 21, 2026 ~12 min read
[5/5] Local LLM 2026, bài 5: failure modes, agent loops, tool-call format mismatch, OOM Bài 5. Khi local LLM dùng làm agent: agent loop hang, tool-call schema mismatch, OOM giữa generation, context overflow. Lessons từ homelab thực tế. May 21, 2026 ~10 min read