All posts
  1. [1/5] Local LLM 2026: gpt-oss, Qwen 3, DeepSeek R1, Gemma 3 và Llama 4 State of open-weight LLM 2026: model nào đáng tự host, kiến trúc, license, kích thước, ngưỡng phần cứng. Snapshot rõ ràng cho dev đang lên kế hoạch self-host. ~17 min read
  2. [2/5] Local LLM 2026, bài 2: Apple Silicon vs CUDA vs CPU benchmark Bài 2 series Local LLM 2026. So sánh inference speed Apple Silicon (M3 Max), CUDA (RTX 4090, Quadro K620), CPU-only (Xeon E5). Methodology benchmark + dữ liệu thật từ homelab. ~14 min read
  3. [3/5] Local LLM 2026, bài 3: Ollama vs LM Studio vs vLLM vs llama.cpp Bài 3. So sánh 4 runner phổ biến 2026: Ollama (dev), LM Studio (GUI), vLLM (production throughput), llama.cpp (foundation). Khi nào dùng cái nào. ~12 min read
  4. [4/5] Local LLM 2026, bài 4: MCP cho local agents, Ollama, Cursor, gptme cắm tool Bài 4 series Local LLM 2026. Wire MCP server vào local LLM stack: Ollama + open-webui, Cursor + Ollama backend, gptme + local. Hands-on từ homelab. ~13 min read
  5. [5/5] Local LLM 2026, bài 5: failure modes, agent loops, tool-call format mismatch, OOM Bài 5. Khi local LLM dùng làm agent: agent loop hang, tool-call schema mismatch, OOM giữa generation, context overflow. Lessons từ homelab thực tế. ~10 min read