Ba bài đầu của series tôi đã đi qua anatomy của background agent (bài 1), Claude Code BG mode (bài 2), và Cursor BG Agent (bài 3). Cả ba đều cho bạn một thứ chung: agent chạy ở nền, deliver qua PR, không cần babysit.

Bây giờ chúng ta đi qua ba platform nặng ký nhất của 2026 mà chưa thuộc nhóm “editor + BG mode”. Ba platform này định vị bản thân là “AI software engineer” chứ không phải “AI assistant”. Devin 2.0 của Cognition, OpenHands (xưa là OpenDevin) của All-Hands AI, và Replit Agent 3. Ai dùng cái nào, dùng cho việc gì.

Tổng quan ba platform

Devin xuất hiện đầu năm 2024 với một video demo viral, gắn ngay với tag “AI software engineer đầu tiên”. Đến 2026, Cognition đã ship Devin 2.0, mở rộng pricing từ $500 fixed-tier xuống $20/mo pay-as-you-go, và pilot tại Goldman Sachs với hàng trăm instance chạy song song. Sản phẩm vẫn closed-source, chạy trên cloud của Cognition.

OpenHands là phản ứng open-source của cộng đồng với Devin. Tháng 7 năm 2024 nhóm research dùng tên OpenDevin, đến cuối 2024 rebrand thành OpenHands dưới tổ chức All-Hands AI. Series A $18.8M năm 2025, license MIT, hơn 68K GitHub stars. Architecture là Software Agent SDK, bạn tự host hoặc dùng hosted version.

Replit Agent 3 là phiên bản mới nhất của vibe-coding agent mà Replit ship từ 2024. Khác biệt chính là Agent 3 chạy autonomous lâu nhất trong nhóm: 200 phút không cần input người dùng, có self-test loop, tự fix bug dựa trên kết quả test. Ràng buộc là phải chạy trong môi trường Replit, không phải local hoặc cloud VM tùy chọn.

Ba sản phẩm này chia ba góc khác nhau của cùng một thị trường. Một sản phẩm closed-source enterprise-grade. Một sản phẩm open-source extensible. Một sản phẩm web-first cho người không setup local environment.

Devin 2.0, AI engineer thật sự hay marketing

Devin 2.0 chạy trên cloud của Cognition, mỗi task được giao cho một remote VM riêng. Bạn dispatch task qua web UI hoặc Slack integration, Devin tự plan, tự code, tự test, tự push PR. Mô hình tương tác là async: bạn assign task, đóng tab, vài giờ sau check kết quả.

Pricing model dùng đơn vị ACU (Agent Compute Unit). Một ACU tương đương khoảng 15 phút active compute, giá $2.25/ACU. Tier Core $20/mo bao gồm một số ACU starter, sau đó pay-as-you-go. Tier Team $500/mo bao gồm 250 ACU. Cognition công bố Devin 2.0 hoàn thành 83% task nhiều hơn Devin 1.x trên cùng một ACU, nghĩa là cost-per-task giảm đáng kể qua mỗi version.

Về benchmark, Devin có hai con số được trích dẫn nhiều. Trên SWE-bench gốc (full benchmark), Devin resolve 13.86% real GitHub issues end-to-end. Trên SWE-bench Verified (subset đã được verify thủ công), Devin 2.0 đạt 45.8% trong unassisted mode. Con số chênh lệch không phải lỗi, mà phản ánh bản chất hai benchmark khác nhau: SWE-bench gốc khắc nghiệt hơn (issues có thể flaky), Verified clean hơn nhưng dễ overfit.

Pilot lớn nhất của Devin là Goldman Sachs từ tháng 7 năm 2025. CIO Marco Argenti dùng cụm “hybrid workforce”, deploy Devin cho 12,000-person engineering team với hàng trăm instance chạy song song. Mục tiêu năng suất 20%, tương đương 14,400 dev output. Đến cuối 2025, Devin và sản phẩm partner Windsurf đã có mặt ở Citi, Dell, Cisco, Ramp, Palantir, Nubank, Mercado Libre.

Khi nào nên cân nhắc Devin. Bạn ở doanh nghiệp lớn cần SOC2, audit log, on-cloud isolation, có budget enterprise. Bạn không muốn bảo trì agent infrastructure, không cần customize prompt engineering. Bạn quen mô hình “giao task, đợi PR” hơn là “pair coding”.

Khi nào tránh. Bạn là solo dev hoặc team nhỏ, $2.25/ACU sẽ ăn ngân sách nhanh hơn bạn nghĩ với task lớn. Bạn muốn customize agent logic, Cognition không expose internal. Bạn cần chạy offline hoặc trên homelab tự host.

OpenHands, open-source path

OpenHands sống ở github.com/All-Hands-AI/OpenHands, license MIT. Architecture đã evolve qua hai phase. Phase đầu (2024) là một application monolithic chạy được local hoặc cloud. Phase hiện tại (2026) đã refactor thành Software Agent SDK, một framework modular để bạn build agent của riêng mình.

Core concept của OpenHands là CodeAct paradigm. Agent không emit JSON tool calls, agent emit Python code. Code chạy trong sandbox (Docker container hoặc Kubernetes pod), kết quả feed lại như observation. Cách này có ưu điểm là mọi action đều inspect được, mọi sandbox đều reproducible, không cần định nghĩa tool schema riêng cho từng task.

# Pseudo-code minh hoạ CodeAct loop
while not done:
    thought, action_code = llm.generate(history)
    observation = sandbox.execute(action_code)
    history.append(thought, action_code, observation)

Benchmark của OpenHands ấn tượng. Trên SWE-bench Verified, OpenHands báo cáo 77.6% với harness của riêng họ (kết hợp Claude 3.5 Sonnet Thinking). CodeAct v3 đạt 68.4% trên cùng base model, cho thấy scaffold open-source đã match được agent thương mại điểm-trên-điểm khi cố định model.

Series A $18.8M năm 2025 cho phép All-Hands AI maintain SDK fulltime. Adoption không nhỏ. AMD, Apple, Google, Amazon, Netflix, NVIDIA đều xuất hiện trong adopter list, dù đa số dùng internal fork hơn là hosted service.

Pricing logic OpenHands khác hai platform còn lại. Bạn không trả Cognition hoặc Replit. Bạn trả LLM provider (Anthropic, OpenAI, hoặc local model qua Ollama) cho token usage, cộng infra cost (Docker host, hoặc K8s nếu scale). Với task nhỏ, OpenHands cheaper. Với task lớn dùng frontier model, cost gần bằng Devin (vì cùng kéo token từ Claude/GPT).

Khi nào nên dùng OpenHands. Bạn là tech-savvy team muốn customize agent loop. Bạn cần on-prem deployment vì compliance hoặc data sensitivity. Bạn có infrastructure để host Docker container và muốn tránh vendor lock-in. Bạn muốn benchmark agent của riêng mình trên SWE-bench bằng harness open-source.

Khi nào tránh. Bạn cần GUI dashboard out-of-box, OpenHands hosted version có nhưng feature parity với Devin/Cursor vẫn còn cách. Bạn không muốn maintain Docker image hoặc lo về sandbox security. Bạn cần SLA, OpenHands community-driven, không có enterprise SLA built-in.

Replit Agent 3, autonomous 200 phút

Replit Agent 3 là sản phẩm gần với “vibe coding” nhất trong ba. Bạn mô tả app, Agent tự generate scaffold, code, test, deploy, tất cả trong Replit. Khác biệt lớn nhất của Agent 3 so với Agent 2 là khả năng tự chạy lâu. Agent 2 giới hạn 20 phút active work, Agent 3 đẩy lên 200 phút.

200 phút không phải just “run lâu hơn”. Replit pair Agent 3 với một self-testing system: agent định kỳ chạy app trong browser, observe output, detect bug, fix, test lại. Round trip này lặp trong loop tự động, agent quyết định khi nào stop. Replit công bố median cost của một self-test session là $0.20, nhanh hơn 3x và rẻ hơn 10x so với computer-use model (Claude Computer Use, OpenAI Operator).

Pricing 2026 chia ba tier. Free $0 với limited feature. Core $25/mo ($20 annual) với $25 monthly credits, 5 collaborator. Pro $100/mo ($95 annual) với $100 credits, 15 collaborator, 50 viewer, Turbo mode. Agent usage tính theo “effort-based pricing” từ giữa 2025: task đơn giản dưới $0.25, task phức tạp tự scale theo compute thực tế.

Khi nào nên dùng Replit Agent 3. Bạn build prototype, MVP, internal tool, không phải production enterprise system. Bạn không có local dev environment hoặc không muốn setup. Bạn muốn deploy ngay, Replit deploy built-in. Bạn quen với non-tech founder workflow, “tell agent what to build, agent builds it”.

Khi nào tránh. Bạn cần code base sống ngoài Replit (GitHub repo của công ty, internal monorepo). Bạn cần compliance (Devin có SOC2, OpenHands self-host, Replit limited). Bạn build hệ thống lớn với CI/CD ngoài, kiến trúc Replit-centric sẽ vướng.

Bảng so sánh

TrụcDevin 2.0OpenHandsReplit Agent 3
Mô hìnhClosed-source SaaSOpen-source MIT + SDKClosed-source SaaS
HostingCognition cloudSelf-host hoặc hostedReplit cloud
Entry price$20/mo + $2.25/ACULLM tokens + infra cost$25/mo (Core)
Top benchmark45.8% SWE-bench Verified77.6% SWE-bench VerifiedVendor-internal benchmark
AutonomyHàng giờ với supervisionConfigurable per task200 phút autonomous
CustomizationHạn chếCao (SDK)Hạn chế
ComplianceSOC2, enterprise-readyTự configLimited enterprise
AudienceDoanh nghiệp lớnTech team, researchSolo, MVP, prototype

Đọc bảng cẩn thận: SWE-bench Verified 77.6% của OpenHands không trực tiếp so sánh được với 45.8% của Devin. OpenHands chạy harness của họ, ghép với Claude 3.5 Sonnet Thinking và tooling tốt nhất. Devin 2.0 báo cáo 45.8% trong “unassisted mode”, nghĩa là không có scaffolding ngoài. Khi Devin enable scaffolding nội bộ, con số có thể cao hơn. Benchmark không phải là apples-to-apples giữa hai sản phẩm.

Trên SWE-bench leaderboard 2026 nói chung, Claude Code dẫn ở 87.6%, Claude Mythos Preview ở 93.9%, GPT-5.5 đứng đầu Terminal-Bench 82.7%. Các con số agent platform (Devin, OpenHands, Replit) đứng sau model thuần vì agent platform trade-off latency/cost/sandboxing để chạy long-running.

Recommend theo profile

Solo dev hobbyist, cần MVP nhanh: Replit Agent 3 Core $25/mo. Workflow một-cú-click, không setup, deploy luôn. Cost predictable.

Team 2-10 dev, internal tool + production app: OpenHands self-host. Bạn pay LLM token cho Claude/GPT, full control sandbox, customize agent prompt. Bonus: bạn học được agent internals qua SDK.

Enterprise team 50+, compliance critical: Devin 2.0 Team plan, hoặc thử OpenHands hosted với enterprise contract. Devin nếu cần SOC2 và audit trail built-in. OpenHands nếu compliance team đã có infra Docker/K8s.

Researcher, benchmark agent: OpenHands là default. Open-source harness, evaluator dễ wire vào SWE-bench, dễ swap model. Devin closed, Replit không expose model layer.

Cá nhân tôi đang dùng: chủ yếu Claude Code BG mode (bài 2) và Cursor BG (bài 3) cho công việc hàng ngày. Khi cần benchmark hoặc thử custom agent loop, tôi clone OpenHands SDK. Devin tôi đã pilot vài task, công bằng mà nói output ổn nhưng cost vượt nhanh nếu không kiểm soát ACU. Replit tôi dùng cho prototype landing page hoặc nội bộ.

Một câu warning về benchmark

Đừng pick platform chỉ dựa SWE-bench. Số SWE-bench đo khả năng giải GitHub issue, không đo được latency, không đo được cost-per-task, không đo được khả năng debug khi agent hỏng. Cùng một con số 70% có thể được tạo bởi agent chạy 30 phút với $5 token, hoặc agent chạy 3 giờ với $50 token. Cùng kết quả, business case khác nhau hoàn toàn.

Khi đánh giá platform cho team của bạn, chạy ba test thật:

  1. Một task nhỏ (fix typo, rename variable trong 5 file) để đo latency và overhead.
  2. Một task vừa (refactor module 200 dòng, viết test) để đo cost và quality.
  3. Một task khó (fix bug intermittent, đọc log production) để đo failure mode.

Số trên website của vendor chỉ kể nửa câu chuyện. Số trên benchmark public cũng vậy. Nửa còn lại là cách platform handle khi things go wrong.

Bài tiếp theo

Bài 5 (final) tôi sẽ so sánh BG agent vs sync agent một cách thẳng thắn. Khi nào BG thắng, khi nào sync thắng, khi nào hybrid pattern là đáp án đúng. Decision framework cho team của bạn.

Sources: