Background Agents 2026, bài 4: Devin vs OpenDevin vs Replit Agent, so sánh

Quan điểm thẳng thắn trước khi mở bài: với dev cá nhân làm side project, tôi nghĩ Devin overhyped. Với enterprise compliance-heavy, có thể OK. Với team tech-savvy muốn customize, OpenHands là lựa chọn đúng. Với non-dev hoặc người chưa setup local environment, Replit là cách vào nhanh nhất. Đây là ba platform khác biệt nhất 2026, và mỗi cái phục vụ một nhóm khác nhau, không phải competitor trực tiếp.

Ba bài đầu series tôi đã đi qua anatomy (bài 1), Claude Code BG (bài 2), Cursor BG (bài 3). Tất cả đều là “editor plus BG mode”. Bài này là ba platform định vị bản thân khác hẳn: “AI software engineer” chứ không phải “AI assistant”. Devin 2.0 của Cognition, OpenHands của All-Hands AI, và Replit Agent 3.

Bối cảnh ba platform

Devin xuất hiện đầu năm 2024 với video demo viral gắn ngay với tag “AI software engineer đầu tiên”. Đến 2026 Cognition đã ship Devin 2.0, mở rộng pricing từ $500 fixed-tier xuống $20/mo pay-as-you-go, pilot tại Goldman Sachs với hàng trăm instance song song. Sản phẩm vẫn closed-source, chạy trên cloud của Cognition. Theo dõi cá nhân tôi: hồi 2024 tôi không tin demo gốc, nhưng phải công nhận Devin 2.0 ổn hơn nhiều, đặc biệt với task có brief tốt.

OpenHands là phản ứng open-source của cộng đồng với Devin. Tháng 7 năm 2024 nhóm research dùng tên OpenDevin, đến cuối 2024 rebrand thành OpenHands dưới tổ chức All-Hands AI. Series A $18.8M năm 2025, license MIT, hơn 68K GitHub stars. Architecture là Software Agent SDK, bạn tự host hoặc dùng hosted version.

Replit Agent 3 là phiên bản mới nhất của vibe-coding agent mà Replit ship từ 2024. Khác biệt chính: Agent 3 chạy autonomous lâu nhất trong nhóm, 200 phút không cần input người dùng, có self-test loop tự fix bug dựa trên kết quả test. Ràng buộc: phải chạy trong môi trường Replit, không phải local hoặc cloud VM tùy chọn.

Devin 2.0, có đáng tiền không

Devin 2.0 chạy trên cloud của Cognition, mỗi task được giao cho remote VM riêng. Bạn dispatch task qua web UI hoặc Slack integration, Devin tự plan, tự code, tự test, tự push PR. Mô hình async thuần: assign task, đóng tab, vài giờ sau check kết quả.

Pricing dùng đơn vị ACU (Agent Compute Unit), một ACU tương đương khoảng 15 phút active compute, giá $2.25 mỗi ACU. Tier Core $20/mo bao gồm số ACU starter, sau đó pay-as-you-go. Tier Team $500/mo gồm 250 ACU. Cognition công bố Devin 2.0 hoàn thành 83% task nhiều hơn Devin 1.x trên cùng ACU, nghĩa là cost-per-task giảm rõ qua mỗi version.

Benchmark có hai số được trích nhiều. Trên SWE-bench gốc, Devin resolve 13.86% real GitHub issues end-to-end. Trên SWE-bench Verified (subset đã được verify thủ công), Devin 2.0 đạt 45.8% trong unassisted mode. Chênh lệch không phải lỗi mà phản ánh hai benchmark khác nhau: SWE-bench gốc khắc nghiệt hơn (issues có thể flaky), Verified clean hơn nhưng dễ overfit.

Pilot lớn nhất của Devin là Goldman Sachs từ tháng 7 năm 2025. CIO Marco Argenti dùng cụm “hybrid workforce”, deploy Devin cho 12.000 dev với hàng trăm instance chạy song song, mục tiêu 20% năng suất, tương đương 14.400 dev output. Đến cuối 2025, Devin và sản phẩm partner Windsurf đã có mặt ở Citi, Dell, Cisco, Ramp, Palantir, Nubank, Mercado Libre.

Quan điểm thực tế của tôi sau khi pilot vài task với Devin: nó là sản phẩm có kỹ thuật ổn, marketing aggressive, và pricing chỉ hợp với enterprise. Một bài học nhớ đời: tôi từng để Devin chạy qua đêm một task tưởng nhanh, sáng dậy thấy đốt 7 ACU (khoảng $16) vì agent loop lặp lại không tìm ra root cause. Bài học đó là lý do tôi không recommend Devin cho dev cá nhân. Cost vượt nhanh hơn bạn nghĩ nếu không kiểm soát chặt. Bạn ở doanh nghiệp lớn cần SOC2, audit log, on-cloud isolation, có budget enterprise và không muốn bảo trì agent infrastructure thì Devin là answer hợp lý; ngoài profile đó, nhiều lựa chọn khác rẻ hơn.

OpenHands, open-source mà có harness mạnh

OpenHands sống ở github.com/All-Hands-AI/OpenHands, license MIT. Architecture đã evolve qua hai phase. Phase đầu 2024 là application monolithic chạy local hoặc cloud. Phase hiện tại 2026 đã refactor thành Software Agent SDK, framework modular để bạn build agent của riêng mình.

Core concept là CodeAct paradigm. Agent không emit JSON tool calls, agent emit Python code. Code chạy trong sandbox (Docker container hoặc Kubernetes pod), kết quả feed lại như observation. Cách này có ưu điểm: mọi action đều inspect được, mọi sandbox đều reproducible, không cần định nghĩa tool schema riêng cho từng task.

# Pseudo-code minh hoạ CodeAct loop
while not done:
    thought, action_code = llm.generate(history)
    observation = sandbox.execute(action_code)
    history.append(thought, action_code, observation)

Benchmark của OpenHands ấn tượng. Trên SWE-bench Verified, OpenHands báo cáo 77.6% với harness riêng (kết hợp Claude 3.5 Sonnet Thinking). CodeAct v3 đạt 68.4% trên cùng base model, cho thấy scaffold open-source đã match được agent thương mại điểm-trên-điểm khi cố định model.

Series A $18.8M năm 2025 cho phép All-Hands AI maintain SDK fulltime. Adoption không nhỏ: AMD, Apple, Google, Amazon, Netflix, NVIDIA đều xuất hiện trong adopter list, dù đa số dùng internal fork hơn là hosted service.

Pricing logic khác hai platform còn lại. Bạn không trả Cognition hoặc Replit, bạn trả LLM provider (Anthropic, OpenAI, local model qua Ollama) cho token usage, cộng infra cost (Docker host, K8s nếu scale). Với task nhỏ OpenHands rẻ hơn. Với task lớn dùng frontier model, cost gần bằng Devin (vì cùng kéo token từ Claude/GPT).

OpenHands là lựa chọn của tôi cho hai use case cụ thể. Đầu tiên là benchmark agent riêng: open-source harness, evaluator dễ wire vào SWE-bench, dễ swap model. Thứ hai là khi cần on-prem deployment vì compliance hoặc data sensitivity. Nhược lớn: UI thua xa Devin/Cursor; OpenHands hosted version có dashboard cơ bản nhưng feature parity còn cách. Nếu team bạn không có ai sẵn lòng maintain Docker image hoặc lo sandbox security, đừng pick OpenHands chỉ vì nó open-source.

Replit Agent 3, autonomous 200 phút

Replit Agent 3 là sản phẩm gần “vibe coding” nhất trong ba. Bạn mô tả app, Agent tự generate scaffold, code, test, deploy, tất cả trong Replit. Khác biệt lớn nhất so với Agent 2 là khả năng tự chạy lâu. Agent 2 giới hạn 20 phút active work, Agent 3 đẩy lên 200 phút.

200 phút không chỉ là “run lâu hơn”. Replit pair Agent 3 với self-testing system: agent định kỳ chạy app trong browser, observe output, detect bug, fix, test lại. Round trip lặp trong loop tự động, agent quyết định khi nào stop. Replit công bố median cost của một self-test session là $0.20, nhanh hơn 3x và rẻ hơn 10x so với computer-use model (Claude Computer Use, OpenAI Operator).

Pricing 2026 chia ba tier. Free $0 với limited feature. Core $25/mo ($20 annual) với $25 monthly credits, 5 collaborator. Pro $100/mo ($95 annual) với $100 credits, 15 collaborator, 50 viewer, Turbo mode. Agent usage tính theo effort-based pricing từ giữa 2025: task đơn giản dưới $0.25, task phức tạp tự scale theo compute thực tế.

Replit là câu trả lời cho profile khá rõ: bạn build prototype, MVP, internal tool, không phải production enterprise system; bạn không có local dev environment hoặc không muốn setup; bạn muốn deploy ngay trong cùng platform; bạn quen non-tech founder workflow “tell agent what to build, agent builds it”. Ngoài profile đó, kiến trúc Replit-centric sẽ vướng nếu codebase sống ngoài Replit (GitHub repo công ty, internal monorepo), nếu cần compliance (Devin có SOC2, OpenHands self-host, Replit limited), hoặc nếu build hệ thống lớn với CI/CD ngoài. Quan điểm cá nhân: Replit hợp non-dev và prototype landing page, không phải tool dev nghiêm túc cho production.

Bảng so sánh nhanh

Trục	Devin 2.0	OpenHands	Replit Agent 3
Mô hình	Closed-source SaaS	Open-source MIT + SDK	Closed-source SaaS
Hosting	Cognition cloud	Self-host hoặc hosted	Replit cloud
Entry price	$20/mo + $2.25/ACU	LLM tokens + infra cost	$25/mo (Core)
Top benchmark	45.8% SWE-bench Verified	77.6% SWE-bench Verified	Vendor-internal benchmark
Autonomy	Hàng giờ với supervision	Configurable per task	200 phút autonomous
Customization	Hạn chế	Cao (SDK)	Hạn chế
Compliance	SOC2, enterprise-ready	Tự config	Limited enterprise
Audience	Doanh nghiệp lớn	Tech team, research	Solo, MVP, prototype

Một cảnh báo về cách đọc bảng: SWE-bench Verified 77.6% của OpenHands không trực tiếp so sánh được với 45.8% của Devin. OpenHands chạy harness của họ, ghép với Claude 3.5 Sonnet Thinking và tooling tốt nhất. Devin 2.0 báo cáo 45.8% trong “unassisted mode”, nghĩa là không có scaffolding ngoài. Khi Devin enable scaffolding nội bộ, con số có thể cao hơn. Benchmark không apples-to-apples giữa hai sản phẩm.

Trên SWE-bench leaderboard 2026 nói chung, Claude Code dẫn ở 87.6%, Claude Mythos Preview ở 93.9%, GPT-5.5 đứng đầu Terminal-Bench 82.7%. Các con số agent platform (Devin, OpenHands, Replit) đứng sau model thuần vì agent platform trade-off latency, cost, sandboxing để chạy long-running.

Tôi đang dùng cái nào

Trong workflow hàng ngày, chủ yếu là Claude Code BG (bài 2) và Cursor BG (bài 3) cho công việc. Khi cần benchmark hoặc thử custom agent loop, tôi clone OpenHands SDK. Devin tôi đã pilot vài task, công bằng mà nói output ổn nhưng cost vượt nhanh nếu không kiểm soát ACU. Replit tôi dùng cho prototype landing page hoặc nội bộ.

Với người đang đọc và cân nhắc pick một: solo dev hobbyist cần MVP nhanh thì Replit Agent 3 Core $25/mo, workflow một-cú-click không setup deploy luôn, cost predictable. Team 2-10 dev làm internal tool và production app, OpenHands self-host hoặc dùng Cursor/Claude Code BG là default tốt; bạn pay LLM token cho Claude/GPT, full control sandbox, customize agent prompt, bonus là học được agent internals qua SDK nếu chọn OpenHands. Enterprise team 50+ compliance critical thì Devin 2.0 Team plan hoặc OpenHands hosted với enterprise contract, Devin nếu cần SOC2 và audit trail built-in, OpenHands nếu compliance team đã có infra Docker/K8s. Researcher benchmark agent thì OpenHands là default vì open-source harness và evaluator dễ wire.

Đừng pick chỉ dựa SWE-bench

Một câu warning trước khi đóng bài. Số SWE-bench đo khả năng giải GitHub issue, không đo được latency, cost-per-task, không đo được khả năng debug khi agent hỏng. Cùng một con số 70% có thể được tạo bởi agent chạy 30 phút với $5 token, hoặc agent chạy 3 giờ với $50 token. Cùng kết quả, business case khác nhau hoàn toàn.

Khi đánh giá platform cho team, chạy ba test thật: một task nhỏ (fix typo, rename variable trong 5 file) để đo latency và overhead, một task vừa (refactor module 200 dòng, viết test) để đo cost và quality, một task khó (fix bug intermittent, đọc log production) để đo failure mode. Số trên website của vendor chỉ kể nửa câu chuyện. Số trên benchmark public cũng vậy. Nửa còn lại là cách platform handle khi things go wrong, và cái đó chỉ thử thật mới biết.

Bài cuối series sẽ so sánh BG agent vs sync agent một cách thẳng thắn: khi nào BG thắng, khi nào sync thắng, và khi nào hybrid là đáp án đúng cho team.