Bạn đang ngồi chat với ChatGPT về một bài thuyết trình. Đầu cuộc nói chuyện, bạn dán một bản tóm tắt sản phẩm 3 trang. Sau đó hai bên trao đổi qua lại khoảng 40 lượt: chỉnh slide, đổi văn phong, hỏi ý tưởng minh hoạ. Rồi bạn hỏi: “Quay lại đoạn về tính năng B trong bản tóm tắt ban đầu, bạn nhớ con số doanh thu không?”
AI trả lời: “Tôi không thấy số liệu cụ thể trong nội dung mình có.”
Bạn cau mày. Rõ ràng số đó nằm trong bản tóm tắt bạn dán ngay từ đầu. Nó đi đâu rồi?
Câu trả lời nằm ở một khái niệm gọi là context window. Hiểu nó, bạn sẽ ngừng bực mình và bắt đầu dùng AI hiệu quả hơn.
Context window là gì, hình dung theo trí nhớ ngắn hạn
Hãy tưởng tượng bạn vào một phòng đối thoại với AI. Phòng có một cái bảng trắng cỡ vừa. Mọi thứ bạn gõ vào, mọi câu AI trả lời, tất cả đều được viết lên bảng. Khi AI trả lời câu tiếp theo, nó đọc lại toàn bộ bảng rồi mới viết tiếp.
Vấn đề là cái bảng có giới hạn. Khi viết đầy, không có cách nào nhét thêm. AI sẽ phải xoá đoạn cũ nhất ở trên cùng để có chỗ viết câu mới ở dưới.
Đó chính là context window. Nó là “trí nhớ làm việc” của AI trong một cuộc trò chuyện. Đúng hơn, nó là tổng số chữ AI có thể nhìn thấy cùng lúc, gồm cả những gì bạn gửi vào lẫn những gì AI đã trả lời.
Một số điểm dễ nhầm cần làm rõ ngay:
- Context window không phải trí nhớ dài hạn. AI không “ghi nhớ” bạn từ cuộc nói chuyện hôm trước (trừ khi bạn bật tính năng Memory, sẽ nói ở bài G).
- Context window không phải kiến thức của model. Model đã học hàng tỷ trang khi training, nhưng kiến thức đó nằm trong weight, không nằm trong window.
- Context window chứa cả câu hỏi của bạn lẫn câu trả lời của AI, không chỉ phần bạn gõ.
Khi AI “quên”, thường không phải do trí nhớ kém. Lý do là phần thông tin cần nhớ đã bị đẩy ra khỏi cái bảng trắng.
Token: đơn vị đo cái bảng
Người ta không đo context window bằng “trang giấy” hay “số ký tự”. Đơn vị chuẩn là token.
Một token là một mẩu chữ. Với tiếng Anh, 1 token thường tương đương 4 ký tự hoặc khoảng 0.75 từ. Với tiếng Việt, do bộ chữ có dấu và cấu trúc âm tiết khác, 1 từ thường tốn 2 đến 3 token.
Quy đổi nhanh để dễ hình dung:
- 1.000 token tiếng Anh, khoảng 750 từ, dưới 2 trang A4.
- 1.000 token tiếng Việt, khoảng 300 đến 400 từ, khoảng 1 trang A4.
- 100.000 token tiếng Anh, khoảng 75.000 từ, một quyển sách mỏng.
- 1 triệu token tiếng Anh, khoảng 1.400 trang A4, vài quyển tiểu thuyết.
Bài H trong series này sẽ đi sâu vào token và tính tiền. Hôm nay bạn chỉ cần nhớ: token là viên gạch lát phòng. Phòng càng to, càng nhiều gạch.
Kích thước phòng năm 2024 và 2026, khác nhau như nào
Hai năm trước, một context window 8.000 token đã được coi là tốt. Hôm nay 8.000 token nghe như một căn phòng bé tí.
Đầu năm 2024, mặt bằng chung của các model phổ biến rơi vào khoảng 4.000 đến 32.000 token. ChatGPT bản miễn phí dùng GPT-3.5 thời đó có context khoảng 4.000 token. Claude 2 chạy quanh 100.000 token, đã là một bước nhảy lớn.
Đến tháng 5 năm 2026, bức tranh thay đổi:
- ChatGPT (OpenAI): bản free dùng GPT-5.5 Instant có 16.000 token. Bản Plus lên 32.000. Bản Pro và Enterprise đạt 128.000 token. Bản API có thể đẩy lên tận 1.000.000 token.
- Claude (Anthropic): Haiku 4.5 ở mức 200.000 token. Sonnet 4.6 và Opus 4.7 đều đạt 1.000.000 token tiêu chuẩn.
- Gemini (Google): Gemini 1.5 Pro và Gemini 3.1 Ultra đều có 2.000.000 token. Gemini 2.5 Pro hiện 1.000.000 token, bản 2 triệu đang được Google công bố là sẽ bật sớm.
Có hai điều quan trọng cần lưu ý.
Thứ nhất, kích thước trong app web thường nhỏ hơn kích thước trong API. Khi bạn chat với ChatGPT.com bằng tài khoản Plus, bạn không có 1 triệu token. Bạn có 32.000 token. Số 1 triệu chỉ áp dụng khi developer gọi API trực tiếp, và họ phải trả tiền theo từng token.
Thứ hai, kích thước trên giấy không bằng kích thước thực dụng. Đây là vấn đề tôi nói tiếp ở phần dưới.
Cái gì chiếm chỗ trong context window
Khi bạn mở một cuộc chat mới, cái bảng trắng không trống hoàn toàn. Có một số thứ đã được ghi sẵn lên đó trước khi bạn kịp gõ chữ đầu tiên.
System prompt: là phần “luật chơi” mà nhà cung cấp đã cài sẵn. Ví dụ: “Bạn là Claude, một AI hữu ích do Anthropic làm ra. Đừng nói chuyện chính trị. Đừng bịa thông tin.” System prompt thường ngốn vài trăm đến vài nghìn token. Bạn không thấy nó, nhưng nó luôn ở đó.
Lịch sử chat: từng câu hỏi của bạn và từng câu trả lời của AI trong cuộc trò chuyện này. Mỗi lần AI trả lời, cả câu hỏi mới của bạn lẫn toàn bộ lịch sử cũ đều được gửi lại vào model. Lịch sử càng dài, lượng token càng phình.
File đính kèm: nếu bạn upload PDF, Word, hình ảnh, hay dán nội dung dài, mọi thứ đó đều được chuyển thành token và nhét vào window. Một file PDF 20 trang dễ dàng chiếm 15.000 đến 25.000 token. Một bức ảnh chiếm khoảng 1.000 đến 2.500 token tuỳ kích thước.
Tool và function definition: nếu bạn dùng GPTs, Claude với MCP, hay agent có tool, mỗi tool được mô tả bằng JSON chiếm thêm vài trăm token. 10 tool có thể ngốn 5.000 token chỉ riêng định nghĩa.
Câu trả lời sắp sinh ra của AI: model cần để dành một phần window cho phần output. Nếu bạn yêu cầu AI viết một bài 5.000 từ, model phải chừa lại vài nghìn token trống để có chỗ viết.
Cộng tất cả, bạn sẽ thấy context window 128.000 token nghe nhiều, nhưng trong thực tế chỉ còn vài chục nghìn token thực sự để chứa cuộc nói chuyện của bạn.
Khi window đầy, AI sẽ làm gì
Không có nhà cung cấp nào để cho model “tràn” và crash. Khi sắp hết chỗ, mỗi hệ thống có cách xử lý riêng.
Cách 1: cắt phần cũ nhất. Đây là cách phổ biến nhất ở các app chat. Khi tổng token vượt giới hạn, hệ thống bỏ bớt các tin nhắn cũ ở đầu cuộc trò chuyện. AI mất luôn ký ức về đoạn đầu. Đây là lý do bạn dán tài liệu đầu cuộc, đến lượt thứ 40 nó “quên”.
Cách 2: tự tóm tắt rồi nén lại. Một số app, ví dụ Claude Projects ở chế độ dài, sẽ tự tạo bản tóm tắt phần đầu cuộc chat khi sắp đầy. Bạn vẫn giữ được ý chính, nhưng chi tiết cụ thể (con số, tên file, đoạn code) thường bị mất.
Cách 3: báo lỗi và yêu cầu bắt đầu mới. Hiếm hơn, nhưng một số app sẽ thẳng thắn nói “cuộc trò chuyện quá dài, mở cuộc mới đi”. Cách này khó chịu nhưng minh bạch.
Cách 4: lost in the middle. Đây là hiện tượng khó nhận ra nhất. Khi window vẫn chưa đầy, nhưng nội dung trải dài hàng trăm nghìn token, AI có xu hướng nhớ rõ phần đầu và phần cuối, nhưng lơ mơ ở phần giữa. Một bài nghiên cứu nổi tiếng năm 2023 chỉ ra hiện tượng này, và đến năm 2026 nó vẫn chưa được giải quyết triệt để dù các model mới đã được train kỹ hơn.
Hệ quả thực dụng: kích thước trên giấy không bằng kích thước thực dụng. Một model quảng cáo 200.000 token thường bắt đầu mơ hồ ở mức 130.000 đến 140.000 token. Hiệu năng thực dụng thường ở mức 60 đến 70% của con số tối đa.
Năm mẹo dùng context window cho tốt
Hiểu cơ chế rồi, đây là năm thói quen tôi khuyến khích bạn thử.
Mẹo 1: chia cuộc chat theo chủ đề
Đừng nhồi tất cả mọi việc vào một cuộc chat dài. Mỗi chủ đề, mở một cuộc mới.
Cụ thể: nếu sáng nay bạn nhờ AI viết email, trưa nay bạn nhờ AI sửa CV, chiều nay bạn nhờ AI lên ý tưởng quà sinh nhật, ba việc này nên là ba cuộc chat. Khi chúng tách bạch, mỗi cuộc có bảng trắng riêng, không lẫn dữ liệu, không tranh chỗ.
Cuộc chat lý tưởng nên dưới 20 lượt qua lại. Khi vượt qua, hiệu quả bắt đầu giảm.
Mẹo 2: dán nội dung quan trọng ở đầu, kèm dấu hiệu rõ ràng
Vì AI nhớ phần đầu và phần cuối tốt hơn phần giữa, hãy đặt thông tin quan trọng nhất ở đầu cuộc trò chuyện. Dùng tiêu đề rõ ràng để dễ trỏ lại.
Ví dụ thay vì viết một đoạn dài lê thê:
[BẢN TÓM TẮT SẢN PHẨM, dùng cho mọi câu hỏi sau]
Sản phẩm: ABC
Tính năng A: ...
Tính năng B: ...
Doanh thu Q1: 12 tỷ
[HẾT BẢN TÓM TẮT]
Bây giờ hãy giúp tôi viết slide thuyết trình.
Khi đến lượt 30 bạn muốn hỏi về doanh thu, chỉ cần viết: “Quay lại bản tóm tắt ở đầu, doanh thu Q1 là bao nhiêu?” Việc đặt tên rõ ràng giúp AI tìm lại trong window nhanh và chính xác hơn.
Mẹo 3: dùng Projects hoặc Custom GPT để pin context
Cả ChatGPT lẫn Claude đều có tính năng “Project” cho phép bạn đính kèm file và viết một bản mô tả cố định, được tự động đưa vào mọi cuộc chat trong project đó.
Lợi ích: bạn không phải dán lại bản mô tả sản phẩm mỗi lần. Mỗi cuộc chat mới đều bắt đầu với “bảng trắng đã ghi sẵn” những gì bạn pin.
Hạn chế: thông tin pin vẫn ngốn token. Pin càng nhiều thì window thực dùng càng nhỏ. Pin có chọn lọc.
Bài G của series sẽ đi sâu vào Memory và Projects.
Mẹo 4: mở cuộc chat mới khi đổi chủ đề
Nghe đơn giản nhưng nhiều người không làm. Khi bạn đang sửa email rồi quay sang hỏi về công thức nấu ăn, ba cuộc khác nhau là tốt hơn một cuộc lẫn lộn.
Tại sao? Vì AI sẽ cố “trộn” context của bạn. Khi nó đã đọc 50 lượt trao đổi về email, nó có xu hướng giả định mọi câu sau đều liên quan đến email. Câu hỏi nấu ăn của bạn có thể bị AI hiểu lệch sang “viết email về món ăn” thay vì “đưa công thức”.
Quy tắc đơn giản: đổi chủ đề, mở cuộc mới.
Mẹo 5: tự tóm tắt khi cuộc chat quá dài
Khi bạn cảm thấy cuộc chat đã dài (trên 30 lượt) và bạn vẫn muốn tiếp tục dòng suy nghĩ, hãy chủ động yêu cầu AI tóm tắt rồi mở cuộc mới.
Prompt mẫu:
Cuộc trò chuyện của chúng ta đã dài. Hãy tóm tắt giúp tôi:
1. Mục tiêu ban đầu của tôi là gì
2. Các quyết định quan trọng đã thống nhất
3. Các điểm còn dang dở
4. Bất kỳ con số, tên người, hoặc link cụ thể nào đã nhắc đến
Giữ bản tóm tắt dưới 500 từ.
Sau khi AI tóm tắt, bạn copy đoạn đó, mở cuộc mới, dán vào đầu cuộc mới, rồi tiếp tục từ đó. Bạn vừa làm sạch cái bảng trắng, vừa giữ được những gì quan trọng.
Một số tình huống thực dụng
Tình huống A: tôi upload PDF 100 trang, AI có đọc hết không?
Phụ thuộc vào model và app. Với Claude Pro hoặc ChatGPT Pro, một PDF 100 trang (khoảng 50.000 đến 80.000 token) thường nằm gọn trong window. Nhưng AI sẽ áp dụng “lost in the middle”. Nó nhớ phần đầu và phần cuối, nhưng có thể bỏ qua chi tiết ở giữa. Mẹo: chỉ định trang hoặc đề mục cụ thể khi hỏi, đừng hỏi chung chung “tóm tắt cuốn này”.
Tình huống B: tôi nhờ AI viết tiểu thuyết dài. Sau 10 chương nó quên nhân vật phụ.
Đây là biểu hiện kinh điển của window tràn. Hãy thử: cuối mỗi chương, yêu cầu AI tạo một bản “character bible” liệt kê tất cả nhân vật và đặc điểm. Khi viết chương mới, dán bản character bible ở đầu cuộc chat mới.
Tình huống C: tôi gửi một file Excel 5.000 dòng, AI tính tổng sai.
Excel lớn không phải vấn đề context window, mà là vấn đề khác: AI dở toán khi xử lý mảng số liệu lớn dạng text. Mẹo: yêu cầu AI viết một đoạn code Python để tính, rồi dùng Code Interpreter (ChatGPT) hoặc Computer Use (Claude) để chạy. Đừng yêu cầu AI tính nhẩm.
Tình huống D: tôi paste mã nguồn dài, AI sửa được phần đầu nhưng quên phần cuối.
Mã nguồn thường được token hoá kém hiệu quả hơn văn bản. Một file 1.000 dòng code có thể ngốn 8.000 đến 15.000 token. Nếu file của bạn quá dài, chia thành nhiều phần, sửa từng phần một, rồi ghép lại ở cuối.
Bước tiếp theo: bài G, ghi nhớ thực sự
Bạn vừa biết context window là trí nhớ ngắn hạn của AI. Câu hỏi tiếp theo nảy ra ngay: vậy AI có trí nhớ dài hạn không? Khi tôi quay lại ngày mai, ChatGPT có nhớ tên tôi, sở thích của tôi, dự án tôi đang làm không?
Câu trả lời là có, nhưng cách hoạt động khác hẳn context window. Một số AI có tính năng tên là “Memory” hoặc “Projects” cho phép lưu trữ thông tin xuyên qua nhiều cuộc trò chuyện. Cách bật, cách quản lý, và những điều cần cẩn trọng về privacy, tôi sẽ trình bày chi tiết trong bài G của series.
Trước khi đọc tiếp, hãy thử một bài tập nhỏ: mở một cuộc chat dài bạn đang dùng dở, yêu cầu AI tóm tắt theo prompt ở Mẹo 5, rồi đối chiếu xem AI có bỏ sót thông tin quan trọng nào không. Bạn sẽ thấy rõ window đang đầy đến đâu, và việc tóm tắt giúp tiết kiệm bao nhiêu chỗ.
Hẹn bạn ở bài G.