AI cho người không code, bài F: phòng đối thoại (context window) và tại sao AI quên

Tuần trước tôi ngồi cùng ChatGPT cả buổi sáng làm bản thuyết trình. Đầu cuộc nói chuyện, tôi dán một bản tóm tắt sản phẩm ba trang. Sau đó hai bên trao đổi qua lại khoảng bốn mươi lượt: chỉnh slide, đổi văn phong, hỏi ý tưởng minh hoạ. Rồi tôi hỏi: “Quay lại đoạn về tính năng B trong bản tóm tắt ban đầu, bạn nhớ con số doanh thu không?” AI trả lời: “Tôi không thấy số liệu cụ thể trong nội dung mình có.”

Tôi cau mày. Rõ ràng số đó nằm trong bản tóm tắt tôi dán ngay từ đầu. Nó đi đâu rồi? Câu trả lời nằm ở một khái niệm gọi là context window, tạm dịch là “phòng đối thoại”. Hiểu nó, bạn sẽ ngừng bực mình và bắt đầu dùng AI hiệu quả hơn.

Hình dung context window là một cái bảng trắng

Tưởng tượng bạn vào một phòng đối thoại với AI. Phòng có một cái bảng trắng cỡ vừa. Mọi thứ bạn gõ vào, mọi câu AI trả lời, tất cả đều viết lên bảng. Khi AI trả lời câu tiếp theo, nó đọc lại toàn bộ bảng rồi mới viết tiếp.

Vấn đề là cái bảng có giới hạn. Viết đầy là không có cách nào nhét thêm. AI phải xoá đoạn cũ nhất ở trên cùng để có chỗ viết câu mới ở dưới. Đó chính là context window. Nó là “trí nhớ làm việc” của AI trong một cuộc trò chuyện. Đúng hơn, nó là tổng số chữ AI nhìn thấy được cùng lúc, gồm cả những gì bạn gửi vào lẫn những gì AI đã trả lời.

Có vài chỗ dễ nhầm cần làm rõ ngay. Context window không phải trí nhớ dài hạn. AI không “ghi nhớ” bạn từ cuộc nói chuyện hôm trước (trừ khi bật tính năng Memory, sẽ nói ở bài G). Nó cũng không phải kiến thức của model. Model đã học hàng tỷ trang khi training, nhưng kiến thức đó nằm trong weight, không nằm trong window. Và quan trọng, window chứa cả câu hỏi của bạn lẫn câu trả lời của AI, không chỉ phần bạn gõ. Khi AI “quên”, thường không phải do trí nhớ kém. Lý do là phần thông tin cần nhớ đã bị đẩy ra khỏi cái bảng trắng.

Token, đơn vị đo cái bảng

Người ta không đo context window bằng “trang giấy” hay “số ký tự”, đơn vị chuẩn là token. Một token là một mẩu chữ. Với tiếng Anh, một token thường tương đương bốn ký tự hoặc khoảng 0,75 từ. Với tiếng Việt, do bộ chữ có dấu và cấu trúc âm tiết khác, một từ thường tốn hai tới ba token.

Quy đổi nhanh để dễ hình dung: 1.000 token tiếng Anh khoảng 750 từ, dưới hai trang A4. 1.000 token tiếng Việt khoảng 300 đến 400 từ, khoảng một trang A4. 100.000 token tiếng Anh khoảng 75.000 từ, một quyển sách mỏng. Một triệu token tiếng Anh khoảng 1.400 trang A4, vài quyển tiểu thuyết. Bài H sẽ đi sâu vào token và tính tiền, hôm nay chỉ cần nhớ token là viên gạch lát phòng, phòng càng to, càng nhiều gạch.

Phòng to lên rõ rệt trong hai năm qua

Hai năm trước, một context window 8.000 token đã được coi là tốt. Hôm nay 8.000 token nghe như một căn phòng bé tí. Đầu năm 2024, mặt bằng chung rơi vào khoảng 4.000 đến 32.000 token. ChatGPT bản miễn phí dùng GPT-3.5 thời đó có khoảng 4.000 token. Claude 2 chạy quanh 100.000 token, đã là bước nhảy lớn.

Đến tháng 5 năm 2026, bức tranh thay đổi rõ. ChatGPT bản free dùng GPT-5.5 Instant có 16.000 token, bản Plus lên 32.000, Pro và Enterprise đạt 128.000 token, bản API có thể đẩy lên tận một triệu. Claude Haiku 4.5 ở mức 200.000 token, Sonnet 4.6 và Opus 4.7 đều đạt một triệu token tiêu chuẩn. Gemini 1.5 Pro và Gemini 3.1 Ultra cả hai đều có hai triệu token, Gemini 2.5 Pro hiện một triệu, bản hai triệu đang được Google bật sớm.

Có hai chỗ quan trọng dễ bị marketing đánh lừa. Thứ nhất, kích thước trên web app thường nhỏ hơn kích thước trong API. Bạn chat với ChatGPT.com bằng tài khoản Plus, bạn không có một triệu token, bạn có 32.000. Số một triệu chỉ áp dụng khi developer gọi API trực tiếp và họ trả tiền theo từng token. Thứ hai, kích thước trên giấy không bằng kích thước thực dụng. Vấn đề này tôi nói tiếp ở phần dưới.

Cái gì đang chiếm chỗ trong cái bảng của bạn

Mở một cuộc chat mới, cái bảng trắng không trống hoàn toàn. Có một số thứ đã được ghi sẵn lên đó trước khi bạn kịp gõ chữ đầu tiên. Trước hết là system prompt, phần “luật chơi” mà nhà cung cấp đã cài sẵn, ví dụ: “Bạn là Claude, một AI hữu ích do Anthropic làm ra. Đừng nói chuyện chính trị. Đừng bịa thông tin.” System prompt thường ngốn vài trăm đến vài nghìn token, bạn không thấy nó nhưng nó luôn ở đó. Tiếp theo là lịch sử chat: từng câu hỏi của bạn và từng câu trả lời của AI trong cuộc trò chuyện này. Mỗi lần AI trả lời, cả câu hỏi mới của bạn lẫn toàn bộ lịch sử cũ đều được gửi lại vào model. Lịch sử càng dài, lượng token càng phình.

Thêm vào đó là file đính kèm. Upload PDF, Word, hình ảnh, hay dán nội dung dài, mọi thứ đều chuyển thành token và nhét vào window. Một file PDF 20 trang dễ dàng chiếm 15.000 đến 25.000 token. Một bức ảnh chiếm khoảng 1.000 đến 2.500 token tuỳ kích thước. Nếu dùng GPTs, Claude với MCP, hay agent có tool, mỗi tool được mô tả bằng JSON chiếm thêm vài trăm token, mười tool có thể ngốn 5.000 token chỉ riêng định nghĩa. Cuối cùng, model phải để dành một phần window cho câu trả lời sắp sinh ra. Yêu cầu AI viết một bài 5.000 từ, nó phải chừa lại vài nghìn token trống để có chỗ viết. Cộng tất cả, bạn sẽ thấy context window 128.000 token nghe nhiều, nhưng thực tế chỉ còn vài chục nghìn token cho cuộc nói chuyện của bạn.

Khi window đầy

Không có nhà cung cấp nào để cho model “tràn” và crash. Sắp hết chỗ, mỗi hệ thống có cách xử lý riêng. Cách phổ biến nhất ở các app chat: cắt phần cũ nhất. Tổng token vượt giới hạn, hệ thống bỏ bớt các tin nhắn cũ ở đầu cuộc trò chuyện. AI mất luôn ký ức về đoạn đầu. Đây là lý do bạn dán tài liệu đầu cuộc, đến lượt thứ bốn mươi nó “quên”. Một số app, ví dụ Claude Projects ở chế độ dài, lại tự tạo bản tóm tắt phần đầu cuộc chat khi sắp đầy. Bạn vẫn giữ được ý chính, nhưng chi tiết cụ thể (con số, tên file, đoạn code) thường bị mất. Hiếm hơn, một số app sẽ thẳng thắn báo “cuộc trò chuyện quá dài, mở cuộc mới đi”. Khó chịu nhưng minh bạch.

Khó nhận ra nhất là “lost in the middle”. Window vẫn chưa đầy, nhưng nội dung trải dài hàng trăm nghìn token, AI có xu hướng nhớ rõ phần đầu và phần cuối, nhưng lơ mơ ở phần giữa. Bài nghiên cứu nổi tiếng năm 2023 chỉ ra hiện tượng này, đến năm 2026 nó vẫn chưa được giải quyết triệt để dù các model mới được train kỹ hơn. Hệ quả thực dụng: model quảng cáo 200.000 token thường bắt đầu mơ hồ ở mức 130.000-140.000 token. Hiệu năng thực dụng chỉ khoảng 60 đến 70% của con số tối đa.

Vài thói quen dùng context window cho tốt

Hiểu cơ chế rồi, đây là vài thói quen tôi khuyến khích thử. Đầu tiên là chia cuộc chat theo chủ đề. Đừng nhồi tất cả mọi việc vào một cuộc chat dài. Sáng nay nhờ AI viết email, trưa nay nhờ sửa CV, chiều nay nhờ lên ý tưởng quà sinh nhật, ba việc nên là ba cuộc chat. Tách bạch, mỗi cuộc có bảng trắng riêng, không lẫn dữ liệu, không tranh chỗ. Cuộc chat lý tưởng nên dưới hai mươi lượt qua lại, vượt là hiệu quả bắt đầu giảm.

Thứ hai là dán nội dung quan trọng ở đầu, kèm dấu hiệu rõ. Vì AI nhớ phần đầu và phần cuối tốt hơn phần giữa, đặt thông tin quan trọng nhất ở đầu cuộc trò chuyện, dùng tiêu đề rõ ràng để dễ trỏ lại. Ví dụ thay vì viết một đoạn dài lê thê:

[BẢN TÓM TẮT SẢN PHẨM, dùng cho mọi câu hỏi sau]
Sản phẩm: ABC
Tính năng A: ...
Tính năng B: ...
Doanh thu Q1: 12 tỷ
[HẾT BẢN TÓM TẮT]

Bây giờ hãy giúp tôi viết slide thuyết trình.

Đến lượt thứ ba mươi muốn hỏi về doanh thu, chỉ cần viết: “Quay lại bản tóm tắt ở đầu, doanh thu Q1 là bao nhiêu?” Đặt tên rõ giúp AI tìm lại trong window nhanh và chính xác hơn.

Thứ ba là dùng Projects hoặc Custom GPT để pin context. Cả ChatGPT lẫn Claude đều có tính năng Project cho phép bạn đính kèm file và viết một bản mô tả cố định, được tự động đưa vào mọi cuộc chat trong project đó. Lợi ích: không phải dán lại bản mô tả sản phẩm mỗi lần. Mỗi cuộc chat mới đều bắt đầu với “bảng trắng đã ghi sẵn” những gì bạn pin. Hạn chế: thông tin pin vẫn ngốn token. Pin càng nhiều, window thực dùng càng nhỏ. Bài G sẽ đi sâu hơn vào Memory và Projects.

Thứ tư, đổi chủ đề thì mở cuộc chat mới. Nghe đơn giản nhưng nhiều người không làm. Đang sửa email rồi quay sang hỏi về công thức nấu ăn, hai cuộc khác nhau là tốt hơn một cuộc lẫn lộn. Vì AI sẽ cố “trộn” context. Nó đã đọc 50 lượt trao đổi về email, nó có xu hướng giả định mọi câu sau đều liên quan đến email. Câu hỏi nấu ăn của bạn có thể bị AI hiểu lệch sang “viết email về món ăn” thay vì “đưa công thức”.

Cuối cùng, khi cuộc chat đã dài (trên ba mươi lượt) mà bạn vẫn muốn tiếp tục, chủ động yêu cầu AI tóm tắt rồi mở cuộc mới. Prompt mẫu tôi hay dùng:

Cuộc trò chuyện của chúng ta đã dài. Hãy tóm tắt giúp tôi:
1. Mục tiêu ban đầu của tôi là gì
2. Các quyết định quan trọng đã thống nhất
3. Các điểm còn dang dở
4. Bất kỳ con số, tên người, hoặc link cụ thể nào đã nhắc đến
Giữ bản tóm tắt dưới 500 từ.

AI tóm tắt, bạn copy đoạn đó, mở cuộc mới, dán vào đầu cuộc mới, tiếp tục từ đó. Vừa làm sạch cái bảng trắng, vừa giữ được những gì quan trọng.

Vài tình huống thực dụng

Upload PDF một trăm trang, AI có đọc hết không? Phụ thuộc vào model và app. Với Claude Pro hoặc ChatGPT Pro, PDF một trăm trang (khoảng 50.000 đến 80.000 token) thường nằm gọn trong window. Nhưng AI sẽ áp dụng “lost in the middle”. Nó nhớ phần đầu và phần cuối, có thể bỏ qua chi tiết ở giữa. Chỉ định trang hoặc đề mục cụ thể khi hỏi, đừng hỏi chung chung “tóm tắt cuốn này”.

Nhờ AI viết tiểu thuyết dài, sau mười chương nó quên nhân vật phụ? Biểu hiện kinh điển của window tràn. Cuối mỗi chương, yêu cầu AI tạo một bản “character bible” liệt kê tất cả nhân vật và đặc điểm. Viết chương mới, dán bản character bible ở đầu cuộc chat mới.

Gửi file Excel 5.000 dòng, AI tính tổng sai? Excel lớn không phải vấn đề context window, mà là vấn đề khác: AI dở toán khi xử lý mảng số liệu lớn dạng text. Yêu cầu AI viết một đoạn code Python để tính, rồi dùng Code Interpreter (ChatGPT) hoặc Computer Use (Claude) để chạy. Đừng yêu cầu AI tính nhẩm. Paste mã nguồn dài, AI sửa được phần đầu nhưng quên phần cuối? Code thường được token hoá kém hiệu quả hơn văn bản, file 1.000 dòng code có thể ngốn 8.000 đến 15.000 token. File quá dài thì chia thành nhiều phần, sửa từng phần, ghép lại ở cuối.

Bài tập nhỏ

Mở một cuộc chat dài bạn đang dùng dở, yêu cầu AI tóm tắt theo prompt phía trên, đối chiếu xem AI có bỏ sót thông tin quan trọng nào không. Bạn sẽ thấy rõ window đang đầy đến đâu, và việc tóm tắt giúp tiết kiệm bao nhiêu chỗ.

Bài G đi tiếp câu hỏi tự nhiên sau đó: ngoài trí nhớ ngắn hạn trong một chat, AI có nhớ dài hạn được không.