Ở bài A tôi nói AI bản chất là một công cụ “đoán chữ tiếp theo”. Nghe có vẻ đơn giản đến mức đáng nghi. Một công cụ chỉ biết đoán chữ tiếp theo thì làm sao viết được một email công việc nghe đầy đủ, làm sao tóm tắt được hợp đồng dài năm trang, làm sao trả lời câu hỏi về Excel mà tôi vừa hỏi?

Bài này tôi sẽ kể chi tiết hơn về cách “bộ não” của AI thực sự làm việc. Tôi sẽ tránh thuật ngữ kỹ thuật hết mức có thể. Mục tiêu là sau khi đọc xong, bạn nhìn vào ChatGPT hay Gemini và hiểu được nó đang làm gì bên trong, dù bạn chưa từng học một dòng code.

Bắt đầu từ chỗ bạn đã biết: autocomplete điện thoại

Cầm điện thoại lên, mở Messenger hay tin nhắn, gõ chữ “chiều nay đi”. Phía trên bàn phím sẽ hiện ra vài gợi ý: “ăn”, “cà phê”, “học”, “làm”. Đó là autocomplete. Điện thoại đoán chữ kế tiếp dựa trên những gì bạn vừa gõ.

Cách autocomplete làm việc khá đơn giản. Nó học từ rất nhiều câu mà người dùng đã gõ trước đây, ghi nhớ những cặp chữ thường đi cùng nhau. “Chiều nay đi” thường được nối tiếp bởi “ăn”, “cà phê”, “học”. Khi bạn gõ đến đoạn đó, điện thoại tra cứu danh sách những chữ hay đi kèm rồi đề xuất.

Một số bàn phím hiện đại như Gboard của Google hay SwiftKey trên iPhone đã dùng AI thật sự cho autocomplete. Nó không chỉ tra cứu danh sách, nó còn nhìn vào ngữ cảnh vài câu trước đó, vào lịch sử gõ của bạn, để đoán chữ kế tiếp chính xác hơn. Nếu bạn hay gõ “chiều nay đi tập gym”, điện thoại sẽ học và lần sau gợi ý “tập” thay vì “ăn”.

ChatGPT và các AI lớn khác hoạt động cùng một nguyên lý cốt lõi đó. Khác biệt chính là quy mô.

Từ autocomplete điện thoại đến AI khổng lồ

Autocomplete điện thoại học từ vài triệu câu. ChatGPT học từ hàng chục tỷ trang văn bản. Đó là một sự khác biệt khủng khiếp về quy mô. Khi học từ một lượng dữ liệu lớn đến mức đó, mô hình bắt đầu nhận ra những quy luật mà autocomplete nhỏ không thấy được.

Ví dụ cụ thể. Autocomplete điện thoại biết “chiều nay đi” hay đi với “ăn”. Nó không biết tại sao. Một AI lớn, sau khi đọc hàng tỷ tin nhắn, blog, bài báo, sách giáo khoa, hợp đồng, bắt đầu nhận ra: “chiều nay” liên quan đến thời gian buổi chiều, “đi” liên quan đến di chuyển, và những hoạt động phổ biến vào buổi chiều là ăn uống, cà phê, học hành. Nó không “hiểu” theo nghĩa con người hiểu, nhưng nó nhận diện được rất nhiều mẫu hình mà chữ này hay đi với chữ kia trong những ngữ cảnh nào.

Andrej Karpathy, một trong những người sáng lập OpenAI, có một cách mô tả rất hay. Ông nói AI lớn giống như một file zip một terabyte chứa nén lại toàn bộ tri thức mà nó đọc được trên internet. Khi bạn hỏi nó một câu, nó “giải nén” phần phù hợp ra để trả lời. Không có ý thức, không có cảm xúc, không có ý định. Chỉ có mẫu hình.

Quy trình “dự đoán chữ tiếp theo” diễn ra như thế nào

Tôi sẽ kể từng bước, dùng ví dụ thật. Giả sử bạn hỏi ChatGPT:

Thủ đô của Việt Nam là gì?

Cách AI trả lời câu này gồm các bước sau, lặp đi lặp lại rất nhanh.

Bước một: AI nhìn vào toàn bộ câu hỏi của bạn. Nó không nhìn từng chữ riêng lẻ. Nó nhìn cả câu như một đoạn ngữ cảnh.

Bước hai: AI tự hỏi: “Sau câu này, chữ đầu tiên trong câu trả lời thường là gì?” Dựa trên hàng tỷ ví dụ nó đã đọc, nó liệt kê các khả năng kèm xác suất. Có thể “Thủ” có xác suất 60 phần trăm, “Hà” có xác suất 30 phần trăm, “Việt” 5 phần trăm, các chữ khác chia nhau phần còn lại. Nó chọn chữ có xác suất cao nhất hoặc rút thăm có trọng số. Giả sử nó chọn “Thủ”.

Bước ba: Bây giờ ngữ cảnh là “Thủ đô của Việt Nam là gì? Thủ”. AI hỏi tiếp: “Sau ngữ cảnh này, chữ kế tiếp là gì?” Lại liệt kê xác suất, lại chọn. Có thể là “đô”.

Bước bốn: Lặp lại. “Thủ đô”. “Thủ đô của”. “Thủ đô của Việt”. Cứ thế cho đến khi AI sinh ra một chữ đặc biệt báo hiệu hết câu, hoặc đến giới hạn độ dài cho phép.

Toàn bộ quá trình này chạy cực kỳ nhanh. Một câu trả lời 100 chữ có thể được sinh ra trong vài giây, mỗi chữ là một lần “dự đoán chữ tiếp theo” hoàn chỉnh.

Tại sao chia thành “token” chứ không phải “chữ”

Một chi tiết nhỏ tôi cần làm rõ. Khi tôi nói “dự đoán chữ tiếp theo”, thực ra AI không làm việc với chữ. Nó làm việc với cái gọi là token. Một token có thể là một chữ ngắn, một phần của chữ dài, hoặc thậm chí một dấu câu.

Ví dụ chữ “Vietnam” trong tiếng Anh có thể bị AI cắt thành hai token: “Viet” và “nam”. Chữ “unhappiness” có thể bị cắt thành “un”, “happi”, “ness”. Lý do là nếu AI phải nhớ từng chữ riêng lẻ thì kho từ vựng sẽ quá lớn. Nếu nó chỉ nhớ từng ký tự (a, b, c, d…) thì câu lại quá dài. Cắt thành token cỡ trung là một thoả hiệp thông minh.

Với người dùng cuối, bạn không cần quan tâm chi tiết này. Nhưng nếu có lúc bạn nghe người ta nói “token” thay vì “chữ”, đặc biệt khi nói về giá tiền của AI (tính theo token), bạn biết họ đang nói về cái này. Một câu tiếng Anh trung bình 75 chữ thường tương đương khoảng 100 token. Tiếng Việt thường tốn nhiều token hơn vì cách AI cắt câu chưa tối ưu cho tiếng Việt như cho tiếng Anh.

Vì sao quy trình đơn giản này lại tạo ra câu trả lời nghe thông minh

Đây là phần làm nhiều người bối rối. Nếu AI chỉ đoán chữ tiếp theo dựa trên mẫu hình, vì sao nó có thể viết một email phức tạp đầy đủ chủ ngữ vị ngữ, giải thích được một khái niệm khoa học, hay làm thơ vần điệu?

Câu trả lời nằm ở quy mô và ở việc AI học không chỉ chữ mà cả mẫu hình của ngôn ngữ. Khi đọc hàng tỷ trang văn bản, AI học được:

  • Ngữ pháp, không phải bằng cách học sách giáo khoa, mà bằng cách thấy hàng tỷ câu đúng ngữ pháp.
  • Sự kiện, ví dụ thủ đô Việt Nam là Hà Nội, vì câu đó xuất hiện trong rất nhiều văn bản.
  • Phong cách viết, từ trang trọng đến thân mật, vì AI thấy đủ kiểu văn bản khác nhau.
  • Cấu trúc bài viết, ví dụ một email công việc thường mở bằng lời chào, thân bài có 3 đoạn, kết bằng câu chào và chữ ký.
  • Suy luận đơn giản, vì nhiều văn bản chứa cả lý lẽ và kết luận, AI học được cách đi từ tiền đề đến kết luận.

Khi bạn hỏi “Viết giúp tôi email xin nghỉ phép”, AI không có một template sẵn. Nhưng nó đã đọc hàng chục nghìn email xin nghỉ phép thật. Mẫu hình của những email đó (chào, nêu lý do, nêu thời gian, cảm ơn) đã in vào trọng số của mô hình. Khi sinh chữ tiếp theo, mỗi bước nó chọn chữ có xác suất cao nhất theo những mẫu hình đó. Kết quả là một email mới, không sao chép trực tiếp email nào, nhưng nghe giống email xin nghỉ phép thật.

So sánh với cách con người suy nghĩ

Đây là phần dễ nhầm lẫn nhất. Khi bạn đọc câu trả lời của ChatGPT, có cảm giác nó đang “nghĩ”. Nó dùng từ “tôi”, nó xin lỗi nếu sai, nó giải thích lý do. Rất giống cách con người trả lời.

Nhưng cách AI sinh câu trả lời khác hẳn cách bạn nghĩ. Khi bạn suy nghĩ trước khi nói, bạn có một ý tưởng tổng thể trong đầu, rồi mới chọn từ ngữ để diễn đạt ý đó. AI làm ngược lại. Nó không có ý tưởng tổng thể trước. Nó chỉ chọn chữ tiếp theo, rồi chữ tiếp theo nữa, dựa trên những gì đã sinh ra trước đó. “Ý tưởng tổng thể” của câu trả lời xuất hiện như là tổng hợp của tất cả các lựa chọn chữ đó, chứ không có sẵn trong đầu nó.

Một cách hình dung khác. Hãy tưởng tượng bạn đang chơi một game: bạn phải viết một câu, nhưng chỉ được nhìn vào chữ vừa gõ ra và đoán chữ kế tiếp, không được phép nghĩ trước câu hoàn chỉnh. Đó là cách AI làm việc. Nó không có “tầng suy nghĩ” tách rời với “tầng nói ra”.

Hệ quả là gì? AI rất giỏi với những câu có mẫu hình rõ ràng (email, tóm tắt, dịch thuật, viết code) vì các mẫu này có sẵn trong dữ liệu huấn luyện. AI dở hơn với những câu cần suy luận dài hoặc cần thông tin mới mà nó chưa thấy. Tôi sẽ nói về phần này kỹ hơn ở mục sau.

Giới hạn cốt lõi của quy trình này

Vì AI chỉ dự đoán chữ tiếp theo, có một vài giới hạn xuất phát trực tiếp từ cơ chế đó. Bạn nên biết để đặt kỳ vọng đúng.

Một là AI không tự kiểm tra sự thật. Khi chọn chữ tiếp theo, nó chọn chữ có xác suất cao theo ngữ cảnh, không phải chữ đúng nhất theo sự thật. Nếu trong dữ liệu huấn luyện có nhiều người viết sai một sự kiện, AI có thể sinh ra câu trả lời sai một cách rất thuyết phục. Đây là lý do AI hay “bịa” (hallucinate). Bài E của series này tôi sẽ kể chi tiết về hiện tượng này.

Hai là AI không có trí nhớ dài hạn mặc định. Mỗi lần bạn mở cửa sổ chat mới, AI bắt đầu lại từ con số không. Nó không nhớ bạn là ai, lần trước nói gì. Ngữ cảnh nó nhìn vào chỉ là cuộc trò chuyện hiện tại. Đây gọi là context window, một khái niệm tôi sẽ làm rõ ở bài F.

Ba là AI bị giới hạn bởi dữ liệu huấn luyện. Nó chỉ biết những gì đã được đọc tới thời điểm huấn luyện. Nếu hôm nay có một sự kiện mới xảy ra, AI huấn luyện từ năm ngoái sẽ không biết. Một số AI hiện đại đã tích hợp khả năng tìm kiếm web để bù lại điểm yếu này.

Bốn là AI không “hiểu” theo nghĩa con người hiểu. Nó nhận diện mẫu hình rất giỏi, nhưng không có khái niệm về ý nghĩa, ý định, hay đúng sai. Một câu trả lời nghe rất hợp lý vẫn có thể hoàn toàn sai. Bạn luôn cần kiểm tra với những việc quan trọng.

”Bộ não của AI” có thực sự là bộ não

Câu trả lời ngắn gọn: không, không theo nghĩa sinh học. Tên gọi “neural network” (mạng nơ-ron) bắt nguồn từ việc các nhà khoa học lấy cảm hứng từ cách neuron sinh học hoạt động, nhưng sự giống nhau dừng ở mức cảm hứng. Một mô hình AI là một mạng các con số (parameter), khoảng vài trăm tỷ đến vài nghìn tỷ con số. Khi bạn gửi câu hỏi, các con số đó được tính toán theo công thức cố định để cho ra xác suất chữ tiếp theo. Không có cảm xúc, không có ý chí, chỉ có toán học.

Khi nghe người ta nói “bộ não của AI”, hãy hiểu đó là cách nói ẩn dụ tiện lợi. Cách dùng AI hiệu quả nhất là coi nó như một trợ lý rất nhanh nhưng cần được kiểm tra. Cho AI làm phần thô (draft email, tổng hợp ý, đề xuất phương án), bạn làm phần tinh (chỉnh sửa, kiểm tra, quyết định).

Tổng kết

Bộ não của AI là một mô hình dự đoán chữ tiếp theo, làm việc với token thay vì chữ trực tiếp, học từ hàng tỷ trang văn bản, và sinh câu trả lời bằng cách chọn từng chữ một dựa trên xác suất. Quy trình này nghe đơn giản nhưng ở quy mô đủ lớn lại sinh ra những hành vi rất giống thông minh: viết email, tóm tắt, dịch, giải thích.

Tuy vậy AI không “nghĩ” theo nghĩa con người. Nó không kiểm tra sự thật, không có trí nhớ dài hạn mặc định, không “hiểu” ý nghĩa. Nó chỉ rất giỏi với mẫu hình ngôn ngữ. Đặt kỳ vọng đúng vào điểm này là chìa khoá để dùng AI hiệu quả.

Bước tiếp theo: bài C

Ở bài C tôi sẽ chuyển sang một câu hỏi thực tế hơn. Trên thị trường hiện có ba chatbot AI phổ biến nhất: ChatGPT, Claude, Gemini. Cái nào nên chọn? Giá bao nhiêu? Mỗi cái mạnh gì? Tôi sẽ so sánh dựa trên cách dùng thật của người không tech, không dựa vào benchmark kỹ thuật.

Bạn không cần đọc xong bài B để qua bài C. Hai bài độc lập về mặt nội dung. Nhưng nếu bạn hiểu cơ chế “dự đoán chữ tiếp theo” như đã kể ở đây, bạn sẽ thấy phần so sánh chatbot ở bài C có ý nghĩa hơn: cả ba chatbot đều dựa trên cùng một cơ chế cốt lõi, chỉ khác nhau ở dữ liệu huấn luyện, ở cách tinh chỉnh sau khi huấn luyện, và ở cách giao diện được thiết kế.

Tài liệu tham khảo

  1. Andrej Karpathy, Deep Dive into LLMs like ChatGPT, summary
  2. Notes on Deep Dive into LLMs like ChatGPT from Andrej Karpathy, Diego Lopez Padilla
  3. How LLM Predict the Next Token, Erick Santana
  4. Next-Token Prediction Explained, How LLMs Generate Text
  5. Predictive Text, How AI Knows What You Are Going to Type, Databank
  6. Subword Secrets, The Intricacies and Impact of BPE Tokenization