AI cho người không code, bài J: tóm tắt PDF dài, sách, báo cáo

Đêm trước buổi họp shareholder của một công ty tôi đang tư vấn, sếp ném sang Zalo một file PDF 80 trang. Annual report 2025. Tin nhắn ngắn gọn: “Sáng mai 8h họp, em đọc rồi gửi anh 5 điểm quan trọng nhất.” Lúc đó là 10 giờ tối. Vợ đã ngủ, con đã ngủ, tôi pha một ly cà phê đen rồi mở file ra. 80 trang. Tiếng Anh. Phần phân tích tài chính dày đặc bảng số. Phần ESG có một loạt từ chuyên ngành tôi không quen.

Hai năm trước tôi sẽ đọc tới 3 giờ sáng, ghi note bằng tay, sáng mai đến họp với cái đầu vẫn còn lơ mơ. Đêm đó tôi không làm vậy. Tôi mở Claude và NotebookLM song song, upload file vào, chạy một quy trình mà tôi đúc kết qua khoảng hai chục lần làm việc với PDF dài. 11 giờ rưỡi tôi đã có 5 bullet sạch, mỗi bullet kèm số trang gốc để mai có ai hỏi thì lật lại verify. Đi ngủ lúc nửa đêm.

Bài này là bản ghi lại quy trình đó. Không phải lý thuyết, là cách tôi thật sự dùng khi bị ném một file dài vào cuối ngày. Bạn không cần nhớ hết tên tool. Cái cần nhớ là ba việc: upload đúng chỗ, bắt AI chỉ ra nguồn, và biết lúc nào không nên upload gì cả.

Bottleneck thật sự không phải là model, là copy paste

Trước khi nói về tool, tôi muốn dừng ở một điểm mà phần lớn người không code chưa nhận ra. Vấn đề lớn nhất khi tóm tắt PDF dài không phải AI dở. Vấn đề là bạn copy paste quá lâu, và mỗi lần copy paste lại làm mất số trang gốc.

Cách phổ biến tôi thấy bạn bè làm: mở PDF, đọc 5 trang, copy đoạn đó dán vào ChatGPT, hỏi “tóm tắt giúp tôi”. Sang 5 trang tiếp theo, mở chat mới, làm lại. Một file 80 trang chia 16 lần như vậy, mỗi lần copy paste mất 3 phút, gần một tiếng chỉ riêng thao tác cơ học. Chưa kể bạn sẽ quên đoạn vừa tóm tắt nằm ở trang nào. Cách thứ hai dở không kém: paste cả file ra text rồi nhồi vào một prompt khổng lồ. Context window không chứa nổi 80 trang text, AI có thể cắt phần giữa và bạn không biết nó cắt cái gì. Tôi đã giải thích kỹ ở bài F, phòng đối thoại và tại sao AI quên. Đoạn bị bỏ qua thường lại là đoạn bạn cần nhất.

Quy trình tôi dùng tránh cả hai bẫy. Upload trực tiếp file PDF, không paste text. Để AI giữ structure gốc (số trang, heading, bảng). Khi cần verify, yêu cầu AI trích nguyên văn kèm số trang. Ba điểm đều đơn giản nhưng đổi cuộc chơi.

Upload PDF vào đâu, ba lựa chọn chính

Ba công cụ tôi dùng hàng ngày là Claude, ChatGPT, NotebookLM. Mỗi cái mạnh ở một việc, không có cái nào thắng tuyệt đối.

Claude là lựa chọn mặc định cho file dưới 100 trang. Vào claude.ai, kéo file PDF vào ô chat, gõ prompt. Claude Pro hỗ trợ context window 200 nghìn tới 1 triệu token tuỳ model, tương đương 1.500 trang tiếng Anh. Annual report 80 trang nằm gọn, không bị cắt. Claude hiểu structure khá tốt, nhận ra heading, danh sách, bảng, giữ được hierarchy khi tóm tắt. Bài H giải thích kỹ về token và các gói trả phí, chưa rõ Claude Pro khác Free chỗ nào thì đọc bài đó trước.

ChatGPT tôi dùng khi file có nhiều bảng số cần tính toán. Upload file vào ChatGPT Plus, model tự bật Code Interpreter, chạy Python tính tổng, vẽ chart, lọc dòng. Sếp hỏi “doanh thu Q3 so với Q2 chênh bao nhiêu phần trăm” và file có bảng raw, ChatGPT tính nhanh và chính xác hơn Claude. Hạn chế: context window web app Plus chỉ 32 nghìn token, file 80 trang đôi khi bị cắt, ChatGPT không báo, nó cứ tóm tắt phần còn lại như chưa có gì xảy ra. Đây là cái bẫy lớn.

NotebookLM của Google là công cụ tôi yêu thích nhất cho long form và multi file. Vào notebooklm.google.com, tạo notebook mới, upload PDF (có thể upload nhiều file, lên tới 50 source). NotebookLM khác hai cái kia ở chỗ mỗi câu trả lời đều có inline citation: ngay sau câu là số thứ tự dẫn về đoạn gốc, click vào nhảy thẳng tới chỗ đó. Annual report cần verify từng con số, citation này tiết kiệm hàng giờ. Thêm nữa NotebookLM sinh audio overview (podcast 10-15 phút) hoặc mind map. Hạn chế: không tính toán, không sinh code, nó là pure RAG. Đêm đó tôi dùng Claude để hiểu structure tổng và NotebookLM để verify số.

Khi PDF quá dài, chia chunk theo chương

File 80 trang vẫn nằm trong context window của Claude và NotebookLM. Nhưng giả sử bạn nhận file 400 trang (sách giáo trình, luận văn, bộ hợp đồng dài), không tool nào nuốt trọn một lần. Lúc này phải chia.

Quy tắc của tôi: chia theo structure tự nhiên, không chia theo số trang đều. Sách có chương, báo cáo có phần (Executive Summary, Financial, Operations, ESG, Outlook), luận văn có Introduction-Methodology-Result-Discussion. Mở mục lục, ghi ra ranh giới từng phần. Phần dài quá (trên 50 trang) thì chia tiếp thành subsection.

Ví dụ thực tế tôi từng làm với quyển giáo trình quản trị 380 trang, 12 chương. Tôi tách thành 12 file PDF nhỏ bằng Preview trên Mac (sidebar, chọn page range, file → export as PDF). Upload từng file vào một NotebookLM notebook chung. Điểm hay của NotebookLM: 12 source nằm trong cùng notebook, tôi vẫn hỏi câu xuyên chương được, ví dụ “chương nào nói về OKR và chương nào nói về KPI, hai khái niệm liên hệ thế nào”. NotebookLM tìm trong cả 12 source và trả lời kèm citation.

Tách PDF không cần app cao siêu. Mac có Preview, Windows có PDF24 (free, offline) hoặc website ilovepdf.com (chú ý privacy, đoạn dưới), Linux có pdftk hoặc qpdf, đều miễn phí. Một mẹo nhỏ: đặt tên file rõ theo structure, chuong-03-quan-tri-muc-tieu.pdf thay vì part3.pdf, AI tổng hợp sẽ trỏ lại tên file, tên rõ thì verify dễ hơn.

Prompt 3 lớp: TL;DR, từng chương, hỏi sâu

Đây là quy trình tôi thật sự gõ vào AI. Lớp 1 là TL;DR 5 câu, lớp 2 là tóm tắt từng phần, lớp 3 là hỏi sâu vào phần tôi quan tâm. Cùng một file, nhưng không dùng một prompt duy nhất để đòi tất cả.

Lớp 1, prompt tôi gõ ngay khi vừa upload:

Đây là [tên tài liệu]. Viết TL;DR đúng 5 câu, mỗi câu một ý.
Câu 1: tài liệu này là gì, viết cho ai.
Câu 2: kết luận tài chính quan trọng nhất.
Câu 3: thay đổi lớn nhất so với năm trước.
Câu 4: rủi ro được nhấn mạnh.
Câu 5: kế hoạch cho năm tới.
Không bullet, viết câu hoàn chỉnh.

5 câu này cho tôi cái nhìn macro trong 30 giây. Sếp gọi đột xuất hỏi “report nói gì”, tôi đọc 5 câu là trả lời được. Quan trọng là yêu cầu cấu trúc cụ thể, không phải “tóm tắt giúp tôi”. Prompt mở quá rộng thì AI trả lời chung chung, prompt có khung thì AI buộc phải nén nội dung vào đúng khung.

Lớp 2, sau khi có TL;DR, tôi hỏi từng phần:

Tóm tắt phần [Financial Performance, trang 23-45].
Format: 2 câu nội dung chính, 
3 con số quan trọng nhất kèm số trang, 
1 câu về điểm bất thường.

Lặp lại cho Operations, ESG, Outlook. Mỗi phần một lượt, không nhồi cả 5 phần vào một prompt. Tách ra giúp AI tập trung và giúp tôi dễ scan. Phần nào ra hời hợt, yêu cầu chi tiết hơn ở chính lượt đó.

Lớp 3 là phần đắt giá nhất, hỏi sâu vào cái sếp sẽ hỏi. Annual report của công ty kia tôi biết sếp quan tâm hai thứ: margin gross của line sản phẩm mới, và guidance về capex 2026. Tôi gõ:

Tìm trong tài liệu mọi đề cập tới [line sản phẩm X].
Với mỗi đề cập, trích nguyên văn câu đó, kèm số trang.
Sau đó tổng hợp 3 câu: strategy với line này, 
doanh thu line này, margin gross nếu có công bố.

“Trích nguyên văn” là cụm từ ma thuật. Yêu cầu trích nguyên văn kèm số trang, AI không bịa được, nó hoặc trả lời chính xác hoặc nói “không tìm thấy”. Cả hai đều có giá trị. Mọi câu trả lời không có nguyên văn đính kèm tôi coi là chưa verified, phải tự lật file kiểm tra.

Khi AI bỏ sót, ép nó trích nguyên văn

Một lần tôi tóm tắt báo cáo của Bộ Tài chính về thuế tối thiểu toàn cầu. Claude trả lời “báo cáo nêu rằng Việt Nam sẽ áp dụng quy tắc QDMTT từ năm 2026”. Tôi đọc thấy hợp lý, định copy luôn vào memo. May là kịp dừng lại, yêu cầu Claude trích nguyên văn câu nói lên điều đó kèm số trang. Claude trả lời: “Tôi xin lỗi, sau khi kiểm tra lại tài liệu, tôi không tìm thấy câu nào nói rõ Việt Nam áp dụng QDMTT từ 2026. Tài liệu nói về QDMTT trong bối cảnh OECD Pillar 2, không có cam kết cụ thể về Việt Nam.” Sai một con chữ. Nếu tôi không yêu cầu trích nguyên văn, tôi đã gửi memo sai cho sếp.

Đây là pattern phổ biến của LLM hiện tại. Nó pull đúng vùng nội dung trong context, nhưng diễn giải lại bằng ngôn ngữ riêng, và trong quá trình diễn giải nó thêm thắt suy luận của model. Phần thêm thắt thường nghe rất hợp lý vì model có kiến thức nền về domain, nhưng nó không phải là thứ tài liệu thật sự nói. Bài E, em phịa hallucination nói kỹ hơn về hiện tượng này.

Quy trình verify của tôi rất đơn giản. Câu trả lời nào quan trọng (sẽ vào memo gửi sếp, vào báo cáo gửi khách, vào quyết định business), tôi gõ tiếp một prompt: “Trích nguyên văn 1-2 câu trong tài liệu support cho phát biểu này, kèm số trang. Nếu không có nguyên văn rõ ràng, hãy nói thẳng là không có.” Yêu cầu cuối (“nói thẳng là không có”) quan trọng, vì model có xu hướng cố tìm cái gì đó để trả lời thay vì thừa nhận không có. Cho phép nó nói “không có” thì nó sẽ nói.

Ba công cụ, ba lý do dùng

Tôi liệt kê ngắn để bạn dễ chọn theo nhu cầu.

NotebookLM mạnh nhất cho long form và multi file. File trên 100 trang, hoặc nhiều file cùng chủ đề (ví dụ 5 báo cáo quý của cùng công ty), NotebookLM là first choice. Citation tự động vào tận đoạn gốc giúp verify nhanh. Audio overview hữu ích khi bạn cần nghe trên đường lái xe. Hạn chế: không tính toán, không sinh code. NotebookLM ở Google Workspace có chính sách không train trên data, điểm cộng lớn cho tài liệu nhạy cảm.

Claude mạnh nhất cho structure understanding. Hợp đồng có nhiều clause lồng nhau, sách giáo trình có chương con subsection, Claude theo dõi hierarchy tốt nhất trong ba cái. Context window lớn (Sonnet 4.6 và Opus 4.7 đều 1 triệu token, đủ chứa file 1.400 trang tiếng Anh). Hỏi xuyên section (“phần X liên hệ thế nào với phần Y”) Claude làm tốt hơn ChatGPT. Hạn chế: không có inline citation tự động, phải yêu cầu trích nguyên văn từng lần.

ChatGPT mạnh nhất khi cần tính toán hoặc transform dữ liệu. File có nhiều bảng số, file Excel hoặc CSV, ChatGPT bật Code Interpreter và xử lý bằng Python, tạo chart trực tiếp. Hạn chế: context window web app chỉ 32K cho Plus, file dài bị cắt mà không thông báo. ChatGPT cũng dễ “phát minh” số liệu hơn Claude khi context bị thiếu, đặc biệt với report tiếng Việt.

Quy tắc cá nhân của tôi: bắt đầu với NotebookLM nếu file dài và cần verify. Chuyển sang Claude nếu cần hỏi xuyên structure. Đẩy sang ChatGPT nếu phải tính số. Nhiều khi tôi mở cả ba trên ba tab.

PDF ảnh scan, OCR trước hoặc dùng multimodal

PDF là scan ảnh chứ không phải text, tình huống ngày càng hiếm nhưng vẫn gặp. Mở Preview, dùng tool select text, không bôi đen được chữ thì đó là ảnh scan. PDF scan dưới 30 trang tôi upload thẳng vào Gemini 3.1 Pro hoặc Claude, cả hai multimodal khá mạnh với tiếng Anh, tiếng Việt kém hơn một chút.

PDF scan dài hoặc tiếng Việt nhiều dấu, tôi OCR trước. Adobe Acrobat Pro có OCR built in (Tools → Scan & OCR → Recognize Text), output ra PDF text searchable. ABBYY FineReader chính xác hơn Adobe cho tiếng Việt nhưng giá đắt. Free alternative là OCRmyPDF (ocrmypdf -l vie+eng input.pdf output.pdf), cài bằng homebrew hoặc apt, miễn phí, offline, không lo privacy. OCR không hoàn hảo, số bị nhận sai thành chữ, dấu bị bay, table format bị vỡ. Báo cáo tài chính cần chính xác, sau khi OCR tôi luôn spot check vài con số then chốt trước khi feed vào AI.

Privacy: report nội bộ không upload

Tới phần tôi muốn dừng lại lâu hơn. Tất cả tool tôi nói trên đều là cloud service. File bạn upload sẽ rời máy bạn, đi qua mạng, vào server của OpenAI, Anthropic, hoặc Google. Mỗi nhà có policy khác nhau về việc data có được dùng để train không, lưu trữ bao lâu, ai có quyền truy cập. Nhưng nguyên tắc đầu tiên tôi áp dụng đơn giản hơn nhiều: nếu file là nội bộ công ty hoặc thông tin khách hàng cá nhân, tôi không upload. Chấm hết.

Annual report sẽ công bố tuần sau, OK upload, một tuần nữa cả thế giới đọc rồi. Hợp đồng đã ký và public trên trang web SEC, OK upload. Sách giáo trình mua hợp pháp, OK upload (license thường có exception cho personal use). Báo cáo nội bộ chưa công bố? Không. Strategy deck cho board meeting? Không. Hồ sơ khách hàng kèm CMND, số tài khoản, số điện thoại? Tuyệt đối không. Bài W trong series này (privacy và data bạn cho AI) tôi sẽ giải thích chi tiết từng policy của ba nhà cung cấp, tạm thời cứ áp dụng nguyên tắc trên là an toàn.

Có ba cách xử lý file nhạy cảm mà vẫn dùng AI. Cách 1, anonymize trước: tìm replace tên người, tên công ty, số tiền cụ thể bằng placeholder, sau khi AI tóm tắt thì replace ngược lại. Hợp với dữ liệu mà structure quan trọng hơn nội dung cụ thể. Cách 2, dùng AI offline với Ollama (free) chạy Llama 3.1 hoặc Gemma 2 trên Mac M-series hoặc PC có GPU. Chất lượng kém Claude/ChatGPT khoảng một bậc, nhưng file không rời máy. Cách 3 cho doanh nghiệp: ChatGPT Enterprise, Claude for Work, Gemini for Workspace, cả ba cam kết không train trên data customer, có data residency và admin control, vài chục đô mỗi user mỗi tháng.

Một workflow hoàn chỉnh, ví dụ từ tối hôm đó

Tôi tua nhanh lại đêm 80 trang để bạn có template copy theo.

10h tối tôi upload PDF lên Claude, gõ prompt TL;DR 5 câu. 30 giây sau có khung macro: công ty FMCG, growth chậm lại, margin bị ép, đầu tư digital, outlook 2026 thận trọng. 10h10 mở tab thứ hai vào NotebookLM, upload cùng file, đợi index. Trong lúc đợi tôi quay lại Claude làm lớp 2, tóm tắt 4 phần (Financial, Operations, ESG, Outlook). 10h25 xong lớp 2, tôi đối chiếu với mục lục để chắc không sót phần nào, note vào Obsidian kèm số trang.

10h35 sang lớp 3. Tôi biết sếp sẽ hỏi về line sản phẩm mới và capex 2026. Claude trích 6 đoạn kèm số trang. NotebookLM trích 7 đoạn, có 5 trùng và 2 mới. Hợp lại được 8 đoạn unique. 10h55 tôi mở PDF gốc trong Preview, lật tới đúng các trang, verify từng đoạn. 7 trên 8 đúng. 1 đoạn Claude nói ở trang 41 nhưng thực tế ở trang 42, nội dung vẫn đúng. Đây là pattern tôi gặp nhiều, AI hay sai số trang ±1 do trang lời nói đầu không đánh số. Đừng tin số trang AI báo, tự lật một lần nữa.

11h10 viết memo 5 bullet kèm số trang, cuối memo có section “câu hỏi sếp có thể hỏi” với 3 câu trả lời sẵn. 11h30 gửi Zalo, đi ngủ. Sáng họp, sếp hỏi 2 trong 3 câu tôi dự đoán, cộng một câu mới, lật iPad ra trả lời được. Tổng thời gian một tiếng rưỡi cho 80 trang. Trước đây cùng workload mất bốn tới năm tiếng và memo kém chi tiết hơn.

Vài bẫy phổ biến nên tránh

Bẫy lớn nhất là không yêu cầu trích nguyên văn. AI viết một câu nghe rất hợp lý, bạn copy vào memo, hai ngày sau sếp lật ra hỏi nguồn, bạn không tìm được. Mọi tóm tắt quan trọng phải kèm trích đoạn gốc. Bẫy thứ hai là tin số trang AI báo mà không lật lại, AI hay off by one. Bẫy thứ ba là dùng một chat duy nhất cho cả tài liệu dài, sau 30 lượt qua lại AI bắt đầu mất ngữ cảnh ban đầu, hãy chia một chat cho summary, chat khác cho deep dive.

Bẫy thứ tư là không nói rõ ngôn ngữ output. Upload file tiếng Anh vào Claude, không nói gì, Claude trả lời tiếng Anh. Muốn tóm tắt tiếng Việt thì phải gõ “Trả lời bằng tiếng Việt.” Bẫy cuối là dùng AI cho nghiên cứu chuyên sâu một ngày, tóm tắt PDF chỉ là một bước, không phải toàn bộ. Khi cần tổng hợp nhiều nguồn, đối chiếu, viết draft, tham khảo bài O, one-day research trong cùng series.

Khi nào không nên dùng AI tóm tắt

Có ba tình huống tôi đã học cách nhận ra và không upload. Một là tài liệu pháp lý mà mỗi từ là load bearing: hợp đồng quan trọng, di chúc, điều khoản sáp nhập. AI tóm tắt sẽ làm mất sự chính xác của câu chữ, mà pháp lý chính xác là tất cả. Tôi đọc chậm, gạch chân, ghi note, chỉ dùng AI để hỏi câu cụ thể về một clause cụ thể.

Hai là tài liệu bạn cần tự nắm vững (sách đang học, paper trong lĩnh vực muốn thành expert). AI tóm tắt tiết kiệm thời gian nhưng cướp đi quá trình ngẫm nghĩ và ghi nhớ. Đọc chậm, tự note xong rồi mới nhờ AI điền chỗ trống. Ba là tài liệu có yếu tố visual quan trọng (sách thiết kế, pitch deck nhiều diagram). AI multimodal nhận diện được hình, nhưng diễn giải ở mức tả nội dung, không phân tích design choice. Loại này tự xem.

Thử ngay

Mở file PDF gần nhất trong Downloads của bạn, chọn một câu quan trọng trong tài liệu, rồi yêu cầu AI tóm tắt và trích nguyên văn câu support cho kết luận đó. Nếu nó làm được, bạn có workflow. Nếu nó lảng sang diễn giải chung chung, bạn vừa thấy điểm yếu cần canh.

Bài K đi sang một việc cũng hay bị bỏ quên sau các cuộc họp dài: transcript, ghi chú, action item, owner, deadline. PDF dài làm bạn ngộp vì quá nhiều chữ; meeting dài làm bạn ngộp vì quá nhiều thứ không ai ghi lại.