Một tối thứ ba cách đây tầm sáu tháng, tôi ngồi ở quán cafe gần nhà, ipad gác trên đùi, mở app banking ra xuất file PDF sao kê tháng. Mục đích đơn giản: nhờ ChatGPT phân loại chi tiêu giúp tôi, xem tháng vừa rồi đốt tiền vào đâu. Tôi paste nguyên cái sao kê vào ô chat. Số tài khoản đầy đủ. Tên ngân hàng. Tên người chuyển khoản (vợ tôi, mấy người bạn). Mã giao dịch. Cả khối thông tin tài chính của hai vợ chồng trong một cú dán.
ChatGPT trả lời ngon lành. Tôi đóng tab, hài lòng. Một tuần sau đọc bài về training data leak ở một AI lab khác, lạnh sống lưng. Tôi không biết cái sao kê đó giờ đang nằm ở đâu. Có lẽ vẫn ngủ yên trong log server. Có lẽ đã được lọc khỏi training set. Tôi không có cách nào biết, và không có cách nào lấy lại.
Bài W hôm nay tôi muốn nói chuyện này, trước khi bạn cũng dính một cú tương tự. Không phải để hù bạn không dám dùng AI, mà để bạn dùng có ý thức. Tôi sẽ đi qua nguyên tắc cốt lõi, rủi ro Wifi công cộng, settings opt-out trên từng nền tảng, khác biệt gói consumer vs enterprise, danh sách dữ liệu cứng không paste, và mẹo redact nhanh.
Nguyên tắc cốt lõi: assume mọi thứ bạn paste sẽ vào training data
Bạn không cần hiểu kỹ thuật train AI. Bạn chỉ cần nhớ một câu: mặc định, mọi thứ bạn paste vào ô chat của ChatGPT, Claude, Gemini, hay bất kỳ AI consumer nào, có thể đi vào training data cho phiên bản sau. Trừ khi bạn explicit opt-out, hoặc bạn đang dùng gói enterprise có hợp đồng data isolation.
Đây là nguyên tắc bảo thủ. Trong thực tế năm 2026, ba nhà cung cấp lớn có chính sách khác nhau: Anthropic mặc định không train trên data của Claude consumer, OpenAI mặc định CÓ train trên ChatGPT Free và Plus trừ khi bạn tắt, Google Gemini mặc định lưu activity và human reviewer có thể đọc. Mỗi nền tảng còn có thêm các nhánh khác nhau cho ảnh, file upload, voice. Bạn càng đọc kỹ policy, càng thấy ma trận này phức tạp.
Vì vậy tôi không khuyên bạn học thuộc lòng policy của ba bên. Tôi khuyên bạn giả định kịch bản xấu nhất, paste như thể có một con bot khác sẽ đọc lại nội dung của bạn sau sáu tháng. Đó là baseline an toàn. Nếu paste xong vẫn thấy yên tâm, tức là dữ liệu đó đủ an toàn để chia sẻ. Nếu paste xong thấy gợn, đừng paste. Đơn giản vậy thôi.
Nguyên tắc này cũng đặt nền cho mấy phần sau: opt-out chỉ là một lớp bảo vệ. Lớp quan trọng hơn là bạn tự quyết định cái gì paste, cái gì không.
Wifi công cộng + AI app: ai sniff được gì
Phần này tôi thấy nhiều bạn lo sai chỗ. Người ta hay sợ “dùng Wifi quán cafe paste vào ChatGPT thì người khác trong quán đọc được”, trong khi rủi ro thật ra nằm ở chỗ khác.
Sự thật kỹ thuật ngắn gọn: ChatGPT, Claude, Gemini đều dùng HTTPS (TLS 1.3). Nội dung tin nhắn bạn paste được mã hoá end-to-end giữa thiết bị và server của họ. Một người ngồi cùng quán cafe, dù có chạy Wireshark cũng không đọc được nội dung tin nhắn. Cái họ thấy chỉ là metadata: bạn đang kết nối tới chatgpt.com, claude.ai, gemini.google.com, kích thước packet, timing. Nội dung chữ thì không.
Rủi ro thật ở ba chỗ. Một, AI provider thấy hết: ChatGPT, Claude, Gemini là người nhận nội dung, họ không cần hack ai. Bạn paste sao kê ngân hàng, server của họ thấy nguyên văn. Wifi công cộng hay Wifi nhà không thay đổi điều này. Hai, captive portal lừa: một số Wifi (sân bay, khách sạn) bắt bạn cài “root certificate” để truy cập. Nếu cài, người chạy Wifi có thể giải mã HTTPS (MITM). Hiếm ở Việt Nam, có ở vài khách sạn TQ, Nga. Quy tắc: không bao giờ cài cert lạ khi join Wifi công cộng; nếu Wifi đòi cài, dùng 4G/5G. Ba, đăng nhập sai chỗ: bạn đăng nhập ChatGPT trên máy mượn rồi quên log out, người sau đọc lịch sử chat của bạn. Vấn đề thói quen, không phải vấn đề Wifi.
Tóm lại, Wifi công cộng rủi ro thấp hơn bạn nghĩ. AI provider thì rủi ro cao hơn bạn nghĩ.
VPN khi public Wifi: làm gì và không làm gì
Vì tôi thường bị hỏi “có cần bật VPN khi paste vào ChatGPT ở quán cafe không”, tôi tách riêng phần này.
VPN (Tailscale, ProtonVPN, Cloudflare WARP, Mullvad, NordVPN) làm một việc chính: tạo đường ống mã hoá từ thiết bị của bạn đến server VPN, sau đó traffic ra net từ server VPN, không phải từ router quán cafe.
Có tác dụng: ẩn hoạt động duyệt web khỏi người chạy Wifi (họ chỉ thấy bạn kết nối tới VPN server), tránh DNS sniffing, hữu ích khi vào Wifi của một quốc gia mà bạn không tin.
Không có tác dụng: VPN KHÔNG mã hoá lại nội dung chat của bạn với AI. Bạn paste sao kê vào ChatGPT qua VPN, OpenAI vẫn nhận được nguyên văn sao kê. VPN chỉ thay đổi điểm đến net trông như đến từ đâu. Đây là chỗ rất nhiều người hiểu sai. VPN không phải cái khiên chống AI training, nó là cái khiên chống Wifi snooping.
Khuyến nghị thực tế: cá nhân tôi bật Tailscale chỉ để vào homelab khi ở ngoài. Khi ở quán cafe lạ thì bật Cloudflare WARP cho yên tâm (free, không log). Khi dùng Wifi nhà hoặc 4G Việt Nam thì không bật. VPN giải quyết phần dễ. Phần khó vẫn là không paste cái không nên paste, dù qua VPN hay không.
Opt-out training: thao tác cụ thể trên ba nền tảng
Đây là phần thao tác, nên bạn vào đúng menu rồi đối chiếu. Tôi check ngày 22/5/2026, UI có thể thay đổi nhưng tên menu thường giữ.
ChatGPT: vào Settings (góc trên bên phải) → Data Controls. Gạt OFF Improve the model for everyone (mặc định ON) để ChatGPT không dùng prompt và response của bạn cho training. Cũng trong menu này, Chat history & training tắt thì chat không lưu lịch sử và cũng không train. Vào Settings → Personalization để xoá Memory nếu cần. Lưu ý: ChatGPT Enterprise và Team mặc định không train, không cần toggle. Plus phải tự tắt.
Claude (Anthropic): tin tốt là Anthropic mặc định không train trên data consumer của Claude Free, Pro, Max. Đây là điểm khác OpenAI. Vẫn nên check: Settings → Privacy, tắt Help improve Claude nếu có. Claude vẫn lưu chat 30 ngày cho safety review (phát hiện hành vi vi phạm), điều này không tắt được. Paste thông tin nhạy vẫn nên cẩn thận.
Gemini (Google): phức tạp nhất, vì Gemini activity gộp với Google account. Vào myactivity.google.com, tìm Gemini Apps Activity, gạt OFF. Google nói rõ: trong vòng 72 giờ chat vẫn được lưu để chạy service và safety, sau đó mới xoá. Google còn có chính sách “human reviewer có thể đọc một số mẫu” để đánh giá chất lượng; ngay cả khi activity tắt thì batch đã lấy mẫu trước đó vẫn có thể đang trong queue review. Workspace doanh nghiệp do admin tổ chức quyết, bạn không tự bật tắt được.
Sau khi opt-out cả ba, bạn vẫn không nên paste những thứ trong danh sách cứng phần dưới. Opt-out giảm rủi ro chứ không bằng không.
Enterprise vs consumer: khác biệt thật sự nằm ở hợp đồng
Khi tôi giải thích privacy cho mấy người làm doanh nghiệp, ai cũng hỏi “thế tôi dùng gói trả phí là không bị train nữa đúng không?”. Câu trả lời không đơn giản, vì gói trả phí cá nhân (Plus, Pro, Max) khác gói team và enterprise.
ChatGPT Plus và Pro (cá nhân, $20 đến $200) vẫn dùng cùng policy với Free: mặc định có train, bạn phải tự tắt. Trả tiền không tự động cho bạn data isolation. ChatGPT Team ($25/người/tháng) và ChatGPT Enterprise có hợp đồng nói rõ data không vào training, không bị human review, encrypt at rest, có SOC 2 compliance. Claude Pro và Max (cá nhân) đã không train mặc định, nhưng vẫn chỉ là policy. Claude for Work và Claude Enterprise có hợp đồng cứng: data isolation, audit logs, no human review, chọn region (EU/US) cho GDPR. Gemini AI Pro (cá nhân) opt-out qua myactivity. Google Workspace Gemini (doanh nghiệp) có DPA, không train trên data Workspace, có audit trail.
Nguyên tắc cho doanh nghiệp: nếu bạn xử lý dữ liệu khách hàng, hợp đồng confidential, hay tài chính công ty bằng AI, đừng dùng gói cá nhân. Phải là Team/Enterprise/Workspace, có hợp đồng DPA. Tôi từng thấy một bạn freelancer paste hợp đồng NDA của khách vào Claude Pro để xin AI viết lại, không nhận ra rằng khách có thể kiện vì breach NDA. Hợp đồng cá nhân bạn ký với Claude (qua TOS) không phủ được NDA bạn ký với khách.
Dữ liệu cứng không bao giờ paste, bất kể opt-out
Đây là danh sách tôi gọi là “cứng”, nghĩa là không paste vào AI consumer dù có opt-out đầy đủ. Lý do: opt-out là policy, có thể thay đổi, có thể có lỗi, có thể bị hack. Một số dữ liệu chỉ cần lộ một lần là hỏng vĩnh viễn.
- Số căn cước công dân, passport, hộ chiếu, giấy phép lái xe. Rò lên web có thể bị dùng đăng ký dịch vụ tài chính giả mạo.
- Sao kê ngân hàng có số tài khoản, sao kê thẻ tín dụng, số dư, số tài khoản đối tác. Đây chính là cái tôi đã làm sai. Nếu cần phân loại chi tiêu, redact số tài khoản trước, chỉ giữ amount + ngày + ghi chú (xem mẹo redact phần dưới).
- Mật khẩu, API key, recovery seed ví crypto, OTP code. Nếu cần AI generate password mới, hỏi AI sinh format ngẫu nhiên rồi tự dùng. Không paste mật khẩu hiện tại để hỏi “mạnh không”.
- Hợp đồng NDA, hợp đồng confidential, term sheet chưa công bố. Cả nội dung lẫn việc paste đều là vi phạm NDA. Nếu cần AI review, dùng gói Enterprise có DPA, hoặc redact định danh trước.
- Bệnh án chi tiết, kết quả xét nghiệm có tên đầy đủ, ảnh CT/MRI gắn metadata bệnh viện. Redact tên, giữ phần số. Một bác sĩ tôi quen còn nghiêm hơn: paste con số xét nghiệm thôi, không paste cả PDF.
- Ảnh trẻ con đầy đủ mặt + tên + tên trường + địa chỉ. Đây không phải dữ liệu của bạn, đây là dữ liệu của đứa trẻ. Bạn không có quyền paste. Đặc biệt khi nhờ AI viết lời cảm ơn cho giáo viên, đừng kèm ảnh chụp lớp đầy đủ.
- Lương + offer letter của người khác. Tôi từng thấy một bạn HR paste offer letter của ứng viên vào ChatGPT để nhờ “viết lại cho gọn hơn”, mà offer letter có tên ứng viên + công ty cũ + mức lương + ngày start. PII của bên khác, bạn không có quyền paste.
- Chiến lược kinh doanh chưa công bố, M&A đang đàm phán, danh sách khách hàng. Tài sản công ty, không phải tài sản cá nhân.
Quy tắc chung: nếu một dữ liệu mà bạn không muốn đưa cho một người lạ trên đường, đừng đưa cho AI consumer.
Cảnh báo voice mode: audio lưu lâu hơn text
Phần này ít người để ý. Năm 2026, ChatGPT, Claude, Gemini đều có voice mode (bạn nói với điện thoại, AI trả lời bằng giọng). Rất tiện khi lái xe, đi bộ.
Vấn đề: audio recording thường được lưu lâu hơn text chat. Lý do kỹ thuật là audio cần được transcribe ra text trước khi xử lý, và provider giữ raw audio + transcribed text để debug chất lượng nhận diện giọng. Một số nền tảng còn dùng audio cho training speech model. Apple, Google, Amazon đều đã từng dính scandal về việc reviewer nghe được đoạn nhạy cảm.
Khuyến nghị: dùng voice mode như có một con bot khác đang lắng nghe. Không tên thật, không số tiền, không địa chỉ nhà. Voice để hỏi công thức nấu ăn, dịch một câu, brainstorm thì ổn. Voice để đọc số CCCD của con cho AI lưu thì không.
Tools auto-redact: 1Password, Bitwarden, Apple Keychain
Một lớp bảo vệ khác bạn nên bật: password manager với clipboard auto-clear. 1Password, Bitwarden, Apple Keychain đều có tuỳ chọn “tự xoá clipboard sau 30/60/90 giây sau khi copy”. Tác dụng: bạn copy mật khẩu để paste vào browser, rồi quên paste, mật khẩu vẫn còn trong clipboard. Vài phút sau mở ChatGPT paste vào ô chat, mật khẩu lộ. Auto-clear ngăn đúng case này.
- 1Password: Preferences → General →
Clear clipboard after 90 seconds - Bitwarden: Settings → Vault Timeout Options →
Clear clipboard after - Apple Passwords app: Settings → Passwords → Auto-clear
Liên quan: iOS và macOS có Universal Clipboard (sync giữa Mac và iPhone qua iCloud). Tiện, nhưng clipboard của Mac đi qua server Apple. Nếu paranoid, tắt Handoff. Cá nhân tôi vẫn bật, nhưng tôi biết rủi ro.
PII redact mini: thay tên thật bằng X1, X2 trong notepad
Mẹo này tôi nghĩ ra sau cú paste sao kê ngu ngốc. Không cần app, chỉ cần một notepad.
Trước khi paste nội dung nhạy vào AI, copy vào notepad trống trước. Find-replace từng tên/số nhạy thành biến: X1, X2, X3. Ví dụ sao kê của tôi, ngân hàng Vietcombank đổi thành Bank1, người chuyển Nguyễn Văn A thành Người1, số tài khoản 1234567890 thành [ACC1]. Giữ một note riêng ghi mapping X1=Vietcombank, X2=Nguyễn Văn A để đọc kết quả AI còn hiểu là ai. Paste văn bản đã redact vào AI. Trên kết quả AI, find-replace ngược lại (Bank1 ra Vietcombank) để phục hồi tên thật trên file cuối. AI server không bao giờ thấy tên thật.
Với hợp đồng dài, dùng Word/Pages Find & Replace tên công ty thật thành CompanyA, đối tác thành CompanyB, số tiền thành Amount1, ngày thành Date1. Save sang file tạm, upload cho AI. Adobe Acrobat Pro có chức năng “redact” tự động ăn đen các đoạn nhạy, nhưng nhớ chọn Apply redaction để xoá hẳn text, không phải chỉ ăn đen UI.
Quy tắc đơn giản: “ai khác nghe được câu này có lo không”
Nếu bạn không nhớ hết các phần trên, chỉ cần nhớ quy tắc này. Trước khi nhấn enter, đọc lại câu bạn sắp gửi. Hỏi mình: nếu một người lạ (không phải bạn thân, không phải vợ chồng, một người lạ trên mạng) đọc được câu này, có lo không?
Lo: không gửi.
Không lo: gửi.
Phân vân: redact rồi gửi.
Quy tắc này không hoàn hảo (vì nó dựa vào trực giác của bạn), nhưng tốt hơn rất nhiều so với việc nhấn enter mà không nghĩ. Tôi áp dụng nó cả với email, message Telegram, post Facebook, không chỉ AI. Đó là một thói quen tổng quát giúp bạn ít hối hận.
Một lần share quá tay tôi muốn quên
Năm 2024, tôi làm một dự án freelance cho khách ở Singapore. Họ yêu cầu tôi review spec kỹ thuật dài 40 trang, có đoạn kiến trúc backend, đoạn liệt kê vendor đối tác, đoạn bàn timeline ra mắt sản phẩm. Tôi nhận file qua email Friday tối, thứ Hai phải feedback. Quá tay là khi tôi paste nguyên file vào Claude Pro (gói cá nhân, không phải Workspace) để nhờ AI tóm tắt.
Đây là vi phạm NDA. Hợp đồng tôi ký với khách nói rõ “không chia sẻ tài liệu này với bên thứ ba mà không có văn bản đồng ý”. Anthropic là bên thứ ba. Dù Anthropic không train trên data Claude Pro, dù tôi tin Anthropic không leak, thì việc tôi đã transfer file ra ngoài đã là breach về mặt pháp lý.
Tôi không bị phát hiện, không bị kiện, dự án trôi qua. Nhưng tôi nhớ cảm giác lạnh khi nhận ra mình vừa làm gì, sau khi nhấn enter. Đó cũng là lần tôi bắt đầu dùng nghiêm túc workflow redact và phân biệt gói cá nhân vs gói có DPA. Mặc định mới của tôi: tài liệu của khách không paste vào gói cá nhân; nếu cần AI giúp tóm tắt, xin khách cho dùng AI (viết rõ trong hợp đồng), hoặc redact toàn bộ định danh trước.
Mấy bài liên quan trong series
Privacy chỉ là một mảnh, nó nối với mấy bài khác. Đầu tiên, bài E: em phịa và cách phát hiện nhắc tới chuyện AI bịa danh nhân và sự kiện. Privacy là mặt còn lại của vấn đề: AI không chỉ có thể bịa thông tin về người khác, mà còn lưu thông tin thật về người khác mà bạn paste vào. Hai rủi ro song song.
Thứ hai, bài H: token và gói trả phí đã nói gói Enterprise đáng tiền không. Câu trả lời privacy: nếu bạn xử lý dữ liệu khách, gói Enterprise đáng vì có DPA. Khác biệt thật của Enterprise không nằm ở quota, mà nằm ở hợp đồng data isolation.
Thứ ba, bài Y: những yêu cầu không nên dùng AI bàn việc AI không có “lương tâm”, bạn yêu cầu gì nó cố làm cái đó, kể cả khi yêu cầu là về người khác (viết email giả mạo, fake review). Privacy không chỉ là dữ liệu của BẠN không lộ, mà còn là việc BẠN không dùng AI làm hại privacy của người khác.
Thứ tư, bài R: rèn sức khỏe, AI làm coach hay không nhắc bệnh án và sức khoẻ. Một case đặc biệt nhạy. Khi paste cân nặng, kết quả xét nghiệm vào AI xin lời khuyên, đừng kèm tên thật + số bảo hiểm + tên bác sĩ.
Thứ năm, bài S: số chi tiêu đầu tư cơ bản là cái mà tôi đã suýt làm hỏng bằng cú paste sao kê đầu bài. Tài chính cá nhân cảm giác là chuyện riêng, nhưng số tài khoản, mã giao dịch, tên đối tác chuyển khoản là PII đầy đủ.
Trước khi paste
Trước khi paste một đoạn dài vào AI, hỏi một câu: nếu đoạn này lọt ra ngoài, ai bị ảnh hưởng ngoài tôi? Nếu câu trả lời có tên người khác, khách hàng, đồng nghiệp, con cái, bệnh nhân, học sinh, hoặc tài khoản ngân hàng, dừng lại và redact trước.
Bài X chuyển sang deepfake, ảnh AI và voice clone. Privacy là chuyện bạn tự đưa dữ liệu vào AI; deepfake là chuyện người khác dùng AI để giả làm một ai đó trước mặt bạn.