AI cho người không code, bài X: xác minh deepfake, ảnh AI, voice clone

Tháng 2 năm 2024, một nhân viên tài chính tại văn phòng Hong Kong của một tập đoàn đa quốc gia nhận email từ “CFO” yêu cầu họp gấp về một thương vụ bí mật. Cô vào Zoom, thấy CFO ngồi đó, có thêm năm đồng nghiệp khác cũng quen mặt. Mọi người nói chuyện như thường, CFO trình bày kế hoạch chuyển khoản, các đồng nghiệp gật đầu xác nhận. Cô làm theo lệnh, chuyển tổng cộng 15 lần với tổng giá trị 200 triệu HKD, tương đương 25,6 triệu USD, sang năm tài khoản ngân hàng khác nhau.

Tuần sau cô gọi điện hỏi sếp về một thương vụ nào đó, sếp ngơ ngác. Không có thương vụ nào, không có cuộc họp Zoom nào, không có CFO nào yêu cầu chuyển tiền. Cảnh sát Hong Kong sau đó xác nhận: toàn bộ cuộc họp là deepfake. Khuôn mặt, giọng nói, cử chỉ của CFO và năm đồng nghiệp đều do AI sinh ra từ những đoạn video họp cũ đăng công khai trên YouTube và LinkedIn của công ty.

Đó là vụ deepfake lừa tiền lớn nhất từng được công khai. Tôi nhớ rõ ngày đọc tin đó, vì nó là khoảnh khắc tôi hiểu ra: deepfake không còn là chuyện kỹ thuật, không còn là chuyện vài YouTuber ghép mặt Tom Cruise vào video TikTok. Nó là một công cụ lừa đảo đại trà, dễ dùng, và đang nhắm vào những người không có khả năng tự bảo vệ. Bài X này tôi viết cho người thân của bạn: bố mẹ, dì, cô, anh chị họ. Những người đã từng trả lời “bố con đây” qua điện thoại mà không nghĩ rằng giọng nói có thể bị clone từ một đoạn voice message ba giây.

Năm 2026, làm deepfake rẻ tới mức nào

Năm 2020, để làm một video deepfake chất lượng vừa, bạn cần một card đồ hoạ vài nghìn đô, một tuần training model, và kiến thức Python. Năm 2026, mọi rào cản đó biến mất.

Voice clone: ElevenLabs cho clone giọng từ 3 giây audio với gói $5/tháng. Resemble AI làm tương tự. Bạn dán một đoạn voice message từ Zalo hoặc một video TikTok có giọng người cần clone, AI sinh ra tệp giọng đó nói bất cứ câu gì bạn gõ. Tôi từng thử clone giọng mình từ một podcast cũ, chất lượng đủ để bố tôi không phân biệt được trong 10 giây đầu của cuộc gọi.

Video face swap real-time: DeepFaceLive là phần mềm mã nguồn mở, cài trên một máy tính chơi game phổ thông, cho phép thay khuôn mặt bạn thành khuôn mặt khác ngay trong Zoom, Google Meet, Microsoft Teams. Người ngồi đầu kia nhìn thấy mặt giả, không có dấu hiệu xử lý hậu kỳ. Đây chính là công cụ được dùng trong vụ Hong Kong.

Image generation: Midjourney v7, Google Imagen 4, OpenAI Sora 2, đều sinh ảnh người thật, cảnh thật, đến mức chuyên gia ảnh báo chí cũng phải bật pixel viewer mới phát hiện.

Cộng ba thứ đó lại, giá làm một video lừa đảo dài 30 giây với mặt người thật và giọng người thật giờ tầm $20-50, thời gian một buổi sáng. Đó là lý do số vụ lừa đảo deepfake tại Việt Nam tăng phi mã.

Các kịch bản lừa đảo deepfake đang chạy ở Việt Nam

Tôi nghe được bốn kịch bản phổ biến nhất, qua người quen làm bên ngân hàng, qua nhóm Facebook chia sẻ cảnh báo, qua các bản tin VTV về phòng chống tội phạm.

Kịch bản “boss yêu cầu chuyển tiền gấp”: kẻ lừa scrape video họp công khai trên LinkedIn hoặc YouTube của công ty, clone giọng và mặt CEO/CFO, gọi Zoom cho kế toán hoặc nhân viên có quyền chuyển khoản. Lý do thường là “thương vụ M&A bí mật, không được hỏi ai khác”. Đây là phiên bản Việt của vụ Hong Kong. Tôi đã nghe về ít nhất hai vụ tại các công ty SME ở TP.HCM, mỗi vụ vài tỷ đồng, không được công khai vì các công ty muốn giữ thể diện.

Kịch bản “con bị tai nạn cần chuyển viện phí”: kẻ lừa nhắm vào bố mẹ lớn tuổi. Lấy giọng con từ một video TikTok hoặc một story Instagram, clone giọng, gọi điện trong tình trạng “khóc thật”, nói “mẹ ơi con bị tai nạn, đang ở bệnh viện X, bác sĩ yêu cầu đóng 50 triệu mới mổ, mẹ chuyển ngay vào tài khoản này”. Bố mẹ nghe đúng giọng con, hoảng loạn, chuyển. Mục tiêu thường là 30-100 triệu, mức “chuyển ngay không kịp nghĩ”.

Kịch bản “người yêu cũ doạ tung ảnh nóng”: deepfake porn revenge. Kẻ lừa lấy ảnh chân dung từ Facebook nạn nhân, ghép vào video porn có sẵn, gửi tin nhắn doạ tung lên mạng nếu không chuyển tiền. Nạn nhân thường là phụ nữ trẻ, đặc biệt giáo viên, sinh viên, nhân viên văn phòng. Nạn nhân không biết “ảnh đó không phải mình”, chỉ thấy mặt mình trong đó, hoảng và trả tiền.

Kịch bản “công an gọi điều tra”: clone giọng và mặt công an khu vực, gọi video call báo “anh/chị có liên quan đến đường dây rửa tiền, cần chuyển toàn bộ tiền sang tài khoản giám sát”. Phiên bản cũ chỉ qua điện thoại, phiên bản mới có video call để tăng tin cậy. Nhắm vào người cao tuổi và người ít tiếp xúc công nghệ.

Cái chung của bốn kịch bản: tốc độ. Nạn nhân không có thời gian xác minh chéo. Đó là điểm yếu mà phần còn lại của bài tập trung vá.

Nhận biết video deepfake bằng mắt thường

Tôi nói trước: phần này có hạn dùng. Tháng 5/2026, các dấu hiệu dưới đây đúng với 80-90% deepfake phổ thông. Sáu đến mười hai tháng tới, vài dấu hiệu sẽ không còn áp dụng. Đó là cuộc đua, công nghệ deepfake tiến nhanh hơn công nghệ nhận biết. Nhưng trong khi chờ ngày AI phát hiện AI thành công cụ phổ thông, bạn vẫn cần biết những cờ đỏ này.

Lip sync miss frame: AI deepfake hiện tại đồng bộ môi tốt nhưng không hoàn hảo. Nhìn kỹ vào khoảnh khắc người nói phát âm “p”, “b”, “m”, môi phải mím lại hoàn toàn. Deepfake hay miss vài frame ở những âm này, môi không mím kín. Phụ âm “f” và “v” cũng tương tự, răng cửa phải chạm môi dưới, deepfake hay trượt.

Blink rate bất thường: người thật chớp mắt 15-20 lần/phút. Deepfake thường chớp ít hơn nhiều, hoặc chớp đều như đồng hồ, hoặc không chớp suốt 30 giây. Nếu bạn xem một đoạn video một phút và không thấy đối tượng chớp mắt lần nào, cờ đỏ.

Ear shadow và lighting sai: tai là vùng AI hay làm sai nhất. Bóng đổ trên tai phải khớp với bóng đổ trên má và cổ. Deepfake hay có tai sáng quá so với phần còn lại của mặt, hoặc bóng đổ ngược hướng nguồn sáng. Tương tự với mũi và cằm: bóng phải đồng nhất theo nguồn sáng chính.

Hair edge mờ hoặc giật: phần ranh giới giữa tóc và nền là chỗ AI khó nhất. Tóc deepfake hay có viền mờ như tô Photoshop, hoặc giật nhẹ qua từng frame nếu người đó di chuyển. Tóc xoăn deepfake tệ hơn tóc thẳng. Tóc đen dài là dễ phát hiện nhất.

Bàn tay: trước 2025, deepfake tay là cờ đỏ rõ rệt, 6 ngón, ngón thừa, móng tay sai vị trí. Năm 2026, các model lớn đã sửa nhiều, nhưng vẫn miss khi tay che một phần mặt, khi cầm vật, khi tay đan vào nhau. Nếu trong video người đó luôn để tay sau lưng hoặc ngoài khung hình, đó cũng là cờ đỏ gián tiếp.

Reflection trong mắt: ánh sáng phản chiếu trên giác mạc của hai mắt phải khớp nhau (cùng nguồn sáng, cùng vị trí). Deepfake hay miss chỗ này, hai mắt có phản chiếu khác nhau. Cách kiểm tra: pause video ở một khoảnh khắc đối tượng nhìn thẳng vào camera, zoom vào mắt.

Da quá mượt: deepfake hay làm da mịn như filter Instagram. Lỗ chân lông, nếp nhăn, sạm, đốm, tất cả bị xoá. Nếu một người ngoài 40 mà có làn da như đứa 18, đáng nghi.

Một mẹo tổng hợp: bảo người trong video call xoay đầu 90 độ sang trái rồi sang phải, đưa tay lên che nửa mặt, sau đó cúi xuống nhìn vào bàn. Ba động tác này phá vỡ mô hình deepfake hiện tại, vì hệ thống được train chủ yếu trên mặt nhìn thẳng. Mặt nghiêng 90 độ và mặt bị che một phần thường lộ ra glitch rõ rệt. Nếu người đối diện từ chối hoặc viện cớ “máy lag”, cờ đỏ to.

Nhận biết ảnh AI

Ảnh tĩnh khó hơn video một bậc, vì không có yếu tố thời gian để bắt glitch. Nhưng vẫn có dấu hiệu.

Bàn tay: như trên, đếm ngón. Tháng 5/2026, các model lớn (Midjourney v7, Imagen 4) đã ổn ngón tay trong scene đơn giản, nhưng vẫn fail khi tay cầm vật, hai bàn tay tương tác, hoặc tay trong góc khó. Soi kỹ.

Chữ viết trong ảnh: AI rất tệ với text. Biển báo, nhãn sản phẩm, sách trong tay người mẫu, chữ trên áo. Tiếng Anh đã đỡ trong 2025-2026, nhưng tiếng Việt có dấu vẫn là điểm chết. Dấu sắc, huyền, hỏi, ngã, nặng bị đặt sai chỗ, chữ “đ” bị méo, “ơ” và “ư” hay sai móc. Nếu một ảnh có biển hiệu Việt Nam mà chữ đọc không ra, gần chắc là AI.

Hướng ánh sáng: chọn nguồn sáng chính trong ảnh (mặt trời, đèn), kiểm tra bóng đổ của các vật xung quanh có cùng hướng không. AI hay làm bóng đổ ngẫu nhiên, mỗi vật một hướng. Nguyên tắc đơn giản: một nguồn sáng chính phải tạo ra bóng cùng hướng cho mọi vật trong scene.

Da quá đều: ảnh AI có da mượt như filter. Tóc đều, lông mày đối xứng đến mức bất thường. Người thật có sự không hoàn hảo, da có chỗ ửng đỏ, có chỗ nhợt. Ảnh quá đẹp là cờ đỏ.

Họa tiết mắt: vân của tròng đen (iris) là dấu vân tay của mỗi người, không lặp lại. AI hay sinh ra vân iris đối xứng giữa hai mắt, hoặc vân thiếu chi tiết. Pause ảnh, zoom vào mắt 400%, xem kỹ.

Phụ kiện không liền lạc: dây chuyền cắt giữa chừng, gọng kính một bên cao một bên thấp, hoa tai nửa khuất nửa hiện không đúng phối cảnh. Khi bạn cố tập trung vào vùng phụ kiện, deepfake hay lộ.

Một thói quen tôi hay làm khi nhận ảnh đáng nghi: reverse image search. Đưa ảnh vào Google Lens, TinEye, hoặc Yandex Images. Yandex nổi tiếng mạnh khoản này, mạnh hơn Google trong nhiều trường hợp.

Nhận biết voice clone

Voice là phần đáng sợ nhất, vì người Việt rất quen tin vào giọng nói qua điện thoại. Cái khó là cuộc gọi chỉ có audio, không có thị giác để dò glitch. Nhưng vẫn có dấu hiệu.

Pause pattern không tự nhiên: con người ngắt câu để thở, để suy nghĩ, để cảm xúc. Voice clone hay đi qua câu mượt liền một mạch, hoặc ngắt ở chỗ không hợp lý. Đặc biệt khi diễn đạt cảm xúc mạnh (khóc, sợ, gấp), giọng clone vẫn giữ rhythm “kể chuyện” thay vì đứt quãng tự nhiên.

Tiếng thở thiếu hoặc đặt sai chỗ: người thật thở giữa câu, voice clone hoặc không có tiếng thở nào, hoặc có tiếng thở “fake” được gắn cố định ở đầu mỗi câu.

Tiếng nền không đổi: một cuộc gọi thật có tiếng nền thay đổi (xe chạy qua, người nói chuyện gần đó, gió). Voice clone hay có tiếng nền tĩnh, hoặc loop một đoạn ngắn. Nghe kỹ 15-20 giây, nếu tiếng nền lặp lại y hệt, cờ đỏ.

Phát âm địa phương sai chỗ: nếu bạn biết người này nói giọng Nam, voice clone có thể trượt sang Bắc ở vài từ. Hoặc ngược lại. Đặc biệt từ “không/khôông”, “biết/biếc”, “rồi/rầu”, các từ có sự khác biệt vùng miền rõ.

Thiếu phản ứng đối thoại: voice clone hiện tại tệ ở chỗ tương tác. Bạn ngắt lời, hỏi chen ngang, đặt câu hỏi bất ngờ ngoài kịch bản, voice clone thường bị lag rõ rệt, hoặc trả lời không trúng câu hỏi. Đây là test mạnh nhất qua điện thoại.

Một thử nhanh khi nghi ngờ: hỏi câu hỏi mà chỉ người thật mới biết. “Tên con chó mình hồi nhỏ là gì”, “lần cuối mình về quê cùng nhau là Tết năm nào”, “bà ngoại mình tên gì”. Câu hỏi phải đủ riêng tư để không ai khác trả lời được, và đủ ngẫu nhiên để kẻ lừa không kịp tra. Người thật trả lời ngay; voice clone hoặc trả lời sai, hoặc lảng, hoặc nói “đang gấp lắm đừng hỏi vớ vẩn”.

Công cụ kiểm tra deepfake online

Khi mắt thường không đủ chắc, bạn có thể dùng công cụ. Tôi liệt kê những cái tôi đã thử và còn hoạt động tốt tới tháng 5/2026.

Hive AI Moderation (hiveai.com, có free tier): upload ảnh hoặc video, nhận xác suất là AI-generated. Tốt với ảnh, vừa phải với video, có Chrome extension.

Deepware Scanner (deepware.ai): chuyên video deepfake, đặc biệt face swap. Hỗ trợ scan link YouTube, TikTok hoặc upload file. Free giới hạn nhẹ.

AI Voice Detector (aivoicedetector.com): chuyên audio. Upload mp3/wav, nhận xác suất là giọng AI. Tiếng Việt có support nhưng độ chính xác thấp hơn tiếng Anh.

Sensity AI (sensity.ai): enterprise grade, free trial giới hạn. Phù hợp với ngân hàng, SME có rủi ro deepfake nhân viên.

Reverse image search: Google Lens, TinEye, Yandex Images. Cách dễ nhất để bắt ảnh ghép.

Lưu ý quan trọng: không công cụ nào chính xác 100%. Tỷ lệ chính xác hiện tại của các công cụ này khoảng 85-95% trên dataset chuẩn, thấp hơn trong điều kiện thực tế. Đừng tin một công cụ duy nhất. Cách an toàn nhất vẫn là quy trình xác minh, không phải công nghệ phát hiện.

Quy trình tôi bắt người nhà làm khi có yêu cầu chuyển tiền

Đây là phần quan trọng nhất của bài. Tôi dùng chữ “bắt” có chủ ý, vì lúc hoảng người ta không còn đủ bình tĩnh để tự nghĩ quy trình. Quy trình phải có sẵn trước khi cuộc gọi tới.

Quy tắc 1: callback qua kênh khác. Bất kỳ tin nhắn, email, hay cuộc gọi nào yêu cầu chuyển tiền, tắt máy, gọi lại số đã lưu trong danh bạ. Không gọi vào số gọi đến, vì kẻ lừa có thể đang dùng số ảo. Không nhắn lại qua kênh đó (Zalo, Messenger, email), vì tài khoản có thể đã bị hack. Mở danh bạ, tìm tên, gọi số gốc. Nếu là sếp, gọi qua số công ty/HR. Nếu là người thân, gọi qua số bố mẹ/anh chị xác nhận chéo.

Quy tắc 2: code word gia đình. Đây là biện pháp tôi khuyến nghị mọi gia đình áp dụng ngay sau khi đọc bài này. Chọn một câu hoặc một từ mà cả nhà biết, không có trên mạng. Ví dụ: tên thầy chủ nhiệm lớp 5 của con, tên thú cưng đã mất, kỷ niệm chung không kể với ai. Khi nhận cuộc gọi nghi ngờ, hỏi code word. Người thật trả lời ngay. Voice clone không có cách nào biết.

Quy tắc 3: chờ 24 giờ với mọi giao dịch lớn. Kẻ lừa đảo deepfake phụ thuộc vào tốc độ. Họ tạo cảm giác gấp gáp để bạn không kịp nghĩ. Nguyên tắc: với mọi yêu cầu chuyển tiền không phải định kỳ, chờ ít nhất 24 giờ trước khi xác nhận. Nói thẳng: “Em sẽ chuyển sau khi xác minh, anh/chị thông cảm”. Người thật sẽ hiểu, kẻ lừa sẽ giục.

Quy tắc 4: xác minh ba kênh độc lập. Với giao dịch lớn (vài chục triệu trở lên), không xác minh qua một kênh. Gọi điện + nhắn Zalo + email, ba kênh. Nếu kẻ lừa chỉ kiểm soát một kênh, ba kênh độc lập sẽ lộ. Nếu kiểm soát cả ba, đó là cuộc tấn công có tổ chức cao, lúc đó bạn nên báo công an thay vì tự xử lý.

Quy tắc 5: dạy bố mẹ trước khi quá muộn. Bố mẹ tôi 70+, dùng điện thoại cảm ứng nhưng không hiểu deepfake. Tôi đã ngồi xuống, mở YouTube cho mẹ xem một video deepfake mẫu, giải thích “đây có thể là giọng con, đây có thể là mặt con, nhưng không phải con”. Sau đó chốt code word, dặn quy tắc 24 giờ. Bố mẹ lớn tuổi là nhóm dễ bị nhất, đừng để các vụ “con tai nạn cần viện phí” xảy ra trong nhà mình.

Đầu tư vào quy trình quan trọng hơn đầu tư vào kỹ năng nhận biết. Kỹ năng nhận biết sẽ lỗi thời, quy trình thì không.

Một cảnh báo dài hơn về tương lai

Tôi viết bài này tháng 5/2026, dùng kiến thức và dữ liệu của ngày 22/5/2026. Tốc độ tiến của deepfake nhanh tới mức mọi dấu hiệu nhận biết trong bài này đều có hạn dùng 6-12 tháng. Lip sync sẽ hoàn hảo. Blink rate sẽ tự nhiên. Hand sẽ chuẩn 5 ngón mọi góc. Voice clone sẽ có pause pattern và breath đúng chỗ. Đó là khi nhân loại bước vào một thế giới mà mọi video, mọi cuộc gọi, mọi ảnh chụp có thể là giả mà không ai phát hiện được bằng giác quan thông thường.

Lúc đó, cái còn lại là quy trình xác minh phi giác quan. Code word. Callback qua kênh thứ ba. Chờ 24 giờ. Hỏi câu hỏi riêng tư. Những thứ này không phụ thuộc vào công nghệ phát hiện, mà phụ thuộc vào việc bạn có lập một protocol giữa bạn và những người thân thiết.

Tôi cũng tin rằng trong vòng 2-3 năm tới, các nền tảng (ngân hàng, sàn TMĐT, ứng dụng nhắn tin) sẽ triển khai các giải pháp xác thực mạnh hơn: passkey, video call với verification token, ký số nội dung media tại nguồn (C2PA standard). Đó là vũ khí cấp hệ thống. Còn ở cấp cá nhân, bạn phải tự lập phòng tuyến trước.

Lưu ý cuối cùng: AI vẫn rất hữu ích, đừng để bài này khiến bạn sợ AI nói chung. Đa số người dùng AI cho việc tốt, viết email, dịch tài liệu, học tập, sáng tạo. Bài này nói về một nhóm nhỏ dùng AI cho mục đích xấu. Bạn không cần né AI, chỉ cần né những kịch bản lừa cụ thể. Đó là khác biệt giữa “không dùng dao” và “không cho trẻ con cầm dao chạy nhảy”.

Làm ngay tối nay

Bạn đã có ba lớp phòng vệ: nhận biết bằng mắt thường, dùng công cụ kiểm tra, và quy trình xác minh phi giác quan. Trong ba lớp đó, tôi tin lớp cuối cùng nhất. Mắt sẽ thua deepfake sớm thôi. Một cuộc gọi lại đúng số và một code word gia đình thì vẫn còn giá trị rất lâu.

Hai bài liên quan nên đọc kèm. Bài E về hallucination nói về cách AI “phịa” văn bản, một dạng “deepfake text” mà bạn cũng cần biết để không tin sai số liệu, sai trích dẫn, sai luật. Bài W về privacy nói về dữ liệu cá nhân, phần nhiên liệu khiến deepfake ngày càng dễ làm và khó kiểm.

Bài Y đi tiếp mặt trái đó: không phải mọi việc AI làm được đều là việc nên giao cho AI.

Trước khi đọc tiếp, làm một việc cụ thể: chốt code word gia đình. Tối nay. Đừng để tới lúc mẹ bạn nhận cuộc gọi “con bị tai nạn” mới nhớ là chưa có code word.