Giọng nói deepfake là gì?
Giọng nói deepfake là giọng nói tổng hợp được tạo ra bằng các thuật toán học máy tiên tiến để bắt chước giọng nói của một người thật. Khác với các phương pháp chuyển văn bản thành giọng nói truyền thống, giọng nói deepfake có thể tạo ra âm thanh chân thực đến mức gần như không thể phân biệt với giọng thật của người được bắt chước.
Giọng nói deepfake được tạo ra như thế nào?
Giọng nói deepfake được tạo ra nhờ các thuật toán học sâu và trí tuệ nhân tạo. Các thuật toán này sử dụng một tập dữ liệu ghi âm giọng nói của một cá nhân, sau đó phân tích và tái tạo các sắc thái, đặc điểm riêng biệt trong chất giọng của người đó. Sau khi đã được huấn luyện, thuật toán có thể tạo ra lời nói mang giọng của người đó từ bất kỳ văn bản nào.
Giọng nói deepfake khác gì so với các giọng tổng hợp khác?
Các hệ thống chuyển văn bản thành giọng nói truyền thống dựa vào các mẫu giọng có sẵn và không cố gắng mô phỏng giọng của một cá nhân cụ thể nào. Ngược lại, công nghệ deepfake sử dụng mạng nơ-ron nhân tạo và kho dữ liệu âm thanh lớn để xây dựng một mô hình giọng nói riêng biệt cho từng người. Điều này làm cho giọng nói deepfake nghe thật hơn rất nhiều so với các giọng tổng hợp thông thường.
Những ứng dụng và mặt trái tiềm tàng của giọng nói deepfake
Các ứng dụng tiềm năng bao gồm giải trí (ví dụ, tái hiện giọng của diễn viên đã mất), sản xuất podcast khi nhân vật thật không tham gia thu âm, hoặc trợ lý AI có giọng cá nhân hóa. Mặt trái là nguy cơ bị lợi dụng để lừa đảo, phát tán tin giả, mạo danh, lan truyền thông tin sai lệch… Trên mạng xã hội, kẻ xấu có thể dùng giọng deepfake để tung tin giả hoặc tạo video giả mạo.
Người bình thường có thể phân biệt giọng deepfake và giọng thật thế nào?
Hãy chú ý tới những đoạn nghe không tự nhiên, tạp âm nền bất thường hoặc các lỗi nhỏ trong cách phát âm, nhấn nhá. Ngoài ra, bạn có thể sử dụng các công cụ phát hiện deepfake để phân tích âm thanh và nhận diện dấu hiệu bị can thiệp, chỉnh sửa.
Những thách thức công nghệ hiện nay khi tạo giọng deepfake siêu thực
Dù đã rất chân thật, giọng deepfake vẫn gặp khó khăn trong việc tạo ra ngữ điệu tự nhiên hoặc xử lý trơn tru các từ phức tạp, nhiều âm tiết. Duy trì chất lượng âm thanh ổn định và xử lý tạp âm nền cũng là thách thức lớn.
Một số ví dụ về giọng deepfake chân thật
Các ví dụ nổi bật gồm những đoạn ghi âm deepfake của Barack Obama và Donald Trump. Những đoạn này chân thực đến mức đã từng được chèn vào các video, khiến người nghe rất khó phân biệt với giọng thật.
Các loại Deepfake khác nhau
Công nghệ deepfake sử dụng học máy và mạng nơ-ron để tạo ra các nội dung âm thanh, hình ảnh giả mạo giống hệt người thật. Dưới đây là một số loại deepfake phổ biến:
- Deepfake Video: Các video mà khuôn mặt, thậm chí cả cử động cơ thể của một người được thay thế bằng của người khác nhờ thuật toán học sâu.
- Deepfake Âm thanh: Còn gọi là nhân bản giọng nói, tức các bản ghi âm bắt chước giọng thật của ai đó bằng công nghệ học máy.
- Deepfake Hình ảnh: Các bức ảnh được chỉnh sửa để trông như ghi lại sự kiện hoặc người thật dù thực tế không phải.
- Deepfake chuyển văn bản thành giọng nói: Các giọng nói tổng hợp từ văn bản có thể đọc bất cứ đoạn nào bằng giọng nghe như người thật, thường là giọng người nổi tiếng.
- Deepfake Podcast: Podcast sử dụng giọng tổng hợp để mô phỏng hội thoại giữa người thật.
- Deepfake tin giả: Deepfake dùng để phát tán thông tin sai lệch, đặc biệt trên mạng xã hội, liên quan đến các nhân vật công chúng như Donald Trump hoặc Barack Obama.
- Deepfake xác thực: Deepfake dùng để đánh lừa các hệ thống bảo mật sinh trắc học.
- Deepfake thời gian thực: Deepfake được tạo ngay lập tức khi chat video hoặc trên các nền tảng tương tự.
Google Tìm kiếm bằng Ảnh
Google Tìm kiếm bằng Ảnh là một tính năng cho phép người dùng truy vết nguồn gốc của một bức ảnh. Nó rất hữu ích trong việc xác thực để kiểm tra một hình ảnh là thật hay chỉ là deepfake.
Luật pháp về Deepfake
Tại California và một số khu vực khác, đã có luật cấm sử dụng deepfake nhằm lừa đảo hoặc đánh lừa người khác. Khung pháp lý vẫn đang được hoàn thiện, nhưng đã có nhiều quy định có thể áp dụng cho các hành vi dùng deepfake để lừa đảo hoặc gây hại, chẳng hạn như luật về phỉ báng hoặc luật chống đánh cắp danh tính.
9 Deepfake đình đám từng đánh lừa rất nhiều người
Danh sách này luôn thay đổi, nhưng tính đến lần cập nhật gần nhất:
- Deepfake Barack Obama: Một deepfake về Barack Obama đã khiến không ít người tin rằng cựu tổng thống Mỹ từng phát ngôn những điều ông chưa bao giờ nói.
- Deepfake Donald Trump: Tương tự Obama, các deepfake về Donald Trump cũng đã đánh lừa nhiều khán giả.
- Deepfake giọng CEO: Có những vụ việc deepfake giọng CEO được dùng để mạo danh, lừa công ty chuyển hàng trăm nghìn đô la.
- Deepfake Hạ viện Mỹ: Một video bị chỉnh sửa về một thành viên Hạ viện Mỹ, khiến người xem hiểu lầm rằng họ đang say xỉn.
- Bản tin giả mạo: Deepfake đã được dùng để tạo ra các bản tin thời sự hoàn toàn bịa đặt.
- Deepfake người nổi tiếng: Nhiều deepfake gán ghép người nổi tiếng vào những tình huống họ chưa từng tham gia, gây tổn hại tới hình ảnh công chúng.
- Deepfake bầu cử chính trị: Deepfake được sử dụng để lan truyền thông tin sai lệch trong mùa bầu cử.
- Deepfake ngành giải trí: Deepfake thay thế diễn viên trong phim hoặc chương trình, dễ dàng đánh lừa người xem.
- Phỏng vấn tổng hợp: Công nghệ deepfake đã tạo ra các cuộc phỏng vấn hoàn toàn giả với nhân vật công chúng.
Công cụ phát hiện Deepfake
Các công ty như Microsoft và Amazon đang phát triển những công cụ chuyên phát hiện deepfake. Các công cụ này thường sử dụng công nghệ học máy để phân tích nội dung âm thanh, tiếng nền và nhiều yếu tố khác nhằm xác định mức độ xác thực của bản ghi âm hoặc đoạn nói. Tập dữ liệu dùng cho việc này thường bao gồm cả âm thanh thật lẫn âm thanh được tạo nhân tạo, cũng như các loại dữ liệu âm thanh khác.
Vì vậy, dù deepfake đặt ra thách thức lớn về vấn nạn tin giả và lừa đảo, vẫn đang có rất nhiều nỗ lực nhằm đối phó với nó.
Top 9 trang web tạo giọng nói Deepfake
- Descript’s Overdub
- Tính năng: Huấn luyện giọng người dùng, nhân bản giọng chất lượng cao, nhiều lựa chọn giọng, chỉnh sửa podcast và chuyển văn bản thành giọng nói.
- Chi phí: Bắt đầu từ $14/tháng.
- Deepware Scanner
- Tính năng: Phát hiện deepfake, nhân bản giọng nói, giao diện dễ dùng, xử lý an toàn, kho dữ liệu lớn.
- Chi phí: Miễn phí, có thu phí cho các tính năng nâng cao.
- Modulate
- Tính năng: Thay đổi giọng trực tiếp, tích hợp game, xử lý bảo mật, giọng tùy chỉnh, sinh trắc học giọng nói.
- Chi phí: Phụ thuộc nhu cầu sử dụng.
- iSpeech
- Tính năng: Chuyển văn bản thành giọng nói, nhân bản giọng, đa ngôn ngữ, truy cập API, giọng tùy chỉnh.
- Chi phí: Từ $20/tháng.
- Deep Voice
- Tính năng: Xử lý nhanh, huấn luyện giọng người dùng, đầu ra chất lượng cao, nhiều lựa chọn giọng, tích hợp API.
- Chi phí: Tùy theo mức sử dụng.
- Replica Studios
- Tính năng: Thay thế diễn xuất bằng giọng, AI tạo giọng nói, tích hợp game, tùy chỉnh giọng và đầu ra chất lượng phòng thu.
- Chi phí: Tính phí dựa trên lượt sử dụng.
- CereVoice Me
- Tính năng: Nhân bản giọng nói, ứng dụng trong y tế, giao diện đơn giản, có thể tùy chỉnh, mẫu giọng Anh - Anh.
- Chi phí: Từ $1.500.
- Sonantic
- Tính năng: Thiết kế giọng cho Hollywood, giọng nói giàu cảm xúc, kho dữ liệu diễn viên, nhập kịch bản, tùy chỉnh giọng.
- Chi phí: Liên hệ để được báo giá.
- WellSaid Labs
- Tính năng: Giọng nói tự nhiên, truy cập API, tạo nhanh, nhiều lựa chọn giọng, dễ tích hợp.
- Chi phí: Từ $60/tháng.
Phần Hỏi đáp
Có phát hiện được giọng nói AI không?
Có, nếu sử dụng phần mềm chuyên dụng và các phương pháp phát hiện deepfake.
Làm sao để nhận diện deepfake?
Phân tích nội dung âm thanh, tìm kiếm các điểm bất thường và kết hợp với những công cụ AI hỗ trợ phát hiện.
Mọi người dùng gì để tạo giọng deepfake?
Các công cụ phổ biến như Descript’s Overdub và Replica Studios.
Lợi ích của việc dùng giọng deepfake?
Phục vụ giải trí, hỗ trợ tiếp cận thông tin, cá nhân hóa trải nghiệm và tạo nội dung mà không cần giọng nói gốc.
Rủi ro của deepfake?
Nguy cơ phát tán tin giả, lừa đảo, mạo danh và bị lợi dụng trong các nội dung, bản tin bịa đặt.
Giọng deepfake có thể bị vạch trần không?
Có, thông qua phân tích pháp y giọng nói và phần mềm AI phát hiện chuyên dụng.
Hệ lụy của giọng deepfake?
Làm xói mòn niềm tin, kéo theo hậu quả pháp lý và gia tăng nguy cơ bị lợi dụng trong các phi vụ lừa đảo.
Deepfake hoạt động như thế nào?
Dùng các thuật toán học máy và học sâu để mô phỏng, bắt chước giọng thật.
Mục đích của giọng deepfake là gì?
Từ giải trí cho đến trợ lý giọng nói cá nhân, quảng cáo, giáo dục… nói chung là rất đa dạng.
Giọng deepfake đang được dùng như thế nào?
Trong giải trí, truyền thông tổng hợp, podcast, quảng cáo và cả trong một số chiến dịch phát tán thông tin sai lệch.

