Công nghệ deepfake đã có những bước tiến nổi bật trong những năm gần đây. Song song với deepfake video, deepfake âm thanh hay nhân bản giọng nói là một lĩnh vực phát triển mạnh mẽ nhờ ứng dụng trí tuệ nhân tạo (AI) và các thuật toán học máy.
Deepfake là gì? Nhân bản giọng nói là gì?
Deepfake là thuật ngữ chỉ những nội dung truyền thông tổng hợp mà hình ảnh hoặc giọng nói của một người bị thay thế bằng người khác, tạo ra các đoạn audio hay video giả mạo cực kỳ thuyết phục. Trong khi đó, nhân bản giọng nói là quá trình tạo ra một bản sao giọng nói chất lượng cao của con người bằng hệ thống chuyển văn bản thành giọng nói (TTS). Cả hai kỹ thuật này đều sử dụng deep learning - một nhánh của AI mô phỏng cách não bộ xử lý dữ liệu để đưa ra quyết định.
Khả năng deepfake âm thanh và nhân bản giọng nói
Hoàn toàn có thể tạo deepfake âm thanh hoặc nhân bản giọng nói. Các hệ thống này sử dụng thuật toán học máy để phân tích lượng lớn dữ liệu ghi âm giọng nói. Sau khi được huấn luyện, các thuật toán có thể tạo ra âm thanh giọng nói khớp với tone, cao độ và phong cách của giọng gốc. Quá trình này còn gọi là tổng hợp giọng nói.
Quy trình tạo deepfake âm thanh và nhân bản giọng nói
Tạo deepfake âm thanh gồm 3 bước: thu thập dữ liệu, huấn luyện và sinh âm thanh mới. Trước tiên, hệ thống cần một lượng lớn các mẫu ghi âm giọng nói mục tiêu. Dữ liệu càng nhiều thì kết quả càng tốt. Bước hai, các mẫu này được dùng để huấn luyện mô hình deep learning. Cuối cùng, mô hình sẽ sinh ra đoạn âm thanh mới có đặc điểm giống giọng mục tiêu. Các nền tảng mã nguồn mở trên Github cung cấp nhiều tài nguyên hỗ trợ thực hiện thao tác này.
So sánh nhân bản giọng nói và deepfake
Cả nhân bản giọng nói và deepfake đều sử dụng các thuật toán học máy tương tự nhau, nhưng mục đích lại khác biệt. Nhân bản giọng nói thường được ứng dụng thực tế như tạo lồng tiếng cho podcast, sách nói hoặc hỗ trợ người có khiếm khuyết về lời nói. Deepfake lại thường được dùng để tạo ra các đoạn âm thanh giả có thể bị lợi dụng cho mục đích xấu.
Nhận biết deepfake âm thanh và nhân bản giọng nói
Việc phát hiện deepfake âm thanh hoặc nhân bản giọng nói rất khó khăn do chất lượng giọng tổng hợp ngày càng cao. Tuy nhiên, vẫn có một số dấu hiệu nhận diện như ngữ điệu, tiết tấu bất tự nhiên hoặc các tạp âm lạ. Ngoài ra, các mô hình deep learning có thể nhúng chỉ số để hỗ trợ nhận diện deepfake theo thời gian thực. Nhiều công ty và nhà nghiên cứu cũng đã phát triển các phương pháp phát hiện deepfake bằng học máy để tìm ra những khác biệt rất tinh vi mà con người thường bỏ qua.
Khía cạnh pháp lý của deepfake
Tính hợp pháp của deepfake khác nhau ở từng quốc gia. Ở một số nơi, việc tạo deepfake với mục đích lừa đảo, tung tin sai lệch hoặc gây hại là bất hợp pháp. Ví dụ, bang New York (Mỹ) đã ban hành luật chống mạo danh kỹ thuật số. Tuy nhiên, ranh giới vẫn còn khá mập mờ và luật pháp hiện tại thường chưa theo kịp tốc độ phát triển của công nghệ này.
Lợi ích của nhân bản giọng nói & Tác động của deepfake
Mặc dù deepfake tiềm ẩn nhiều nguy cơ, đặc biệt trong việc tạo âm thanh giả cho cuộc gọi điện thoại hoặc bài đăng mạng xã hội, nhưng nhân bản giọng nói vẫn mang lại không ít lợi ích. Chẳng hạn như tạo lồng tiếng, hỗ trợ chuyển đổi văn bản thành lời nói, hoặc tạo giọng nhân tạo cho các hệ thống AI.
Tuy nhiên, mặt trái là nguy cơ bị lạm dụng. Khi một đoạn deepfake âm thanh được tạo dựng khéo léo, kẻ xấu có thể giả mạo người khác qua điện thoại hoặc trong các cuộc họp trực tuyến, dẫn tới nguy cơ lừa đảo và phát tán thông tin sai lệch.
Top 9 phần mềm hoặc ứng dụng deepfake âm thanh & nhân bản giọng nói nổi bật
- Speechify Voice Cloning: Speechify voice cloning hiện là một trong những dịch vụ tốt nhất, cho phép bạn nhân bản giọng nói gần như ngay lập tức. Chỉ cần nhấn ghi âm trên trình duyệt và nói trong 30 giây, AI Speechify sẽ tự động nhân bản giọng nói của bạn.
- Resemble AI: Cung cấp dịch vụ tạo giọng AI tùy chỉnh.
- Descript: Bộ công cụ chỉnh sửa âm thanh mạnh mẽ kèm trình tạo giọng nói AI deepfake.
- Lyrebird: Đơn vị nghiên cứu AI trực thuộc Descript, chuyên về tổng hợp giọng nói.
- iSpeech: Dịch vụ chuyển văn bản thành giọng nói (TTS) và nhân bản giọng nói chất lượng cao.
- CereProc: Chuyên tạo ra các giọng nói AI độc đáo.
- Real-Time Voice Cloning: Dự án mã nguồn mở trên Github cho phép nhân bản giọng nói theo thời gian thực.
- Azure Cognitive Services: Dịch vụ giọng nói từ Microsoft, bao gồm TTS và chuyển đổi giọng.
- Voicery: Tạo ra các giọng nói tổng hợp tự nhiên cho nhiều ứng dụng khác nhau.
Mỗi dịch vụ này đều có tính năng, giá thành và chất lượng khác nhau, vì thế hãy cân nhắc lựa chọn dựa trên nhu cầu cụ thể của bạn.
Khi AI ngày càng tiến bộ, chúng ta sẽ chứng kiến sự gia tăng cả về deepfake âm thanh lẫn công nghệ nhân bản giọng nói. Việc hiểu rõ công nghệ, những lợi ích và rủi ro có thể xảy ra đối với xã hội là điều rất quan trọng trong kỷ nguyên số hóa ngày nay.

