Nhờ những bước tiến trong học máy, công nghệ nhân bản giọng nói đã phát triển vượt bậc trong những năm gần đây, mang lại một số giải pháp chuyển văn bản thành giọng nói ấn tượng nhất từ trước đến nay. Trong số đó, zero-shot là một trong những công nghệ nổi bật đang tạo nên làn sóng lớn trong giới công nghệ. Bài viết này sẽ giới thiệu về nhân bản giọng nói zero-shot và cách nó đang làm thay đổi cả ngành.
Giải thích học máy zero-shot
Mục tiêu của nhân bản giọng nói là tái tạo lại giọng nói của người nói bằng cách mô phỏng tông và chất giọng chỉ với một lượng nhỏ bản ghi âm. Nói cách khác, nhân bản giọng nói là một công nghệ tiên tiến sử dụng trí tuệ nhân tạo để tạo ra một giọng nói giống với giọng của một người cụ thể. Công nghệ này thường xoay quanh ba cách tiếp cận chính:
One-shot learning (Học một lần)
Học một lần nghĩa là mô hình chỉ được huấn luyện trên một hình ảnh của một đối tượng mới, nhưng vẫn phải nhận diện được các hình ảnh khác của cùng đối tượng đó.
Few-shot learning (Học ít mẫu)
Học ít mẫu là khi mô hình chỉ được xem một vài hình ảnh của đối tượng mới và vẫn có thể nhận ra các đối tượng tương tự ngay cả khi chúng có đôi chút khác biệt.
Zero-shot learning (Học không mẫu)
Học không mẫu là quá trình dạy một mô hình nhận biết các đối tượng hoặc khái niệm hoàn toàn mới mà trước đó nó chưa từng được huấn luyện, bằng cách sử dụng một bộ dữ liệu (ví dụ như VCTK) để mô tả chúng. Tức là mô hình được dạy nhận diện các yếu tố mới mà không cần hình ảnh, ví dụ hoặc dữ liệu huấn luyện trực tiếp. Thay vào đó, bạn cung cấp cho mô hình một danh sách các đặc điểm mô tả đối tượng mới đó.
Nhân bản giọng nói là gì?
Nhân bản giọng nói là quá trình tái tạo giọng nói của một người bằng các kỹ thuật học máy. Mục tiêu là tái tạo lại tông và chất giọng của người nói chỉ từ một lượng nhỏ dữ liệu ghi âm. Trong quá trình này, một bộ mã hóa giọng nói sẽ chuyển bài nói của một người thành một mã có thể biểu diễn dưới dạng vector nhúng giọng nói. Vector này sau đó được dùng để huấn luyện một bộ tổng hợp giọng nói, còn gọi là vocoder, nhằm tạo ra âm thanh giống như người nói. Bộ tổng hợp nhận vào vector nhúng giọng nói cùng một biểu đồ quang phổ mel (biểu diễn dạng hình ảnh của tín hiệu giọng nói). Đây là quy trình cơ bản của nhân bản giọng nói; sau đó, hệ thống sẽ tạo ra bản âm thanh của bài phát biểu tổng hợp. Quy trình này thường được triển khai bằng các kỹ thuật học máy như deep learning. Ngoài ra, mô hình có thể được huấn luyện trên nhiều bộ dữ liệu khác nhau và đánh giá qua nhiều chỉ số để đo chất lượng giọng nói đầu ra. Nhân bản giọng nói có thể ứng dụng trong nhiều lĩnh vực như:
- Chuyển đổi giọng nói – thay đổi bản ghi của một người sao cho nghe giống như do một người khác nói.
- Xác thực người nói – khi ai đó tự xưng là một người cụ thể, giọng nói của họ sẽ được dùng để kiểm tra xem có đúng là họ hay không.
- Chuyển văn bản thành giọng nói đa người text to speech – tạo ra bài phát biểu từ văn bản và các từ khóa đã được soạn sẵn.
Một số thuật toán nhân bản giọng nói phổ biến gồm có WaveNet, Tacotron2, Zero-shot Multispeaker TTS và VALL-E của Microsoft. Ngoài ra còn có nhiều thuật toán mã nguồn mở khác trên GitHub với chất lượng đầu ra rất ấn tượng. Nếu bạn muốn tìm hiểu sâu hơn về các kỹ thuật nhân bản giọng nói, các hội nghị như ICASSP, Interspeech hay IEEE International Conference là những nơi rất đáng để tham dự.
Học không mẫu trong nhân bản giọng nói
Bộ mã hóa giọng nói được dùng để trích xuất các vector giọng nói từ dữ liệu huấn luyện, từ đó đạt được nhân bản giọng nói zero-shot. Những vector này sau đó có thể dùng để xử lý tín hiệu giọng nói của các người nói không hề xuất hiện trong bộ dữ liệu huấn luyện – còn gọi là người nói chưa biết trước. Điều này có thể đạt được bằng cách huấn luyện mạng nơ-ron với nhiều kỹ thuật khác nhau như:
- Mô hình tích chập (convolutional) là các mạng nơ-ron thường được dùng để giải quyết các bài toán phân loại hình ảnh.
- Mô hình tự hồi quy (autoregressive) có thể dự đoán các giá trị trong tương lai dựa trên chuỗi giá trị trong quá khứ.
Một trong những thách thức lớn của nhân bản giọng nói zero-shot là đảm bảo giọng tổng hợp phải có chất lượng cao và nghe tự nhiên với người nghe. Để vượt qua bài toán này, nhiều chỉ số khác nhau được sử dụng để đánh giá chất lượng tổng hợp giọng nói:
- Độ tương đồng với người nói đo lường mức độ giống nhau giữa giọng tổng hợp và mẫu giọng thật của người nói mục tiêu.
- Độ tự nhiên của giọng nói phản ánh giọng tổng hợp nghe tự nhiên đến mức nào đối với người nghe.
Dữ liệu được thu thập từ đời thực, dùng để huấn luyện và đánh giá các mô hình AI, được gọi là dữ liệu tham chiếu gốc (ground truth reference audio). Dữ liệu này vừa dùng cho việc huấn luyện vừa dùng làm chuẩn so sánh. Bên cạnh đó, các kỹ thuật chuyển đổi phong cách cũng được áp dụng để tăng khả năng khái quát hóa của mô hình. Chuyển đổi phong cách sử dụng hai nguồn đầu vào – một cho nội dung chính và một cho tham chiếu phong cách – để cải thiện hiệu suất của mô hình trên dữ liệu mới. Nói đơn giản, mô hình sẽ xử lý tốt hơn các tình huống chưa từng gặp.
Trải nghiệm công nghệ nhân bản giọng nói mới nhất tại Speechify Studio
Công nghệ nhân bản giọng nói AI của Speechify Studio cho phép bạn tạo ra một phiên bản AI tùy biến của chính giọng nói của mình — lý tưởng để cá nhân hóa phần thuyết minh, xây dựng sự nhất quán thương hiệu hoặc tạo dấu ấn quen thuộc cho bất kỳ dự án nào. Chỉ cần ghi âm mẫu, các mô hình AI tiên tiến của Speechify sẽ tạo ra một bản sao kỹ thuật số sống động nghe như chính bạn. Muốn linh hoạt hơn nữa? Công cụ thay đổi giọng nói tích hợp sẵn cho phép bạn biến đổi các bản ghi hiện có thành bất kỳ giọng nói AI nào trong số hơn 1.000 giọng của Speechify Studio, mang đến cho bạn toàn quyền sáng tạo về tông giọng, phong cách và cách truyền đạt. Dù bạn đang trau chuốt giọng cá nhân hay biến tấu âm thanh cho các bối cảnh khác nhau, Speechify Studio đều giúp bạn tùy chỉnh giọng ở chuẩn chuyên nghiệp một cách nhẹ nhàng.
Câu hỏi thường gặp
Mục đích của việc nhân bản giọng nói là gì?
Nhân bản giọng nói nhằm tạo ra giọng nói chất lượng cao, nghe tự nhiên, có thể ứng dụng trong nhiều lĩnh vực để nâng cao trải nghiệm giao tiếp và tương tác giữa con người với máy móc.
Sự khác biệt giữa chuyển đổi giọng nói và nhân bản giọng nói là gì?
Chuyển đổi giọng nói là chỉnh sửa bài nói của một người để nó nghe giống như giọng của người khác, trong khi nhân bản giọng nói là tạo ra một giọng nói mới bắt chước giọng của một người cụ thể.
Phần mềm nào có thể nhân bản giọng nói của ai đó?
Có rất nhiều lựa chọn, chẳng hạn như Speechify, Resemble.ai, Play.ht và nhiều phần mềm khác.
Làm thế nào để phát hiện giọng giả mạo?
Một trong những kỹ thuật phổ biến nhất để phát hiện deepfake âm thanh là phân tích phổ, tức là phân tích tín hiệu âm thanh để tìm ra các mẫu đặc trưng của giọng nói.

