Công nghệ chuyển văn bản thành giọng nói đang phát triển với tốc độ chóng mặt, đặc biệt là trong vài năm gần đây. Nhờ sự tiến bộ của trí tuệ nhân tạo, TTS ngày nay có thể tạo ra giọng đọc chất lượng cao mô phỏng rất sát giọng nói của con người.
VALL-E của Microsoft là giải pháp công nghệ mới nhất có thể khiến chuyển văn bản thành giọng nói trở nên chân thực đến kinh ngạc. Đây là một mô hình ngôn ngữ codec thần kinh dựa trên học máy zero-shot.
Nếu câu cuối cùng nghe cứ như trong phim khoa học viễn tưởng, đừng lo. Chúng tôi sẽ “gỡ rối” những khái niệm phức tạp đằng sau VALL-E trong bài viết dưới đây.
Giải thích về Microsoft VALL-E
Các mô hình AI ngày càng phát triển mạnh mẽ. Đến nay, hầu như ai cũng đã nghe về ChatGPT của OpenAI, có lẽ là sản phẩm AI hiện gần nhất với việc giao tiếp tự nhiên như con người. Bạn cũng có thể đã từng thấy một số tác phẩm nghệ thuật do AI tạo ra từ công cụ DALL-E.
Bên cạnh các startup như OpenAI, những công ty toàn cầu như Microsoft cũng là những “ông lớn” trong lĩnh vực AI.
Gần đây, các nhà nghiên cứu của Microsoft đang tập trung phát triển công nghệ tổng hợp giọng nói từ văn bản. VALL-E chính là thành quả của những nỗ lực đó.
Trí tuệ nhân tạo mới này có tiềm năng tạo ra bước ngoặt lớn trong lĩnh vực TTS vì nó có thể tạo ra giọng nói rất giống con người chỉ từ một mẫu âm thanh cực kỳ ngắn. Chỉ với ba giây âm thanh mẫu là đủ để VALL-E nhận diện các đặc điểm riêng của người nói.
Sau khi nhận được mẫu giọng nói, AI có thể bắt chước giọng người và thậm chí mô phỏng cả sắc thái cảm xúc. Đặc biệt hơn nữa, VALL-E còn giữ lại được cả môi trường âm thanh xung quanh của người nói.
Hiểu một cách đơn giản, mô hình VALL-E cực kỳ giỏi trong việc bắt chước giọng nói. Bạn có thể nghe các ví dụ thực tế trên GitHub, nơi Microsoft đã chia sẻ các mẫu âm thanh cùng phần giải thích chi tiết về AI này.
Tất nhiên, công nghệ này có thể được ứng dụng vào rất nhiều lĩnh vực, như tạo podcast và sách nói. Khả năng ứng dụng còn có thể mở rộng hơn nữa khi VALL-E được kết hợp với các mô hình sinh như GPT-3.
Tuy nhiên, công nghệ như VALL-E cũng có thể bị lạm dụng cho các mục đích tiêu cực.
Vì VALL-E có thể bắt chước giọng người một cách đáng kinh ngạc, nên có thể dễ dàng hình dung cách những kẻ xấu sử dụng công nghệ này để lừa đảo, ví dụ như tạo deepfake độc hại mà không có sự đồng ý của người bị làm giả. Những khả năng này đã khiến Microsoft phải công bố tuyên bố đạo đức về AI.
Trong tuyên bố đó, Microsoft khuyến nghị sử dụng các mô hình chỉnh sửa giọng nói nhằm đảm bảo có sự đồng ý của người nói gốc.
Dù vậy, những tranh cãi xoay quanh việc VALL-E có thể được dùng như thế nào vẫn là câu chuyện của tương lai. Còn hiện tại, chúng ta có một câu hỏi thú vị hơn cần trả lời:
Làm sao AI có thể sao chép những mẫu phức tạp chỉ từ một đoạn âm thanh dài ba giây?
Không ngạc nhiên khi câu trả lời khá phức tạp.
VALL-E được huấn luyện trên một lượng dữ liệu khổng lồ, gồm hàng nghìn giờ giọng nói tiếng Anh. Điều này giúp AI mô phỏng giọng tiếng Anh một cách mượt mà. Tuy nhiên, VALL-E không phải là hệ thống TTS thông thường – nó được vận hành bởi công nghệ học máy tiên tiến nhất hiện nay.
Chúng tôi đã nhắc tới tên công nghệ này: mô hình ngôn ngữ codec thần kinh zero-shot. Hãy cùng tìm hiểu xem những thuật ngữ đó thực sự có ý nghĩa gì.
Tìm hiểu về mô hình ngôn ngữ codec thần kinh zero-shot
Bắt đầu với phần dễ hiểu nhất: “zero-shot” đề cập đến công nghệ đặc biệt trong các động cơ chuyển văn bản thành giọng nói. Nó cho phép AI tạo ra giọng đọc dựa trên dữ liệu mà nó chưa từng biết đến trước đó. Nói cách khác, máy tính có thể đọc to văn bản mà nó chưa từng “thấy” trước đây.
Ấn tượng hơn nữa, công nghệ zero-shot cho phép máy tạo ra giọng đọc mà không cần được đào tạo thêm. Về cơ bản, nó tương tự cách con người có thể đọc những văn bản lạ bằng ngôn ngữ mà họ đã biết.
Tiếp theo là phần phức tạp hơn, “mô hình ngôn ngữ codec thần kinh” cần được mổ xẻ kỹ hơn một chút.
Các động cơ TTS sử dụng codec âm thanh để tạo ra sóng âm từ văn bản viết. Codec giúp AI chuyển đổi chữ cái, từ và câu viết thành âm thanh tương ứng. Codec thần kinh cũng có chức năng tương tự nhưng dựa trên một mạng lưới thần kinh mạnh mẽ.
Tất nhiên, điều này lại dẫn tới một câu hỏi khác: Mạng lưới thần kinh là gì?
Chúng tôi sẽ giải thích một cách tổng quát mà không đi quá sâu vào chi tiết kỹ thuật. Mạng lưới thần kinh cố gắng mô phỏng cách bộ não con người hoạt động. Hệ thống này bao gồm các nơ-ron nhân tạo được gọi là node, liên kết với nhau và sắp xếp thành các lớp.
Cấu trúc phức tạp này giúp tạo ra quá trình học sâu (deep learning), khiến máy tính có khả năng dần dần phát triển và thích nghi với những mô hình lạ.
Codec thần kinh vận hành mô hình ngôn ngữ – phần còn lại trong phương trình chuyển văn bản thành giọng nói này.
Mô hình ngôn ngữ sử dụng bộ dữ liệu để hiểu mọi đầu vào văn bản trong bối cảnh của ngôn ngữ thực tế. Nói cách khác, đây là cách máy “hiểu” văn bản.
Trong trường hợp của VALL-E, LibriLight – một thư viện âm thanh do Meta của Facebook biên soạn – đã đóng vai trò là nền tảng mô hình ngôn ngữ cho AI này.
Nghe thử công nghệ TTS tiên tiến nhất hiện nay qua Speechify
Mặc dù VALL-E vẫn chưa được công bố rộng rãi, bạn có thể nghe thử một động cơ chuyển văn bản thành giọng nói tiên tiến qua Speechify. Speechify là dịch vụ TTS có thể đọc to văn bản từ gần như mọi nguồn.
Dù bạn cung cấp văn bản, nội dung web hay một trang tài liệu quét, Speechify đều sẽ đọc ngay lập tức. Hơn thế nữa, hệ thống này có các giọng đọc kể chuyện rất tự nhiên. Khác với các động cơ TTS truyền thống thường nghe khá máy móc, Speechify mang đến trải nghiệm giống như đang nghe người thật đọc.
Ngoài ra, bạn có thể tùy chỉnh cách đọc của Speechify. Chọn ngôn ngữ, giọng đọc, tốc độ phù hợp để nghe bất kỳ văn bản nào đúng như ý bạn muốn.
Nếu tất cả những điều này khiến bạn thấy hứng thú, bạn có thể trải nghiệm Speechify miễn phí ngay hôm nay.
Câu hỏi thường gặp
Người dùng có thể sử dụng VALL-E không?
Có nhiều lo ngại về nguy cơ lạm dụng VALL-E. Việc đánh cắp danh tính là một rủi ro đặc biệt đáng lo ngại. Vì lý do đó, Microsoft đã quyết định không công khai VALL-E cho cộng đồng.
Microsoft AI là gì?
Microsoft AI không phải là một sản phẩm riêng biệt. Thay vào đó, đây là chương trình nền tảng để công ty phát triển các giải pháp AI. Microsoft AI bao gồm các giải pháp khoa học dữ liệu, AI hội thoại, robot, học máy và những tiến bộ khác trong ngành.
Giao diện điều khiển bằng giọng nói là gì?
Giao diện điều khiển bằng giọng nói đúng như tên gọi – là giao diện người dùng mà bạn tương tác bằng cách ra lệnh bằng giọng nói. Công nghệ này đã rất phổ biến trên các thiết bị thông minh – hãy nghĩ đến Alexa của Amazon, Siri của Apple, Cortana của Microsoft hay Trợ lý Google.
Robot là gì?
Thuật ngữ “robot” chỉ bất kỳ cỗ máy nào vận hành tự động. Những cỗ máy như vậy được thiết kế nhằm thay thế sức lao động của con người. Dù thường được mô tả trong truyền thông đại chúng dưới hình dạng người máy, phần lớn robot ngoài đời thực không có dáng dấp giống con người. Trên thực tế, chúng thậm chí có thể không có hình thức vật lý nào – ví dụ như các trợ lý ảo phổ biến ngày nay cũng được tính là robot.

