Nhà sáng lập Speechify bàn về tương lai của AI cùng podcast Everyday AI
Liệu giọng đọc của người nổi tiếng có phải là tương lai của AI sinh ngữ? AI có an toàn không? Nhà sáng lập kiêm CEO của Speechify, Cliff Weitzman, đã trò chuyện cùng Jordan Wilson trong Tập 152 của podcast Everyday AI để trả lời những câu hỏi này và còn nhiều điều thú vị khác.
Podcast Everyday AI
Podcast Everyday AI là một buổi livestream, podcast và bản tin email miễn phí mỗi ngày rất được yêu thích, giúp mọi người phát triển sự nghiệp nhờ AI. Podcast này không chỉ cập nhật cho thính giả những mẹo hay và xu hướng mới nhất về AI sinh ngữ đang phát triển chóng mặt, mà còn giúp họ biết cách tận dụng AI để gặt hái thành công. Kể từ khi ra mắt vào tháng 4 năm 2023, Podcast Everyday AI đã thu hút được 22.000 thính giả và 7.800 người đăng ký nhận bản tin email hàng ngày, những người mong muốn trau dồi kiến thức và chiến lược về AI để làm việc thông minh hơn thay vì vất vả hơn, và đưa thành công của họ lên một tầm cao mới nhờ trí tuệ nhân tạo.
Câu chuyện của Speechify
Cliff Weitzman phát triển Speechify từ những ngày còn học đại học, khi anh gặp khó khăn với chứng khó đọc và nhận ra hầu hết sách giáo trình không có bản audiobook. Ngày nay, đây là ứng dụng chuyển văn bản thành giọng nói số 1 thế giới, với hơn 150.000 đánh giá 5 sao và hơn 25 triệu người dùng. Điều gì đã khiến ứng dụng này trở nên nổi tiếng đến mức cả Snoop Dogg cũng muốn bắt tay hợp tác? Weitzman đã bật mí về điều đó và nhiều câu chuyện khác trong Tập 152 của podcast Everyday AI phát sóng vào Thứ Hai, ngày 27 tháng 11.
Speechify hoạt động như thế nào
Weitzman giải thích rằng Speechify được xây dựng dựa trên bộ máy chuyển văn bản thành giọng nói (TTS) hàng đầu với trình tạo giọng nói AI chất lượng cao thuộc top đầu thế giới, có thể biến bất kỳ văn bản nào thành giọng đọc chỉ trong nháy mắt với chi phí hợp lý. Với các ứng dụng trên Android, Mac, iOS, phiên bản web cùng tiện ích mở rộng cho Microsoft Edge và Google Chrome, Speechify không chỉ dừng lại ở việc đọc to các văn bản số như PDF, bài báo, Google Docs, email. Nhờ công nghệ OCR và AI tiên tiến, người dùng còn có thể chụp nhanh sách giáo trình, tài liệu học tập, ghi chú viết tay hay các loại giấy tờ khác và chuyển thành tệp âm thanh sống động gần như ngay lập tức.
Các trường hợp sử dụng & mục tiêu của Speechify
Việc cho phép người dùng nghe văn bản thay vì chỉ đọc, hoặc vừa đọc vừa nghe thông qua tính năng tô sáng văn bản của Speechify, giúp việc tiếp thu thông tin nhanh hơn, nhẹ nhàng hơn và hiệu quả hơn. Điều này đã biến Speechify thành một công cụ AI gần như không thể thiếu cho học sinh, sinh viên và những người gặp khó khăn trong học tập hoặc có các khuyết tật như khó đọc, ADHD, thị lực kém, khiếm thị, tự kỷ, chấn thương sọ não và rối loạn lo âu.
Tuy nhiên, dù ban đầu Speechify chủ yếu được dùng như một công nghệ hỗ trợ cho người gặp khó khăn trong học tập, ngày nay, theo lời Weitzman, ứng dụng đã được rất nhiều nhóm người khác nhau tin dùng, từ bác sĩ, luật sư, kế toán, quân nhân, giám đốc doanh nghiệp, chuyên gia tài chính đến người học ngoại ngữ và những ai muốn tăng năng suất, tốc độ đọc nhờ giọng đọc tự nhiên chất lượng cao cùng công nghệ OCR của ứng dụng.
Trên thực tế, Weitzman chia sẻ rằng mục tiêu của Speechify là bảo đảm "việc đọc sẽ không bao giờ là rào cản cho việc học, dù bạn xuất phát từ hoàn cảnh nào."
Giọng nói của người nổi tiếng
Khi Speechify phát triển, ứng dụng đã có cơ hội hợp tác cùng nhiều gương mặt nổi tiếng. Trong tập này, Weitzman và Wilson kể lại chuyện Speechify hợp tác với Snoop Dogg, người đã góp giọng vào kho lựa chọn giọng đọc của Speechify.
Weitzman cho biết nhiều màn hợp tác của Speechify bắt nguồn từ chính những người đã dùng sản phẩm chủ động liên hệ. Anh chia sẻ câu chuyện đại diện của Snoop Dogg đã tìm đến Speechify, nói rằng Snoop muốn dùng chính giọng mình để giúp khán giả tiếp cận thông tin dễ dàng hơn. Điều này đã dẫn đến việc Weitzman bay đến phòng thu tại nhà của Snoop Dogg để thu âm và tái tạo giọng nói của anh ấy bằng công nghệ nhân bản giọng nói và tổng hợp giọng nói.
Trong hơn 200 giọng AI của Speechify bằng nhiều ngôn ngữ khác nhau, bao gồm tiếng Anh, Hoa, Tây Ban Nha, Bồ Đào Nha và nhiều hơn nữa, nữ diễn viên kiêm nhà đầu tư gắn bó lâu năm với Speechify, Gwyneth Paltrow cũng là một trong các lựa chọn giọng đọc chuyển văn bản thành giọng nói.
Tuy nhiên, song song với các tùy chọn giọng nổi tiếng có thể đọc mọi thứ từ bài đăng mạng xã hội đến các bài nghiên cứu, Speechify cũng đã triển khai nhiều biện pháp bảo vệ để ngăn chặn việc lạm dụng.
An toàn AI & nhân bản giọng nói
Dù Speechify nhận thấy rất nhiều lợi ích từ công cụ chuyển văn bản thành giọng nói bằng AI cũng như công nghệ nhân bản giọng nói, Weitzman vẫn nhấn mạnh rằng một trong những ưu tiên hàng đầu của Speechify là bảo vệ người sáng tạo nội dung và người dùng, bởi “an toàn AI là vô cùng quan trọng.”
Việc triển khai các chính sách an toàn càng trở nên cấp thiết hơn khi Speechify mở rộng tính năng chuyển đổi văn bản thành giọng nói để ra mắt những sản phẩm mới như Speechify Studio, bộ công cụ dựa trên AI hỗ trợ người sáng tạo nội dung tạo lồng tiếng AI, giọng nói tùy chỉnh, dịch lồng tiếng, tự động chuyển âm, chỉnh sửa video và sử dụng avatar AI.
Ví dụ, Weitzman giải thích Speechify chỉ cho phép người dùng nhân bản chính giọng của họ hoặc giọng của người đang ngồi bên cạnh (như bạn bè đồng ý), chứ không cho phép dùng bừa bất kỳ giọng nói nào trên Internet, nhằm tránh lạm dụng cũng như vi phạm quyền riêng tư hoặc bản quyền.
“Triết lý chung của chúng tôi tại Speechify là đặt chủ sở hữu quyền vào vị trí kiểm soát,” Weitzman nói. Anh cũng nhấn mạnh rằng công nghệ AI của Speechify không nhằm thay thế người sáng tạo nội dung như các diễn viên lồng tiếng cho audiobook mà để “gia tăng khả năng sáng tạo của họ”, giúp họ sản xuất nhiều nội dung hơn, hiệu quả hơn.
Ngoài ra, Weitzman cũng tiết lộ Speechify hiện đang phát triển một sản phẩm cho phép người dùng dễ dàng nhận biết giọng đọc là giọng người hay giọng tổng hợp AI, và nếu là giọng giả, sẽ chỉ rõ nguồn gốc của nó – một biện pháp giúp phòng tránh các chiêu lừa đảo giả mạo giọng nói, khi kẻ xấu giả giọng người thân để trục lợi.
Lắng nghe Cliff Weitzman trên podcast Everyday AI
Để tìm hiểu sâu hơn về cách công nghệ AI chuyển văn bản thành giọng nói của Speechify đang định hình tương lai của việc học và sáng tạo nội dung, hãy nghe tập đặc biệt này của podcast Everyday AI trên các nền tảng podcast lớn như Apple Podcasts và Spotify, hoặc nghe trực tiếp ngay bên dưới:
Mốc thời gian podcast:
[00:12:50] An toàn trong lĩnh vực chuyển văn bản thành giọng nói
[00:18:12] Các trường hợp sử dụng chuyển văn bản thành giọng nói
[00:21:05] Câu hỏi từ khán giả
[00:24:10] Tương lai của chuyển văn bản thành giọng nói
[00:27:28] Liệu chữ viết có ngày càng kém tác động?
[00:31:30] Sử dụng chuyển văn bản thành giọng nói trong môi trường chuyên nghiệp

