Công nghệ tổng hợp giọng nói, hay quá trình tạo ra giọng nói con người một cách nhân tạo, đã tiến một chặng đường dài trong 70 năm qua. Dù hiện tại bạn có sử dụng dịch vụ chuyển văn bản thành giọng nói để nghe sách, học tập, hoặc kiểm tra lại các sản phẩm viết của mình, thì không thể phủ nhận những dịch vụ này đã giúp cuộc sống trở nên dễ dàng hơn với nhiều người ở nhiều lĩnh vực khác nhau.
Trong bài viết này, chúng ta sẽ cùng tìm hiểu cách thức hoạt động của công nghệ chuyển văn bản thành giọng nói, cũng như những thay đổi của công nghệ hỗ trợ này theo thời gian.
Giới thiệu
Vào những năm 1700, giáo sư người Nga Christian Kratzenstein đã tạo ra những bộ cộng hưởng âm thanh mô phỏng âm thanh của giọng nói con người. Hai thập kỷ sau đó, VODER (Voice Operating Demonstrator) đã gây được tiếng vang lớn tại Hội chợ Thế giới New York khi người sáng chế Homer Dudley trình diễn cách có thể tạo ra tiếng nói con người bằng phương tiện nhân tạo. Thiết bị này khá khó vận hành - Dudley phải điều chỉnh tần số cơ bản bằng bàn đạp chân.
Đầu những năm 1800, Charles Wheatstone đã phát triển bộ tổng hợp giọng nói cơ học đầu tiên. Điều này đã mở ra thời kỳ phát triển nhanh chóng của các công cụ và công nghệ tổng hợp tiếng nói.
Có thể khó xác định chính xác điều gì tạo nên một chương trình chuyển văn bản thành giọng nói tốt, nhưng giống như nhiều điều khác trong cuộc sống, bạn sẽ nhận ra ngay khi nghe. Một chương trình chất lượng cao cung cấp giọng nói tự nhiên với ngữ điệu và âm sắc sống động như thật.
Công nghệ chuyển văn bản thành giọng nói có thể hỗ trợ người khiếm thị và những người khuyết tật khác tiếp cận được thông tin cần thiết để thành công trong công việc cũng như giao tiếp với người khác. Phần mềm này cũng giúp sinh viên và những người phải đọc khối lượng tài liệu lớn có thể nghe nội dung dưới dạng âm thanh khi đang di chuyển. Giọng nói tổng hợp giúp mọi người làm được nhiều việc hơn trong thời gian ngắn hơn và có thể ứng dụng ở đủ mọi lĩnh vực, từ phát triển trò chơi điện tử cho đến hỗ trợ người gặp khó khăn trong xử lý ngôn ngữ.
Những năm 1950 và 60
Cuối những năm 1950, những hệ thống tổng hợp giọng nói đầu tiên được tạo ra, dựa trên máy tính. Năm 1961, nhà vật lý John Larry Kelly Jr. tại Bell Labs đã sử dụng máy tính IBM để tổng hợp giọng nói. Thiết bị vocoder (bộ tổng hợp ghi âm giọng nói) của ông đã tái hiện ca khúc Daisy Bell.
Cùng thời điểm Kelly hoàn thiện vocoder của mình, tác giả Arthur C. Clarke của tiểu thuyết 2001: A Space Odyssey đã đưa màn trình diễn của Kelly vào kịch bản phim. Trong một cảnh, máy tính HAL 9000 đã hát ca khúc Daisy Bell.
Năm 1966, mã hóa dự đoán tuyến tính (linear predictive coding) ra đời. Dạng mã hóa tiếng nói này bắt đầu được phát triển bởi Fumitada Itakura và Shuzo Saito. Bishnu S. Atal và Manfred R. Schroeder cũng góp phần hoàn thiện mã hóa dự đoán tuyến tính.
Những năm 1970
Năm 1975, phương pháp dải quang phổ (line spectral pairs) được Itakura phát triển. Phương pháp mã hóa tiếng nói nén cao này giúp Itakura hiểu rõ hơn về phân tích và tổng hợp tiếng nói, xác định các điểm yếu và tìm cách khắc phục.
Cũng trong năm này, hệ thống tổng hợp tiếng nói độc lập MUSA đã được giới thiệu. Hệ thống này sử dụng thuật toán để đọc tiếng Ý thành tiếng. Ba năm sau, một phiên bản có thể hát tiếng Ý đã ra đời.
Trong những năm 70, bộ tổng hợp phát âm đầu tiên dựa trên cấu trúc thanh quản con người đã được phát triển. Bộ tổng hợp này do Tom Baer, Paul Mermelstein và Philip Rubin tại Phòng thí nghiệm Haskins phát triển, dựa trên các mô hình thanh quản do Bell Laboratories xây dựng trong thập niên 60 và 70.
Năm 1976, máy đọc Kurzweil cho người khiếm thị được giới thiệu. Mặc dù các thiết bị này quá đắt để cá nhân có thể tự mua, nhưng thư viện thường trang bị cho người khiếm thị để họ có thể nghe sách.
Mã hóa dự đoán tuyến tính đã trở thành nền tảng cho các con chip tổng hợp giọng nói. Chip giọng nói LPC của Texas Instruments và đồ chơi Speak & Spell cuối những năm 1970 đều ứng dụng công nghệ chip tổng hợp giọng nói. Những món đồ chơi này là ví dụ điển hình của công nghệ tổng hợp giọng nói người với ngữ điệu chính xác, giúp giọng nói khác biệt với tiếng robot thường thấy vào thời đó. Nhiều thiết bị điện tử cầm tay có khả năng tổng hợp giọng nói đã trở nên phổ biến trong thập kỷ này, bao gồm máy tính cầm tay Speech+ của Telesensory Systems dành cho người khiếm thị. Máy tính cờ vua Fidelity Voice Chess Challenger, một máy tính chơi cờ có khả năng tổng hợp giọng nói, cũng được phát hành vào năm 1979.
Những năm 1980
Trong những năm 1980, công nghệ tổng hợp giọng nói bắt đầu làm mưa làm gió trong thế giới trò chơi điện tử. Năm 1980, Stratovox (một trò chơi bắn súng trong phòng game) được Sun Electronics phát hành. Manbiki Shoujo (dịch sang tiếng Anh là Shoplifting Girl) là trò chơi máy tính cá nhân đầu tiên có khả năng tổng hợp giọng nói. Trò chơi điện tử Milton - sản phẩm điện tử đầu tiên của Công ty Milton Bradley có khả năng tổng hợp giọng nói người - cũng ra mắt vào năm 1980.
Năm 1983 xuất hiện máy tổng hợp tiếng nói cận âm cơ học độc lập gọi là DECtalk. DECtalk hiểu cách đánh vần theo ngữ âm của các từ, cho phép tuỳ chỉnh phát âm cho những từ hiếm gặp. Những cách đánh vần này cũng có thể kèm chỉ báo tông giọng, DECtalk sẽ dùng khi phát âm các thành tố ngữ âm. Nhờ đó, DECtalk thậm chí còn có thể hát.
Cuối thập niên 80, Steve Jobs phát triển dự án NeXT, một hệ thống do Trillium Sound Research xây dựng. Dù NeXT không tạo được tiếng vang lớn, Jobs cuối cùng đã sáp nhập chương trình này vào Apple trong những năm 90.
Những năm 1990
Các phiên bản tổng hợp văn bản thành giọng nói trước đây nghe rất giống tiếng robot, nhưng điều đó bắt đầu thay đổi vào cuối những năm 80 và đầu 90. Nhờ các phụ âm được xử lý mềm mại hơn, tiếng máy đã bớt đi chất điện tử sắc lạnh và trở nên giống người hơn. Năm 1990, Ann Syrdal tại AT&T Bell Labs đã phát triển giọng tổng hợp nữ đầu tiên. Suốt thập niên 90, các kỹ sư tiếp tục làm việc để tiếng nói nghe ngày càng tự nhiên hơn.
Năm 1999, Microsoft phát hành Narrator - phần mềm đọc màn hình hiện có mặt trong mọi phiên bản Microsoft Windows.
Những năm 2000
Công nghệ tổng hợp giọng nói gặp phải một số trở ngại trong những năm 2000, khi các nhà phát triển gặp khó khăn trong việc xây dựng những tiêu chuẩn chung cho giọng nói tổng hợp. Vì giọng nói mang tính cá nhân rất cao, nên việc tạo ra sự đồng thuận toàn cầu về cách phát âm các âm vị, bán âm vị, ngữ điệu, tông giọng, nhịp điệu và biến điệu là điều không hề đơn giản.
Chất lượng âm thanh tổng hợp dựa trên dạng thức cũng trở thành mối lo ngại từ thập niên 90, khi các kỹ sư và nhà nghiên cứu nhận thấy hệ thống trong phòng thí nghiệm phát lại tiếng nói tổng hợp thường tiên tiến hơn rất nhiều so với thiết bị mà người dùng thực tế đang sử dụng. Nhắc đến tổng hợp tiếng nói, nhiều người sẽ nhớ ngay tới bộ tổng hợp giọng nói của Stephen Hawking, với âm sắc robot và rất ít sắc thái con người.
Năm 2005, các nhà nghiên cứu cuối cùng đã đạt được sự đồng thuận và bắt đầu sử dụng một tập dữ liệu tiếng nói chung, cho phép họ cùng làm việc dựa trên những tiêu chuẩn nền tảng giống nhau khi phát triển các hệ thống tổng hợp giọng nói cao cấp.
Năm 2007, một nghiên cứu cho thấy người nghe có thể nhận biết người nói có đang cười hay không. Các nhà nghiên cứu vẫn đang tiếp tục tìm cách vận dụng thông tin này để tạo ra phần mềm nhận diện và tổng hợp giọng nói tự nhiên hơn.
Những năm 2010
Ngày nay, các sản phẩm tổng hợp giọng nói sử dụng tín hiệu tiếng nói xuất hiện ở khắp nơi, từ Siri đến Alexa. Bộ tổng hợp giọng nói điện tử không chỉ giúp cuộc sống dễ dàng hơn mà còn khiến mọi thứ thú vị hơn. Dù bạn dùng hệ thống TTS để nghe tiểu thuyết khi di chuyển hay sử dụng các ứng dụng hỗ trợ học ngoại ngữ, rất có thể mỗi ngày bạn đều đang tận dụng công nghệ chuyển văn bản thành giọng nói để kích hoạt các mạng nơ-ron thần kinh của mình.
Tương lai
Trong những năm tới, công nghệ tổng hợp giọng nói có thể sẽ tập trung vào việc xây dựng mô hình não bộ để hiểu rõ hơn cách chúng ta lưu trữ dữ liệu tiếng nói trong tâm trí. Công nghệ giọng nói cũng sẽ đi sâu nghiên cứu vai trò của cảm xúc trong ngôn ngữ, nhằm tạo ra giọng nói AI không thể phân biệt với giọng người thật.
Công nghệ tổng hợp giọng nói mới nhất: Speechify
Nhìn lại quá trình phát triển của công nghệ tổng hợp giọng nói, thật ấn tượng khi hình dung chúng ta đã tiến xa đến mức nào nhờ khoa học. Ngày nay, các ứng dụng như Speechify giúp bạn dễ dàng chuyển đổi bất kỳ đoạn văn bản nào thành tệp âm thanh. Chỉ với một lần chạm (hoặc chạm nhẹ trên ứng dụng), Speechify có thể chuyển các trang web, tài liệu và hình ảnh chứa văn bản thành giọng đọc tự nhiên. Thư viện của Speechify được đồng bộ trên mọi thiết bị, giúp bạn dễ dàng tiếp tục học tập và làm việc mọi lúc mọi nơi. Hãy trải nghiệm ứng dụng Speechify trên cả App Store của Apple và Android Google Play.
Câu hỏi thường gặp
Ai là người phát minh ra công nghệ chuyển văn bản thành giọng nói?
Công nghệ chuyển văn bản thành giọng nói tiếng Anh được phát minh bởi Noriko Umeda. Hệ thống được phát triển tại Phòng thí nghiệm Điện kỹ thuật ở Nhật Bản vào năm 1968.
Mục đích của công nghệ chuyển văn bản thành giọng nói là gì?
Rất nhiều người sử dụng công nghệ chuyển văn bản thành giọng nói. Với những ai thích tiếp nhận thông tin dưới dạng âm thanh, công nghệ TTS giúp họ dễ dàng tiếp cận kiến thức phục vụ học tập hoặc công việc mà không phải ngồi hàng giờ trước cuốn sách. Các chuyên gia bận rộn cũng dùng TTS để không bị gián đoạn công việc khi không thể ngồi trước màn hình máy tính. Nhiều dạng công nghệ TTS ban đầu được phát triển cho người khiếm thị, và đến nay TTS vẫn là một phương thức tuyệt vời để những người gặp vấn đề về thị lực có thể tiếp cận thông tin họ cần.
Làm thế nào để tổng hợp một bài nói?
Các đoạn ghi âm được lưu trữ trong cơ sở dữ liệu dưới nhiều đơn vị khác nhau. Phần mềm sẽ xử lý tệp âm thanh thông qua quá trình chọn đơn vị phù hợp, từ đó tạo ra giọng nói. Thường thì, phạm vi âm thanh đầu vào càng rộng thì chương trình càng khó duy trì độ rõ ràng cho lời nói đầu ra.

