1. Trang chủ
  2. Chuyển Văn Bản Thành Giọng Nói
  3. Lịch sử ngắn gọn của công nghệ chuyển văn bản thành giọng nói

Lịch sử ngắn gọn của công nghệ chuyển văn bản thành giọng nói

Tyler Weitzman

Tyler Weitzman

Thạc sĩ Khoa học Máy tính, Đại học Stanford; Nhà vận động cho Chứng khó đọc & Tiếp cận; Giám đốc điều hành/Người sáng lập Speechify

apple logoGiải thưởng Thiết kế Apple 2025
Hơn 50 triệu người dùng

Công nghệ tổng hợp giọng nói, hay quá trình tạo ra giọng nói con người một cách nhân tạo, đã tiến một chặng đường dài trong 70 năm qua. Dù hiện tại bạn có sử dụng dịch vụ chuyển văn bản thành giọng nói để nghe sách, học tập, hoặc kiểm tra lại các sản phẩm viết của mình, thì không thể phủ nhận những dịch vụ này đã giúp cuộc sống trở nên dễ dàng hơn với nhiều người ở nhiều lĩnh vực khác nhau.

Trong bài viết này, chúng ta sẽ cùng tìm hiểu cách thức hoạt động của công nghệ chuyển văn bản thành giọng nói, cũng như những thay đổi của công nghệ hỗ trợ này theo thời gian.

Giới thiệu

Vào những năm 1700, giáo sư người Nga Christian Kratzenstein đã tạo ra những bộ cộng hưởng âm thanh mô phỏng âm thanh của giọng nói con người. Hai thập kỷ sau đó, VODER (Voice Operating Demonstrator) đã gây được tiếng vang lớn tại Hội chợ Thế giới New York khi người sáng chế Homer Dudley trình diễn cách có thể tạo ra tiếng nói con người bằng phương tiện nhân tạo. Thiết bị này khá khó vận hành - Dudley phải điều chỉnh tần số cơ bản bằng bàn đạp chân.

Đầu những năm 1800, Charles Wheatstone đã phát triển bộ tổng hợp giọng nói cơ học đầu tiên. Điều này đã mở ra thời kỳ phát triển nhanh chóng của các công cụ và công nghệ tổng hợp tiếng nói.

Có thể khó xác định chính xác điều gì tạo nên một chương trình chuyển văn bản thành giọng nói tốt, nhưng giống như nhiều điều khác trong cuộc sống, bạn sẽ nhận ra ngay khi nghe. Một chương trình chất lượng cao cung cấp giọng nói tự nhiên với ngữ điệu và âm sắc sống động như thật.

Công nghệ chuyển văn bản thành giọng nói có thể hỗ trợ người khiếm thị và những người khuyết tật khác tiếp cận được thông tin cần thiết để thành công trong công việc cũng như giao tiếp với người khác. Phần mềm này cũng giúp sinh viên và những người phải đọc khối lượng tài liệu lớn có thể nghe nội dung dưới dạng âm thanh khi đang di chuyển. Giọng nói tổng hợp giúp mọi người làm được nhiều việc hơn trong thời gian ngắn hơn và có thể ứng dụng ở đủ mọi lĩnh vực, từ phát triển trò chơi điện tử cho đến hỗ trợ người gặp khó khăn trong xử lý ngôn ngữ.

Những năm 1950 và 60

Cuối những năm 1950, những hệ thống tổng hợp giọng nói đầu tiên được tạo ra, dựa trên máy tính. Năm 1961, nhà vật lý John Larry Kelly Jr. tại Bell Labs đã sử dụng máy tính IBM để tổng hợp giọng nói. Thiết bị vocoder (bộ tổng hợp ghi âm giọng nói) của ông đã tái hiện ca khúc Daisy Bell.

Cùng thời điểm Kelly hoàn thiện vocoder của mình, tác giả Arthur C. Clarke của tiểu thuyết 2001: A Space Odyssey đã đưa màn trình diễn của Kelly vào kịch bản phim. Trong một cảnh, máy tính HAL 9000 đã hát ca khúc Daisy Bell.

Năm 1966, mã hóa dự đoán tuyến tính (linear predictive coding) ra đời. Dạng mã hóa tiếng nói này bắt đầu được phát triển bởi Fumitada Itakura và Shuzo Saito. Bishnu S. Atal và Manfred R. Schroeder cũng góp phần hoàn thiện mã hóa dự đoán tuyến tính.

Những năm 1970

Năm 1975, phương pháp dải quang phổ (line spectral pairs) được Itakura phát triển. Phương pháp mã hóa tiếng nói nén cao này giúp Itakura hiểu rõ hơn về phân tích và tổng hợp tiếng nói, xác định các điểm yếu và tìm cách khắc phục.

Cũng trong năm này, hệ thống tổng hợp tiếng nói độc lập MUSA đã được giới thiệu. Hệ thống này sử dụng thuật toán để đọc tiếng Ý thành tiếng. Ba năm sau, một phiên bản có thể hát tiếng Ý đã ra đời.

Trong những năm 70, bộ tổng hợp phát âm đầu tiên dựa trên cấu trúc thanh quản con người đã được phát triển. Bộ tổng hợp này do Tom Baer, Paul Mermelstein và Philip Rubin tại Phòng thí nghiệm Haskins phát triển, dựa trên các mô hình thanh quản do Bell Laboratories xây dựng trong thập niên 60 và 70.

Năm 1976, máy đọc Kurzweil cho người khiếm thị được giới thiệu. Mặc dù các thiết bị này quá đắt để cá nhân có thể tự mua, nhưng thư viện thường trang bị cho người khiếm thị để họ có thể nghe sách.

Mã hóa dự đoán tuyến tính đã trở thành nền tảng cho các con chip tổng hợp giọng nói. Chip giọng nói LPC của Texas Instruments và đồ chơi Speak & Spell cuối những năm 1970 đều ứng dụng công nghệ chip tổng hợp giọng nói. Những món đồ chơi này là ví dụ điển hình của công nghệ tổng hợp giọng nói người với ngữ điệu chính xác, giúp giọng nói khác biệt với tiếng robot thường thấy vào thời đó. Nhiều thiết bị điện tử cầm tay có khả năng tổng hợp giọng nói đã trở nên phổ biến trong thập kỷ này, bao gồm máy tính cầm tay Speech+ của Telesensory Systems dành cho người khiếm thị. Máy tính cờ vua Fidelity Voice Chess Challenger, một máy tính chơi cờ có khả năng tổng hợp giọng nói, cũng được phát hành vào năm 1979.

Những năm 1980

Trong những năm 1980, công nghệ tổng hợp giọng nói bắt đầu làm mưa làm gió trong thế giới trò chơi điện tử. Năm 1980, Stratovox (một trò chơi bắn súng trong phòng game) được Sun Electronics phát hành. Manbiki Shoujo (dịch sang tiếng Anh là Shoplifting Girl) là trò chơi máy tính cá nhân đầu tiên có khả năng tổng hợp giọng nói. Trò chơi điện tử Milton - sản phẩm điện tử đầu tiên của Công ty Milton Bradley có khả năng tổng hợp giọng nói người - cũng ra mắt vào năm 1980.

Năm 1983 xuất hiện máy tổng hợp tiếng nói cận âm cơ học độc lập gọi là DECtalk. DECtalk hiểu cách đánh vần theo ngữ âm của các từ, cho phép tuỳ chỉnh phát âm cho những từ hiếm gặp. Những cách đánh vần này cũng có thể kèm chỉ báo tông giọng, DECtalk sẽ dùng khi phát âm các thành tố ngữ âm. Nhờ đó, DECtalk thậm chí còn có thể hát.

Cuối thập niên 80, Steve Jobs phát triển dự án NeXT, một hệ thống do Trillium Sound Research xây dựng. Dù NeXT không tạo được tiếng vang lớn, Jobs cuối cùng đã sáp nhập chương trình này vào Apple trong những năm 90.

Những năm 1990

Các phiên bản tổng hợp văn bản thành giọng nói trước đây nghe rất giống tiếng robot, nhưng điều đó bắt đầu thay đổi vào cuối những năm 80 và đầu 90. Nhờ các phụ âm được xử lý mềm mại hơn, tiếng máy đã bớt đi chất điện tử sắc lạnh và trở nên giống người hơn. Năm 1990, Ann Syrdal tại AT&T Bell Labs đã phát triển giọng tổng hợp nữ đầu tiên. Suốt thập niên 90, các kỹ sư tiếp tục làm việc để tiếng nói nghe ngày càng tự nhiên hơn.

Năm 1999, Microsoft phát hành Narrator - phần mềm đọc màn hình hiện có mặt trong mọi phiên bản Microsoft Windows.

Những năm 2000

Công nghệ tổng hợp giọng nói gặp phải một số trở ngại trong những năm 2000, khi các nhà phát triển gặp khó khăn trong việc xây dựng những tiêu chuẩn chung cho giọng nói tổng hợp. Vì giọng nói mang tính cá nhân rất cao, nên việc tạo ra sự đồng thuận toàn cầu về cách phát âm các âm vị, bán âm vị, ngữ điệu, tông giọng, nhịp điệu và biến điệu là điều không hề đơn giản.

Chất lượng âm thanh tổng hợp dựa trên dạng thức cũng trở thành mối lo ngại từ thập niên 90, khi các kỹ sư và nhà nghiên cứu nhận thấy hệ thống trong phòng thí nghiệm phát lại tiếng nói tổng hợp thường tiên tiến hơn rất nhiều so với thiết bị mà người dùng thực tế đang sử dụng. Nhắc đến tổng hợp tiếng nói, nhiều người sẽ nhớ ngay tới bộ tổng hợp giọng nói của Stephen Hawking, với âm sắc robot và rất ít sắc thái con người.

Năm 2005, các nhà nghiên cứu cuối cùng đã đạt được sự đồng thuận và bắt đầu sử dụng một tập dữ liệu tiếng nói chung, cho phép họ cùng làm việc dựa trên những tiêu chuẩn nền tảng giống nhau khi phát triển các hệ thống tổng hợp giọng nói cao cấp.

Năm 2007, một nghiên cứu cho thấy người nghe có thể nhận biết người nói có đang cười hay không. Các nhà nghiên cứu vẫn đang tiếp tục tìm cách vận dụng thông tin này để tạo ra phần mềm nhận diện và tổng hợp giọng nói tự nhiên hơn.

Những năm 2010

Ngày nay, các sản phẩm tổng hợp giọng nói sử dụng tín hiệu tiếng nói xuất hiện ở khắp nơi, từ Siri đến Alexa. Bộ tổng hợp giọng nói điện tử không chỉ giúp cuộc sống dễ dàng hơn mà còn khiến mọi thứ thú vị hơn. Dù bạn dùng hệ thống TTS để nghe tiểu thuyết khi di chuyển hay sử dụng các ứng dụng hỗ trợ học ngoại ngữ, rất có thể mỗi ngày bạn đều đang tận dụng công nghệ chuyển văn bản thành giọng nói để kích hoạt các mạng nơ-ron thần kinh của mình.

Tương lai

Trong những năm tới, công nghệ tổng hợp giọng nói có thể sẽ tập trung vào việc xây dựng mô hình não bộ để hiểu rõ hơn cách chúng ta lưu trữ dữ liệu tiếng nói trong tâm trí. Công nghệ giọng nói cũng sẽ đi sâu nghiên cứu vai trò của cảm xúc trong ngôn ngữ, nhằm tạo ra giọng nói AI không thể phân biệt với giọng người thật.

Công nghệ tổng hợp giọng nói mới nhất: Speechify

Nhìn lại quá trình phát triển của công nghệ tổng hợp giọng nói, thật ấn tượng khi hình dung chúng ta đã tiến xa đến mức nào nhờ khoa học. Ngày nay, các ứng dụng như Speechify giúp bạn dễ dàng chuyển đổi bất kỳ đoạn văn bản nào thành tệp âm thanh. Chỉ với một lần chạm (hoặc chạm nhẹ trên ứng dụng), Speechify có thể chuyển các trang web, tài liệu và hình ảnh chứa văn bản thành giọng đọc tự nhiên. Thư viện của Speechify được đồng bộ trên mọi thiết bị, giúp bạn dễ dàng tiếp tục học tập và làm việc mọi lúc mọi nơi. Hãy trải nghiệm ứng dụng Speechify trên cả App Store của Apple và Android Google Play. 

Câu hỏi thường gặp

Ai là người phát minh ra công nghệ chuyển văn bản thành giọng nói?

Công nghệ chuyển văn bản thành giọng nói tiếng Anh được phát minh bởi Noriko Umeda. Hệ thống được phát triển tại Phòng thí nghiệm Điện kỹ thuật ở Nhật Bản vào năm 1968.

Mục đích của công nghệ chuyển văn bản thành giọng nói là gì?

Rất nhiều người sử dụng công nghệ chuyển văn bản thành giọng nói. Với những ai thích tiếp nhận thông tin dưới dạng âm thanh, công nghệ TTS giúp họ dễ dàng tiếp cận kiến thức phục vụ học tập hoặc công việc mà không phải ngồi hàng giờ trước cuốn sách. Các chuyên gia bận rộn cũng dùng TTS để không bị gián đoạn công việc khi không thể ngồi trước màn hình máy tính. Nhiều dạng công nghệ TTS ban đầu được phát triển cho người khiếm thị, và đến nay TTS vẫn là một phương thức tuyệt vời để những người gặp vấn đề về thị lực có thể tiếp cận thông tin họ cần.

Làm thế nào để tổng hợp một bài nói?

Các đoạn ghi âm được lưu trữ trong cơ sở dữ liệu dưới nhiều đơn vị khác nhau. Phần mềm sẽ xử lý tệp âm thanh thông qua quá trình chọn đơn vị phù hợp, từ đó tạo ra giọng nói. Thường thì, phạm vi âm thanh đầu vào càng rộng thì chương trình càng khó duy trì độ rõ ràng cho lời nói đầu ra.

Trải nghiệm những giọng nói AI tiên tiến nhất, không giới hạn tệp và hỗ trợ 24/7

Dùng thử miễn phí
tts banner for blog

Chia sẻ bài viết

Tyler Weitzman

Tyler Weitzman

Thạc sĩ Khoa học Máy tính, Đại học Stanford; Nhà vận động cho Chứng khó đọc & Tiếp cận; Giám đốc điều hành/Người sáng lập Speechify

Tyler Weitzman là Đồng sáng lập, Trưởng Bộ phận Trí tuệ Nhân tạo & Chủ tịch tại Speechify, ứng dụng chuyển văn bản thành giọng nói số 1 thế giới với hơn 100.000 lượt đánh giá 5 sao. Weitzman tốt nghiệp Đại học Stanford với bằng Cử nhân Toán học và Thạc sĩ Khoa học Máy tính, chuyên ngành Trí tuệ Nhân tạo. Anh được tạp chí Inc. vinh danh trong Top 50 Doanh nhân hàng đầu và từng xuất hiện trên Business Insider, TechCrunch, LifeHacker, CBS cùng nhiều ấn phẩm khác. Nghiên cứu thạc sĩ của Weitzman tập trung vào trí tuệ nhân tạo và công nghệ chuyển văn bản thành giọng nói, với luận văn cuối cùng mang tên: “CloneBot: Dự đoán Phản hồi Đối thoại Cá nhân hóa.”

speechify logo

Về Speechify

Trình đọc chuyển văn bản thành giọng nói số 1

Speechify là nền tảng chuyển văn bản thành giọng nói hàng đầu thế giới, được hơn 50 triệu người tin dùng và có hơn 500.000 đánh giá 5 sao trên các ứng dụng chuyển văn bản thành giọng nói cho iOS, Android, Tiện ích Chrome, ứng dụng webứng dụng Mac. Năm 2025, Apple đã trao giải thưởng Thiết kế Apple cho Speechify tại WWDC, và gọi Speechify là “một nguồn lực thiết yếu giúp mọi người sống tốt hơn.” Speechify cung cấp hơn 1.000 giọng đọc tự nhiên bằng hơn 60 ngôn ngữ và được sử dụng tại gần 200 quốc gia. Các giọng nổi bật gồm Snoop Dogg, Mr. BeastGwyneth Paltrow. Dành cho nhà sáng tạo nội dung và doanh nghiệp, Speechify Studio cung cấp các công cụ nâng cao như Tạo giọng nói AI, Nhân bản giọng nói AI, Lồng tiếng AIThay đổi giọng AI. Speechify cũng hỗ trợ các sản phẩm hàng đầu với API chuyển văn bản thành giọng nói chất lượng cao, tối ưu chi phí của mình. Được nhắc đến trên The Wall Street Journal, CNBC, Forbes, TechCrunch và nhiều hãng tin lớn khác, Speechify là nhà cung cấp giải pháp chuyển văn bản thành giọng nói lớn nhất thế giới. Truy cập speechify.com/news, speechify.com/blogspeechify.com/press để biết thêm thông tin.