Lịch sử của chuyển văn bản thành giọng nói và tổng hợp giọng nói là gì?

Chuyển văn bản thành giọng nói (TTS) và tổng hợp giọng nói có thể trông như những công nghệ mới xuất hiện, nhưng thực tế lại có một bề dày lịch sử kéo dài hàng thế kỷ.

Từ những nỗ lực đầu tiên nhằm bắt chước giọng nói con người bằng các thiết bị cơ học cho đến những mô hình trí tuệ nhân tạo và học sâu tiên tiến ngày nay, sự phát triển của TTS là một hành trình vô cùng thú vị.

Trong bài viết này, chúng ta sẽ cùng đi sâu khám phá lịch sử của chuyển văn bản thành giọng nói và tổng hợp giọng nói, cũng như những tiềm năng hấp dẫn trong tương lai.

Chuyển văn bản thành giọng nói và tổng hợp giọng nói: từ những bước đi đầu tiên đến ứng dụng hiện đại

Thế kỷ 18 và 19

Lịch sử của chuyển văn bản thành giọng nói và tổng hợp giọng nói có thể được lần ngược lại đến thế kỷ 18 và 19. Trong giai đoạn này đã xuất hiện một số nỗ lực tổng hợp giọng nói sơ khai, tất cả đều sử dụng các thiết bị cơ học. Vào những năm 1770, Wolfgang von Kempelen, một nhà phát minh người Hungary, đã phát triển một thiết bị cơ học mang tên máy nói cơ học âm thanh nhằm mô phỏng cơ quan phát âm của con người. Thiết bị này sử dụng ống bễ, lá đồng và ống để tạo ra các âm nguyên âm và phụ âm.

Cuối thế kỷ 18, một nhà vật lý người Anh, Charles Wheatstone, đã phát minh ra một phiên bản cơ khí tinh vi hơn của máy nói của Kempelen, ông gọi là "máy nói". Thiết bị này có thể tái tạo âm thanh của nhiều nhạc cụ khác nhau. Mặc dù không được thiết kế riêng cho mục đích tổng hợp giọng nói, phát minh của Wheatstone đã củng cố ý tưởng dùng máy móc cơ khí để tạo âm thanh.

Sang thế kỷ 19, nhiều thiết bị khác cũng đã được phát triển, bao gồm máy nói "giọng nói nhân tạo" của Faber. Những thiết bị này sử dụng kết hợp giữa hệ thống cơ khí và khí nén để tạo ra âm thanh giọng nói.

Đầu thế kỷ 20 và hệ thống tổng hợp giọng nói hoàn toàn bằng điện đầu tiên

Vào đầu thế kỷ 20, công nghệ tổng hợp giọng nói trở nên tiên tiến hơn với sự ra đời của hệ thống tổng hợp giọng nói hoàn toàn bằng điện đầu tiên – vocoder của Homer Dudley. Hệ thống này được phát triển tại Phòng thí nghiệm Bell (Bell Labs) ở New Jersey.

Vocoder của Dudley sử dụng một loạt các bộ cộng hưởng và bộ lọc để tạo ra giọng nói tổng hợp. Thiết bị vocoder, với tên gọi Voder, đã được giới thiệu tại Hội chợ Thế giới 1939–1940 ở Flushing Meadows, New York. Các chuyên gia vận hành máy bằng bàn phím và bàn đạp chân để tạo ra giọng nói.

Từ đầu những năm 1950 đến cuối thập niên 1970 – sự bùng nổ của các bộ tổng hợp

Năm 1951, công trình của Dudley đã truyền cảm hứng cho sự phát triển của pattern playback bởi Tiến sĩ Franklin S. Cooper tại Haskins Laboratories. Hệ thống này hoạt động bằng cách phân tích âm thanh đã ghi, như một từ hoặc một cụm từ, và tách thành các sóng âm hoặc "mẫu phổ đặc trưng". Những mẫu này sau đó được lưu trữ trên băng từ và phát lại để tạo ra phiên bản giọng nói tổng hợp của âm thanh gốc.

Năm 1976, hệ thống chuyển văn bản thành giọng nói thương mại đầu tiên thành công được giới thiệu bởi Kurzweil Reading Machine. Hệ thống này sử dụng kỹ thuật tổng hợp nối đoạn, kết hợp các âm vị và từ đã được ghi âm sẵn để tạo ra giọng nói tổng hợp. Thiết bị chủ yếu được thiết kế nhằm hỗ trợ người khuyết tật, nhưng nhanh chóng trở nên phổ biến như một thiết bị hỗ trợ đọc.

Bắt đầu từ năm 1978, Texas Instruments tiến hành nghiên cứu chip tổng hợp giọng nói có thể sử dụng trong các trò chơi điện tử và những ứng dụng máy tính khác. Con chip này sử dụng tổng hợp nối đoạn, kết hợp các âm thanh giọng nói đã ghi sẵn hoặc các đơn vị nhỏ hơn gọi là diphone để tạo ra đầu ra giọng nói giống người. Công nghệ này sau đó được sử dụng trong DECtalk – hệ thống chuyển văn bản thành giọng nói mang đến giọng tổng hợp chất lượng cao cho người khuyết tật.

Các hệ thống chuyển văn bản thành giọng nói hiện đại

Một trong những bước tiến lớn trong những năm gần đây là việc sử dụng mạng nơ-ron nhân tạo để tạo giọng tổng hợp. Các công ty như Google và Microsoft đã phát triển những hệ thống TTS chất lượng cao, dùng thuật toán học sâu để phân tích các bộ dữ liệu khổng lồ gồm giọng nói con người và tạo ra đầu ra giọng nói tự nhiên.

Một bước phát triển quan trọng khác trong việc sử dụng TTS như một giải pháp hỗ trợ là áp dụng kỹ thuật lựa chọn đơn vị và tổng hợp nối đoạn. Các phương pháp này cho phép tạo đầu ra tự nhiên hơn thông qua việc ghép nối các đơn vị âm thanh nhỏ đã được ghi sẵn, như diphone hoặc thậm chí cả từ, để tạo thành câu mới. Những kỹ thuật này đã được dùng trong các ứng dụng TTS phổ biến như Speechify, Siri của Apple và Alexa của Amazon, cũng như trong các công cụ cũ hơn như IBM ViaVoice.

Công nghệ nhận diện giọng nói cũng đã có bước tiến đáng kể trong những năm gần đây, giúp các hệ thống TTS trở nên tinh vi hơn. Bằng cách sử dụng thuật toán nhận diện giọng nói để chuyển đổi lời nói thành văn bản, hệ thống TTS có thể tạo ra các đoạn chuyển tiếp tự nhiên hơn trong giọng nói tổng hợp.

Gần đây, chúng ta cũng chứng kiến việc tích hợp ngữ điệu và trọng âm vào các hệ thống TTS. Điều này giúp giọng nói tổng hợp nghe tự nhiên hơn, với nhịp nghỉ, nhấn mạnh và tông giọng phù hợp. Ngữ điệu đặc biệt quan trọng đối với những ngôn ngữ như tiếng Anh, nơi trọng âm và cao độ có thể ảnh hưởng đáng kể đến ý nghĩa câu nói.

Học sâu và xa hơn nữa: Tương lai của công nghệ

Tương lai của công nghệ TTS vô cùng hấp dẫn và đầy hứa hẹn. Với sự phát triển của trí tuệ nhân tạo và học sâu, chúng ta có thể kỳ vọng vào những giọng nói tổng hợp ngày càng tự nhiên, có thể bắt chước được cả những sắc thái và tinh tế trong giọng nói con người.

Một lĩnh vực mà công nghệ này đặc biệt hữu ích là phát triển trợ lý ảo và chatbot. Những hệ thống này sẽ giao tiếp ngày càng tự nhiên, để người dùng có thể tương tác thoải mái hơn.

Ngoài ra, chúng ta cũng có thể chờ đợi những bước tiến trong lĩnh vực phiên âm ngữ âm, còn gọi là chuyển đổi văn bản thành âm vị. Khi máy móc ngày càng giỏi nhận diện và phân tích giọng nói con người, độ chính xác và hiệu quả của các hệ thống chuyển giọng nói thành văn bản cũng sẽ tiếp tục được cải thiện.

Cuối cùng, công nghệ chuyển văn bản thành giọng nói sẽ ngày càng phổ biến và được tích hợp sâu vào cuộc sống hằng ngày. Khi ngày càng nhiều thiết bị kết nối với Internet vạn vật (IoT), chúng ta sẽ có thể điều khiển chúng bằng giọng nói theo thời gian thực, giúp cuộc sống trở nên dễ dàng và tiện lợi hơn.

Tham gia vào cuộc cách mạng chuyển văn bản thành giọng nói cùng Speechify

Nếu bạn đang tìm kiếm một dịch vụ chuyển văn bản thành giọng nói mạnh mẽ với khả năng tạo thuyết minh tự nhiên, chất lượng cao thì Speechify là lựa chọn lý tưởng.

Với công nghệ tổng hợp formant tiên tiến, Speechify tạo ra các giọng đọc sống động, tự nhiên, khác biệt hẳn so với những giọng máy móc ngày xưa. Ngay cả những nhà khoa học nổi tiếng như Stephen Hawking – người từng thử nghiệm với công nghệ chuyển văn bản thành giọng nói – cũng sẽ phải ấn tượng với khả năng của Speechify.

Sử dụng Speechify rất đơn giản – chỉ cần truy cập trang web chính thức hoặc tải ứng dụng di động và nhập nội dung bạn muốn. Sau đó, chọn một giọng đọc phù hợp, điều chỉnh tốc độ và cao độ theo nhu cầu, và thế là xong! Speechify sẽ tạo ra những bản thuyết minh tuyệt vời, tự nhiên – lý tưởng cho e-learning, video giới thiệu, podcast, và thuyết trình. Bạn thậm chí còn có thể tạo ra giọng nói tuỳ chỉnh riêng để dùng trên YouTube và các kênh mạng xã hội khác.

Đừng chấp nhận những dịch vụ TTS kém chất lượng – hãy thử Speechify ngay hôm nay để trải nghiệm tương lai của công nghệ chuyển văn bản thành giọng nói.

Câu hỏi thường gặp

Ai là người phát triển bộ tổng hợp giọng nói đầu tiên trên thế giới?

Homer Dudley đã thiết kế bộ tổng hợp giọng nói đầu tiên trên thế giới vào đầu những năm 1930 tại Phòng thí nghiệm Bell ở New York.

Mục đích của tổng hợp giọng nói là gì?

Tổng hợp giọng nói nhằm mục đích tạo ra giọng nói nhân tạo từ đầu vào văn bản thông qua xử lý ngôn ngữ và phân tích tần số cơ bản.

Có bốn cách TTS có thể được sử dụng là gì?

TTS có thể được sử dụng cho mục đích trợ năng, giải trí, học ngôn ngữ và tự động hóa các dịch vụ dựa trên giọng nói.

Một số lợi ích của chuyển văn bản thành giọng nói là gì?

Chuyển văn bản thành giọng nói có thể giúp tăng khả năng tiếp cận, hỗ trợ việc học và nâng cao năng suất, bằng cách cho phép người dùng tiếp cận nội dung dạng văn bản thông qua việc nghe.

Khoảnh khắc bất ngờ nhất trong quá trình phát triển tổng hợp chuyển văn bản thành giọng nói là gì?

Một trong những khoảnh khắc bất ngờ nhất trong tiến trình phát triển của tổng hợp chuyển văn bản thành giọng nói là sự ra đời của bộ tổng hợp giọng nói cơ học của Charles Wheatstone.

Speechify là nền tảng chuyển văn bản thành giọng nói hàng đầu thế giới, được hơn 50 triệu người tin dùng và nhận hơn 500.000 đánh giá 5 sao trên các ứng dụng chuyển văn bản thành giọng nói của mình trên iOS, Android, Tiện ích mở rộng Chrome, ứng dụng web và ứng dụng Mac desktop. Năm 2025, Apple đã trao tặng cho Speechify giải thưởng danh giá Apple Design Award tại WWDC, nhận định đây là “một tài nguyên quan trọng giúp mọi người sống tốt hơn.” Speechify cung cấp hơn 1.000 giọng đọc tự nhiên bằng hơn 60 ngôn ngữ và được sử dụng tại gần 200 quốc gia. Các giọng đọc của người nổi tiếng bao gồm Snoop Dogg và Gwyneth Paltrow. Đối với người sáng tạo nội dung và doanh nghiệp, Speechify Studio mang đến các công cụ nâng cao như Trình tạo giọng nói AI, Nhân bản giọng nói AI, Lồng tiếng AI và Trình đổi giọng AI. Speechify còn cung cấp giải pháp chuyển văn bản sang giọng nói chất lượng cao, tiết kiệm chi phí thông qua API chuyển văn bản thành giọng nói cho các sản phẩm hàng đầu. Được xuất hiện trên The Wall Street Journal, CNBC, Forbes, TechCrunch và nhiều trang tin tức lớn khác, Speechify hiện là nhà cung cấp giải pháp chuyển văn bản sang giọng nói lớn nhất thế giới. Truy cập speechify.com/news, speechify.com/blog và speechify.com/press để tìm hiểu thêm.

Lịch sử của chuyển văn bản thành giọng nói và tổng hợp giọng nói là gì?

Cliff Weitzman

Speechify, trợ lý AI chuyển giọng nói của bạn
Chuyển văn bản thành giọng nói. Nhập liệu bằng giọng nói. Trả lời nhanh.