텍스트 음성 변환의 짧은 역사

음성 합성, 즉 인공적으로 인간의 목소리를 생성하는 기술은 지난 70년 동안 크게 발전했습니다. 현재 책을 듣거나 공부하거나 자신의 글을 교정하기 위해 텍스트 음성 변환 서비스를 사용하든, 텍스트 음성 변환 서비스가 다양한 직업의 사람들에게 삶을 더 편리하게 만들어 주었다는 것은 의심의 여지가 없습니다.

여기에서는 텍스트 음성 변환 처리 방식과 이 보조 기술이 시간이 지남에 따라 어떻게 변화했는지 살펴보겠습니다.

소개

1700년대에 러시아 교수 크리스티안 크라첸슈타인은 인간의 목소리를 모방하는 음향 공명기를 만들었습니다. 20년 후, 뉴욕 세계 박람회에서 호머 더들리가 인공적인 방법으로 인간의 말을 생성할 수 있음을 보여주면서 VODER(음성 작동 시연기)가 큰 화제를 모았습니다. 이 장치는 다루기 어려웠으며, 더들리는 발판을 사용하여 기본 주파수를 제어해야 했습니다.

1800년대 초, 찰스 휘트스톤은 최초의 기계적 음성 합성기를 개발했습니다. 이는 발음 합성 도구와 기술의 급속한 발전을 촉발했습니다.

좋은 텍스트 음성 변환 프로그램이 무엇인지 정확히 정의하기는 어렵지만, 많은 것들이 그렇듯이 들으면 알 수 있습니다. 고품질의 텍스트 음성 변환 프로그램은 자연스러운 목소리와 실제 생활의 억양과 톤을 제공합니다.

텍스트 음성 변환 기술은 시각 장애가 있는 사람들과 다른 장애를 가진 사람들이 직장에서 성공하고 다른 사람들과 소통하는 데 필요한 정보를 얻을 수 있도록 도와줍니다. 이 소프트웨어는 학생들과 많은 양의 읽기 작업을 가진 사람들이 이동 중에 인간의 음성을 통해 정보를 들을 수 있게 해줍니다. 합성 음성은 사람들이 더 짧은 시간에 더 많은 일을 할 수 있도록 하며, 비디오 게임 제작에서부터 언어 처리 차이를 가진 사람들을 돕는 것까지 다양한 환경에서 유용할 수 있습니다.

1950년대와 60년대

1950년대 후반, 최초의 음성 합성 시스템이 개발되었습니다. 이 시스템은 컴퓨터 기반이었습니다. 1961년, 벨 연구소의 물리학자 존 래리 켈리 주니어는 IBM 컴퓨터를 사용하여 음성을 합성했습니다. 그의 보코더(음성 녹음 합성기)는 데이지 벨 노래를 재현했습니다.

켈리가 그의 보코더를 완성할 때, '2001: 스페이스 오디세이'의 저자 아서 C. 클라크는 그의 책의 시나리오에서 켈리의 시연을 사용했습니다. 그 장면에서 HAL 9000 컴퓨터가 데이지 벨을 부릅니다.

1966년, 선형 예측 부호화가 등장했습니다. 이 형태의 음성 부호화는 이타쿠라 후미타다와 사이토 슈조에 의해 개발되기 시작했습니다. 비슈누 S. 아탈과 만프레드 R. 슈뢰더도 선형 예측 부호화의 개발에 기여했습니다.

1970년대

1975년, 이타쿠라에 의해 선형 스펙트럼 쌍 방법이 개발되었습니다. 이 고압축 음성 부호화 방법은 이타쿠라가 음성 분석과 합성에 대해 더 많이 배우고, 약점을 찾아내어 개선하는 데 도움을 주었습니다.

이 해에 MUSA도 출시되었습니다. 이 독립형 음성 합성 시스템은 알고리즘을 사용하여 이탈리아어를 소리 내어 읽었습니다. 3년 후에 출시된 버전은 이탈리아어로 노래를 부를 수 있었습니다.

70년대에는 인간의 성대 모형을 기반으로 한 최초의 발음 합성기가 개발되었습니다. 최초로 알려진 합성기는 톰 베어, 폴 머멀스타인, 필립 루빈이 하스킨스 연구소에서 개발했습니다. 이들은 60년대와 70년대 벨 연구소에서 개발된 성대 모형의 정보를 사용했습니다.

1976년, 시각 장애인을 위한 커즈와일 독서 기계가 도입되었습니다. 이 장치는 일반 대중에게는 너무 비쌌지만, 도서관에서는 시각 장애인들이 책을 듣는 데 제공되었습니다.

선형 예측 부호화는 합성기 칩의 출발점이 되었습니다. 텍사스 인스트루먼트의 LPC 음성 칩과 1970년대 후반의 스피크 & 스펠 장난감은 모두 합성기 칩 기술을 사용했습니다. 이 장난감들은 당시 흔히 로봇 같은 합성 음성과는 달리 정확한 억양을 가진 인간 음성 합성의 예였습니다. 이 10년 동안 음성을 합성할 수 있는 많은 휴대용 전자기기가 인기를 끌었으며, 시각 장애인을 위한 텔레센서리 시스템의 Speech+ 계산기와 음성을 합성할 수 있는 체스 컴퓨터인 Fidelity Voice Chess Challenger가 1979년에 출시되었습니다.

1980년대

1980년대에 음성 합성 기술이 비디오 게임 세계를 뒤흔들기 시작했습니다. 1980년에 출시된 Stratovox(슈팅 스타일의 아케이드 게임)는 Sun Electronics에 의해 출시되었습니다. Manbiki Shoujo(영어로는 Shoplifting Girl로 번역됨)는 음성을 합성할 수 있는 최초의 개인용 컴퓨터 게임이었습니다. 전자 게임 Milton도 1980년에 출시되었으며, 이는 Milton Bradley Company의 최초의 인간 음성을 합성할 수 있는 전자 게임이었습니다.

1983년에는 독립형 음향-기계적 음성 기계인 DECtalk이 등장했습니다. DECtalk은 단어의 음성 철자를 이해하여 특이한 단어의 발음을 사용자 정의할 수 있었습니다. 이러한 음성 철자에는 DECtalk이 음성 구성 요소를 발음할 때 사용할 톤 표시기도 포함될 수 있었습니다. 이를 통해 DECtalk은 노래를 부를 수 있었습니다.

1980년대 후반에 스티브 잡스는 NeXT라는 시스템을 만들었으며, 이는 Trillium Sound Research에 의해 개발되었습니다. NeXT는 성공하지 못했지만, 잡스는 결국 90년대에 이 프로그램을 애플과 합병했습니다.

1990년대

초기 음성 합성 시스템은 매우 로봇 같은 소리를 냈지만, 80년대 후반과 90년대 초반에 변화가 시작되었습니다. 부드러운 자음은 말하는 기계가 전자적인 느낌을 잃고 더 인간적인 소리를 내도록 했습니다. 1990년, AT&T 벨 연구소의 Ann Syrdal은 여성 음성 합성기를 개발했습니다. 엔지니어들은 90년대 동안 더 자연스러운 소리를 내기 위해 노력했습니다.

1999년, 마이크로소프트는 현재 모든 마이크로소프트 윈도우에 포함된 화면 읽기 솔루션인 내레이터를 출시했습니다.

2000년대

2000년대에는 음성 합성 기술이 몇 가지 문제에 직면했습니다. 개발자들이 합성 음성에 대한 표준을 합의하는 데 어려움을 겪었기 때문입니다. 음성은 매우 개인적이기 때문에 전 세계 사람들이 음소, 이중음, 억양, 톤, 패턴 재생 및 억양의 적절한 발음에 대해 합의하기가 어렵습니다.

90년대에는 포먼트 합성 음성 오디오의 품질도 더 큰 관심사가 되었습니다. 엔지니어와 연구자들은 실험실에서 합성 음성을 재생하는 데 사용되는 시스템의 품질이 종종 사용자가 가진 장비보다 훨씬 더 발전되어 있음을 알게 되었습니다. 음성 합성을 생각할 때 많은 사람들은 스티븐 호킹의 음성 합성기를 떠올리며, 이는 인간의 톤이 거의 없는 로봇 같은 소리를 제공했습니다.

2005년, 연구자들은 마침내 합의에 도달하여 공통의 음성 데이터셋을 사용하기 시작했습니다. 이를 통해 고급 음성 합성 시스템을 만들 때 동일한 기본 이상을 바탕으로 작업할 수 있게 되었습니다.

2007년, 연구에 따르면 청취자들이 말하는 사람이 미소를 짓고 있는지 여부를 알아낼 수 있다는 것이 밝혀졌습니다. 연구자들은 이 정보를 활용하여 더 자연스러운 음성 인식 및 음성 합성 소프트웨어를 만드는 방법을 계속 연구하고 있습니다.

2010년대

오늘날, 음성 신호를 사용하는 음성 합성 제품은 Siri에서 Alexa까지 어디에나 있습니다. 전자 음성 합성기는 삶을 더 편리하게 만들 뿐만 아니라 더 재미있게 만듭니다. 이동 중에 소설을 듣기 위해 TTS 시스템을 사용하거나 외국어 학습을 더 쉽게 해주는 앱을 사용하든, 일상적으로 신경망을 활성화하기 위해 텍스트 음성 변환 기술을 사용하는 것이 일반적입니다.

미래

앞으로 몇 년 동안 음성 합성 기술은 뇌의 모델을 만들어 우리가 마음속에 음성 데이터를 기록하는 방식을 더 잘 이해하는 데 중점을 둘 가능성이 큽니다. 음성 기술은 또한 감정이 음성에서 어떤 역할을 하는지 더 잘 이해하고, 이를 활용하여 실제 인간과 구별할 수 없는 AI 음성을 만드는 데 사용할 것입니다.

최신 음성 합성 기술: Speechify

초기 음성 합성 기술의 전환에 대해 배우면서 과학이 얼마나 발전했는지 상상하는 것은 놀랍습니다. 오늘날, Speechify와 같은 앱은 텍스트를 오디오 파일로 쉽게 변환할 수 있게 해줍니다. 버튼을 누르거나 앱을 터치하는 것만으로 Speechify는 웹사이트, 문서 및 텍스트 이미지를 자연스러운 음성으로 변환할 수 있습니다. Speechify의 라이브러리는 모든 기기에서 동기화되어 이동 중에도 학습과 작업을 계속할 수 있습니다. Apple의 App Store와 안드로이드 Google Play에서 Speechify 앱을 확인해 보세요.

자주 묻는 질문

텍스트 음성 변환은 누가 발명했나요?

영어 텍스트 음성 변환은 우메다 노리코에 의해 발명되었습니다. 이 시스템은 1968년 일본의 전기기술연구소에서 개발되었습니다.

텍스트 음성 변환의 목적은 무엇인가요?

많은 사람들이 텍스트 음성 변환 기술을 사용합니다. 정보를 오디오 형식으로 받는 것을 선호하는 사람들에게 TTS 기술은 책 앞에 앉아 시간을 들이지 않고도 필요한 정보를 쉽게 얻을 수 있게 해줍니다. 바쁜 직장인들도 컴퓨터 화면 앞에 앉을 수 없을 때 TTS 기술을 사용하여 업무를 효율적으로 관리합니다. 많은 종류의 TTS 기술은 원래 시각 장애인을 위해 개발되었으며, 여전히 시각적으로 어려움을 겪는 사람들이 필요한 정보를 얻는 훌륭한 방법입니다.

음성을 어떻게 합성하나요?

녹음된 음성 조각들이 다양한 단위로 데이터베이스에 저장됩니다. 소프트웨어는 단위 선택을 통해 오디오 파일을 준비합니다. 그 후, 목소리가 생성됩니다. 일반적으로 프로그램의 출력 범위가 클수록 사용자에게 명확한 음성을 제공하는 데 어려움을 겪습니다.

Speechify는 세계 최고의 텍스트 음성 변환 플랫폼으로, 5천만 명 이상의 사용자와 50만 개 이상의 별 5개 리뷰를 자랑합니다. 이 플랫폼은 iOS, Android, Chrome 확장 프로그램, 웹 앱, 그리고 Mac 데스크톱 앱에서 사용할 수 있습니다. 2025년, Apple은 Speechify에 권위 있는 Apple Design Award를 수여하며, 이를 “사람들이 삶을 살아가는 데 중요한 자원”이라고 평가했습니다. Speechify는 60개 이상의 언어로 1,000개 이상의 자연스러운 음성을 제공하며, 전 세계 200개국에서 사용되고 있습니다. 유명인 음성으로는 Snoop Dogg, Mr. Beast, 그리고 Gwyneth Paltrow의 음성이 포함되어 있습니다. 창작자와 기업을 위해, Speechify Studio는 AI 음성 생성기, AI 음성 복제, AI 더빙, 그리고 AI 음성 변환기를 포함한 고급 도구를 제공합니다. 또한 Speechify는 고품질, 비용 효율적인 텍스트 음성 변환 API로 주요 제품들을 지원합니다. The Wall Street Journal, CNBC, Forbes, TechCrunch 등 주요 언론 매체에 소개된 Speechify는 세계 최대의 텍스트 음성 변환 제공업체입니다. 자세한 내용은 speechify.com/news, speechify.com/blog, 그리고 speechify.com/press를 방문하세요.