Social Proof

Google Cloud 텍스트 음성 변환 API에 대한 모든 것

전 세계 개발자들에게 Speechify의 가장 자연스럽고 사랑받는 AI 음성을 직접 제공하는 텍스트-음성 변환 API 개발을 발표하게 되어 기쁩니다.

저희의 텍스트 음성 변환 리더를 찾고 계신가요?

추천 매체

forbes logocbs logotime magazine logonew york times logowall street logo
이 기사를 Speechify로 들어보세요!
Speechify

생성적 AI와 인공지능은 많은 발전을 이루었습니다. 텍스트 음성 변환은 비교적 오래된 개념으로, 이미 오랫동안 존재해 왔습니다. 여기에는 많은 내용이 있으며, 이를 분류하고 모든 각도에서 살펴보겠습니다. 초보자든 전문가든, 이 글은 Google 텍스트 음성 변환 API에 대한 전반적인 이해를 제공할 것입니다.

생성적 AI와 인공지능은 많은 발전을 이루었습니다. 텍스트 음성 변환은 비교적 오래된 개념으로, 이미 오랫동안 존재해 왔습니다. 여기에는 많은 내용이 있으며, 이를 분류하고 모든 각도에서 살펴보겠습니다. 초보자든 전문가든, 이 글은 Google 텍스트 음성 변환 API에 대한 전반적인 이해를 제공할 것입니다.

어떤 주제에 대해 논의하기 전에, 기본 규칙을 확립하는 것이 필수적입니다. 몇 가지 용어를 정의하고 기초를 다져야 합니다.

여기서 두 가지 기술, 즉 텍스트 음성 변환과 API를 분리하고, Google Cloud의 역할을 살펴보겠습니다.

편집자 주: 최고의 텍스트 음성 변환 API를 찾고 계신가요? 문서화가 잘 되어 있고 사용하기 쉬운 Speechify의 텍스트 음성 변환 API를 확인해 보세요.

텍스트 음성 변환

이 주제에 대해 광범위하게 작성했으며, 제 텍스트 음성 변환이란 무엇인가 블로그와 음성 합성에 대한 궁극의 가이드를 읽어보시면 이 주제에 대한 확실한 이해를 얻을 수 있습니다. 이들은 더 깊이 있는 내용을 다루고 있으며, 지금은 건너뛰셔도 됩니다. 몇 문장으로 요약해 드리겠습니다.

텍스트 음성 변환은 음성 합성이라는 기술에 의존하여 단어를 AI 생성 음성으로 변환합니다. 이 기술의 사용 사례는 다양합니다. 난독증이나 시력이 좋지 않은 사람들을 돕는 것부터 단순히 효율성을 높이는 것까지 다양합니다.

API

API는 애플리케이션 프로그래밍 인터페이스의 약자입니다. 이는 단순히 두 애플리케이션 간의 다리 역할을 합니다. 오디오 콘텐츠가 있는 앱을 개발하고 텍스트 음성 변환 기능이 필요하다면, 직접 텍스트 음성 변환 기능을 구축하거나 기존의 텍스트 음성 변환 API에 연결할 수 있습니다.

앱 개발에 집중하고, 제3자 API를 다리로 사용하여 텍스트 음성 변환 기능을 가져와 텍스트를 합성할 수 있습니다.

Google Cloud API

여기서 Google Cloud가 등장합니다. Google은 강력한 텍스트 음성 변환 API를 개발하여 다양한 요금 구조로 개발자에게 제공합니다. 텍스트 음성 변환 기능이 필요한 맞춤형 앱이나 웹 앱을 개발하려는 개발자는 Google의 TTS 기능을 사용하여 그 격차를 메울 수 있습니다. TTS는 텍스트 음성 변환의 약자입니다.

Google Cloud Console에서 빠른 시작을 찾을 수 있습니다 https://cloud.google.com/. 튜토리얼을 찾고, 서비스 계정을 관리하고, 웨이브넷 음성에 접근할 수 있습니다.

Google Cloud 자체는 Google이 제공하는 클라우드 플랫폼으로, 다양한 모듈식 서비스를 제공합니다. 하나, 여러 개 또는 모든 서비스를 선택하여 사용할 수 있습니다. 각 API의 인증을 위한 액세스 키를 생성하기만 하면 됩니다. 대부분의 서비스는 비용이 들지만, 무료 한도가 있을 수 있습니다.

Google은 2014년에 DeepMind를 인수하여 텍스트 음성 변환 기술과 신경망 개발에 대한 작업을 진행했습니다. 따라서 DeepMind를 접하게 되면, 이제는 Google DeepMind이며, 모두 동일한 것입니다.

이제 확실한 이해를 바탕으로 Google Cloud 텍스트 음성 변환 API에 대해 깊이 있게 살펴보겠습니다.

Google 텍스트 음성 변환 API 기능

Google은 글로벌 기술 선도자이자 리더로, 이에 대한 의심의 여지가 없습니다. TTS API에 관해서는 세계적 수준의 기능을 기대할 수 있으며, 계속해서 발전하고 있습니다.

고품질 음성

Google의 텍스트 음성 변환 음성은 업계 최고 수준입니다. 매우 인간적인 소리와 자연스러운 억양을 가지고 있습니다. TTS는 초기 단계에 있으며, 인간이 말하는 것처럼 들리도록 오디오를 합성할 수 있는 기술이 이 경쟁에서 승리할 것입니다.

다양한 음성 선택

Google은 가장 다양한 음성을 제공한다고 주장합니다. 따라서 프로젝트가 다른 1000개와 같거나, 더 나쁘게는 경쟁사의 앱과 같지 않도록 할 수 있습니다.

자신만의 음성 만들기

이것은 음성 복제 기술과 관련이 있습니다. 본인이나 다른 사람의 허락을 받아 녹음하여 맞춤형 음성을 만들 수 있습니다. 이 샘플을 사용하여 모든 텍스트를 읽어주는 음성으로 사용할 수 있습니다.

신경망 음성

신경망 음성은 다양한 음성 중에서 최고의 품질을 제공합니다. 이러한 음성을 국제화하여 국제 청중을 확대할 수 있습니다.

스튜디오 음성

스튜디오 음성은 최고급 음성으로, 전통적인 방법으로 녹음된 것처럼 매우 전문적으로 들립니다.

음성 조정

음성을 선택한 후 속도, 음조 등을 조정하여 음색이나 음성을 맞춤 설정할 수 있습니다.

Google 텍스트 음성 변환 API 비용은 얼마인가요?

모든 것은 음성 품질과 텍스트 길이에 달려 있습니다. 음성이 자연스럽게 들릴수록 비용이 더 많이 듭니다. 하지만 여기서 비싸다는 것은 상대적입니다. 고품질 음성도 비교적 저렴합니다.

음성 유형월별 무료무료 사용량 초과 시
Neural2 음성0에서 1백만 바이트백만 바이트당 $16
Polyglot 음성0에서 1백만 바이트백만 바이트당 $16
스튜디오 음성0에서 100,000 바이트백만 바이트당 $160
표준 음성0에서 4백만 문자백만 문자당 $4
Wavenet 음성0에서 1백만 문자백만 문자당 $16

문자와 바이트의 차이점은 무엇인가요?

보시다시피, 가격은 음성의 품질에 따라 크게 달라집니다. 텍스트를 음성으로 변환하는 데 필요한 오디오 인코딩 및 처리 과정은 등급마다 다릅니다. 예를 들어, 표준 음성의 경우 가격이 낮고 문자를 기준으로 계산됩니다.

즉, 프로젝트에 4백만 문자가 있다면, 표준 문자를 사용하여 이 문자를 음성으로 변환하는 데 $16이 듭니다.

반면, 스튜디오 음성은 더 많은 처리 능력을 필요로 하며 바이트를 기준으로 요금이 부과됩니다. 일본어와 같은 일부 언어에서는 하나의 문자가 여러 바이트로 구성될 수 있습니다.

따라서 가장 정확한 가격을 얻으려면 작업 중인 언어와 각 문자의 평균 바이트 수에 대한 기본적인 이해가 필요하며, 이를 적절히 추정해야 합니다.

Google Cloud Platform 텍스트 음성 변환 API 프로젝트 설정 방법

  1. Google Cloud 계정을 생성하거나 이 페이지에서 로그인
  2. 새 프로젝트 생성하고 적절하게 이름 지정
  3. 결제 방법 추가. 사용한 만큼만 요금이 부과됩니다.
  4. 그런 다음 프로젝트를 선택하고 결제 계정과 연결합니다.
  5. 텍스트 음성 변환 API를 활성화합니다. 페이지 상단의 제품 및 리소스 검색 창으로 이동하여 "speech"를 입력합니다.
  6. 표시된 결과에서 Cloud 텍스트 음성 변환 API를 선택합니다.
  7. 개발 환경에 대한 인증을 설정합니다. 지침은 텍스트 음성 변환에 대한 인증 설정을 참조하세요.

프로젝트에 연결하지 않고도 텍스트 음성 변환을 시도할 수 있습니다:

  1. 이 API 시도 옵션을 선택합니다.
  2. 프로젝트에서 텍스트 음성 변환 API를 사용하려면 활성화를 클릭합니다.

추가 도움말은 Google Cloud 문서를 참조하세요.

텍스트 음성 변환 API 비활성화 방법

텍스트 음성 변환 API를 비활성화하려면 Google Cloud Platform 대시보드로 이동하여 API 상자 내의 "API 개요로 이동" 링크를 클릭합니다. 텍스트 음성 변환 API를 찾아 클릭한 후 페이지 상단의 "API 비활성화" 버튼을 선택합니다.

Google 텍스트 음성 변환 API 시작하기

이제 프로젝트 설정이 완료되었으므로 명령줄을 사용하여 시작할 수 있습니다.

gcloud init

로컬 인증 생성

gcloud auth application-default login

이제 클라이언트 라이브러리를 설치할 수 있습니다. 이 예에서는 Node.js를 살펴보겠습니다.

npm install --save @google-cloud/text-to-speech

Google Cloud 텍스트 음성 변환 API가 지원하는 언어:

  1. Go
  2. Java
  3. Node.js
  4. C++
  5. C#
  6. PHP
  7. Python
  8. Ruby
  9. TypeScript
  10. Terraform
  11. YAML

Google Cloud API는 어떻게 작동하나요?

모든 것은 간단한 API 호출로 시작됩니다. 텍스트를 전송하면 음성 파일을 받게 됩니다. 요청 시 특정 요구 사항을 지정할 수 있습니다. 목소리, 언어 등을 선택하면 텍스트를 음성으로 변환하여 음성 파일을 돌려받습니다.

텍스트 음성 변환 클라이언트 라이브러리를 설치하고 사용하는 방법은 여기에서 배울 수 있습니다. 코드 샘플은 Node.js를 기준으로 하지만, Python부터 PHP까지 원하는 언어를 선택할 수 있습니다.

const textToSpeech = require('@google-cloud/text-to-speech');
const fs = require('fs');
const util = require('util');

const client = new textToSpeech.TextToSpeechClient();

/**
 * TODO(developer): Uncomment the following lines before running the sample.
 */
// const text = 'Text to synthesize, eg. hello';
// const outputFile = 'Local path to save audio file to, e.g. output.mp3';

const request = {
  input: {text: text},
  voice: {languageCode: 'en-US', ssmlGender: 'FEMALE'},
  audioConfig: {audioEncoding: 'MP3'},
};
const [response] = await client.synthesizeSpeech(request);
const writeFile = util.promisify(fs.writeFile);
await writeFile(outputFile, response.audioContent, 'binary');
console.log(`Audio content written to file: ${outputFile}`);

이제 끝났습니다. Google Cloud 텍스트 음성 변환 API를 설정하고 첫 번째 요청을 보냈습니다. OGG부터 MP3까지 다양한 형식으로 파일을 받을 수 있습니다.

Google 텍스트 음성 변환 API 활용 방법

Google 텍스트 음성 변환(TTS) API는 다양한 산업에서 여러 용도로 활용할 수 있는 유연한 솔루션을 제공합니다. 일반적인 사용 사례는 다음과 같습니다:

  1. 시각 장애인을 위한 텍스트 음성 변환: 애플리케이션에 TTS를 구현하여 시각 장애인이 디지털 정보를 접근할 수 있도록 텍스트를 음성으로 변환합니다.
  2. 자동 전화 시스템: 고객 서비스나 정보 핫라인의 대화형 음성 응답 시스템에 자연스러운 음성 프롬프트와 응답을 생성합니다.
  3. 미디어 콘텐츠의 음성 해설: 비디오, 팟캐스트 또는 기타 멀티미디어 콘텐츠에 자연스러운 음성 해설을 생성하여 사용자 경험을 향상시킵니다.
  4. 번역된 콘텐츠의 텍스트 음성 변환: 번역된 텍스트를 음성으로 변환하여 언어 학습, 국제 커뮤니케이션 또는 다양한 언어로 콘텐츠 소비를 촉진합니다.
  5. 난독증 사용자를 위한 읽기 지원: 난독증이나 읽기 어려움을 겪는 개인이 텍스트 콘텐츠를 소비할 수 있도록 TTS 기능을 제공합니다.
  6. 애플리케이션의 음성 내비게이션: 내비게이션 애플리케이션에 TTS를 통합하여 턴바이턴 방향 안내나 위치 기반 정보를 음성으로 제공합니다.
  7. 교육 콘텐츠의 텍스트 음성 변환: 교육 텍스트 콘텐츠를 음성으로 변환하여 e-러닝 경험을 향상시키고 이해와 참여를 돕습니다.
  8. 생산성 앱을 위한 음성 합성: 노트 작성이나 작업 관리 앱과 같은 생산성 도구에 TTS를 통합하여 음성 피드백이나 정보 검색을 가능하게 합니다.
  9. 가상 비서의 자연스러운 음성: 자연스러운 TTS를 통해 음성 비서를 강화하여 사용자 상호작용을 개선하고 대화형으로 정보를 제공합니다.
  10. 청각 경고 및 알림: IoT 기기에서 청각 경고, 알림 또는 상태 업데이트를 제공하여 사용자 인식을 향상시킵니다.

Google Cloud TTS API의 최고의 대안

2022년 1월 기준으로, Google 텍스트 음성 변환 API의 여러 대안이 있습니다. 이러한 서비스의 인기도와 기능은 그 이후로 변경되었을 수 있습니다. 주목할 만한 대안은 다음과 같습니다:

  1. Speechify 텍스트 음성 변환 API: 전 세계 개발자들에게 Speechify의 가장 자연스럽고 사랑받는 AI 음성을 직접 제공하는 텍스트 음성 변환 API의 개발을 발표하게 되어 기쁩니다. 지금 자리를 예약하세요.
  2. 아마존 폴리: 아마존 웹 서비스(AWS)에서 제공하는 폴리는 다양한 언어와 음성으로 자연스러운 음성 합성을 제공합니다. 다른 AWS 서비스와 잘 통합됩니다.
  3. 마이크로소프트 애저 음성 서비스: 애저 음성 서비스는 텍스트 음성 변환 기능을 포함하며, 음성 비서, 내비게이션 시스템 등 다양한 애플리케이션을 지원합니다.
  4. IBM 왓슨 텍스트 음성 변환: IBM 왓슨은 다양한 음성을 사용하여 작성된 텍스트를 자연스러운 음성으로 변환할 수 있는 텍스트 음성 변환 서비스를 제공합니다.
  5. 뉴언스 커뮤니케이션: 뉴언스는 헬스케어, 자동차, 고객 서비스 분야의 애플리케이션을 위한 텍스트 음성 변환을 포함한 다양한 음성 및 음성 인식 솔루션을 제공합니다.
  6. 세레프록: 세레프록은 접근성, 엔터테인먼트, 커뮤니케이션과 같은 애플리케이션을 위한 고품질 합성 음성을 제공하는 텍스트 음성 변환 기술 회사입니다.
  7. 아이스피치: 아이스피치는 여러 언어와 음성을 지원하는 클라우드 기반 텍스트 음성 변환 서비스를 제공합니다. 모바일 앱 및 웹사이트를 포함한 다양한 애플리케이션에 적합합니다.
  8. 리스폰시브보이스: 리스폰시브보이스는 여러 언어를 지원하며 다양한 웹 기반 애플리케이션에서 사용할 수 있는 간단하고 저렴한 텍스트 음성 변환 API입니다.
  9. 네오스피치: 네오스피치는 자연스러운 음성을 강조한 텍스트 음성 변환 솔루션을 제공합니다. 이 기술은 e-러닝 및 엔터테인먼트와 같은 애플리케이션에 사용됩니다.
  10. 리드스피커: 리드스피커는 웹사이트, e-러닝, 접근성 서비스 등 다양한 애플리케이션을 위한 온라인 및 오프라인 텍스트 음성 변환 솔루션을 제공합니다.
  11. 아카펠라박스: 아카펠라 그룹은 다양한 산업의 애플리케이션을 위한 여러 언어와 음성을 지원하는 클라우드 기반 텍스트 음성 변환 API, 아카펠라박스를 제공합니다.

구글 텍스트 음성 변환 API 자주 묻는 질문

구글은 여러 계층의 음성을 제공하며 거의 모든 계층에 무료 한도가 있습니다. 예를 들어, 표준 음성은 처음 백만 바이트까지 무료입니다. 그 이후에는 백만 바이트당 $16입니다. 따라서 제한된 문자나 바이트로는 무료로 사용할 수 있습니다.

https://cloud.google.com/text-to-speech/에서 계정을 생성하고 거기서 안내하는 단계를 따르세요. 또한, 이 블로그에서 자세한 과정을 설명했습니다.

구글 클라우드 계정에 로그인한 후 프로젝트를 생성하여 구글 텍스트 음성 변환 API 키를 얻을 수 있습니다. 프로젝트를 생성한 후 API 키를 생성할 수 있습니다.

구글 텍스트 음성 변환 API의 URL은 https://cloud.google.com/text-to-speech/입니다.

구글 클라우드에는 기술적으로 무료 체험 기간이 없습니다. 구글 클라우드 내에는 여러 서비스가 있으며 각 서비스는 자체 조건과 무료 계층을 가지고 있습니다.

아니요. 구글 클라우드 텍스트 음성 변환 API는 인터넷 연결이 필요합니다.

구글 클라우드 서비스, 포함하여 텍스트 음성 변환 API에 대한 인증은 API 키, OAuth 2.0, 또는 서비스 계정을 사용하여 수행할 수 있습니다. 적절한 인증 방법은 사용 사례와 애플리케이션 유형에 따라 다릅니다.

5점 만점에 5점을 주겠습니다. 사용하기 쉽고, 검색 기능이 훌륭하며 가장 많이 사용됩니다. 가격도 적당하고 전반적으로 훌륭한 제품입니다.

Google Text-to-Speech API는 Python을 포함한 다양한 프로그래밍 언어에 대한 클라이언트 라이브러리를 제공합니다. 또한 RESTful API 요청을 지원하여 HTTP 요청을 할 수 있는 언어와 호환됩니다.

Google Text-to-Speech API를 Android 앱에 통합하려면 TextToSpeech 클래스를 사용하고 API 요청을 해야 합니다. 자세한 지침은 Android 개발자를 위한 공식 문서에서 확인할 수 있습니다.

JavaScript 애플리케이션에 Google Text-to-Speech API를 구현하려면 API 엔드포인트에 HTTP 요청을 할 수 있습니다. 이 과정은 적절한 API 요청을 구성하고 JavaScript 코드에서 응답을 처리하는 것을 포함합니다. 자세한 내용은 공식 문서를 참조하세요.

Cliff Weitzman

클리프 와이츠먼

클리프 와이츠먼은 난독증 옹호자이자 세계 최고의 텍스트 음성 변환 앱인 Speechify의 CEO 및 설립자입니다. 이 앱은 10만 개 이상의 5성급 리뷰를 받았으며, 앱 스토어의 뉴스 & 매거진 카테고리에서 1위를 차지했습니다. 2017년, 와이츠먼은 학습 장애가 있는 사람들이 인터넷을 더 쉽게 접근할 수 있도록 한 공로로 포브스 30세 이하 30인 리스트에 선정되었습니다. 클리프 와이츠먼은 EdSurge, Inc., PC Mag, Entrepreneur, Mashable 등 주요 매체에 소개되었습니다.